Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / NoSQL, Big Data Новый топик    Ответить
 Hive и MapReduce  [new]
MapReducer
Guest
Добрый день!

Только приступил к изучению Hadoop и Hive и хочу уточнить одну вещь:

В статьях и учебниках написано, что Hive преобразует команды HiveQL в задачи для MapReduce, но при этом не объясняют каким образом это происходит, а сразу начинают рассказывать о синтаксисе HiveQL, как загружать данные в таблицы итп.

Скажите пожалуйста, правильно ли я понял из этих книг, что для каждого запроса HiveQL должен быть предварительно написан скрипт, который нужно будет каждый раз(или один раз) прописывать перед запросом в виде "ADD_FILE...."?
Я то вначале обрадовался, что могу писать самый обычный SQL, какой захочу, к созданным таблицам, а HIVE на основе каких-то метаданных сам сгенерирует задачи для MapReduce.
Или я чего-то упустил?
В общем, прошу дать ссылки на статьи, книги, где бы я мог получить ответы на свои вопросы чайника. Или пояснить здесь.

Спасибо.
20 апр 16, 10:04    [19080737]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
Станислав Клевцов
Member

Откуда: Krasnodar-Russia
Сообщений: 566
MapReducer
Добрый день!

Только приступил к изучению Hadoop и Hive и хочу уточнить одну вещь:

В статьях и учебниках написано, что Hive преобразует команды HiveQL в задачи для MapReduce, но при этом не объясняют каким образом это происходит, а сразу начинают рассказывать о синтаксисе HiveQL, как загружать данные в таблицы итп.

Скажите пожалуйста, правильно ли я понял из этих книг, что для каждого запроса HiveQL должен быть предварительно написан скрипт, который нужно будет каждый раз(или один раз) прописывать перед запросом в виде "ADD_FILE...."?
Я то вначале обрадовался, что могу писать самый обычный SQL, какой захочу, к созданным таблицам, а HIVE на основе каких-то метаданных сам сгенерирует задачи для MapReduce.
Или я чего-то упустил?
В общем, прошу дать ссылки на статьи, книги, где бы я мог получить ответы на свои вопросы чайника. Или пояснить здесь.

Спасибо.


Какую книгу изучаете ( укажите, пожалуйста ) ?

Для подсчета кол-ва записей в созданной таблице с помощью Hive .
HiveQL преобразуется в 1 MapReduce задачу

Вы пробовали на виртуалке что-нибудь написать ? ( типа ...пример ниже )
hive> select count(1) from test;
Total MapReduce jobs = 1
Launching Job 1 out of 1
...
Starting Job = job_1343957512459_0004, Tracking URL =
http://localhost:8088/proxy/application_1343957512459_0004/
Kill Command = hadoop job -Dmapred.job.tracker=localhost:10040 -kill
job_1343957512459_0004
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
2016-04-20 10:17:24,962 Stage-1 map = 0%, reduce = 0%
2016-04-20 10:17:31,577 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 0.87 sec
2016-04-20 10:17:32,664 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 2.64 sec
MapReduce Total cumulative CPU time: 2 seconds 640 msec
Ended Job = job_1343957512459_0004
MapReduce Jobs Launched:
Job 0: Map: 1 Reduce: 1 Accumulative CPU: 2.64 sec HDFS Read: 0 HDFS Write: 0
SUCСESS
Total MapReduce CPU Time Spent: 2 seconds 640 msec
OK
4
Time taken: 14.204 seconds

20 апр 16, 10:39    [19080918]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
MapReducer
Guest
Нет, я пока чистый теоретик. Надо, видимо, срочно установить виртуальную машину с Hadoop и Hive.

Читал выборочно главы из Hadoop: The definitive guide. Автор Tom White.
Ну и статьи поиском по яндексу\гуглу.

Я просто ожидал в книге увидеть пример, как какой-нибудь запрос HiveQL преобразуется в задачи MapReduce(генерацию скрипта, если хотите) и на основании чего будет это преобразование (каких-то метаданных например, которые нужно до этого сгенерить или что-то типа того).
А там сразу начали писать, что типа вот наш скрипт про погоду, который мы написали в прошлой главе. Давайте, его зарегистрируем в Hive и запустим запрос про максимальную температуру в течение года....

Я и подумал, что для абсолютно любого запроса должен быть предварительно написан скрипт для MapReduce задачи.
20 апр 16, 11:01    [19081080]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
Станислав Клевцов
Member

Откуда: Krasnodar-Russia
Сообщений: 566
MapReducer
Нет, я пока чистый теоретик. Надо, видимо, срочно установить виртуальную машину с Hadoop и Hive.

Читал выборочно главы из Hadoop: The definitive guide. Автор Tom White.
Ну и статьи поиском по яндексу\гуглу.

Я просто ожидал в книге увидеть пример, как какой-нибудь запрос HiveQL преобразуется в задачи MapReduce(генерацию скрипта, если хотите) и на основании чего будет это преобразование (каких-то метаданных например, которые нужно до этого сгенерить или что-то типа того).
А там сразу начали писать, что типа вот наш скрипт про погоду, который мы написали в прошлой главе. Давайте, его зарегистрируем в Hive и запустим запрос про максимальную температуру в течение года....

Я и подумал, что для абсолютно любого запроса должен быть предварительно написан скрипт для MapReduce задачи.


Hive под капотом скрывает реализацию map\reduce и этим облегчает жизнь аналитикам, Data Scientists, статистам и ... ( а вот как это он делает в деталях не встречал статьи ( как он транслирую HiveQL в код на том же java для выполнения map \ reduce задач ) )
20 апр 16, 13:33    [19082347]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
Apex
Member

Откуда: Made in USSR
Сообщений: 3909
Станислав Клевцов
а вот как это он делает в деталях не встречал статьи ( как он транслирую HiveQL в код на том же java для выполнения map \ reduce задач )

Трансляции, в смысле генерации java-кода на лету там нет. Там есть генерация плана запроса, а уже по этому плану запуск соответствующих функций в MapReduce. Т.е. Hive в этом смысле не генератор, а движек исполнения план запроса через MapReduce.
22 апр 16, 00:27    [19091109]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
Станислав Клевцов
Member

Откуда: Krasnodar-Russia
Сообщений: 566
Apex
Станислав Клевцов
а вот как это он делает в деталях не встречал статьи ( как он транслирую HiveQL в код на том же java для выполнения map \ reduce задач )

Трансляции, в смысле генерации java-кода на лету там нет. Там есть генерация плана запроса, а уже по этому плану запуск соответствующих функций в MapReduce. Т.е. Hive в этом смысле не генератор, а движек исполнения план запроса через MapReduce.


вот оно как :-)
Спасибо , Аpex!!!
22 апр 16, 10:10    [19091906]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
Станислав Клевцов
Member

Откуда: Krasnodar-Russia
Сообщений: 566
Станислав Клевцов
Apex
пропущено...

Трансляции, в смысле генерации java-кода на лету там нет. Там есть генерация плана запроса, а уже по этому плану запуск соответствующих функций в MapReduce. Т.е. Hive в этом смысле не генератор, а движек исполнения план запроса через MapReduce.


вот оно как :-)
Спасибо , Аpex!!!


мы чуть не забыли Impala ... а она же пошустрее чем Hive
26 апр 16, 19:10    [19109836]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
Apex
Member

Откуда: Made in USSR
Сообщений: 3909
Станислав Клевцов
мы чуть не забыли Impala ... а она же пошустрее чем Hive

Тогда уж Presto. Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается.
28 апр 16, 01:54    [19115359]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
Станислав Клевцов
Member

Откуда: Krasnodar-Russia
Сообщений: 566
Apex
Станислав Клевцов
мы чуть не забыли Impala ... а она же пошустрее чем Hive

Тогда уж Presto. Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается.


посмотрел... прикольно ! Как всегда СПАСИБО, Apex !
28 апр 16, 11:41    [19116553]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
Andrey Sribnyak
Member

Откуда: Киев
Сообщений: 599
Apex
Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается.


Ну наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует...
Где-то они сильно пересекаются
28 апр 16, 13:21    [19117219]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
Станислав Клевцов
Member

Откуда: Krasnodar-Russia
Сообщений: 566
Andrey Sribnyak
Apex
Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается.


Ну наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует...
Где-то они сильно пересекаются


надо будет проверить протестить этот момент )
28 апр 16, 16:43    [19118483]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
Apex
Member

Откуда: Made in USSR
Сообщений: 3909
Andrey Sribnyak
Ну наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует...
Где-то они сильно пересекаются

Так я ж про Хадуп писал, а не хайв.
28 апр 16, 23:23    [19119852]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
haXbat
Member

Откуда:
Сообщений: 445
Станислав Клевцов
Andrey Sribnyak
пропущено...


Ну наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует...
Где-то они сильно пересекаются


надо будет проверить протестить этот момент )


Кэп сообщает, что Impala хранит все объекты в hive metastore. Другими словами - все метаданные общие.
29 апр 16, 13:00    [19121457]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
Станислав Клевцов
Member

Откуда: Krasnodar-Russia
Сообщений: 566
haXbat
Станислав Клевцов
пропущено...


надо будет проверить протестить этот момент )


Кэп сообщает, что Impala хранит все объекты в hive metastore. Другими словами - все метаданные общие.


вот засада же ...
29 апр 16, 15:44    [19122607]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
haXbat
Member

Откуда:
Сообщений: 445
Станислав Клевцов
haXbat
пропущено...


Кэп сообщает, что Impala хранит все объекты в hive metastore. Другими словами - все метаданные общие.


вот засада же ...


Удобно же, в зависимости задач можешь использовать hive/impala/spark над одними и теми же объектами.
29 апр 16, 17:48    [19123249]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
mishanya3624
Member

Откуда:
Сообщений: 796
haXbat,

если не трудно можно в кратце о каждом по отдельности и что их связывает, прям спасибо большое!
29 апр 16, 21:48    [19123880]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
mishanya3624
Member

Откуда:
Сообщений: 796
p.s. поиском пользоваться умею, просто хочется более глубоко усвоить со слов прямых пользователей.
29 апр 16, 21:51    [19123891]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
мигель1
Member

Откуда:
Сообщений: 3216
нашел интересную статью

сравнивают Hive, Impala, and Spark в cloudera 5.5

http://www.slideshare.net/cloudera/hive-impala-and-spark-oh-my-sqlonhadoop-in-cloudera-55
7 май 16, 00:52    [19144752]     Ответить | Цитировать Сообщить модератору
 Re: Hive и MapReduce  [new]
Станислав Клевцов
Member

Откуда: Krasnodar-Russia
Сообщений: 566
мигель1,

Благодарю , весьма полезная инфа (задержался на 10 слайде )
10 май 16, 13:21    [19152852]     Ответить | Цитировать Сообщить модератору
Все форумы / NoSQL, Big Data Ответить