Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / NoSQL, Big Data Новый топик    Ответить
Топик располагается на нескольких страницах: Ctrl  назад   1 [2] 3   вперед  Ctrl      все
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
Apex
Member

Откуда: Made in USSR
Сообщений: 3909
Игорь Бобак
Владимир Штепа
В Big data их структурируют на лету в процессе выполнения запроса.

Владимир,

а вот это структурирование не будет ли тормозить каждый раз при новом запросе?
И нет ли смысла каким-то образом все-таки поструктуризировать перед их заливкой в hadoop?

Даже после "структурирования" будет тормозить, хотя и не так сильно (тут все зависит от того, что и как парсим), но все же будет. Hadoop очень нерационально использует вычислительные ресурсы. Каждый mapper или reducer - это отдельный экземпляр JVM, который запускается каждый раз для каждого mapred job, вроде были какие-то работы в направлении использования потоков самой JVM, но насколько я помню оно так и не взлетело. Причем это каждый раз холодный старт. Перед Reduce step всегда должен быть Map step, даже если он не нужен, это ограничние самой вычислительной модели Map-Reduce, это то, что пробуют исправить в Tez. Обмен данными между map step и reduce step только через файловую систему. Сама HDFS живет поверх той FS, которая используется ОС на ваших серверах. Каждый блок HDFS - это просто файл на этой файловой системе. Напрямую с контроллерами оно не работает. Соответствие между блолками и файлами хранится на Name Node, в случае большого числа мелких файлов, которые меньше размера блока HDFS получите сильную нагрузку на Name Node. В общем там подводных камней очень много.
Так что мой вам совет, если ваши данные достаточно хорошо ложатся на реляционную модель и данных этих меньше полу-петабайта в сыром виде и у вас много пользователей, которые будут запускать Ad-Hoc запросы по ним, то скорее всего экономической выгоды от использования Hadoop для обработки этих данных вы не получите. Лучше взять реляционную MPP, самая примитивная и недорогая MPP реляционка подойдет для этой задачи лучше, чем связка Hadoop+Hive.
6 июл 14, 12:30    [16265182]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
babona
Member [заблокирован]

Откуда: Батуринск
Сообщений: 1816
надо так понимать, что Big Data - это очередной маркетинговый ход, позволяющий вытянуть из заказчиков большую денюжку, доить их благодаря магическому слову Big. Это же Big !! Оооо, значит и денег должно стоить много. А потом окажется, что опять надо много кодить, программистов много нанимать, их кормить, чтобы получить какие-то там отчетики, посмотреть и выбросить их.
6 июл 14, 12:40    [16265193]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
DEVcoach
Member

Откуда:
Сообщений: 189
Apex
Даже после "структурирования" будет тормозить, хотя и не так сильно (тут все зависит от того, что и как парсим), но все же будет. Hadoop очень нерационально использует вычислительные ресурсы. Каждый mapper или reducer - это отдельный экземпляр JVM, который запускается каждый раз для каждого mapred job, вроде были какие-то работы в направлении использования потоков самой JVM, но насколько я помню оно так и не взлетело. Причем это каждый раз холодный старт. Перед Reduce step всегда должен быть Map step, даже если он не нужен, это ограничние самой вычислительной модели Map-Reduce, это то, что пробуют исправить в Tez. Обмен данными между map step и reduce step только через файловую систему. Сама HDFS живет поверх той FS, которая используется ОС на ваших серверах. Каждый блок HDFS - это просто файл на этой файловой системе. Напрямую с контроллерами оно не работает. Соответствие между блолками и файлами хранится на Name Node, в случае большого числа мелких файлов, которые меньше размера блока HDFS получите сильную нагрузку на Name Node. В общем там подводных камней очень много.
Есть такое дело. Сейчас уже выходят продукты, которые вклиниваются в API Hadoop, а сами целиком подменяют его движок своей более эффективной имплементацией.
https://ca.finance.yahoo.com/news/gridgain-brings-first-true-plug-120000856.html
6 июл 14, 23:50    [16267240]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
Apex
Member

Откуда: Made in USSR
Сообщений: 3909
babona
надо так понимать, что Big Data - это очередной маркетинговый ход, позволяющий вытянуть из заказчиков большую денюжку, доить их благодаря магическому слову Big. Это же Big !! Оооо, значит и денег должно стоить много. А потом окажется, что опять надо много кодить, программистов много нанимать, их кормить, чтобы получить какие-то там отчетики, посмотреть и выбросить их.

Надо понимать, что изначально продукт писался для очень ограниченного круга задач, где хорошая масштабируемость была важнее рациональности использования вычислительных мощностей. Теперь же, да, благодаря ушлым продажникам, для которых по-сути важно лишь, сколько и чего они могут продать, а не то, поможет это рельно клиенту или нет, это превратилось в marketing buzz и теперь эту сову пытаются натянуть на каждый глобус.
7 июл 14, 07:11    [16267716]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
Дедушка
Member

Откуда: Город трёх революций
Сообщений: 5113
Apex
если ваши данные достаточно хорошо ложатся на реляционную модель и данных этих меньше полу-петабайта в сыром виде ... то скорее всего экономической выгоды от использования Hadoop для обработки этих данных вы не получите
100500++
7 июл 14, 19:55    [16271702]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
babona
Member [заблокирован]

Откуда: Батуринск
Сообщений: 1816
:)

К сообщению приложен файл. Размер - 19Kb
7 июл 14, 20:24    [16271793]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
Игорь Бобак
Member

Откуда:
Сообщений: 426
Всем советую не запускать виртуалку от Cloudera на VirtualBox - жрет весь проц, и непонятно чем занимается.
Та же виртуалка только под vmware работает отлично.
14 сен 14, 02:04    [16573224]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
кириллk
Member

Откуда:
Сообщений: 1057
Начал изучать Apache Spark
26 май 15, 17:43    [17692293]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
GASTROPODA
Member

Откуда:
Сообщений: 54
Несколько слов о заблюждениях.
Hadoop это не RDBMS. У них разные подходы к информации, соответственно у каждого свои плюсы и минусы.

RDBMS - это Schema-on-Write. Т.е. вначале создаем схему, а потом данные форматируем под этот шаблон при сохранении (записи).

Hadoop - это Schema-on-Read. Т.е. вначале сохраняем ВСЕ данные в файл(ы), а потом при чтении форматируем данные по нужному шаблону и выдаем клиенту.

Т.е. Hadoop ценен когда у нас огромное количество неструктурированных данных, на которые возможно когда-то понадобится наложить какой-то фильтр и увидеть результат.
27 май 15, 12:45    [17695529]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
babona
Member [заблокирован]

Откуда: Батуринск
Сообщений: 1816
GASTROPODA,

хорошее замечание. Спасибо.

Вопрос по Hadoop: а взаимоувязку данных между собой, чистку, довосстановление - подразумеватся делать в момент чтения данных?
27 май 15, 12:51    [17695562]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
Вжик
Member

Откуда: Москва
Сообщений: 676
Да, для текстовых файлов лежащих в Hadoop либо пишите сложный Map - Reduce на Python например, либо обрабатываете в Spark более гибко с использованием join и агрегирований, либо кладете в "реляционные таблицы" Hive и либо через него, либо через Cloudera Impala пищите SQL подобные запросы. Либо Hadoop - это большое хранилище на которое сверху ETL указанными выше способами, результаты в реляционку или Key-Value DB и дальше продолжаете обработку.
27 май 15, 12:56    [17695592]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
GASTROPODA
Member

Откуда:
Сообщений: 54
babona
Вопрос по Hadoop: а взаимоувязку данных между собой, чистку, довосстановление - подразумеватся делать в момент чтения данных?


По классике ядро Hadoop состоит из двух кусков:

1. HDFS (Hadoop Distributed File System) - файловая система где мы храним 2,3,... n -копий наших данных. Заточен на Put/Get/Delete. Если нужны частые Insert, то видимо Hadoop не нужно выбирать.

2. MapReduce - читает ВСЕ данные и форматирует по нужному шаблону.

Все. :-)
Дальше можно навешать множество "приблуд" сверху в зависимости от своих задач.

Но важно помнить, что Hadoop для огромных и, как правило, не меняющихся данных, которые могут нам когда-то пригодиться. Инструмент для обработки таких данных (MapReduce) - это простой скрипт или Java-программа которые запускаются в парралель на тех же серверах где и лежат куски данных.

"Приблуды" коих становится все больше могут, иногда, облегчить такую обработку.
27 май 15, 13:23    [17695806]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
babona
Member [заблокирован]

Откуда: Батуринск
Сообщений: 1816
вопрос:

продвинутым пользователям экномистам, финансистам (Power Users) - adHoc выборки данных как делать?
27 май 15, 13:29    [17695862]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
Вжик
Member

Откуда: Москва
Сообщений: 676
Через SQL - подобные "прослойки" к Hadoop: Hive, Cloudera Impala, Spark.
Либо цепляете через эти драйвера BI систему: MicroStrategy, Tableau и другие.
+ в некоторых СУБД, в т.ч. MS SQL заявлена "прозрачность" схемы как реляционной, так и "Hadoop", т.е. единый SQL запрос к обоим движками, правда я это не щупал и как выглядит - не знаю)
27 май 15, 13:35    [17695908]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
Alexander Ryndin
Member

Откуда:
Сообщений: 4917
Блог
babona
вопрос:

продвинутым пользователям экномистам, финансистам (Power Users) - adHoc выборки данных как делать?
Этих людей к Hadoop-подобным штукам пускать нереально
27 май 15, 13:38    [17695932]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
Игорь Бобак
Member

Откуда:
Сообщений: 426
Alexander Ryndin
Этих людей к Hadoop-подобным штукам пускать нереально

А вот это мы проверим. Там я в другой ветке написал что собираюсь реализовать с помощью Mondrian + Spark SQL. Если выйдет - опубликую на блоге и тут ссылку сброшу.
30 май 15, 13:41    [17709968]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
Alexander Ryndin
Member

Откуда:
Сообщений: 4917
Блог
Игорь Бобак
Alexander Ryndin
Этих людей к Hadoop-подобным штукам пускать нереально

А вот это мы проверим. Там я в другой ветке написал что собираюсь реализовать с помощью Mondrian + Spark SQL. Если выйдет - опубликую на блоге и тут ссылку сброшу.
какой объём данных?

Модератор: Тема перенесена из форума "OLAP и DWH".


Сообщение было отредактировано: 3 июн 15, 00:19
30 май 15, 23:40    [17711328]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
кириллk
Member

Откуда:
Сообщений: 1057
Игорь Бобак
Alexander Ryndin
Этих людей к Hadoop-подобным штукам пускать нереально

А вот это мы проверим. Там я в другой ветке написал что собираюсь реализовать с помощью Mondrian + Spark SQL. Если выйдет - опубликую на блоге и тут ссылку сброшу.


и как? получилось?
3 дек 15, 14:21    [18508457]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
Станислав Клевцов
Member

Откуда: Krasnodar-Russia
Сообщений: 566
Вот курс, который включает видео и тестовые задания:

https://stepic.org/course/Hadoop-Система-для-обработки-больших-объемов-данных-150/
31 дек 15, 08:34    [18630707]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
Don4anin
Member

Откуда:
Сообщений: 227
Камрады, с самообучением все понятно, направление очень популярное и перспективное, но как перейти к практической части? как получить коммерческий опыт? стартапы? частичная занятость? участие в проекте за идею?

P.S. Сам чистый DBA, но решительно настроен запрыгнуть в этот экспресс, несущийся уже на бешеной скорости и набирающий все новые обороты
20 янв 16, 11:46    [18704911]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
Apex
Member

Откуда: Made in USSR
Сообщений: 3909
Alexander Ryndin
babona
вопрос:

продвинутым пользователям экномистам, финансистам (Power Users) - adHoc выборки данных как делать?
Этих людей к Hadoop-подобным штукам пускать нереально

Ты наверное будешь смеяться, но так делали в Expedia, не знаю как там сейчас, но когда я там был, они реально так работали, финансисты и менеджеры реально сидели в Hue и гоняли там запросы. Вот вам и "продвинутость" ИТ в иностранных корпорациях:)
20 янв 16, 23:51    [18708439]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
мигель1
Member

Откуда:
Сообщений: 3216
Apex,

вообщем сделал следующее.
1. развернул виртуальную машину с cliudera
2. зашел http://quickstart.cloudera:8888/impala/ --- т.е это интерфейс клоудеры
3. написал запрос в импала (select count(*) as xx from sample_07) , причем не понятно sample_07 это таблица в hbase или hdfs
4. получил ответ.

все ок!

Теперь к практической стороне

Я вижу следующую задачу:
есть csv файл "F1".
его надо как то передать в hadoop (Loading data into HDFS using Hue) --- этот пункт хотелось бы сделать без доп интерфейсов
далее установить драйвер "Microsoft Hive ODBC Driver"
(https://www.microsoft.com/en-us/download/details.aspx?id=40886)

далее написать запрос
select * from openquery (Hadoop, 'select count(*) as xx from Sample_07')
2 май 16, 15:39    [19128511]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
мигель1
Member

Откуда:
Сообщений: 3216
Driver Version: V1.1.0.0

Running connectivity tests...

Attempting connection
Failed to establish connection
SQLSTATE: HY000[Microsoft][HiveODBC] (34) Error from Hive: connect() failed: errno = 10061.

TESTS COMPLETED WITH ERROR

К сообщению приложен файл. Размер - 61Kb
3 май 16, 20:10    [19131258]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
mishanya3624
Member

Откуда:
Сообщений: 796
мигель1,

Разрядность драйвера какая?
У меня на 64 все ок:

К сообщению приложен файл. Размер - 75Kb
4 май 16, 15:16    [19133951]     Ответить | Цитировать Сообщить модератору
 Re: Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?  [new]
мигель1
Member

Откуда:
Сообщений: 3216
mishanya3624
мигель1,

Разрядность драйвера какая?
У меня на 64 все ок:


тоже 64

Но меня смущает что у Вас название базы "test" и нет поля "daa source name"
значит не cloudera, а сами разворачивали?
4 май 16, 17:03    [19134615]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: Ctrl  назад   1 [2] 3   вперед  Ctrl      все
Все форумы / NoSQL, Big Data Ответить