Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / NoSQL, Big Data Новый топик    Ответить
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
 ETL for hadoop  [new]
мигель1
Member

Откуда:
Сообщений: 3189
Всем привет!

Зоопарк систем растет, нужен хороший ETL который умеет из csv, баз, веб сервисов складывать в hdfs
Хороши ли talend, spoon ?
26 июн 17, 08:54    [20589637]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
haXbat
Member

Откуда:
Сообщений: 445
мигель1,

Только unix shell, только хардкор! Можешь еще посмотреть бесплатные StreamSets / NiFi, для простых задач они довольно неплохи. Но с ростом сложности приходится куски дописывать на shell-е.
26 июн 17, 13:18    [20590456]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
Дедушка
Member

Откуда: Город трёх революций
Сообщений: 5112
мигель1
нужен хороший ETL который умеет из csv, баз, веб сервисов складывать в hdfs
Informatica, SSIS ...
26 июн 17, 17:00    [20591395]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
мигель1
Member

Откуда:
Сообщений: 3189
Дедушка
мигель1
нужен хороший ETL который умеет из csv, баз, веб сервисов складывать в hdfs
Informatica, SSIS ...


Ой! А с каких пор SSIS работает с веб сервисами и hdfs???
26 июн 17, 21:44    [20592195]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
Дедушка
Member

Откуда: Город трёх революций
Сообщений: 5112
мигель1,

сервисы с 2005го, хдфс с 2016го
26 июн 17, 21:53    [20592222]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
мигель1
Member

Откуда:
Сообщений: 3189
Дедушка,
А можно ссылочку. Я пытался сделать, но он потребовал какой-то wsdl
и на этом я стопорнулся
27 июн 17, 09:01    [20592709]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
Псевдомизантроп
Member

Откуда:
Сообщений: 1580
StreamSets Data Collector
27 июн 17, 16:33    [20594458]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 32456
Блог
мигель1,

WSDL файл используется для описания интерфейса для доступа к Web-службе,
то есть фактически говорит нам, что она может
29 июн 17, 01:02    [20598347]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 32456
Блог
https://www.mssqltips.com/sqlservertip/3272/example-using-web-services-with-sql-server-integration-services/
29 июн 17, 01:03    [20598349]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
Partisan M
Member

Откуда:
Сообщений: 1378
мигель1
Хороши ли talend, spoon ?


Предыдущие ответы лишены всякого смысла, так как их авторы не поняли вопрос.
То, что вы имели ввиду под spoon, это Pentaho Data Integration, оно же PDI, оно же Kettle. В общем, в переводе на русский язык, PDI. spoon - это компонент PDI, а именно, визуальный редактор процессов интеграции.
PDI имеет готовый соединитель для Hadoop (а также возможность запуска Job-ов Hadoop), про Talend Open Studio не помню, но вы можете это легко узнать, например, установив его.
Есть много систем ETL, из них PDI и Talend привлекают тем, что имеют бесплатные варианты, хорошую документацию и по ним есть много книг на английском языке. Наряду с Talend можно рассмотреть Jaspersoft ETL , который является упрощённым вариантом Talend, но имеет соединители для других компонентов Jaspersoft.

Лучше сравнить PDI и Talend самостоятельно. Мне показалось, что PDI легче для первоначального изучения. Но у Talend даже в бесплатном варианте поддерживаются транзакции базы данных. впрочем вам важнее узнать, есть ли соединитель (connector, adapter) для Hadoop.
29 июн 17, 09:48    [20598668]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
Ivan Durak
Member

Откуда: Minsk!!!
Сообщений: 3618
Partisan M
Лучше сравнить PDI и Talend самостоятельно. Мне показалось, что PDI легче для первоначального изучения. Но у Talend даже в бесплатном варианте поддерживаются транзакции базы данных. впрочем вам важнее узнать, есть ли соединитель (connector, adapter) для Hadoop.

мало узнать, есть ли он. Надо узнать подходит ли он (по производительности)
У SAS тоже есть конектор для хадупа, но пришлось писать самопальный экпорт-импорт, чтобы хоть как-то быстро работало.
29 июн 17, 10:39    [20598810]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
мигель1
Member

Откуда:
Сообщений: 3189
Критик
https://www.mssqltips.com/sqlservertip/3272/example-using-web-services-with-sql-server-integration-services/

я это видел, списибо, но там есть пункт
In the Server URL textbox, specify the web service address: "http://www.webservicex.net/globalweather.asmx?WSDL" and press
Перевод с сайта "скачайте WSDL файл", а если у меня нет его?
29 июн 17, 21:25    [20600984]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 32456
Блог
мигель1,

запросите у того, кто поддерживает сервис
29 июн 17, 21:44    [20601020]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
Дедушка
Member

Откуда: Город трёх революций
Сообщений: 5112
мигель1
а если у меня нет его?
How to get the wsdl file from a webservice's URL
29 июн 17, 22:26    [20601070]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
мигель1
Member

Откуда:
Сообщений: 3189
Дедушка,
Спасибо попробую.

Как я понимаю на выходе будет Xml, который надо преобразовать уже в таблицу ))
7 кругов ада ))
29 июн 17, 23:16    [20601149]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
Jack Carver
Member

Откуда: obi2ru.blogspot.com
Сообщений: 1717
Коллеги! Подскажите насколько безумна мысль использовать Apache/Airbnb Airflow для ETL над "этими хадупами"?
27 сен 17, 14:31    [20826802]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
мигель1
Member

Откуда:
Сообщений: 3189
Jack Carver,

А что мешает попробовать, чай бесплатно)
28 сен 17, 21:51    [20830233]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 32456
Блог
Jack Carver
Коллеги! Подскажите насколько безумна мысль использовать Apache/Airbnb Airflow для ETL над "этими хадупами"?


если не пугают расходы на зоопарк...
в РФ мало кто с таким работает
4 окт 17, 07:24    [20840755]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
Jack Carver
Member

Откуда: obi2ru.blogspot.com
Сообщений: 1717
Критик,

А в чем расходы? В любом случае хадуп - это уже зоопарк.
Airflow же достаточно понятен и легко поддается допиливанию как нутра, так и операторов.

Сравнивая Airflow и NiFi - выбор пока в пользу первого.
4 окт 17, 08:50    [20840829]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
Apex
Member

Откуда: Made in USSR
Сообщений: 3909
Jack Carver
Коллеги! Подскажите насколько безумна мысль использовать Apache/Airbnb Airflow для ETL над "этими хадупами"?

Мысль вполне нормальная. Единственное, что нужно обратить внимание на недоразвитый функционал разграничения прав и привелегий и проверить как оно будет работать с источниками данных вне Hadoop. А так, на мой вгляд вполе разумное решение.
16 окт 17, 20:54    [20874087]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
мигель1
Member

Откуда:
Сообщений: 3189
Вот я что я принес )

https://kylo.io/

Kylo is an open source enterprise-ready data lake management software platform for self-service data ingest and data preparation with integrated metadata management, governance, security and best practices inspired by Think Big's 150+ big data implementation projects.

Кто нить пробовал?
24 окт 17, 22:23    [20896992]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
kaldorey
Member

Откуда:
Сообщений: 592
мигель1,

Kylo успел уже пощупать?
31 янв 18, 15:27    [21154673]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
мигель1
Member

Откуда:
Сообщений: 3189
kaldorey,

Нет пока. в ближайшее время как раз будем пробовать 3 системы

Airbnb Airflow
Apache Nifi
Kylo
31 янв 18, 21:21    [21155740]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
Ivan Durak
Member

Откуда: Minsk!!!
Сообщений: 3618
мигель1
kaldorey,

Нет пока. в ближайшее время как раз будем пробовать 3 системы

Airbnb Airflow
Apache Nifi
Kylo

отпишись потом обязательно. Всем интересно
2 фев 18, 17:58    [21161545]     Ответить | Цитировать Сообщить модератору
 Re: ETL for hadoop  [new]
kaldorey
Member

Откуда:
Сообщений: 592
мигель1,

Есть новости? Из перечисленного мы для пары задач только airflow затестили, хочется узнать про остальное :)
27 июл 18, 12:24    [21607799]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
Все форумы / NoSQL, Big Data Ответить