Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Сравнение СУБД Новый топик    Ответить
Топик располагается на нескольких страницах: Ctrl  назад   1 [2] 3   вперед  Ctrl      все
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Yuri Abele
причем бежать все будет в оперативной памяти и в сети без сброса во временные хранилища.

И с визуальным мониторингом всех узлов и экземаляров что в дизайнере, что через Web на самих кластерах

вот картинка, как оно до старта выглядит:
говорит, что первый шаг выполняется локально, а второй, третий и 4хй на кластере из двух узлов, при третий и четвертый с партиционированием:
Картинка с другого сайта.

А это уже в RunTime показывает что происходит на конкретном кластерном узле:
Картинка с другого сайта.
10 сен 15, 17:32    [18134097]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Картинки отсюда: www.ibridge.be/?p=62
10 сен 15, 17:33    [18134107]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
По поводу шедулера и его заданий. Тут (как я выше в сравнении писал) SSIS (все редакции) и PDI (community edition) одинаковы - у них нет встроенного планироващика заданий (Scheduler).
У MS SQL Server Agent есть, ну так SSIS пакеты в нем с коммандной строки запускаются (через dtsexec.exe).
Dataflows и Workflows (Transformations & Jobs соответсвенно) в PDI тоже могут запускаться с коммандной строки, а значит тоже могут быть добавлени заданиями планировшику заданий.
И тот и другой могут поэтому и планировщиком операционной системы запускаться.

У PDI в enterprise edition есть свой планировщик.
Ну а помня, что PDI и на Linux бегать может, так можно его и там или встроенным crone или, к примеру, купленным UC4 запускать.
10 сен 15, 17:54    [18134230]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Yuri Abele
У PDI в enterprise edition есть свой планировщик.

Я об этом: Schedule Jobs
10 сен 15, 17:58    [18134258]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Ivan Durak
Member

Откуда: Minsk!!!
Сообщений: 3710
Что у этого PDI с Push Down Optimization??? может трансформации на субд выполнять?
с ssis тут все понятно.
11 сен 15, 11:26    [18136729]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Ivan Durak
Member

Откуда: Minsk!!!
Сообщений: 3710
Yuri Abele
Free/Commerce
SSIS
- коммерческий продукт

тот редкий случай когда этот коммерческий продукт входит бесплатно в состав mssql сервера. Поэтому я не знаю ни одного клиента, кто бы его покупал отдельно!!!
11 сен 15, 11:28    [18136745]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Ivan Durak
Yuri Abele
Free/Commerce
SSIS
- коммерческий продукт

тот редкий случай когда этот коммерческий продукт входит бесплатно в состав mssql сервера. Поэтому я не знаю ни одного клиента, кто бы его покупал отдельно!!!

:-)
11 сен 15, 11:34    [18136804]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Ivan Durak
Что у этого PDI с Push Down Optimization??? может трансформации на субд выполнять?

Это Вы с "информатикой" сравниваете? Нет, в автоматизмированном виде нет. Есть отдельные компоненты типа Database Lookup или ряд автоматических SCD (slowly changed dimension) компонент, которые чего-то там на стороне БД колдуют. Но глабально для всех компонентов - нет, нету.
11 сен 15, 11:40    [18136849]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Ivan Durak
Push Down Optimization

Вообще это классный ответ на вечный спор где оптимальнее - в СУБД или ETL Tool
11 сен 15, 11:45    [18136889]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Yuri Abele
Ivan Durak
Что у этого PDI с Push Down Optimization??? может трансформации на субд выполнять?

Это Вы с "информатикой" сравниваете?

PowerCenter 8 Standard Edition 32-bit Single-core (1-3) per CPU-core Multi-OS Production License - $28,802.26.
Охренеть, простите за мой французский. И это только конфигурация железа по минимуму ...
11 сен 15, 12:42    [18137366]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 35143
Блог
Yuri Abele
Сохранение, версионирование
SSIS
- В центральном репозитори, но только последняя версия (номер версии можно запросить через T-SQL)


тут поставьте миллион
https://msdn.microsoft.com/ru-ru/library/hh479588.aspx
Максимальное количество версий в проекте
Определяет, сколько версий проекта будет храниться в каталоге. Более старые версии проектов удаляются.
13 сен 15, 18:34    [18144297]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Критик,

спасибо за отзыв (а то молчат все, даже обидно :-) )!
SSISDB для меня вообще чем-то новым оказалось.
В моём сравнении я про репозитори в MSDB говорил.
Пойду разбираться.
14 сен 15, 08:32    [18145182]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Критик,

SSISDB - а там через GUI можно что-то делать, или всё через скрипты?
14 сен 15, 08:48    [18145210]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Yuri Abele
Критик,

SSISDB - а там через GUI можно что-то делать, или всё через скрипты?

Можно
14 сен 15, 09:13    [18145253]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Ivan Durak
Member

Откуда: Minsk!!!
Сообщений: 3710
Yuri Abele
Ivan Durak
Push Down Optimization

Вообще это классный ответ на вечный спор где оптимальнее - в СУБД или ETL Tool

оптимальнее иметь выбор. И плохо когда его нет.
В современном варехаусостроительстве например, с ростом популярности MPP субд, растет и востребованность PDO !!!
В сегмете bi например MOLAP окончательно и бесповоротно проиграл войну ROLAPу. ( Т.е. востребованнее переложить нагрузку на субд). То же самое де-факто уже и с ETL происходит. Он проигрывает ELT. Маштабировать MPP субд уже можно легко.
14 сен 15, 10:06    [18145361]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Ivan Durak
Yuri Abele
пропущено...
Вообще это классный ответ на вечный спор где оптимальнее - в СУБД или ETL Tool

оптимальнее иметь выбор. И плохо когда его нет.

Как это связано с возможностью разрешить визуальному инструменту ETL, по-возможности "погрузить" ETL-логику на уровень базы данных. (Это я про Pushdown Optimisation - вы гляньте что это, я впечатлился)

Ivan Durak
В современном варехаусостроительстве например, с ростом популярности MPP субд, растет и востребованность PDO !!!

Вы под PDO что имеете в виду?

Ivan Durak
В сегмете bi например MOLAP окончательно и бесповоротно проиграл войну ROLAPу.
( Т.е. востребованнее переложить нагрузку на субд).

Честно и без обид - бред №1
Всё зависит от задач и объемов данных. Мы проводили исследование/сравнение всех ималементаций persistence модели SSAS (MS Analysis Services) - от MOLAP то Tabular в кобинации с Direct Query и Column Store Indexes.
Так вот, если куб загружен в MOLAP модели, то все остальные после прогрева куба в лучшем случае не хуже по производительности. Даже in-memory тоже самое, что и прогретый MOLAP куб.
В чем экономия, так это во времени разработки на простых, но хорошо сдизайненых DWH базах.

Ivan Durak
То же самое де-факто уже и с ETL происходит. Он проигрывает ELT. Маштабировать MPP субд уже можно легко.

Честно и без обид - бред №2
В чём проигрывает? В производительсности всего процесса - так оно почти всегда так.
Приемущество ETL не в этом, хотя есть и тут много примеров, когда ETL быстрее.
Приемущество ETL в:
- самодокументированности - обыкновенный screenshot - половина документации
- визуальности процесса разработки
- смещения акцента разработки с деталей синтаксиса скриптов базы данных на детали бизнес логики
- централизации в одном месте всего ETL процесса
- смещение необходимого минимума знаний разработчика с глубин языка в детали процесса. У нас на фирме два доктора (я про степень) в Data Scientist - один в Big Data, другой в анализе неструктурированный текстов.
Что один, что другой владеют SQL, но в объеме ANSI 91, врядли больше. Также знают Java, но как язык и среду разработки - о J2EE имеют поверхностные знания. Но что они творят в Big Data проектах!... Кстати используют Pentaho PDI в роли ETL инструмента.

Ivan Durak
Маштабировать MPP субд уже можно легко.

Никто и не спорит. Но в ETL проще (я про те, где эта поддержка встроена на на зачаточном уровне).
14 сен 15, 10:46    [18145512]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Ну и не будем забывать, что не только DBMS идут вперёд.
Разработки ETL продуктов тоже не стоят на месте и зачастую осуществляются теми же фирмами.
14 сен 15, 11:00    [18145588]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Yuri Abele
Ivan Durak
В современном варехаусостроительстве например, с ростом популярности MPP субд, растет и востребованность PDO !!!

Вы под PDO что имеете в виду?

Или Вы про PDW (Parallel Data Warehouse)?
14 сен 15, 11:05    [18145632]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Ivan Durak
Member

Откуда: Minsk!!!
Сообщений: 3710
Yuri Abele
Ivan Durak
В сегмете bi например MOLAP окончательно и бесповоротно проиграл войну ROLAPу.
( Т.е. востребованнее переложить нагрузку на субд).

Честно и без обид - бред №1
Всё зависит от задач и объемов данных. Мы проводили исследование/сравнение всех ималементаций persistence модели SSAS (MS Analysis Services) - от MOLAP то Tabular в кобинации с Direct Query и Column Store Indexes.
Так вот, если куб загружен в MOLAP модели, то все остальные после прогрева куба в лучшем случае не хуже по производительности. Даже in-memory тоже самое, что и прогретый MOLAP куб.

допущение "если куб загружен" сводит на нет все дальнейшее рассуждение.
По факту - изменение в модели - и все, куб протух. А перестройка молапа - это боль.
14 сен 15, 14:09    [18146758]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Ivan Durak
допущение "если куб загружен" сводит на нет все дальнейшее рассуждение.
По факту - изменение в модели - и все, куб протух. А перестройка молапа - это боль.

У Вас что real-time MDX/DAX запросы? В большинстве BI задач или работа идет по полным свершившимся дням, или даных не много (сравнительно) и R-ROLAP-а (ROLAP + proactive caching) достаточно.
Во втором варианте, к примеру, приложения планирования реализуются.
А там или две фазы планирования:
1. на высоком уровне грануляции - данных мало все отрабатывает за пару секунд максимум.
2. одноразовый splashing ("размазывание" по детям) и тут всё равно время задержки на запись.
Или обе фазы сразу и тут всё равно время задержки на агрегирование - и уже не важно кто его делает.
Ну а column store indexes можно благополучно и к R-ROLAP прикрутить.

Все остальные - уже не типичные решения. Можно пример из жизни, где MOLAP или R-ROLAP не помог?
14 сен 15, 14:25    [18146821]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Ivan Durak
Member

Откуда: Minsk!!!
Сообщений: 3710
Yuri Abele
Ivan Durak
допущение "если куб загружен" сводит на нет все дальнейшее рассуждение.
По факту - изменение в модели - и все, куб протух. А перестройка молапа - это боль.

У Вас что real-time MDX/DAX запросы? В большинстве BI задач или работа идет по полным свершившимся дням, или даных не много (сравнительно) и R-ROLAP-а (ROLAP + proactive caching) достаточно.
Во втором варианте, к примеру, приложения планирования реализуются.
А там или две фазы планирования:
1. на высоком уровне грануляции - данных мало все отрабатывает за пару секунд максимум.
2. одноразовый splashing ("размазывание" по детям) и тут всё равно время задержки на запись.
Или обе фазы сразу и тут всё равно время задержки на агрегирование - и уже не важно кто его делает.
Ну а column store indexes можно благополучно и к R-ROLAP прикрутить.

Все остальные - уже не типичные решения. Можно пример из жизни, где MOLAP или R-ROLAP не помог?

Когда перестройка всех молапов занимает часов 6-8.
14 сен 15, 14:29    [18146839]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Ivan Durak
Когда перестройка всех молапов занимает часов 6-8.

И что, на таких объемах данных прямые запросы к базе данных ну прям летают? Сомневаюсь.
Мы тоже не 100 милионов строк одной таблыцы процессим.
А 6-8 часов на процессинг - IMHO дизайн OLAP баз страдает. Вы что, все в режиме Full Load грузите?
Как у вас там с партиционированием на уровне OLAP и RDBMS?
Настройку slice-ов тоже не забываем?
Грузим все параллельно, или последовательно?
И т.д. и т.д. Я не хочу ничего сказать, но 6-8 часов это даже для initial load многовато.
14 сен 15, 14:41    [18146914]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
Yuri Abele
Member

Откуда: Латвия> Литва > Тольятти > Wiesbaden > Karlsruhe
Сообщений: 1661
Ivan Durak
Yuri Abele
пропущено...
Вообще это классный ответ на вечный спор где оптимальнее - в СУБД или ETL Tool

оптимальнее иметь выбор. И плохо когда его нет.

Выходит 6.0 версия Pentaho Data Integration, в ней анонсирована Push Down оптимизация.
Но я пока этого не видел. Как увижи и поковыряюсь - отпишу сюда.
30 сен 15, 10:51    [18213317]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
mayton
Member

Откуда: loopback
Сообщений: 51389
Yuri Abele, несмотркя на то что топик перенесён из другого форума я попрошу тебя не постить
сообщения с максимально крупным шрифтом.

Их трудно читать на мобилах. И кроме того в сравнении в обычным текстом они звучат как "окрик с CAPSLOCK".

Надеюсь на понимание.
1 окт 15, 17:48    [18222339]     Ответить | Цитировать Сообщить модератору
 Re: Сравнение Microsoft SSIS и Penatho Kettle (PDI)  [new]
a_voronin
Member

Откуда: Москва
Сообщений: 4844
Yuri Abele
Ivan Durak
допущение "если куб загружен" сводит на нет все дальнейшее рассуждение.
По факту - изменение в модели - и все, куб протух. А перестройка молапа - это боль.

У Вас что real-time MDX/DAX запросы? В большинстве BI задач или работа идет по полным свершившимся дням, или даных не много (сравнительно) и R-ROLAP-а (ROLAP + proactive caching) достаточно.



Вот у нас идёт ковыряние в очень мелких деталях, как каждый артикул с его размерами продавался, с какой скоростью и т.п. и это не по сырым данным, а агрегация.
1 окт 15, 18:08    [18222427]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: Ctrl  назад   1 [2] 3   вперед  Ctrl      все
Все форумы / Сравнение СУБД Ответить