Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / OLAP и DWH Новый топик    Ответить
 перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Evolex_
Member

Откуда: Екатеринбург->Москва
Сообщений: 229
Всем привет.

У коллег есть идея перевести полностью транспорт извлечения данных (часть extract из ETL) c SQL запросов на работу с очередью изменений объектов.

Вроде бы очередь обычно используется как механизм для получения дельты (для инкрментального обновления) - полная замена представляется довольно озорным мероприятием - кто что думает?

sergeyavdovin.ru
17 май 17, 15:10    [20490089]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Alexander Ryndin
Member

Откуда:
Сообщений: 4679
Блог
Evolex_
Всем привет.

У коллег есть идея перевести полностью транспорт извлечения данных (часть extract из ETL) c SQL запросов на работу с очередью изменений объектов.

Вроде бы очередь обычно используется как механизм для получения дельты (для инкрментального обновления) - полная замена представляется довольно озорным мероприятием - кто что думает?

sergeyavdovin.ru
А зачем? Кто будет данные класть в очередь?
17 май 17, 16:40    [20490518]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
ShIgor
Member

Откуда: Нижний Новгород
Сообщений: 1957
Alexander Ryndin,

CDC например
17 май 17, 16:53    [20490599]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Evolex_
Member

Откуда: Екатеринбург->Москва
Сообщений: 229
Источник тот же самый - он и будет наполнять очередь.
17 май 17, 17:04    [20490656]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Voyager_lan
Member

Откуда:
Сообщений: 1437
Evolex_,

Если после того, как это взлетит и вы будете спать спокойно, то почему бы и нет если это реально требуется.
Тут очевидны доп. трудозадраты на администрирование этой очереди и согласованноть работ при обновлении.
17 май 17, 17:20    [20490723]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Alexander Ryndin
Member

Откуда:
Сообщений: 4679
Блог
ShIgor
Alexander Ryndin,

CDC например
Для большинства кейсов CDC прекрасно справляется и без очередей. Хотя, не спорю, есть кейсы, где очереди весьма полезны. Главное понимать, а какую ценность приносит очередь?
17 май 17, 17:35    [20490788]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Alexander Ryndin
Member

Откуда:
Сообщений: 4679
Блог
Evolex_
Источник тот же самый - он и будет наполнять очередь.
В случае ETL сам ETL опрашивает источник и забирает данные асинхронно, чаще всего ночью. А кто будет класть данные в случае очереди? ETL?
P.S. На самом деле, выше правильно сказали про CDC. Только хорошо бы понимать, нафига тут очереди, ибо (опять же правильно сказано выше) их нужно сопровождать, очереди часто плохо масштабируются и т.д., и т.п.
17 май 17, 17:37    [20490797]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Evolex_
Member

Откуда: Екатеринбург->Москва
Сообщений: 229
Очередь наполянет система-источник данных.
ETL запускается в то же время, что и раньше, только вместо обращения к SQL обращается к очереди.
У меня пока такие сомнения:
1. full load (vs incremental load)
тут можно рассмотреть случаи, когда требуется:
1.1 при изменении системы - добавлении - удалени поля

2. Сопровождение
при устранении проблем данные часто сравниваютсяс помощью sql запросов - произвольный доступ к любой части информации. В случае с очередью теряем произвольный доступ
17 май 17, 17:50    [20490842]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Evolex_
Member

Откуда: Екатеринбург->Москва
Сообщений: 229
"зачем очередь": приняли решение (не я).
Я пробую сейчас оценить то что потеряли и что нужно будет реализовывать
17 май 17, 17:55    [20490857]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Alexander Ryndin
Member

Откуда:
Сообщений: 4679
Блог
Evolex_
Очередь наполянет система-источник данных.
Т.е.
1) Система-источник должна уметь наполнять очередь асинхронно (иначе транзакции будут тормозить)
2) Система-источник должна быть доработана, чтобы самостоятельно наполнять очередь
3) Система-источник должна быть доработана при добавлении новых таблиц на источнике
4) Должны быть учтены факторы консистентности и согласованности забора данных.
5) На выходе получится довольно серьезный и уникальный велосипед для сопровождения которого понадобится разработчик этого велосипеда
17 май 17, 18:18    [20490916]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Evolex_
Member

Откуда: Екатеринбург->Москва
Сообщений: 229
Alexander Ryndin,

Да, все верно.
Мысль про велосипед меня тоже не покидает - решил на форуме проверить что я не один такой )))).
17 май 17, 18:20    [20490920]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Ferdipux
Member

Откуда: Москва
Сообщений: 399
Evolex_,

Вам Alexander Ryndin довольно подробно ответил.
Дополню из опыта - в SAP ERP - BW работает похожая схема. По опыту работы и разработки для нее:

1. Нужно предусмотреть как экстрактор дельт, так и экстрактор полного содержимого таблицы или с определенным фильтром. Для инициализации или решения проблем.
2. При расширении состава полей - нужно согласованно расширить объекты на стороне источника и затем обновить получатель.
3. На стороне DWH - желательна реализация схемы ODS, куда падают распакованные из очереди данные, и они затем асинхронно/пакетно применяются.
4. Ко всему этому нужно прикрутить регистрацию ошибок/сообщений и мониторинг

И как такой велосипед поддерживать - тоже отдельный вопрос.
17 май 17, 18:31    [20490953]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 31059
Блог
Ferdipux
И как такой велосипед поддерживать - тоже отдельный вопрос.


а потом появляется еще 3-4 новых источника,
+ весь этот функционал нужно повторить на системах, модифицировать которые вы не имеете права, т.к. иначе с поддержки снимут ))

в общем, выглядит как попытка переложить etl на специалистов, которые занимаются системой-источником
17 май 17, 19:14    [20491029]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Evolex_
Member

Откуда: Екатеринбург->Москва
Сообщений: 229
Критик,

Желание использовать другой транспорт было как раз от тех кто занимается системой - источником. Наверное, не ожидали сами.
17 май 17, 19:51    [20491073]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Voyager_lan
Member

Откуда:
Сообщений: 1437
Evolex_,

Есть похожие решения реализованные на Apache NiFi
17 май 17, 21:23    [20491222]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Evolex_
Member

Откуда: Екатеринбург->Москва
Сообщений: 229
Voyager_lan,

По крайней мере, из описания деталей на главной странице, непонятны особенности этой системы из-за которых ее следовало бы выделить из остальных для решения проблем описанных выше
18 май 17, 13:27    [20492766]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Dmitry.
Member

Откуда: Киев
Сообщений: 787
Evolex_
Voyager_lan,

По крайней мере, из описания деталей на главной странице, непонятны особенности этой системы из-за которых ее следовало бы выделить из остальных для решения проблем описанных выше


готов рассказать особенности - но с чем сравнивать?
24 май 17, 18:48    [20509153]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Evolex_
Member

Откуда: Екатеринбург->Москва
Сообщений: 229
Есть мысль что тут пригодится ELT - типа hadoop (вместо ETL) это часть проблем, вроде, решит - загружаем все сообщения очереди через ELT потом можно будет пересматривать довольно долго (насколько хватит места) и изменять структуру того что загружается в DWH с полной перезагрузкой DWH без обращения к исходной системы
10 июл 17, 00:37    [20627723]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Alexander Ryndin
Member

Откуда:
Сообщений: 4679
Блог
Evolex_
Есть мысль что тут пригодится ELT - типа hadoop (вместо ETL) это часть проблем, вроде, решит - загружаем все сообщения очереди через ELT потом можно будет пересматривать довольно долго (насколько хватит места) и изменять структуру того что загружается в DWH с полной перезагрузкой DWH без обращения к исходной системы
омг
10 июл 17, 01:24    [20627754]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Evolex_
Member

Откуда: Екатеринбург->Москва
Сообщений: 229
Alexander Ryndin,

?))))
10 июл 17, 01:33    [20627756]     Ответить | Цитировать Сообщить модератору
 Re: перевод транспорта извлечения данных полностью на очередь изменений объектов  [new]
Evolex_
Member

Откуда: Екатеринбург->Москва
Сообщений: 229
Надо же чем-то появление очереди компенсировать )))
10 июл 17, 01:48    [20627758]     Ответить | Цитировать Сообщить модератору
Все форумы / OLAP и DWH Ответить