Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Oracle Новый топик    Ответить
 ETL. валидация/очистка данных без сторонних тулзов  [new]
bigsov
Member

Откуда:
Сообщений: 282
Наверняка многие из вас работают или работали с загрузкой данных в хранилище. Судя по постам на форуме для очистки/валидации данных большинство использует либо Oracle средства(OWB, ODI), либо сторонние ETL-инструменты, либо opensource решения(например talend). Что делать если в планах нет варианта использовать ETL-инструменты или open-source тулзы? Кто-нибудь реализовывал валидацию/очистку данных самоcтоятельно? Поделитесь, пожалуйста, опытом...
21 июн 09, 21:07    [7325799]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
essbase.ru
Member

Откуда: http://essbase.ru/about
Сообщений: 1407
bigsov,

каскадные VIEW
- что противоречит принципу DIE==VIEW->VIEW->VIEW->VIEW
поэтому
srcTable0 ->ClearView0->TargetTable0(srcTable1)->ClearView1->TargetTable1....

PL/SQL + настроечная таблица для управления таким WorkFlow
22 июн 09, 10:07    [7326486]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
orawish
Member

Откуда: Гадюкино-2 (City)
Сообщений: 15497
bigsov
Наверняка многие из вас работают или работали с загрузкой данных в хранилище. Судя по постам на форуме для очистки/валидации данных большинство использует либо Oracle средства(OWB, ODI), либо сторонние ETL-инструменты, либо opensource решения(например talend). Что делать если в планах нет варианта использовать ETL-инструменты или open-source тулзы? Кто-нибудь реализовывал валидацию/очистку данных самоcтоятельно? Поделитесь, пожалуйста, опытом...

а голову использовать, для подумать, есть в плане?

из итиэль средств, имхо, наиглавнейшие - база оракловая и шелл
22 июн 09, 10:16    [7326514]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
bigsov
Member

Откуда:
Сообщений: 282
orawish
а голову использовать, для подумать, есть в плане?

не совсем понял вас, я что-то не так написал?

orawish
из итиэль средств, имхо, наиглавнейшие - база оракловая и шелл


Естественно я имел ввиду как реализовать это в базе, т.е. это как бы негласно подразумевалось в вопросе. На мой взгляд, шелл для валидации данных не очень подходит. Если вы считаете, что есть стандартный подход к валидации базы с использованием базы и/или шелла - то, пожалуйста, расскажите о нем... Если, говоря про подумать, вы имели ввиду, что надо просто проверять данные в процессе загрузки, то я не согласился бы с вами. На мой взгляд сначала стоит выбрать подход... Т.е. есть несколько подходов:

- проверять/очищать данные в процессе каждой загрузок, размазывая бизнес-логику по базе
- сосредоточить все проверки в одном пакете
- использовать некий источник рулов для проверки, например таблицу или структуру таблиц в которые можно будет добавлять правила для валидации
- возможно есть еще варианты

Пока я понял, что полноценную систему валидации, способную приблизиться к функционалу специализированных тулзов, реализовать вряд ли получится. Но для наших задач, думаю, это и не надо.

На эту тему(именно реализации в базе) я прочитал пару статей, но к сожалению большинство материалов и обсуждений по этому вопросу касается использования специальных тулзов.
22 июн 09, 13:23    [7327930]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
orawish
Member

Откуда: Гадюкино-2 (City)
Сообщений: 15497
bigsov,

ну а я не понял, что вы не поняли :)

шелл - это на случай, если имеете дело с обработкой файлов.
а стратегия -
1) доставить данные в базу куда-то (т.е. не туда, где они должны будут быть)
при этом никакой валидации не применять
2) очистить
3) поместить (слить) куда надо
22 июн 09, 13:55    [7328198]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
bigsov
Member

Откуда:
Сообщений: 282
orawish
bigsov,
а стратегия -
1) доставить данные в базу куда-то (т.е. не туда, где они должны будут быть)
при этом никакой валидации не применять
2) очистить
3) поместить (слить) куда надо


отлично, я согласен. И мой вопрос собственно о п.2. Каким образом очищать данные?
22 июн 09, 14:19    [7328416]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
orawish
Member

Откуда: Гадюкино-2 (City)
Сообщений: 15497
bigsov
..

отлично, я согласен. И мой вопрос собственно о п.2. Каким образом очищать данные?


смОтрите, как определены ваши требованиями к данным.
и реализуете на основе тех требований сценарии на sql/pl_sql, имеющие на входе
входной хлам и на выходе чистый чистяк плюс протокол отваленного отвала
22 июн 09, 15:27    [7328982]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
orawish
Member

Откуда: Гадюкино-2 (City)
Сообщений: 15497
bigsov,

а помянутые вами тулзы, по большому счёту, только обложка, внутри которой
вам самому надо написать всю книжку. Ну, некоторые вещи при этом от
вас прикрыты соломкой мышегуевозильного интерфейса. И только.
И, кстати, на каждого, кому тоё оно надо, имхо, приходится такой, кто обойдётся сценариями.
22 июн 09, 15:33    [7329014]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
bigsov
Member

Откуда:
Сообщений: 282
orawish
реализуете ... сценарии на sql/pl_sql, имеющие на входе
входной хлам и на выходе чистый чистяк плюс протокол отваленного отвала

orawish, но таким образом мы хардкодим логику... есть мнение, что правила валидации часто -меняются, и из-за этого часто придется модифицировать pl/sql код...

кроме этого, такой подход может привести к многократному дублированию кода, если мы для загрузки из каждого источника данных будем использовать одни и те же правила очистки данных(кроме специфичных для источника правил).
23 июн 09, 11:13    [7331914]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
Bfink
Member

Откуда: Москва
Сообщений: 2798
bigsov,

Парвила валидации не меняются, он обычно уточняются. Именно в PL/sql это особенно наглядно видно и можно использовать любую систему хранения версий, чтобы посмотреть что изменилось за последний месяц и когда.
23 июн 09, 12:42    [7332542]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
essbase.ru
Member

Откуда: http://essbase.ru/about
Сообщений: 1407
bigsov
самоcтоятельно?

- excel поражает своей гибкостью в части самостоятельной разработки :D

маленький список задач которые нужно решить для очистки данных
1) НСИ
а) - все учетные системы должны либо работать на едином справочнике либо иметь таблицу трансформации к единому справочникам
б) - справочники должны отвечать различным требованиям бизнеса
2) трансформация факта
а) - прилизывание все учетных политик к единому знаменателю
б) - выроботка единой методологии учета Управл. как и Бух так и Фин
3) регламентация отчетности

- короче задача ГОРАЗДО шире чем просто на коленках в скриптах - что то накодить - поэтому мало быть программистом - нужно еще быть и методологом и владеть тулзами класса Enterprise - что бы не изобретать велосипед (либо "стырить" похожую функциональность)
23 июн 09, 12:47    [7332574]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
Bfink
Member

Откуда: Москва
Сообщений: 2798
essbase.ru,

К сожалению, большинство пунктов в реальной жизни невыполнимы :-((
23 июн 09, 12:54    [7332606]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
bigsov
Member

Откуда:
Сообщений: 282
присоединюсь к Bfink.
essbase.ru, описанные вами задачи можно реализовать, если есть возможность влиять на системы-источники данных и вобще принимать high-level решения на уровне предприятия. На крупных предприятиях, как правило, нет возможности переделывать чужие системы(источники данных) и поэтому приходится адаптировать свою систему к текущему окружению...
а п.2 и 3. к сожалению не помогут в моем случае, т.к. мы не имеем прямого отношения к фин/бух/управленческому учету...
23 июн 09, 15:51    [7333837]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
essbase.ru
Member

Откуда: http://essbase.ru/about
Сообщений: 1407
bigsov,
Hyperion Financial Data Quality Management

- как раз решает все задачи для Enterprise отчетности

- скачайте - поставьте - изучите - напишите свое на Pl/SQL
23 июн 09, 16:01    [7333913]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
orawish
Member

Откуда: Гадюкино-2 (City)
Сообщений: 15497
essbase.ru
bigsov,
Hyperion Financial Data Quality Management

- как раз решает все задачи для Enterprise отчетности

- скачайте - поставьте - изучите - напишите свое на Pl/SQL


задачи в реальной жизни гораздо шире Enterprise отчетности

а насчёт на коленках в скриптах - что то накодить -
дык у кого и скрипты с коленки посильнее будут, чем у иного (козьи дропсы) из под
внедрения очередного счастья-на-три-буквы
23 июн 09, 16:10    [7333988]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
Bfink
Member

Откуда: Москва
Сообщений: 2798
essbase.ru,

У Гипериона своя база - это не Oracle Server
23 июн 09, 16:20    [7334068]     Ответить | Цитировать Сообщить модератору
 Re: ETL. валидация/очистка данных без сторонних тулзов  [new]
essbase.ru
Member

Откуда: http://essbase.ru/about
Сообщений: 1407
Bfink

У Гипериона своя база - это не Oracle Server

- в части продукта Planning - Essbasse %)
- в части других продуктов любой RDB
23 июн 09, 16:29    [7334143]     Ответить | Цитировать Сообщить модератору
Все форумы / Oracle Ответить