Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / OLAP и DWH Новый топик    Ответить
Топик располагается на нескольких страницах: 1 2      [все]
 MPP Databases  [new]
a_voronin
Member

Откуда: Москва
Сообщений: 4806
Господа,
если говорить о MPP (Massively parallel) базах. Какие стоит рассматривать?

Vertica, Greenplum, Teradata, Clickhouse.

Есть ещё какое-то кандидаты достойные рассмотрения?

Teradata все сеперкруто за запредельльные деньги.

Vertica все круто за разумные деньги.

GreenPlum -- бесплатно и неплохо, но надо админить и функционал на среднем уровне.

Clickhouse -- бесплатно, но для довольно ограниченного круга задач.

Есть где-то обзоры и сравнения внятные?
20 авг 20, 15:08    [22184992]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
a_voronin,

Рассматривать с точки зрения вакансий можно так:

Clickhouse - 49%
Teradata - 20%
Greenplum - 17%
Vertica - 14%
20 авг 20, 17:13    [22185068]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
ShIgor
Member

Откуда: Нижний Новгород
Сообщений: 2355
Exasol, на хабре поищите.
неплохие обзоры.
20 авг 20, 18:39    [22185084]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Sintetik
Member

Откуда: SpB->Msk->...
Сообщений: 9313
если терадата для вас запредельно, я бы смотрел
Netezza если готовы раскошелится на железку
Vertica если хотите рабочий, неглючний софт, ну а железо как получится

больше ничего, имхо из опыта
20 авг 20, 20:27    [22185110]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2748
5+ лет назад рынок(на Роисси) был поделен между Vertica и Teradata

после 14 года Teradata стала мегадорогая. Основные клиенты начали пытаться с неё слезть. В России распустили часть офиса терадаты.

В это же время начал расти Greenplum. Сейчас у него самая большая доля рынка, особенно по новым внедрениям. Самое активное развитие, коммьюнити и т.п. + он бесплатный. Я бы выбрал его.

Clickhouse хорошая высокопроизводительная штука, но напрямую сравнивать с другими нельзя, так как узкий функционал.
Часто используют Greenplum + Clickhouse.
20 авг 20, 20:39    [22185118]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
T87
Member

Откуда:
Сообщений: 169
a_voronin,

Azure Synapse
21 авг 20, 00:06    [22185174]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
T87
Member

Откуда:
Сообщений: 169
AWS Redshift
21 авг 20, 00:11    [22185175]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
a_voronin
Member

Откуда: Москва
Сообщений: 4806
T87
AWS Redshift


Это облачные, а я скорее веду речь о земных MPP.
21 авг 20, 08:01    [22185245]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
T87
AWS Redshift
Тогда уж и Snowflake, в копилочку.
ShIgor
Exasol, на хабре поищите.неплохие обзоры.
+1 за Exasol. К тому же, скоро на Россию выйдет отдельный человек.
Отличается от Вертики тем, что сам греет кэш. Скорость дисков не принципиальная. Но, насколько я понял, что в узле кластера хранится всего несколько сотен миллионов, максимум - несколько миллиардов записей. Да, и платная.
Из моих партнеров АТК консталтинг данным продуктом занимались.

Clickhouse - хорош для хранения и анализа логов. В общем, она изначально была для этого и предназначена.
GreenPlum - да, есть хорошие проекты. но если говорить про промышленное применение, то там поддержка нужна всё-таки, а она весьма не бесплатная.

С Уважением,
Георгий.
21 авг 20, 12:22    [22185361]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2748
George Nordic
+1 за Exasol.

где он работает в продакшене в России?

откуда такие советы? вы работали с ним? или только статью на хабре прочитали?

Сообщение было отредактировано: 21 авг 20, 14:07
21 авг 20, 14:10    [22185412]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
a_voronin
Member

Откуда: Москва
Сообщений: 4806
Прислали мне вакансию сегодня (РосШтрафы) вот с таким зверем.

MariaDB ColumnStore
MariaDB ColumnStore is a columnar storage engine that utilizes a massively parallel distributed data architecture. It's a columnar storage system built by porting InfiniDB 4.6.7 to MariaDB, and released under the GPL license.
21 авг 20, 14:52    [22185432]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
Бумбараш, партнеры рыли и внедряют. Рассказывали. Так как они смотрели несколько вышеуказанных платформ (кроме teradata), они их сравнивали и решили остановиться на exasol, как на оптимальном сочетании цена / требуемая функциональность. Но проекты больше по чековой аналитике / аналитика маркетинга, под другие задачи, возможно, лучше будет другая платформа.

Смотрю, даже подборку обучающих материалов сделали.

А что человек выходит - это инсайт :) но не в продакшен, это сейл.

С Уважением,
Георгий
21 авг 20, 15:05    [22185444]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
Бумбараш
George Nordic
+1 за Exasol.

где он работает в продакшене в России?

откуда такие советы? вы работали с ним? или только статью на хабре прочитали?


7 вакансий с этим Exasol, из них только 2 вакансии разработчика от Ситимобил и Badoo - это социальная сеть 18+ (из их описания на hh). Имхо, бесперспективно.
21 авг 20, 15:08    [22185446]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
Критик, вариант оценки по вакансиям - очень здравый. Но иногда на новом продукте можно неплохо заработать. Сейчас по snowflake спецов нет от слова совсем. А на западе - вполне себе востребованная технология, но у них и к облакам отношения другое. Так что на новой технологии можно иногда неплохо заработать.
a_voronin
Прислали мне вакансию сегодня (РосШтрафы)
Ну, если гос.сектор, то надо что-нибудь скрепное:
* Arenadata DB (ADB) – распределенная масштабируемая отказоустойчивая СУБД на базе аналитической массивно-параллельной системы с открытым исходным кодом Greenplum, адаптированная для российского использования и зарегистрированная в государственном реестре программ для ЭВМ;
* Arenadata Grid (ADG) — платформа вычислений в памяти, которая позволяет значительно ускорить приложения без необходимости замены существующих СУБД.
* Arenadata QuickMarts (ADQM) — кластерная колоночная система управления базами данных (СУБД) для быстрого анализа больших объёмов данных при одновременном снижении нагрузки на системы их хранения.
21 авг 20, 15:32    [22185468]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
londinium
Member

Откуда: Киев
Сообщений: 1181
автор
Teradata все сеперкруто за запредельльные деньги.

Всегда интересовал вопрос: сколько это весьма сомнительное счастье (Teradata) стоит
21 авг 20, 15:41    [22185477]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
a_voronin
Member

Откуда: Москва
Сообщений: 4806
Критик
Бумбараш
пропущено...

где он работает в продакшене в России?

откуда такие советы? вы работали с ним? или только статью на хабре прочитали?


7 вакансий с этим Exasol, из них только 2 вакансии разработчика от Ситимобил и Badoo - это социальная сеть 18+ (из их описания на hh). Имхо, бесперспективно.


Вы все вакансии смотрите, а они там напишут
"SAP BW/HANA,Vertica, Teradata, Hadoop, GreenPlum. "
И какая на самом деле есть непонятно.
21 авг 20, 17:01    [22185522]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
a_voronin,

Все так, но в первой прикидке оценить перспективность можно.

Я согласен George Nordic, что денег можно поднять, т.к. у работодателя нет особого выбора, но при этом есть и обратная сторона - работнику придется становиться заложником этого работодателя, ибо наработанный опыт сложно будет применить где-то еще.
21 авг 20, 17:10    [22185527]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
Критик
...но при этом есть и обратная сторона - работнику придется становиться заложником этого работодателя, ибо наработанный опыт сложно будет применить где-то еще.
Однако, если технология стрельнет, то можно писать себе овергодов опыта и выгодно отличаться (для того же HR) от прочих кандидатов.
a_voronin
Вы все вакансии смотрите, а они там напишут
"SAP BW/HANA,Vertica, Teradata, Hadoop, GreenPlum. "
И какая на самом деле есть непонятно.
Да Excel, ясен пень. Чем больше систем указано, тем больше подозрений, что ничего из них толком не запущено.
21 авг 20, 17:21    [22185534]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2748
George Nordic
Бумбараш, партнеры рыли и внедряют.

Так я тоже много чего рыл, и знаю, как происходит рытьё.
Делается конкурс на хранилище, туда набивается штук десять претендентов. Большая часть для массы или лицом поторговать. Делают костыльный пилот и убывают в закат. Я таким образом рыл штук двадцать движков, но в проде используют в итоге только движки четырех видов. Остальные так и продолжают рыться по конкурсам годами.

Вопрос-то простой - где Exasol является ядром хранилища в РФ в продакшене?

По всей видимости, нигде. Либо используется как Кликхаус в узкой части. Но и о таких случаях мне неизвестно.
21 авг 20, 19:26    [22185591]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
Бумбараш,

https://www.tadviser.ru/index.php/Проект:Ситимобил_(Exasol)
21 авг 20, 20:10    [22185604]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2748
Критик
a_voronin,

Все так, но в первой прикидке оценить перспективность можно.

Я согласен George Nordic, что денег можно поднять, т.к. у работодателя нет особого выбора, но при этом есть и обратная сторона - работнику придется становиться заложником этого работодателя, ибо наработанный опыт сложно будет применить где-то еще.

я по такому пути однажды пошел. Когда в России появилась Терадата, и на нашей галере в ней проекты начались, я туда пошел. Думал получу уникальный востребованный скил. Я в ней прокачался, наполучал сертификатов, знал архитектуру и т.п. Сидел думал щас меня будут разрывать.
Терадата в свою очередь начала окукливаться и потихоньку сворачиваться. Сейчас никаких проектов развития на ней нет. Только легаси. По деньгам тоже ничего особенного. Гораздо интереснее в популярные технологии идти. Тот мой полученный опыт, на что я немало потратил, сейчас не востребован.

Сейчас даже сотрудники самой терадаты как интегратор сидят пилят проекты по витринам на оракле и гринпламе. Как рядовые галеристы.

Сообщение было отредактировано: 21 авг 20, 20:10
21 авг 20, 20:13    [22185606]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
Бумбараш,

Аналогично, но относительно Cognos TM1, только 2 года зря потерял.
Сейчас по нему 5 вакансий на всю Москву (если исключить всяких контролеров, методологов и стажеров)
21 авг 20, 21:23    [22185616]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
T87
Member

Откуда:
Сообщений: 169
Прочитав тред, можно сделать вывод, что всё фигня. Так куда же идут современные DWH в РФ?
22 авг 20, 21:33    [22185779]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
T87,

сейчас основной тренд - это бигдата,
суют везде, даже там, где она совсем не нужна
и совершенно не задумываются о стоимости поддержки решения
22 авг 20, 21:52    [22185783]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
T87
Member

Откуда:
Сообщений: 169
Критик
T87,

сейчас основной тренд - это бигдата,
суют везде, даже там, где она совсем не нужна
и совершенно не задумываются о стоимости поддержки решения

Но че-то всю эту бигдату сливают потом в терадату, гринплам и т.п.
23 авг 20, 14:01    [22185878]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
.Евгений
Member

Откуда:
Сообщений: 574
По теме: какие есть мнения относительно критериев целесообразности применения МРР вместо обычных СУБД?

Например, факты от млрд. строк, и т.п.
23 авг 20, 15:15    [22185890]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
.Евгений,

Самое большое мое ХД содержало чуть меньше 20 Тб данных, но там было колоночное хранение в самых объемных таблицах. При этом нагрузка на cpu было в среднем 20%.

Так что переходить на mpp я бы подумал, когда сжатый объем дорастет до 50Тб, или где-то 200 Тб csv-данных. Или если будет обоснованное требование легкой горизонтальной масштабируемости, которая будет нужна для чего-то там. Для обычных организаций это не нужно, а вот всякие соцсети, где нагрузка может расти кратно - самое то.
23 авг 20, 18:44    [22185957]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2748
.Евгений
По теме: какие есть мнения относительно критериев целесообразности применения МРР вместо обычных СУБД?

Например, факты от млрд. строк, и т.п.


если у вас хранилище, то используйте MPP. Вот и весь критерий.

"Обычная СУБД" сделана под OLTP нагрузку. А MPP под OLAP
23 авг 20, 19:23    [22185974]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 377
.Евгений
По теме: какие есть мнения относительно критериев целесообразности применения МРР вместо обычных СУБД?

Например, факты от млрд. строк, и т.п.

есть мнение, что все всегда упирается в цену. лицензировать каждое ядрышко в обычных субд зачастую просто по деньгам теряет смысл. собственно отсюда и желание везде бигдату натолкать.
23 авг 20, 19:41    [22185981]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
.Евгений
Member

Откуда:
Сообщений: 574
Бумбараш
если у вас хранилище, то используйте MPP. Вот и весь критерий.

Насколько я могу судить, чисто количественно большинство ХД сделаны на обычных SQL серверах: MS, Oracle и т.п. Недавно здесь даже про MySQL упоминали.
Критик
Так что переходить на mpp я бы подумал, когда сжатый объем дорастет до 50Тб, или где-то 200 Тб csv-данных.

Если с масштабируемостью все понятно, то общий объем данных мне кажется слабым критерием. Значительная часть объема может, например, относиться к историческим данным и использоваться крайне редко. Данные могут храниться в огромных денормализованных простынях или совсем наоборот - в десятках тысяч таблиц 6-й НФ (и сжиматься будут совершенно по-разному). Есть даталейки, куда можно залить 500 фильмов 4К общим объемом >50Тб и 100 Кб метаданных.
23 авг 20, 22:17    [22186040]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2748
.Евгений

Насколько я могу судить, чисто количественно большинство ХД сделаны на обычных SQL серверах: MS, Oracle и т.п. Недавно здесь даже про MySQL упоминали.

Большинство хранилищ в РФ сделаны до того, как здесь появилсь MPP базы. Некоторые MPP лет 15 назад появились в бета версии только.

Другие причины использвания обычных СУБД:

Если хранилище маленькое, то профита от MPP можно не увидеть. И когда у тебя вокруг хранилища стоят десять MS SQL, то проще взять MS SQL. Они будут проще интегрироваться, например.

Может быть чел-начальник, который отвечает за выбор, вообще ничего не выбирает. Он просто делает всё на оракле, как делал это 50 лет до этого. Может быть у организации уже есть набор лицензий, который ей проще использовать. Может быть у них весь штат - ораклисты 50+, которые любой новой технологии сопротивляются, как будто Осовец защищают.

А я написал простое решение, если нет никаких этих связующих обстоятельств. Выбирать для хранилища базу, созданную специально для хранилищ. Самое естественное решение.
24 авг 20, 02:06    [22186100]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
.Евгений
По теме: какие есть мнения относительно критериев целесообразности применения МРР вместо обычных СУБД?
Думаю, все зависит от задачи. Все-таки, МРР больше предназначена для ADWH / ODS, чем для "кладбища данных" / HDS. Кстати, согласно исследованиям, 68-73% данных, попадающих в хранилище, никогда не используются. Держать данные в "горячей" доступности - очень недешевое удовольствие, надо понимать зачем это нужно:

  • Понятно зачем МРР (тот же Exasol) Ситимобайлу - надо знать, где какая машина, чтобы оперативно предложить подходящий подходящий вариант клиенту - выслать предложение таксистам недалеко от места вызова, или которые скоро закончат поездку в данном районе и предложить варианты клиенту, спрогнозировать спрос, оптимизировать логистику и распределение машин, рассчитать стоимость поездки и комиссионные.
  • Понятно, зачем МРР Байде и прочим Тиндерам - показать варианты, основываясь на ряде совпадающих параметров / интересов и предыдущем опыте / рейтинге.
  • Понятно, зачем МРР банкам: онлайн формирование персонализированных предложений (Next Best Offer), онлайн-скорринг, кредитный конвейер, система лояльности, выявление склонных к оттоку клиентов, возможно - решение части фродовых задач или тюнинг фрод-параметров.
  • Понятно, зачем МРР крупным интернет-магазинам: помощь в формировании корзины, Next Best Offer "вам понравится / с этим товаром берут", лояльность, отток.
В принципе, МРР подошел бы и телекому, но они в последнее время, с развитием соответствующего инструментария, предпочитают онлайн-аналитику потоков данных и логов - оценка качества связи / линий / направления звонков / продолжительности звонка и т.д.

Я не очень понимаю, зачем МРР использовать для хранения дикого объёма исторических данных. А вот BigData для этого вполне подходит, так как стоимость хранения данных там сильно ниже.

Поэтому мы и видим подобное разделение - часть данных в BD (пусть будет, потом разберемся / HDS), часть - в быстрый ODS, который можно реализовать с помощью МРР-технологии.

С Уважением,
Георгий
25 авг 20, 10:20    [22186729]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
George Nordic
[li]Понятно зачем МРР (тот же Exasol) Ситимобайлу - надо знать, где какая машина, чтобы оперативно предложить подходящий подходящий вариант клиенту - выслать предложение таксистам недалеко от места вызова, или которые скоро закончат поездку в данном районе и предложить варианты клиенту, спрогнозировать спрос, оптимизировать логистику и распределение машин, рассчитать стоимость поездки и комиссионные.


Вот уж не знаю, я прочитал про них - 2000 машин и 2.4 млн поездок в месяц в 2018, пусть даже сейчас больше в 2 раза... Что там можно считать на mpp? Для примера - лет 10 назад у Связного было 3000 магазинов и тогда вполне нормально справлялся 1 весьма слабенький сервер..

Но инвесторы у Ситимобайла - tele2 и mail.ru, поэтому скорее всего просто шла проба технологии для какой-то из этих 2х компаний.

Если есть тут кто-то из Ситимобайла, то было бы весьма интересно узнать, что вы там умудряетесь хранить на 100 Тб?
25 авг 20, 10:58    [22186746]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
Критик
Но инвесторы у Ситимобайла - tele2 и mail.ru, поэтому скорее всего просто шла проба технологии для какой-то из этих 2х компаний.
Вполне может быть, кстати.
Критик
Если есть тут кто-то из Ситимобайла, то было бы весьма интересно узнать, что вы там умудряетесь хранить на 100 Тб?
Да, тоже интересно. Но, имхо, можно хранить много параметров (вместимость, есть ли детское кресло/кресла, можно ли брать на доставку грузов / еды, перевозит ли животных - хотя это копейки данных) и телематику - разгон/торможение, расход бензина, музыку в салоне и т.д., для оценки водителей и стилей вождения, отзывы пассажиров, их оценки и стоп-листы, чтобы подобрать "более комфортного" водителя. Но было бы интересно узнать "из первых рук".

С Уважением,
Георгий
25 авг 20, 11:15    [22186753]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
.Евгений
Member

Откуда:
Сообщений: 574
George Nordic,

я правильно понял, что вы видите специализацию, эволюцию ХД от общего предка к потомкам большого объема (BD) и скоростного чтения (MPP)?
Кстати, в отношении последних уже прошел бум NoSQL/No ACID?
25 авг 20, 12:04    [22186803]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2748
George Nordic

В принципе, МРР подошел бы и телекому, но они в последнее время, с развитием соответствующего инструментария, предпочитают онлайн-аналитику потоков данных и логов - оценка качества связи / линий / направления звонков / продолжительности звонка и т.д.

во всех телекомах РФ стоят MPP уже лет десять
25 авг 20, 12:48    [22186834]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
.Евгений
George Nordic,
я правильно понял, что вы видите специализацию, эволюцию ХД от общего предка к потомкам большого объема (BD) и скоростного чтения (MPP)? Кстати, в отношении последних уже прошел бум NoSQL/No ACID?

1. Да, вижу движение в этой сторону. Вернее, вижу некое разделение: BD + песочницы для датасатанистов и ODS на МРР для оперативной отчетности и решений задач по оптимизации, в т.ч. многофакторной.
2. А по тут пока не видно ничего - в МРР обычно хранится индексированная структурированная информация, NoSQL тут каким боком?

Бумбараш
во всех телекомах РФ стоят MPP уже лет десять
Это да, и как раз решают вышеприведенные мной задачи, но видно было движение сначала в сторону Splunk, теперь - в сторону Clickhouse (хранение логов и часть онлайн аналитики по логам) + Greenplum / Аренадата для более глубокого анализа. Честно, не видел чтобы там транзакции хранились - это строго на Oracle, но потом поднимаются с МРР. Кстати, несколько участников плотно её занимались, Vovaka (как раз в телекоме - Йоте или МФ, точно не помню), ASCRUS...

С Уважением,
Георгий
25 авг 20, 14:00    [22186909]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
.Евгений
Member

Откуда:
Сообщений: 574
George Nordic
А по тут пока не видно ничего - в МРР обычно хранится индексированная структурированная информация, NoSQL тут каким боком?
DWH/BI на HBase, Cassandra, MongoDB - не сталкивался и не пытался столкнуться, но кое-что слышал, например, где речь идет именно об оперативных данных и скоростных параметрах.
25 авг 20, 23:49    [22187168]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
мигель1
Member

Откуда:
Сообщений: 3216
можно вставлю свои 5 копеек

нет хороших или плохих продуктов, все проблемы от пользователей!

Они все что хотят:

выгрузить всю базу в excel чтобы строить там сводные таблицы и при необходимости продрилиться до записи и исправить цифру


А разрабы думают что сделаем мы мпп и будем джойнить все со всем, а нефига это не работает !
потому что портянки ни она система не любит и вот и сидит "бизнес " на своих олапах
Ибо эксель и ни кликвью ни кликхаус тут не поможет, а поможет https://www.sql-ex.ru/
2 сен 20, 23:33    [22191194]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
мигель1, учить бизнес-пользователя SQL / MDX / DAX - бесполезно. Они-то и со своими непосредственными обязанностями не все справляются, а тут еще такая нагрузка. Да и не все технари, для них это тёмный лес. Поэтому и были придуманы Self-Service BI, чтобы инкапсулировать бизнес-пользователей от разработки, и при этом разгрузить ИТ и аналитический отделы. Но большинство SS BI не переваривает большой объём информации, они каждый раз БД дергают и работают со скоростью отклика от БД. Поэтому и была придумана связка - реляционная БД (быстро пишет, медленно извлекает) или витрины КХД - МРР (обычно в неё медленная запись, так как сразу строится индекс и данные хранятся уже индексируемые и быстроизвлекаемые) и сверху Self-Service BI для издевательств бизнес-пользователей. Ставить МРР "просто так", без вышеуказанных задач онлайн-оптимизации или построения оперативной аналитики - ну, не знаю... хотя, если платят, можно и поэкспериментировать

С Уважением,
Георгий
3 сен 20, 14:00    [22191546]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
George Nordic
мигель1, учить бизнес-пользователя SQL / MDX / DAX - бесполезно


Частично не соглашусь, пользователи вполне обучаемы в части SQL, например, у меня на одной работе было целое управление, которое могло писать запросы к ХД. Я сам сначала воспринял это с большим удивлением, но потом привык.
3 сен 20, 14:04    [22191549]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2748
У биайщиков пользователи никогда не будут уметь в SQL, потому что иначе эти биайщики со своими рисовалками не нужны будут.
3 сен 20, 14:10    [22191552]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
Критик
Частично не соглашусь, пользователи вполне обучаемы в части SQL, например, у меня на одной работе было целое управление, которое могло писать запросы к ХД. Я сам сначала воспринял это с большим удивлением, но потом привык.
Главное - не учить DELETE, BULK INSERT и, возможно, DISTINCT COUNT
Бумбараш
У биайщиков пользователи никогда не будут уметь в SQL, потому что иначе эти биайщики со своими рисовалками не нужны будут.
Но тут такэ.... они же их достанут тогда своими хотелками. Я как раз и рассказываю сейчас про Дата Литераси - не просто так, а как выстроить корпоративную культуру массового распространения аналитики, про переход от аналитического отдела, который становится "бутылочным горлышком" и децентрализованной аналитики (Excel-анархии) до массового использования аналитики и демократизации данных. У нас на проекте за год 1700 аналитических приложений пользователи напаяли, большинство из них прошли сертификацию. Ни один партнёр, ни десять аналитических отделов с подобным объёмом работ бы не справилось - только обучение, институт наставничества, поиск "дата-звёздочек", работа с ними, их поддержка и обучение. Плюс разъяснительная работа про карты показателей, фиксирование ответственных за показатель, базы знаний показателей и расчетов, политики доступа к данным и много чего ещё. Ну и поддержка руководства.

С Уважением,
Георгий
3 сен 20, 15:03    [22191583]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
George Nordic
Главное - не учить DELETE, BULK INSERT и, возможно, DISTINCT COUNT


В основном так, но для особо продвинутых - выделяли отдельную базу-песочницу, где в схеме конкретного пользователя были все нужные права. Там только единственное ограничение было - объекты полугодовой давности подлежали экстерминатусу.

И все довольны, никаких BI-средств, кроме Excel, пользователи не просили )
3 сен 20, 15:22    [22191594]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
a_voronin
Member

Откуда: Москва
Сообщений: 4806
Бумбараш
У биайщиков пользователи никогда не будут уметь в SQL, потому что иначе эти биайщики со своими рисовалками не нужны будут.


Я вот рисовалками никогда не занимался. ETL -- вот сердце BI
3 сен 20, 19:04    [22191719]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
.Евгений
Member

Откуда:
Сообщений: 574
a_voronin
Я вот рисовалками никогда не занимался. ETL -- вот сердце BI

Оно, конечно, да. Но дают обычно за смазливую вебморду и вглубь грудной клетки обычно не влезают, ограничиваясь поверхностной стимуляцией
3 сен 20, 19:12    [22191723]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
a_voronin
Я вот рисовалками никогда не занимался. ETL -- вот сердце BI
Увы, если не будет задачи - никто не будет искать решение. Если есть одна учетная система, никто не будет делать хранилище - все будут данные из ERP дергать и потом Ёхелем ковырять. А вот когда систем несколько... а вот когда нужно хранить историю, а вот когда понадобится получать оперативную отчетность - ну, вы и сами знаете предпосылки к DWH. Следовательно, одна из важнейших задач - объяснить бизнесу, зачем им вообще эта аналитика (под которую нужно DHL / ETL и т.д.). Это очень важно - не пытаться отгрызть кусок от пирога, а сделать ВЕСЬ пирог больше, тогда всем хватит и еще останется. И чем больше в компании пользователей BI, в т.ч. гражданских аналитиков, то тем востребованнее весь стек BI / ETL / DWH / DataLake решений.

С Уважением,
Георгий
3 сен 20, 20:24    [22191753]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: 1 2      [все]
Все форумы / OLAP и DWH Ответить