Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / OLAP и DWH Новый топик    Ответить
Топик располагается на нескольких страницах: Ctrl  назад   1 [2]      все
 Re: MPP Databases  [new]
.Евгений
Member

Откуда:
Сообщений: 574
По теме: какие есть мнения относительно критериев целесообразности применения МРР вместо обычных СУБД?

Например, факты от млрд. строк, и т.п.
23 авг 20, 15:15    [22185890]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
.Евгений,

Самое большое мое ХД содержало чуть меньше 20 Тб данных, но там было колоночное хранение в самых объемных таблицах. При этом нагрузка на cpu было в среднем 20%.

Так что переходить на mpp я бы подумал, когда сжатый объем дорастет до 50Тб, или где-то 200 Тб csv-данных. Или если будет обоснованное требование легкой горизонтальной масштабируемости, которая будет нужна для чего-то там. Для обычных организаций это не нужно, а вот всякие соцсети, где нагрузка может расти кратно - самое то.
23 авг 20, 18:44    [22185957]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2748
.Евгений
По теме: какие есть мнения относительно критериев целесообразности применения МРР вместо обычных СУБД?

Например, факты от млрд. строк, и т.п.


если у вас хранилище, то используйте MPP. Вот и весь критерий.

"Обычная СУБД" сделана под OLTP нагрузку. А MPP под OLAP
23 авг 20, 19:23    [22185974]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 377
.Евгений
По теме: какие есть мнения относительно критериев целесообразности применения МРР вместо обычных СУБД?

Например, факты от млрд. строк, и т.п.

есть мнение, что все всегда упирается в цену. лицензировать каждое ядрышко в обычных субд зачастую просто по деньгам теряет смысл. собственно отсюда и желание везде бигдату натолкать.
23 авг 20, 19:41    [22185981]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
.Евгений
Member

Откуда:
Сообщений: 574
Бумбараш
если у вас хранилище, то используйте MPP. Вот и весь критерий.

Насколько я могу судить, чисто количественно большинство ХД сделаны на обычных SQL серверах: MS, Oracle и т.п. Недавно здесь даже про MySQL упоминали.
Критик
Так что переходить на mpp я бы подумал, когда сжатый объем дорастет до 50Тб, или где-то 200 Тб csv-данных.

Если с масштабируемостью все понятно, то общий объем данных мне кажется слабым критерием. Значительная часть объема может, например, относиться к историческим данным и использоваться крайне редко. Данные могут храниться в огромных денормализованных простынях или совсем наоборот - в десятках тысяч таблиц 6-й НФ (и сжиматься будут совершенно по-разному). Есть даталейки, куда можно залить 500 фильмов 4К общим объемом >50Тб и 100 Кб метаданных.
23 авг 20, 22:17    [22186040]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2748
.Евгений

Насколько я могу судить, чисто количественно большинство ХД сделаны на обычных SQL серверах: MS, Oracle и т.п. Недавно здесь даже про MySQL упоминали.

Большинство хранилищ в РФ сделаны до того, как здесь появилсь MPP базы. Некоторые MPP лет 15 назад появились в бета версии только.

Другие причины использвания обычных СУБД:

Если хранилище маленькое, то профита от MPP можно не увидеть. И когда у тебя вокруг хранилища стоят десять MS SQL, то проще взять MS SQL. Они будут проще интегрироваться, например.

Может быть чел-начальник, который отвечает за выбор, вообще ничего не выбирает. Он просто делает всё на оракле, как делал это 50 лет до этого. Может быть у организации уже есть набор лицензий, который ей проще использовать. Может быть у них весь штат - ораклисты 50+, которые любой новой технологии сопротивляются, как будто Осовец защищают.

А я написал простое решение, если нет никаких этих связующих обстоятельств. Выбирать для хранилища базу, созданную специально для хранилищ. Самое естественное решение.
24 авг 20, 02:06    [22186100]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
.Евгений
По теме: какие есть мнения относительно критериев целесообразности применения МРР вместо обычных СУБД?
Думаю, все зависит от задачи. Все-таки, МРР больше предназначена для ADWH / ODS, чем для "кладбища данных" / HDS. Кстати, согласно исследованиям, 68-73% данных, попадающих в хранилище, никогда не используются. Держать данные в "горячей" доступности - очень недешевое удовольствие, надо понимать зачем это нужно:

  • Понятно зачем МРР (тот же Exasol) Ситимобайлу - надо знать, где какая машина, чтобы оперативно предложить подходящий подходящий вариант клиенту - выслать предложение таксистам недалеко от места вызова, или которые скоро закончат поездку в данном районе и предложить варианты клиенту, спрогнозировать спрос, оптимизировать логистику и распределение машин, рассчитать стоимость поездки и комиссионные.
  • Понятно, зачем МРР Байде и прочим Тиндерам - показать варианты, основываясь на ряде совпадающих параметров / интересов и предыдущем опыте / рейтинге.
  • Понятно, зачем МРР банкам: онлайн формирование персонализированных предложений (Next Best Offer), онлайн-скорринг, кредитный конвейер, система лояльности, выявление склонных к оттоку клиентов, возможно - решение части фродовых задач или тюнинг фрод-параметров.
  • Понятно, зачем МРР крупным интернет-магазинам: помощь в формировании корзины, Next Best Offer "вам понравится / с этим товаром берут", лояльность, отток.
В принципе, МРР подошел бы и телекому, но они в последнее время, с развитием соответствующего инструментария, предпочитают онлайн-аналитику потоков данных и логов - оценка качества связи / линий / направления звонков / продолжительности звонка и т.д.

Я не очень понимаю, зачем МРР использовать для хранения дикого объёма исторических данных. А вот BigData для этого вполне подходит, так как стоимость хранения данных там сильно ниже.

Поэтому мы и видим подобное разделение - часть данных в BD (пусть будет, потом разберемся / HDS), часть - в быстрый ODS, который можно реализовать с помощью МРР-технологии.

С Уважением,
Георгий
25 авг 20, 10:20    [22186729]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
George Nordic
[li]Понятно зачем МРР (тот же Exasol) Ситимобайлу - надо знать, где какая машина, чтобы оперативно предложить подходящий подходящий вариант клиенту - выслать предложение таксистам недалеко от места вызова, или которые скоро закончат поездку в данном районе и предложить варианты клиенту, спрогнозировать спрос, оптимизировать логистику и распределение машин, рассчитать стоимость поездки и комиссионные.


Вот уж не знаю, я прочитал про них - 2000 машин и 2.4 млн поездок в месяц в 2018, пусть даже сейчас больше в 2 раза... Что там можно считать на mpp? Для примера - лет 10 назад у Связного было 3000 магазинов и тогда вполне нормально справлялся 1 весьма слабенький сервер..

Но инвесторы у Ситимобайла - tele2 и mail.ru, поэтому скорее всего просто шла проба технологии для какой-то из этих 2х компаний.

Если есть тут кто-то из Ситимобайла, то было бы весьма интересно узнать, что вы там умудряетесь хранить на 100 Тб?
25 авг 20, 10:58    [22186746]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
Критик
Но инвесторы у Ситимобайла - tele2 и mail.ru, поэтому скорее всего просто шла проба технологии для какой-то из этих 2х компаний.
Вполне может быть, кстати.
Критик
Если есть тут кто-то из Ситимобайла, то было бы весьма интересно узнать, что вы там умудряетесь хранить на 100 Тб?
Да, тоже интересно. Но, имхо, можно хранить много параметров (вместимость, есть ли детское кресло/кресла, можно ли брать на доставку грузов / еды, перевозит ли животных - хотя это копейки данных) и телематику - разгон/торможение, расход бензина, музыку в салоне и т.д., для оценки водителей и стилей вождения, отзывы пассажиров, их оценки и стоп-листы, чтобы подобрать "более комфортного" водителя. Но было бы интересно узнать "из первых рук".

С Уважением,
Георгий
25 авг 20, 11:15    [22186753]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
.Евгений
Member

Откуда:
Сообщений: 574
George Nordic,

я правильно понял, что вы видите специализацию, эволюцию ХД от общего предка к потомкам большого объема (BD) и скоростного чтения (MPP)?
Кстати, в отношении последних уже прошел бум NoSQL/No ACID?
25 авг 20, 12:04    [22186803]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2748
George Nordic

В принципе, МРР подошел бы и телекому, но они в последнее время, с развитием соответствующего инструментария, предпочитают онлайн-аналитику потоков данных и логов - оценка качества связи / линий / направления звонков / продолжительности звонка и т.д.

во всех телекомах РФ стоят MPP уже лет десять
25 авг 20, 12:48    [22186834]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
.Евгений
George Nordic,
я правильно понял, что вы видите специализацию, эволюцию ХД от общего предка к потомкам большого объема (BD) и скоростного чтения (MPP)? Кстати, в отношении последних уже прошел бум NoSQL/No ACID?

1. Да, вижу движение в этой сторону. Вернее, вижу некое разделение: BD + песочницы для датасатанистов и ODS на МРР для оперативной отчетности и решений задач по оптимизации, в т.ч. многофакторной.
2. А по тут пока не видно ничего - в МРР обычно хранится индексированная структурированная информация, NoSQL тут каким боком?

Бумбараш
во всех телекомах РФ стоят MPP уже лет десять
Это да, и как раз решают вышеприведенные мной задачи, но видно было движение сначала в сторону Splunk, теперь - в сторону Clickhouse (хранение логов и часть онлайн аналитики по логам) + Greenplum / Аренадата для более глубокого анализа. Честно, не видел чтобы там транзакции хранились - это строго на Oracle, но потом поднимаются с МРР. Кстати, несколько участников плотно её занимались, Vovaka (как раз в телекоме - Йоте или МФ, точно не помню), ASCRUS...

С Уважением,
Георгий
25 авг 20, 14:00    [22186909]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
.Евгений
Member

Откуда:
Сообщений: 574
George Nordic
А по тут пока не видно ничего - в МРР обычно хранится индексированная структурированная информация, NoSQL тут каким боком?
DWH/BI на HBase, Cassandra, MongoDB - не сталкивался и не пытался столкнуться, но кое-что слышал, например, где речь идет именно об оперативных данных и скоростных параметрах.
25 авг 20, 23:49    [22187168]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
мигель1
Member

Откуда:
Сообщений: 3216
можно вставлю свои 5 копеек

нет хороших или плохих продуктов, все проблемы от пользователей!

Они все что хотят:

выгрузить всю базу в excel чтобы строить там сводные таблицы и при необходимости продрилиться до записи и исправить цифру


А разрабы думают что сделаем мы мпп и будем джойнить все со всем, а нефига это не работает !
потому что портянки ни она система не любит и вот и сидит "бизнес " на своих олапах
Ибо эксель и ни кликвью ни кликхаус тут не поможет, а поможет https://www.sql-ex.ru/
2 сен 20, 23:33    [22191194]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
мигель1, учить бизнес-пользователя SQL / MDX / DAX - бесполезно. Они-то и со своими непосредственными обязанностями не все справляются, а тут еще такая нагрузка. Да и не все технари, для них это тёмный лес. Поэтому и были придуманы Self-Service BI, чтобы инкапсулировать бизнес-пользователей от разработки, и при этом разгрузить ИТ и аналитический отделы. Но большинство SS BI не переваривает большой объём информации, они каждый раз БД дергают и работают со скоростью отклика от БД. Поэтому и была придумана связка - реляционная БД (быстро пишет, медленно извлекает) или витрины КХД - МРР (обычно в неё медленная запись, так как сразу строится индекс и данные хранятся уже индексируемые и быстроизвлекаемые) и сверху Self-Service BI для издевательств бизнес-пользователей. Ставить МРР "просто так", без вышеуказанных задач онлайн-оптимизации или построения оперативной аналитики - ну, не знаю... хотя, если платят, можно и поэкспериментировать

С Уважением,
Георгий
3 сен 20, 14:00    [22191546]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
George Nordic
мигель1, учить бизнес-пользователя SQL / MDX / DAX - бесполезно


Частично не соглашусь, пользователи вполне обучаемы в части SQL, например, у меня на одной работе было целое управление, которое могло писать запросы к ХД. Я сам сначала воспринял это с большим удивлением, но потом привык.
3 сен 20, 14:04    [22191549]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2748
У биайщиков пользователи никогда не будут уметь в SQL, потому что иначе эти биайщики со своими рисовалками не нужны будут.
3 сен 20, 14:10    [22191552]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
Критик
Частично не соглашусь, пользователи вполне обучаемы в части SQL, например, у меня на одной работе было целое управление, которое могло писать запросы к ХД. Я сам сначала воспринял это с большим удивлением, но потом привык.
Главное - не учить DELETE, BULK INSERT и, возможно, DISTINCT COUNT
Бумбараш
У биайщиков пользователи никогда не будут уметь в SQL, потому что иначе эти биайщики со своими рисовалками не нужны будут.
Но тут такэ.... они же их достанут тогда своими хотелками. Я как раз и рассказываю сейчас про Дата Литераси - не просто так, а как выстроить корпоративную культуру массового распространения аналитики, про переход от аналитического отдела, который становится "бутылочным горлышком" и децентрализованной аналитики (Excel-анархии) до массового использования аналитики и демократизации данных. У нас на проекте за год 1700 аналитических приложений пользователи напаяли, большинство из них прошли сертификацию. Ни один партнёр, ни десять аналитических отделов с подобным объёмом работ бы не справилось - только обучение, институт наставничества, поиск "дата-звёздочек", работа с ними, их поддержка и обучение. Плюс разъяснительная работа про карты показателей, фиксирование ответственных за показатель, базы знаний показателей и расчетов, политики доступа к данным и много чего ещё. Ну и поддержка руководства.

С Уважением,
Георгий
3 сен 20, 15:03    [22191583]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
George Nordic
Главное - не учить DELETE, BULK INSERT и, возможно, DISTINCT COUNT


В основном так, но для особо продвинутых - выделяли отдельную базу-песочницу, где в схеме конкретного пользователя были все нужные права. Там только единственное ограничение было - объекты полугодовой давности подлежали экстерминатусу.

И все довольны, никаких BI-средств, кроме Excel, пользователи не просили )
3 сен 20, 15:22    [22191594]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
a_voronin
Member

Откуда: Москва
Сообщений: 4806
Бумбараш
У биайщиков пользователи никогда не будут уметь в SQL, потому что иначе эти биайщики со своими рисовалками не нужны будут.


Я вот рисовалками никогда не занимался. ETL -- вот сердце BI
3 сен 20, 19:04    [22191719]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
.Евгений
Member

Откуда:
Сообщений: 574
a_voronin
Я вот рисовалками никогда не занимался. ETL -- вот сердце BI

Оно, конечно, да. Но дают обычно за смазливую вебморду и вглубь грудной клетки обычно не влезают, ограничиваясь поверхностной стимуляцией
3 сен 20, 19:12    [22191723]     Ответить | Цитировать Сообщить модератору
 Re: MPP Databases  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1167
a_voronin
Я вот рисовалками никогда не занимался. ETL -- вот сердце BI
Увы, если не будет задачи - никто не будет искать решение. Если есть одна учетная система, никто не будет делать хранилище - все будут данные из ERP дергать и потом Ёхелем ковырять. А вот когда систем несколько... а вот когда нужно хранить историю, а вот когда понадобится получать оперативную отчетность - ну, вы и сами знаете предпосылки к DWH. Следовательно, одна из важнейших задач - объяснить бизнесу, зачем им вообще эта аналитика (под которую нужно DHL / ETL и т.д.). Это очень важно - не пытаться отгрызть кусок от пирога, а сделать ВЕСЬ пирог больше, тогда всем хватит и еще останется. И чем больше в компании пользователей BI, в т.ч. гражданских аналитиков, то тем востребованнее весь стек BI / ETL / DWH / DataLake решений.

С Уважением,
Георгий
3 сен 20, 20:24    [22191753]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: Ctrl  назад   1 [2]      все
Все форумы / OLAP и DWH Ответить