Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / OLAP и DWH Новый топик    Ответить
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
 MSSQL 2016 или экзотика  [new]
кириллk
Member

Откуда:
Сообщений: 1049
Добрый день! Очень хочу услышать ваше мнение.

Есть OLTP на mssql 2016. Нужно сделать хранилище. объем несколько десятков ТБ с возможностью роста (перспектива)

Есть 2 варианта: 1. сделать на mssql columstore или на экзотике. (Вертика, кликхаус, Impala)

mssql
Плюсы
есть железо и админы и стабильность
Минусы: боссы хотят:
чтобы было современно =колоночную (mssql columstore)
чтобы было надолго. т.е. вариант сделать на mssql, а если не взлетит потом переходить на другое не хотят.

Вопрос с финансами сильно не стоит, т.е . готовы платить
26 июн 17, 08:47    [20589628]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 30486
Блог
посчитайте объем,
посчитайте цену (вертика лицензируется за объем)
прикиньте доступность специалистов

если будете делать на mssql, то для приемлемой производительности ХД нужно делать чисто на инкременте, т.к. columstore очень медленно апдейтится
26 июн 17, 09:16    [20589666]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Полковник.
Member [заблокирован]

Откуда:
Сообщений: 1730
кириллk,

ХД какого плана ? Предполагается только вставка новых данных или перезагрузка данных / update задним числом?

Вертика например только вставка причем БАЛКЛОАДЕРОМ из чего то готового, например из стэйджинга на том же MS SQL, тогда вопрос если есть MS SQL нафига тогда вертика.

Если предполагается апдейт данных, постоянная перезаливка истории за неизвестный период - то только традиционные базы данных это oracle или ms sql.

Колоночное хранения иногда приносит вред а не пользу, с ними нужно быть очень осторожным в использовании, это не панацея а просто полезная фишка.
26 июн 17, 10:02    [20589781]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Alex_496
Member

Откуда: Moscow https://www.dvbi.ru
Сообщений: 3690
exadata им продайте
26 июн 17, 10:22    [20589825]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Alexander Ryndin
Member

Откуда:
Сообщений: 4814
Блог
1. Хранилище в несколько TB на MSSQL редкость
2. По поводу Vertica все правильно сказали - если база довольно большая,то обычно через некоторое время приходят к тому, что перед MPP нужно поставить еще одну базу как stage/ODS
3. Как stage/ODS обычно используют Oracle.
26 июн 17, 11:11    [20589992]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Alexander Ryndin
Member

Откуда:
Сообщений: 4814
Блог
Alexander Ryndin
1. Хранилище в несколько TB на MSSQL редкость
2. По поводу Vertica все правильно сказали - если база довольно большая,то обычно через некоторое время приходят к тому, что перед MPP нужно поставить еще одну базу как stage/ODS
3. Как stage/ODS обычно используют Oracle.

1. В смысле хранилище в несколько десятко ТБ - редкость
26 июн 17, 11:12    [20589997]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1041
Alex_496
exadata им продайте
Добрый вы... Могли и терадату предложить.

По сути - не все же данные будут в поколонке хранится. Т.е разделяйте DHW и ADWH. Все данные можно и на sql хранить. Не все же "десятки ТБ" для аналитики нужны. Т.е. храните все в реляционке, потом переливаете с упорядочиванием в стейдж, а оттуда - балком в поколонку (sql, Vertica, greenplum - у него код открыли, кстати). Если данные упорядочены в соответствии с тем, как они будут хранится в мрр, они должны довольно быстро залетать. Такое вот гибридное хранение. Кстати, в DB2 тоже все это анонсировали.

С Уважением,
Георгий
26 июн 17, 12:13    [20590195]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
vikkiv
Member

Откуда: London
Сообщений: 1582
IMO - не хватает главной информации: нужно оно-то нужно, но для чего? какие цели преследуются? в каких пропорциях/приоритетах? при желании можно и в облако вынести - например в APS (PDW) возможно по необходимости динамически нарастить параллельно железа для ускорения процесса если вдруг что-то медленно работает / поздно стартануло и не успевают в SLA вложиться (к примеру что-то обычно считалось/грузилось за час и вдруг срочно надо за 5 минут)
26 июн 17, 12:18    [20590213]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Sintetik
Member

Откуда: SpB->Msk->...
Сообщений: 9204
и как у вас распределены данные?
обычно 2 варианта
1. много-много предметных областей с более менее равномерным распределением размеров таблиц
2. 1-2-3 таблицы дающие 99,9% объема + куча мелких справочников дающих в сумме 0,1% размера от хранилища

во втором случае почти наверняка такие портянки никому не нужны реально, стараются максимально сагрегировать, а портянки пусть лежат на случай пересчета агрегатов.
28 июн 17, 14:48    [20596882]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
кириллk
Member

Откуда:
Сообщений: 1049
Большое спасибо за ответы.
Попробую ответить на все вопросы
Закзачик ретейлер

Значит хотят, продажи детальные, стоки по дням. вообщем классика. (рядом клиенты )

т.е. 3 большие таблицы которые должны дружить между собой.

Есть FTPS севрер, куда раз в стуки пишутся разные файлики. с продажами, стоками итд.
Данные могут меняться . тогда приходит новый файлик с исправленными данным

===
Разделит DHW и ADWH. не получится. стоки и продажи и нужны детальные для аналитики и занимают 70-75 места%
===
Разговор с терадатой и экзадатой был, по функционалу они похожи, но специалистов больше на oracle
===
Хранилище нужно всем и в магазинах и офисе.
только в магазинах достаточно "плоских" отчетов
А офис хочет растить своих "data scientist"
30 июн 17, 22:02    [20604481]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
кириллk
Member

Откуда:
Сообщений: 1049
кириллk,

Забыл добавить у нас уже есть 2 сервера 1 ТБ оперативки и неограничено по дискам. правда не ssd а простые
30 июн 17, 22:03    [20604485]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 30486
Блог
кириллk
Есть OLTP на mssql 2016

кириллk
специалистов больше на oracle


Делайте на одной платформе, зоопарк вряд-ли кому-то нужен.

У нас на MS SQL. DWH весит в общей сложности около 30Тб с page и columnstore-компрессией.
Это все слои хранилища, включая кубы. Все довольно неплохо работает.

Один сервер отдать под разработку, второй - продуктив.
30 июн 17, 23:45    [20604637]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 30486
Блог
+
Картинка с другого сайта.
1 июл 17, 00:04    [20604648]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Alex_496
Member

Откуда: Moscow https://www.dvbi.ru
Сообщений: 3690
Критик,

осталось только эффективного ЛПР, а лучше ЛДПР найти, который(е) ведутся на такие картинки
1 июл 17, 00:36    [20604666]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 30486
Блог
маркетинг конечно, но и отсюда можно полезную информацию извлечь )
1 июл 17, 00:42    [20604669]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
кириллk
Member

Откуда:
Сообщений: 1049
[quot Критик]
кириллk
Есть OLTP на mssql 2016

кириллk
специалистов больше на oracle


У нас на MS SQL. DWH весит в общей сложности около 30Тб с page и columnstore-компрессией.
Это все слои хранилища, включая кубы. Все довольно неплохо работает.


Честно говоря, я тоже склоняюсь, к mssql на columnstore
Если не секрет:
какое железо, есть ли кластер, сколько процесятся кубы?
2 июл 17, 13:54    [20606799]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 30486
Блог
кириллk,

подробные спецификации запрещено раскрывать,
могу только сказать, что для кубов используем SSD-карточки, по ОЗУ у нас лучше, чем у вас, СХД с возможностью тиринга, то есть в ней имеется кусок на SSD, куда автоматически переползают активно используемые данные
2 июл 17, 14:48    [20606846]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1041
кириллk
Закзачик ретейлер
Значит хотят, продажи детальные, стоки по дням. вообщем классика. (рядом клиенты )

Не понял, а откуда клиенты у ритейлера? У них программа лояльности? Или это дистрибьютор?

Получится у вас побить на DWH и ADWH:

DWH будет хранить исторический данные из POS, на нем будет чековая аналитика, корзины и прогнозирование (результаты которого для удобства анализа также можно кидать в ADWH.
и ADWH будет для клиентской аналитики и ad-hoc запросов/отчетов.

Вести столько чеков в одной системе для чековой аналитики, анализа корзин и прогнозирования - бессмысленно для ритейлера с 30% движениям по SKU Y2Y, если там во весь рост не внедрен категорийный менеджмент. Т.е. данные анализы идут по потребительским свойствам товара, а не по SKU. А 1кг сахарного песка от ООО "Танечка" и ООО "Манечка" - это как раз разные SKU.

В общем, идите от бизнес-требований.

С Уважением,
Георгий.
4 июл 17, 10:31    [20611339]     Ответить | Цитировать Сообщить модератору
Между сообщениями интервал более 1 года.
 Re: MSSQL 2016 или экзотика  [new]
кириллk
Member

Откуда:
Сообщений: 1049
DWH и ADWH

Есть предложение сделать

ODS = Datalake на hadoop, а data vault и витрины на greenplum
или
ODS = Datalake и data vault на hadoop , а витрины на greenplum
27 авг 18, 10:39    [21654643]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 30486
Блог
кириллk,

по greenplum в 2018 году тут было может быть 2-3 вакансии,
уже подумали, где специалистов будете брать?
27 авг 18, 11:34    [21654728]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Barclay
Member

Откуда:
Сообщений: 112
кириллk,
Если по железу нет ограничений, бери SAP HANA, работает колоночно и/или строчно + работает как OLTP и OLAP одновременно + всё держит in-memory.
Данные, которые не нужны, можно пометить как холодные, и держать в т.н. Near Line Storage (NLS) на hadoop, и они будут доступны для запросов. Остальные категории данных помечаются как горячие, и все поднимаются в in-memory (RAM).
Руководство хочет новое, дай им)
27 авг 18, 11:44    [21654746]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1041
кириллk
DWH и ADWH

Ого! За год определились с архитектурой!
George Nordic
Получится у вас побить на DWH и ADWH:

Согласен с Критиком, greenplum - редкий у нас зверь, но спецы знакомые есть.
Чистый Hadoop - тоже непросто запустить, обычно в пром идут поддерживаемые форки.
Посмотрите сюда. Вот базовый пример по анализу корзин (Hadoop->Spark->Qlik).
Могу свести с топовыми ритейлерами - спросите как у них все устроено. Магнит, правда, Teradata использует, но есть и множество других компаний.

Вообще, мне очень часто в голову приходит простой вопрос: вот есть же множество крупных компаний - ритейл, банки.. почему они не создадут сообщество, где на Open Source (ну или OS + что-нибудь проприетарное) не создать базовое решение, которым все будут пользоваться? Кстати, Hadoop + Qlik может подобным примером стать. Лично я готов вложиться по мере сил в подобный пилотный проект.

С Уважением,
Георгий
27 авг 18, 13:04    [21654901]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2046
спецов можно брать с опытом в других мпп - Teradata, Vertica, etc. У нас на гринпламе большая часть рабочих вообще ни с каким мпп не работала, и нормально.

По поводу создать базовое решение на опенсурс - гринплам и так опенсурс. И уже насоздавали всяких кликахусов, тарантулов и т.п.
27 авг 18, 13:34    [21654956]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
кириллk
Member

Откуда:
Сообщений: 1049
George Nordic
кириллk
DWH и ADWH

Ого! За год определились с архитектурой!
George Nordic
Получится у вас побить на DWH и ADWH:

Согласен с Критиком, greenplum - редкий у нас зверь, но спецы знакомые есть.
Чистый Hadoop - тоже непросто запустить, обычно в пром идут поддерживаемые форки.
Посмотрите сюда. Вот базовый пример по анализу корзин (Hadoop->Spark->Qlik).
Могу свести с топовыми ритейлерами - спросите как у них все устроено. Магнит, правда, Teradata использует, но есть и множество других компаний.

Вообще, мне очень часто в голову приходит простой вопрос: вот есть же множество крупных компаний - ритейл, банки.. почему они не создадут сообщество, где на Open Source (ну или OS + что-нибудь проприетарное) не создать базовое решение, которым все будут пользоваться? Кстати, Hadoop + Qlik может подобным примером стать. Лично я готов вложиться по мере сил в подобный пилотный проект.

С Уважением,
Георгий


Я правильно понимаю, что вы сейчас про унифицированную модель данных?
27 авг 18, 13:55    [21654983]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
кириллk
Member

Откуда:
Сообщений: 1049
Бумбараш
спецов можно брать с опытом в других мпп - Teradata, Vertica, etc. У нас на гринпламе большая часть рабочих вообще ни с каким мпп не работала, и нормально.

По поводу создать базовое решение на опенсурс - гринплам и так опенсурс. И уже насоздавали всяких кликахусов, тарантулов и т.п.


и получается кстати неплохо
https://events.yandex.ru/events/b-konf/20-sept-2018/
Яндекс.Облако: аналитическая платформа
27 авг 18, 13:57    [21654986]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
Все форумы / OLAP и DWH Ответить