Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / OLAP и DWH Новый топик    Ответить
Топик располагается на нескольких страницах: 1 2      [все]
 MSSQL 2016 или экзотика  [new]
кириллk
Member

Откуда:
Сообщений: 1049
Добрый день! Очень хочу услышать ваше мнение.

Есть OLTP на mssql 2016. Нужно сделать хранилище. объем несколько десятков ТБ с возможностью роста (перспектива)

Есть 2 варианта: 1. сделать на mssql columstore или на экзотике. (Вертика, кликхаус, Impala)

mssql
Плюсы
есть железо и админы и стабильность
Минусы: боссы хотят:
чтобы было современно =колоночную (mssql columstore)
чтобы было надолго. т.е. вариант сделать на mssql, а если не взлетит потом переходить на другое не хотят.

Вопрос с финансами сильно не стоит, т.е . готовы платить
26 июн 17, 08:47    [20589628]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 30530
Блог
посчитайте объем,
посчитайте цену (вертика лицензируется за объем)
прикиньте доступность специалистов

если будете делать на mssql, то для приемлемой производительности ХД нужно делать чисто на инкременте, т.к. columstore очень медленно апдейтится
26 июн 17, 09:16    [20589666]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Полковник.
Member

Откуда:
Сообщений: 1754
кириллk,

ХД какого плана ? Предполагается только вставка новых данных или перезагрузка данных / update задним числом?

Вертика например только вставка причем БАЛКЛОАДЕРОМ из чего то готового, например из стэйджинга на том же MS SQL, тогда вопрос если есть MS SQL нафига тогда вертика.

Если предполагается апдейт данных, постоянная перезаливка истории за неизвестный период - то только традиционные базы данных это oracle или ms sql.

Колоночное хранения иногда приносит вред а не пользу, с ними нужно быть очень осторожным в использовании, это не панацея а просто полезная фишка.
26 июн 17, 10:02    [20589781]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Alex_496
Member

Откуда:
Сообщений: 3730
exadata им продайте
26 июн 17, 10:22    [20589825]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Alexander Ryndin
Member

Откуда:
Сообщений: 4850
Блог
1. Хранилище в несколько TB на MSSQL редкость
2. По поводу Vertica все правильно сказали - если база довольно большая,то обычно через некоторое время приходят к тому, что перед MPP нужно поставить еще одну базу как stage/ODS
3. Как stage/ODS обычно используют Oracle.
26 июн 17, 11:11    [20589992]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Alexander Ryndin
Member

Откуда:
Сообщений: 4850
Блог
Alexander Ryndin
1. Хранилище в несколько TB на MSSQL редкость
2. По поводу Vertica все правильно сказали - если база довольно большая,то обычно через некоторое время приходят к тому, что перед MPP нужно поставить еще одну базу как stage/ODS
3. Как stage/ODS обычно используют Oracle.

1. В смысле хранилище в несколько десятко ТБ - редкость
26 июн 17, 11:12    [20589997]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1045
Alex_496
exadata им продайте
Добрый вы... Могли и терадату предложить.

По сути - не все же данные будут в поколонке хранится. Т.е разделяйте DHW и ADWH. Все данные можно и на sql хранить. Не все же "десятки ТБ" для аналитики нужны. Т.е. храните все в реляционке, потом переливаете с упорядочиванием в стейдж, а оттуда - балком в поколонку (sql, Vertica, greenplum - у него код открыли, кстати). Если данные упорядочены в соответствии с тем, как они будут хранится в мрр, они должны довольно быстро залетать. Такое вот гибридное хранение. Кстати, в DB2 тоже все это анонсировали.

С Уважением,
Георгий
26 июн 17, 12:13    [20590195]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
vikkiv
Member

Откуда: London
Сообщений: 1687
IMO - не хватает главной информации: нужно оно-то нужно, но для чего? какие цели преследуются? в каких пропорциях/приоритетах? при желании можно и в облако вынести - например в APS (PDW) возможно по необходимости динамически нарастить параллельно железа для ускорения процесса если вдруг что-то медленно работает / поздно стартануло и не успевают в SLA вложиться (к примеру что-то обычно считалось/грузилось за час и вдруг срочно надо за 5 минут)
26 июн 17, 12:18    [20590213]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Sintetik
Member

Откуда: SpB->Msk->...
Сообщений: 9232
и как у вас распределены данные?
обычно 2 варианта
1. много-много предметных областей с более менее равномерным распределением размеров таблиц
2. 1-2-3 таблицы дающие 99,9% объема + куча мелких справочников дающих в сумме 0,1% размера от хранилища

во втором случае почти наверняка такие портянки никому не нужны реально, стараются максимально сагрегировать, а портянки пусть лежат на случай пересчета агрегатов.
28 июн 17, 14:48    [20596882]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
кириллk
Member

Откуда:
Сообщений: 1049
Большое спасибо за ответы.
Попробую ответить на все вопросы
Закзачик ретейлер

Значит хотят, продажи детальные, стоки по дням. вообщем классика. (рядом клиенты )

т.е. 3 большие таблицы которые должны дружить между собой.

Есть FTPS севрер, куда раз в стуки пишутся разные файлики. с продажами, стоками итд.
Данные могут меняться . тогда приходит новый файлик с исправленными данным

===
Разделит DHW и ADWH. не получится. стоки и продажи и нужны детальные для аналитики и занимают 70-75 места%
===
Разговор с терадатой и экзадатой был, по функционалу они похожи, но специалистов больше на oracle
===
Хранилище нужно всем и в магазинах и офисе.
только в магазинах достаточно "плоских" отчетов
А офис хочет растить своих "data scientist"
30 июн 17, 22:02    [20604481]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
кириллk
Member

Откуда:
Сообщений: 1049
кириллk,

Забыл добавить у нас уже есть 2 сервера 1 ТБ оперативки и неограничено по дискам. правда не ssd а простые
30 июн 17, 22:03    [20604485]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 30530
Блог
кириллk
Есть OLTP на mssql 2016

кириллk
специалистов больше на oracle


Делайте на одной платформе, зоопарк вряд-ли кому-то нужен.

У нас на MS SQL. DWH весит в общей сложности около 30Тб с page и columnstore-компрессией.
Это все слои хранилища, включая кубы. Все довольно неплохо работает.

Один сервер отдать под разработку, второй - продуктив.
30 июн 17, 23:45    [20604637]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 30530
Блог
+
Картинка с другого сайта.
1 июл 17, 00:04    [20604648]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Alex_496
Member

Откуда:
Сообщений: 3730
Критик,

осталось только эффективного ЛПР, а лучше ЛДПР найти, который(е) ведутся на такие картинки
1 июл 17, 00:36    [20604666]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 30530
Блог
маркетинг конечно, но и отсюда можно полезную информацию извлечь )
1 июл 17, 00:42    [20604669]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
кириллk
Member

Откуда:
Сообщений: 1049
[quot Критик]
кириллk
Есть OLTP на mssql 2016

кириллk
специалистов больше на oracle


У нас на MS SQL. DWH весит в общей сложности около 30Тб с page и columnstore-компрессией.
Это все слои хранилища, включая кубы. Все довольно неплохо работает.


Честно говоря, я тоже склоняюсь, к mssql на columnstore
Если не секрет:
какое железо, есть ли кластер, сколько процесятся кубы?
2 июл 17, 13:54    [20606799]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 30530
Блог
кириллk,

подробные спецификации запрещено раскрывать,
могу только сказать, что для кубов используем SSD-карточки, по ОЗУ у нас лучше, чем у вас, СХД с возможностью тиринга, то есть в ней имеется кусок на SSD, куда автоматически переползают активно используемые данные
2 июл 17, 14:48    [20606846]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1045
кириллk
Закзачик ретейлер
Значит хотят, продажи детальные, стоки по дням. вообщем классика. (рядом клиенты )

Не понял, а откуда клиенты у ритейлера? У них программа лояльности? Или это дистрибьютор?

Получится у вас побить на DWH и ADWH:

DWH будет хранить исторический данные из POS, на нем будет чековая аналитика, корзины и прогнозирование (результаты которого для удобства анализа также можно кидать в ADWH.
и ADWH будет для клиентской аналитики и ad-hoc запросов/отчетов.

Вести столько чеков в одной системе для чековой аналитики, анализа корзин и прогнозирования - бессмысленно для ритейлера с 30% движениям по SKU Y2Y, если там во весь рост не внедрен категорийный менеджмент. Т.е. данные анализы идут по потребительским свойствам товара, а не по SKU. А 1кг сахарного песка от ООО "Танечка" и ООО "Манечка" - это как раз разные SKU.

В общем, идите от бизнес-требований.

С Уважением,
Георгий.
4 июл 17, 10:31    [20611339]     Ответить | Цитировать Сообщить модератору
Между сообщениями интервал более 1 года.
 Re: MSSQL 2016 или экзотика  [new]
кириллk
Member

Откуда:
Сообщений: 1049
DWH и ADWH

Есть предложение сделать

ODS = Datalake на hadoop, а data vault и витрины на greenplum
или
ODS = Datalake и data vault на hadoop , а витрины на greenplum
27 авг 18, 10:39    [21654643]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 30530
Блог
кириллk,

по greenplum в 2018 году тут было может быть 2-3 вакансии,
уже подумали, где специалистов будете брать?
27 авг 18, 11:34    [21654728]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Barclay
Member

Откуда:
Сообщений: 116
кириллk,
Если по железу нет ограничений, бери SAP HANA, работает колоночно и/или строчно + работает как OLTP и OLAP одновременно + всё держит in-memory.
Данные, которые не нужны, можно пометить как холодные, и держать в т.н. Near Line Storage (NLS) на hadoop, и они будут доступны для запросов. Остальные категории данных помечаются как горячие, и все поднимаются в in-memory (RAM).
Руководство хочет новое, дай им)
27 авг 18, 11:44    [21654746]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1045
кириллk
DWH и ADWH

Ого! За год определились с архитектурой!
George Nordic
Получится у вас побить на DWH и ADWH:

Согласен с Критиком, greenplum - редкий у нас зверь, но спецы знакомые есть.
Чистый Hadoop - тоже непросто запустить, обычно в пром идут поддерживаемые форки.
Посмотрите сюда. Вот базовый пример по анализу корзин (Hadoop->Spark->Qlik).
Могу свести с топовыми ритейлерами - спросите как у них все устроено. Магнит, правда, Teradata использует, но есть и множество других компаний.

Вообще, мне очень часто в голову приходит простой вопрос: вот есть же множество крупных компаний - ритейл, банки.. почему они не создадут сообщество, где на Open Source (ну или OS + что-нибудь проприетарное) не создать базовое решение, которым все будут пользоваться? Кстати, Hadoop + Qlik может подобным примером стать. Лично я готов вложиться по мере сил в подобный пилотный проект.

С Уважением,
Георгий
27 авг 18, 13:04    [21654901]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2098
спецов можно брать с опытом в других мпп - Teradata, Vertica, etc. У нас на гринпламе большая часть рабочих вообще ни с каким мпп не работала, и нормально.

По поводу создать базовое решение на опенсурс - гринплам и так опенсурс. И уже насоздавали всяких кликахусов, тарантулов и т.п.
27 авг 18, 13:34    [21654956]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
кириллk
Member

Откуда:
Сообщений: 1049
George Nordic
кириллk
DWH и ADWH

Ого! За год определились с архитектурой!
George Nordic
Получится у вас побить на DWH и ADWH:

Согласен с Критиком, greenplum - редкий у нас зверь, но спецы знакомые есть.
Чистый Hadoop - тоже непросто запустить, обычно в пром идут поддерживаемые форки.
Посмотрите сюда. Вот базовый пример по анализу корзин (Hadoop->Spark->Qlik).
Могу свести с топовыми ритейлерами - спросите как у них все устроено. Магнит, правда, Teradata использует, но есть и множество других компаний.

Вообще, мне очень часто в голову приходит простой вопрос: вот есть же множество крупных компаний - ритейл, банки.. почему они не создадут сообщество, где на Open Source (ну или OS + что-нибудь проприетарное) не создать базовое решение, которым все будут пользоваться? Кстати, Hadoop + Qlik может подобным примером стать. Лично я готов вложиться по мере сил в подобный пилотный проект.

С Уважением,
Георгий


Я правильно понимаю, что вы сейчас про унифицированную модель данных?
27 авг 18, 13:55    [21654983]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
кириллk
Member

Откуда:
Сообщений: 1049
Бумбараш
спецов можно брать с опытом в других мпп - Teradata, Vertica, etc. У нас на гринпламе большая часть рабочих вообще ни с каким мпп не работала, и нормально.

По поводу создать базовое решение на опенсурс - гринплам и так опенсурс. И уже насоздавали всяких кликахусов, тарантулов и т.п.


и получается кстати неплохо
https://events.yandex.ru/events/b-konf/20-sept-2018/
Яндекс.Облако: аналитическая платформа
27 авг 18, 13:57    [21654986]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1045
Бумбараш
И уже насоздавали всяких кликахусов, тарантулов и т.п.
Да я не про то, а про готовые профильные решения. Т.е. анализ чеков / корзин / поведенческих моделей, анализ акций, прогнозирование и т.д.

С Уважением,
Георгий
27 авг 18, 14:12    [21655009]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1045
кириллk
и получается кстати неплохо
Кстати да. Пока, конечно, заточено на веб-аналитику, но посмотрим-посмотрим. Хороший задел.
кириллk
Я правильно понимаю, что вы сейчас про унифицированную модель данных?
Ну, чек и есть чек, какая там модель данных. Интересно, с чем их клеить - раз: погода / музыка в зале / акции / себестоимость. Во-вторых, категорийный менеджмент - выявление товаров со схожими потребительскими свойствами и прогнозирование в данных разрезах. Ну и упомянутые готовые решения, интересные множеству ритейлеров. Автозаказ, соблюдения SLA поставщиками, уровень сервиса... Да сотни и тысячи задач. А учитывая новые возможности по идентификации потребителя - ну дух захватывает.

С Уважением,
Георгий
27 авг 18, 14:19    [21655019]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
tunknown
Member

Откуда:
Сообщений: 546
George Nordic
А учитывая новые возможности по идентификации потребителя - ну дух захватывает.
Не делай другому того, чего не хочешь себе. Вы не против, чтобы вас тоже идентифицировали?
28 авг 18, 09:46    [21655738]     Ответить | Цитировать Сообщить модератору
 Re: MSSQL 2016 или экзотика  [new]
George Nordic
Member

Откуда: Moscow
Сообщений: 1045
tunknown
Не делай другому того, чего не хочешь себе. Вы не против, чтобы вас тоже идентифицировали?
Меня, и не только, всех давно идентифицировали. В 2010 я думал, этот процесс пойдет быстрее, но и так прогресс уже виден.

Выложил 2 свои презентации - 2010 и 2017 года.
В 2010 я думал, что покупателя будет легко идентифицировать по NFC, но легче оказалось по MAC - WiFi у многих включен по умолчанию.

Итак, презентация 2011 года "Точная розница" - это видение будущего, как можно идентифицировать клиента. Вступление взял из "Особого Мнения" Ф.К. Дика. А в 2017 - уже результаты проекта, когда в аэропорту собирается информация с телефонов, которые пытаются подключиться к WiFi - ловушкам (в данном случае инет не раздавался, просто были точки, которые фиксировали попытки подключения. См. со слайда 14 - до этого сплошной маркетинг. В итоге, датчики трекают перемещение посетителей по залу и гейт, через который они выходили (следовательно, и рейс). Накладываются чеки, и, если люди с рейса были в данном магазине у кассы когда произошла продажа, можно с большой долей вероятности утверждать, что чек пробит пассажиром с данного рейса. В любом случае, подобные технологии дают путь к идентицикации потребителя (особенно если дать ему доступ в инет) - оставим пока за рамками вопросы морального плана и персональных данных. Главное - технология уже есть и обкатывается. Таким образом, если объединить данные телеком-оператора (где был абонент), банка (где он потратил деньги) и ритейлера (что он купил в рамках данной транзакции) - мы можем получить полную корзину потребительских предпочтений и поведенческой модели потребителя. Ну, пока еще не "здравствуй, 1984", но синергия получается страшноватая.

А сейчас, уважаемый tunknown, у телекома и так есть данные, где и когда вы были, и какой и чей телефон был с Вами рядом, включая поход в ресторан и ночное время. Вопрос, как этой информацией распорядится. Но это уже моральный вопрос больше, вряд ли его стоит обсуждать в рамках данной дискуссии, лучше отдельной темой - он довольно животрепещущий, так как мы сами способствуем созданию подобных решений.

С Уважением,
Георгий
28 авг 18, 11:23    [21655869]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: 1 2      [все]
Все форумы / OLAP и DWH Ответить