Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Сравнение СУБД Новый топик    Ответить
Топик располагается на нескольких страницах: 1 2      [все]
 СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
User2155
Member

Откуда:
Сообщений: 150
Всем привет,
есть большая база данных. Ну как большая - 5-6 ТБ, при этом она растет в год примерно на 0,5..1 ТБ. Данные хорошо структурированы, т.е. это реляционная база. Никаких изображений, файлов и проч. - только таблицы с числами и буквами. Из них надо делать витрины, а потом отчетность.

Вопрос:
имеет ли смысл смотреть в сторону Hadoop?
У нас сейчас стоит MS SQL Server + дисковая стойка, где данные распределяются между дисками, т.е. хорошо парралелятся. Даст ли Hadoop какие-то преимущества?

Спасибо.
6 авг 18, 22:22    [21632228]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
mayton
Member

Откуда: loopback
Сообщений: 42501
Процитирую сам себя.

Скорее всего BigData начинается не от количества DataRows/Documents/Tuples.

А от неких других начальных условий. Например:
- данные неструктурированы (грубо говоря нету desc table который даст метаинформацию о том что внутри)
- данные стали историческими (или изменяются настолько редко что этим можно прененбречь)
- есть возможность применить для анализа шаблон "отображение-свёртка" и есть горизонтальное мастабирование
- использование классических реляционных DBMS для анализа этих данных невыгодно по разным причинам
7 авг 18, 00:11    [21632284]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 240
User2155
Всем привет,
есть большая база данных. Ну как большая - 5-6 ТБ, при этом она растет в год примерно на 0,5..1 ТБ. Данные хорошо структурированы, т.е. это реляционная база. Никаких изображений, файлов и проч. - только таблицы с числами и буквами. Из них надо делать витрины, а потом отчетность.

Вопрос:
имеет ли смысл смотреть в сторону Hadoop?
У нас сейчас стоит MS SQL Server + дисковая стойка, где данные распределяются между дисками, т.е. хорошо парралелятся. Даст ли Hadoop какие-то преимущества?

смысл смотреть имеет. 6 тб мсскл в parquet файлах займут 4 тб, которым не нужны дорогие схд, нет расходов на лицензии за каждое ядрышко. если не пожмотитесь на кластер какая-нибудь cloudera impala поверх parquet почти все тб сможет в памяти держать.
7 авг 18, 08:10    [21632379]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL  [new]
SergSuper
Member

Откуда: SPb
Сообщений: 5487
User2155,

начать надо с того, какие у вас сейчас проблемы
7 авг 18, 10:27    [21632539]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 240
SergSuper
начать надо с того, какие у вас сейчас проблемы

проблемы у всех примерно одинаковы, современной процессор это 20- 30 ядер, лицензировать его под взрослую субд - безумие.
7 авг 18, 10:39    [21632553]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
SERG1257
Member

Откуда:
Сообщений: 2665
H5N1
6 тб мсскл в parquet файлах займут 4 тб
Афигеть какой у вас хрустальный шар. А если топикстрартер уже применил columnstore от MS SQL Server, сколько это будет в parquet файлах?
SergSuper
начать надо с того, какие у вас сейчас проблемы
Поддерживаю.
Подозреваю, что топикстартер хочет поучится за счет конторы. Желание понятное и общественно приемлимое.
H5N1
проблемы у всех примерно одинаковы
А давайте сначала послушаем начальника транспортного цеха.
7 авг 18, 17:07    [21633177]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
User2155
Member

Откуда:
Сообщений: 150
SERG1257,

Да, columnstore я уже поставил. Без него мои витрины просто умрут.
Проблемы? Да в общем нет у меня особых проблем, т.к. сервер достаточно мощный, народу там не много.

Просто IT прибежал с воплями "Переходите к нам в Hadoop", а я посмотрел видео обзоры и не нашел там чего-то особенного для себя. Если говорить про отчетность, то вообще геморрой будет, т.к. SSRS, SSAS, PowerBI очень хороши.

Тупо смотрю на новую технологию и думаю надо оно мне или нет?
7 авг 18, 18:31    [21633321]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
tunknown
Member

Откуда:
Сообщений: 692
User2155
Ну как большая - 5-6 ТБ, при этом она растет в год примерно на 0,5..1 ТБ. Данные хорошо структурированы, т.е. это реляционная база. Никаких изображений, файлов и проч. - только таблицы с числами и буквами.
Full backup, видимо тяжеловато делать. Diff/log при таком приросте тоже?
Типы данных везде оптимизированы? Чтобы не тратить место на bigint, где smallint хватит. И nvarchar не везде, если бизнес не транснациональный.
8 авг 18, 09:21    [21633797]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
User2155
Member

Откуда:
Сообщений: 150
tunknown,

full backup как ни странно хорошо сжимает данные, примерно в 4 раза.
Recovery model - simple, т.е. никакого diff/log. Но у меня хранилище, а не боевая OLTP, поэтому нормально.

Сейчас начинаю склоняться к симбиозу Hadoop & MS SQL. Большие таблицы - на Hadoop, дальше их надо как-то подключить к MS SQL (PolyBase или External tables, но не пробовал) и работать вместе.
8 авг 18, 12:13    [21634129]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
halt
Member

Откуда: Отсюда
Сообщений: 1136
mayton
Процитирую сам себя.

Скорее всего BigData начинается не от количества DataRows/Documents/Tuples.

А от неких других начальных условий. Например:
- данные неструктурированы (грубо говоря нету desc table который даст метаинформацию о том что внутри)
- данные стали историческими (или изменяются настолько редко что этим можно прененбречь)
- есть возможность применить для анализа шаблон "отображение-свёртка" и есть горизонтальное мастабирование
- использование классических реляционных DBMS для анализа этих данных невыгодно по разным причинам


1 - а если структурированы, бигдата не начинается?
2 - Да. Но данных обычно много там, где они генерятся каким-то обурудованием, а не вводятся вручную. как правило такие данные н еизменяемые по своей сути.
3 - дело не в шаблоне. Про "есть горизонтальное мастабирование" - не понял. Горизонтальное мастабирование появлятся с приходом хадупа.
4 - деньги по любому нужно считать.
8 авг 18, 16:33    [21634667]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
halt
Member

Откуда: Отсюда
Сообщений: 1136
User2155
Сейчас начинаю склоняться к симбиозу Hadoop & MS SQL. Большие таблицы - на Hadoop, дальше их надо как-то подключить к MS SQL (PolyBase или External tables, но не пробовал) и работать вместе.

При обработке данных средствами Hadoop - вам могут потребоваться данные, которых в Hadoop нет.
8 авг 18, 17:34    [21634788]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
mayton
Member

Откуда: loopback
Сообщений: 42501
halt
1 - а если структурированы, бигдата не начинается?

Вы спросили банальность. Я могу ответить тоже банальностью.
Но зачем это надо? Я не люблю отвечать только да-нет.
Мне становится скушно.

3 - дело не в шаблоне. Про "есть горизонтальное мастабирование" - не понял. Горизонтальное мастабирование появлятся с приходом хадупа.

Горизоньально масштабирование (как я понимаю) это СПОСОБНОСТЬ системы
линейно наращивать свою скорость при линейном добавлении мощностей.

Если в вашей системе ЭТО есть - то вы дружите с Hadoop. Но ПРИХОД Hadoop
в любую вашу систему вовсе не означает что она смасштабируется.

4 - деньги по любому нужно считать.

Непонятно к чему эта фраза. Волга впадает в Каспийское море... Зимой люди топят печки...
8 авг 18, 21:16    [21635000]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
halt
Member

Откуда: Отсюда
Сообщений: 1136
mayton
Вы спросили банальность. Я могу ответить тоже банальностью.
Но зачем это надо? Я не люблю отвечать только да-нет.

Я ничего не спрашивал. Это был риторический вопрос, намекающий на то, что неструктурированность данных не является необходимым условием для бигдаты.
mayton
Горизоньально масштабирование (как я понимаю) это СПОСОБНОСТЬ системы
линейно наращивать свою скорость при линейном добавлении мощностей.
Если в вашей системе ЭТО есть - то вы дружите с Hadoop. Но ПРИХОД Hadoop
в любую вашу систему вовсе не означает что она смасштабируется.

Что вы называете "системой" ?
Что должно быть способно горизонтально масштабироваться у топикстартера до прихода хадупа?
9 авг 18, 08:10    [21635314]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
mayton
Member

Откуда: loopback
Сообщений: 42501
halt, вы хотите чтобы я искал определение системы в контексте?

Возьмите любое из области информатикм и 99% это будет мое.

Мне вообще кажется что вы спорите не для пользы топика а исключительно из желания спорить.
9 авг 18, 08:38    [21635344]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 32291
Блог
User2155,

До 50-70-100 Тб не стоит переходить, та же MS рекомендует переход при достижении объема 100 Тб.
13 авг 18, 15:28    [21640680]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 240
Критик
User2155,

До 50-70-100 Тб не стоит переходить, та же MS рекомендует переход при достижении объема 100 Тб.

бред. дело не в объемах, а в том что мс надо продавать дряхлеющий продукт.
у нас уже на 2-3 тб было полно бенефитов от миграции с оракла.
13 авг 18, 16:08    [21640760]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
Ivan Durak
Member

Откуда: Minsk!!!
Сообщений: 3618
для начала сорсы ты как в dwh закачиваешь?
если репликацией с oltp субд - будет невесело
14 авг 18, 08:26    [21641306]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
Shtock
Member

Откуда: СПб
Сообщений: 3048
а можно про те самые бенефиты, кроме стоимости лицензий?
16 авг 18, 11:11    [21644141]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 240
Shtock
а можно про те самые бенефиты, кроме стоимости лицензий?

ушла прокладка из dba, с которой нужно было биться за каждый гигабайт на сторидже. теперь девелопер запросто делает копию всех данных в свой dev и работает с ними так как считает нужным.
удобней разработка, можно по человечески писать тесты и запускать всякие импалы, спарки и мепредюсы локально в докере
поскольку ресурсы и диски резиновые многие вещи можно решать много проще. например вместо того что бы воротить тучи логики вычисляющие что там в витрине изменилось, можно тупо на каждый чих перестраивать витрину целиком. не оптимально, но чихать, ресурсы бесплатны и они резиновы.
больше стандартных возможностей. читать и писать какие-нибудь сообщения с кафки в риалтаме записывать аггрегации - задачка на часик два и мульен гвайдов. в оракле это был бы суровый проект с тучей неизведанных граблей.
и т.д. и т.п.
16 авг 18, 13:33    [21644430]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
mayton
Member

Откуда: loopback
Сообщений: 42501
Еще через 5 лет поймут что новое - суть забытое старое и всё равно SQL - самый быстрый DSL
для написания отчотов.
16 авг 18, 23:50    [21645202]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 32291
Блог
mayton,

Не через 5, а когда "резиновые диски" кончатся, потому что каждый разраб наворотил на несколько Тб, а потом половина уволилась.
17 авг 18, 10:56    [21645635]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
Ivan Durak
Member

Откуда: Minsk!!!
Сообщений: 3618
mayton
Еще через 5 лет поймут что новое - суть забытое старое и всё равно SQL - самый быстрый DSL
для написания отчотов.

ну доработают спарск sql до ansi sql и всего-то

Так и сейчас самое лучшее что я видел - это хадуп под сырье а витрины в MPP реляционке - а на ней уже отчеты
17 авг 18, 11:09    [21645670]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 240
Критик
Не через 5, а когда "резиновые диски" кончатся, потому что каждый разраб наворотил на несколько Тб, а потом половина уволилась.

во первых диски на то и резиновые, что не кончатся. во вторых дев енвайронмент уволенных сотрудников следует зачищать. но главное - разобраться в вермешелях кода, после того как половина уволилась заметно более сложная задача, чем добавить дисков в кластер.

Ivan Durak
ну доработают спарск sql до ansi sql и всего-то

Так и сейчас самое лучшее что я видел - это хадуп под сырье а витрины в MPP реляционке - а на ней уже отчеты

импала и всякие куды уже очень близки, что бы отчеты сразу по ним гонять.
17 авг 18, 11:41    [21645734]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
Megabyte
Member

Откуда: ближайшее заМКАДье
Сообщений: 4838
H5N1
Критик
Не через 5, а когда "резиновые диски" кончатся, потому что каждый разраб наворотил на несколько Тб, а потом половина уволилась.

во первых диски на то и резиновые, что не кончатся.

В сферической конторе в вакууме с резиновым бюджетом...ага
17 авг 18, 19:41    [21646409]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 240
Megabyte
В сферической конторе в вакууме с резиновым бюджетом...ага

10 тб диск строит 420 евро. один диск уже в двое больше чем у товарища всех данных.
17 авг 18, 21:48    [21646489]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
User2155
Member

Откуда:
Сообщений: 150
Отличная ругалка получилась. Как раз что надо ))

Hadoop буду изучать и смотреть в его сторону, шоп не остаться в стороне от прогресса. Там глядишь, может и взлетит...
19 авг 18, 23:12    [21647433]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)  [new]
Очень лысый
Member

Откуда: БОМЖ
Сообщений: 575
При таком объёме и приросте, я бы лет 5 ближайших не дёргался бы даже. Разве что очень хочется хадуп изучить. Опять таки это если интересно. Ибо сегодня с хадупом носятся как с писаной торбой (хотя ажиотаж уже поулёгся изрядно), а завтра забудут и будут носиться с чем-то другим.
30 авг 18, 21:13    [21659413]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: 1 2      [все]
Все форумы / Сравнение СУБД Ответить