Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Сравнение СУБД Новый топик    Ответить
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
 Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
nateless
Member

Откуда:
Сообщений: 46
Пока сидим на PostgreSQL но встают жуткие проблемы при проходе всей базы, апдейтах, выборках.

Мы храним bitcoin blockchain распарсеный по блокам, транзакциям, входам и выходам и адресам. Почти по всем сущносятм делаются различные аналитические выборки, в то же время в режиме реального времени добавляются новые данные со скоростью примерно 200 тысяч транзакций в сутки, около 1.5M входов столько же выходов. Всего сейчас около 140М транзакций под 400М входов и выходов. При добавлении данных идет обсчет всех значений для к примеру адресов, сколько пришло сколько ушло и так далее. База с индексами весит почти 200 гигов.

Вся БД на одном сервере с 64GB RAM (из которых используется только 10GB) и SSD жесктим диском, на котором только БД.

При аналитических выборках по нашим алгоритмам это все выполняется очень долго. Хотелось бы иметь возможность выбирать любые данные по различным критериям не больше секунды. А так же проводить массовый апдейт.

Думали на тему MemSQL, даже попробовали туда начать экспорт но все равно уперлись примерно в 10к операций в секунду, что для нас очень медленно, кроме того mysql движок наложил ограничения при массовых инсертах он не возвращает id как PostgrSQL что приводит к последующему селекту.
18 мар 16, 18:38    [18950197]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
nateless
Member

Откуда:
Сообщений: 46
PS: Мы готовы рассмотреть вариант докупки до 5 серверов с SSD и 64GB RAM
18 мар 16, 18:44    [18950231]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
nateless
Member

Откуда:
Сообщений: 46
Извинясь за PS, не могу топик изменить что бы добавить данные.

Нам обязательна нужна транзакционность и желательно что бы были нормальные клинеты так как разработка идет на Rails\Elixir и не хотелось бы проблем с сырыми клиентами.
18 мар 16, 18:49    [18950261]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
DirksDR
Member

Откуда: Пермь
Сообщений: 340
nateless,

Противоречивые у Вас требования - чтобы OLTP и OLAP сразу, да еще и бесплатно!
Попробуйте Cache с ее системой онлайн аналитики DeepSee, если рассматриваете платные варианты.
В московском представительстве InterSystems есть технические специалисты, рекомендую с ними пообщаться.
Только сформулируйте задачу поаккуратнее:какие таблицы, колонки, ключи, количество записей в таблицах, количество пользователей, какие запросы, количество запросов на ввод, на запись и пр.
А может, Вам в форум NoSQL, Big Data?
18 мар 16, 21:00    [18950869]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
Yo.!
Guest
nateless,

какие транзакции, какой риалтайм ? это все четкая противоположность концепции биг дата.
18 мар 16, 23:21    [18951499]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
КБС5
Member [заблокирован]

Откуда: BETA
Сообщений: 70
Стебелек сегодня зарелизился. Этот потянет.
Но он в Бете, хоть и с транзакциями. Так что тут еще думать нужно.
18 мар 16, 23:42    [18951577]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
kealon(Ruslan)
Member

Откуда: Нижневартовск
Сообщений: 6643
Yo.!
nateless,

какие транзакции, какой риалтайм ? это все четкая противоположность концепции биг дата.

+1
либо ACID, либо RealTime :-)
19 мар 16, 09:44    [18952328]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
Arm79
Member

Откуда: МО, Раменское
Сообщений: 3697
У PostreSql есть возможность реплицирования. Что мешает OLTP использовать на одном сервере, а аналитику делать на другом?
19 мар 16, 10:36    [18952451]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
Sayan Malakshinov
Member

Откуда: Мск
Сообщений: 5947
Oracle 12.1.0.2 с inmemory option, даже без Real Application Clusters (RAC) с такими объёмом пойдёт...
19 мар 16, 15:36    [18953158]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 35847
Блог
может будет проще заменить SSD?

ps но сначала лучше найти узкое место
20 мар 16, 12:47    [18955100]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
ASCRUS
Member

Откуда: МО Электросталь
Сообщений: 5994
Yo.!
nateless,

какие транзакции, какой риалтайм ? это все четкая противоположность концепции биг дата.

+1 При таких требованиях это не BigData, а ManyRows правильнее уж называть :)

Мне кажется автору стоит не искать лекарство от всех болезней, оставить OLTP на Постгре + рядом поставить какой нибудь колонко-ориентированный сервер и периодически на него переносить изменения с OLTP. Если данных много и обновление хранилищ данных должно вести с высокой периодичностью, то можно и на MPP решения посмотреть.

Смущают правда массовые апдейты. Для хранилищ данных это удар ниже пояса, тяжело апдейты отлавливать в первоисточниках, еще тяжелее их без потери прозрачности схемы данных и производительности в хранилище данных укладывать. Здесь наверное имеет смысл и на OLTP доделать добавление изменений данных во времени как новых записей, чтобы OLTP текущее состояние своих данных поддерживал на апдейтах, но вел историю изменений вставками для их последующего захвата хранилищем данных. А хранилище дальше может их преобразовывать на измерения, меняющиеся во времени и факты, в конечном счете раскладывая по витринам.
20 мар 16, 15:46    [18955542]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
nikolay.kulikov@gmail.com
Guest
Как я понимаю для blockhain из ACID важно только: А и C. Атомарное и консистентное сохранение одного "документа"

Посмотрите в сторону RethinkDB.
21 мар 16, 14:58    [18959265]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
nateless
Member

Откуда:
Сообщений: 46
DirksDR,

Пока хотелось бы остаться на opensource решениях и компенсировать все колл серверов.

Arm79,

Логика наших апдейтов достаточно сложная кроме того сам блокчейн не так прост, в нем есть варианты сайд чейнов, когда майнеры майнят ветку которая потом будет признана не действительной и можно откатить до 6 блоков назад это огромный массив данных и тут либо писать сложную систему отката, либо проводить повторно наши обсчеты с какого-то save point`a. И это только одна из множества проблем. Поэтому думаем как оставить все в одном хранилие и не делать "холодную" / "горячую" базу.

xtender,

Подойдет как? Что Oracle может дать того что не дает PostgreSQL? Есть какие-то метрики которые скажут что мы получи X прирост производительность и у нас не будет проблем с постоянными адпейтами как архивных (старых) так и новых данных?

ASCRUS,

MPP это что? :)

nikolay.kulikov@gmail.com,

Смотрели скорость записи\чтения очень низкая.
21 мар 16, 16:20    [18959716]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
Dimitry Sibiryakov
Member

Откуда:
Сообщений: 54772

nateless
Что Oracle может дать того что не дает PostgreSQL?

Понимание того, что все проблемы вы себе создаёте собственными кривыми руками.

Posted via ActualForum NNTP Server 1.5

21 мар 16, 16:34    [18959802]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
Leonid Kudryavtsev
Member

Откуда:
Сообщений: 9882
nateless
При аналитических выборках по нашим алгоритмам это все выполняется очень долго. Хотелось бы иметь возможность выбирать любые данные по различным критериям не больше секунды.


IMHO Проще всего разнести рабочею БД и БД для аналитике по разным машинам.
Если это действительно аналитика.
nateless
А так же проводить массовый апдейт.

Не знаю,что под этими словами точно скрывается. Но обычно, в реальных системах, именно "массовый апдейт" требуется достаточно редко.

Если частая операция - что то не то в Вашей структуре данных.
21 мар 16, 17:13    [18960083]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
этта
Guest
Leonid Kudryavtsev,

у них она не просто частая, а массовая
по 20--30k версий -- как два байта об асфальт

см тут:

https://www.sql.ru/forum/1202248/ochen-dolgiy-update-na-30m-zapisey?mid=18859272#18859272

т.е. пж тут сосёт
21 мар 16, 17:19    [18960121]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
Leonid Kudryavtsev
Member

Откуда:
Сообщений: 9882
По логике в Oracle с updte'ами и insert'ами должно быть намного полегче. Там даже vacum'ам нет, за ненадобностью )))
21 мар 16, 17:38    [18960211]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
Arm79
Member

Откуда: МО, Раменское
Сообщений: 3697
nateless
Логика наших апдейтов достаточно сложная кроме того сам блокчейн не так прост, в нем есть варианты сайд чейнов, когда майнеры майнят ветку которая потом будет признана не действительной и можно откатить до 6 блоков назад это огромный массив данных и тут либо писать сложную систему отката, либо проводить повторно наши обсчеты с какого-то save point`a. И это только одна из множества проблем. Поэтому думаем как оставить все в одном хранилие и не делать "холодную" / "горячую" базу.

И что? Как это мешает репликации и разнесению нагрузки?
21 мар 16, 17:47    [18960248]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
a_shats
Member

Откуда: Москва
Сообщений: 814
nateless,

На всякий случай.
Как вариант решения железом "в лоб" - 2x E5-2667V3, 16x 32GB LRDIMM 2133MHz, 2x PCI-E SSD типа Intel P3700 серии объемом 400-800 ГБ. Можно и Р3600 серии, но это будет несколько медленнее и на чтение, и на запись.
Тупо, железно, начнет тормозить со временем (по мере роста базы) - но на сейчас задачу решит, относительно близко к желаемым критериям.
21 мар 16, 17:48    [18960258]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
Sayan Malakshinov
Member

Откуда: Мск
Сообщений: 5947
nateless
xtender,

Подойдет как? Что Oracle может дать того что не дает PostgreSQL? Есть какие-то метрики которые скажут что мы получи X прирост производительность и у нас не будет проблем с постоянными адпейтами как архивных (старых) так и новых данных?
То есть вы даже не понимаете как работает PostgreSQL?
В принципе уже дали частичный ответ:
Leonid Kudryavtsev
По логике в Oracle с updte'ами и insert'ами должно быть намного полегче. Там даже vacum'ам нет, за ненадобностью )))
Помимо этого стоит еще добавить, что все будет еще быстрее с Inmemory option, за счет избавления от лишних индексов и векторной обработки:
White paper: Oracle Database In-Memory
In-Memory Acceleration for the Real-Time Enterprise
Помимо этого, думаю еще надо правильно выбрать/продумать схемы секционирования для еще большего ускорения. И еще можно будет дополнительно ускорить с использованием Real Application Cluster(RAC) или хотя бы Active Standby: например, гонять аналитику на второй ноде или на стэндбае.
21 мар 16, 18:23    [18960421]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
nateless
Member

Откуда:
Сообщений: 46
xtender,

К сожалению нет, я не DBA. Спасибо за инфу почитаю. Как я понял RAC уже в платном Оракле, какая там стоимость за год на сервер с 16 ядрами?
21 мар 16, 18:28    [18960444]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
Sayan Malakshinov
Member

Откуда: Мск
Сообщений: 5947
nateless,

имхо рано вам про обычный RAC думать, пока подумайте про RAC one node наверное. По поводу цен да и вообще миграции поговорите с самим Ораклом, я думаю сейлзы/пресейлзы продажи ради и анализ, и тесты вам проведут
21 мар 16, 18:33    [18960464]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
Sayan Malakshinov
Member

Откуда: Мск
Сообщений: 5947
nateless
какая там стоимость за год на сервер с 16 ядрами?
там есть еще вариант и оплаты по NUP'ам, т.е. Named user plus
21 мар 16, 18:35    [18960471]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
iv_an_ru
Member

Откуда: Новосибирск
Сообщений: 20368
nateless,

Virtuoso Open Source ;)
21 мар 16, 19:32    [18960669]     Ответить | Цитировать Сообщить модератору
 Re: Посоветуйте СУБД под BigData с новыми данными в режиме риалтайм.  [new]
a_shats
Member

Откуда: Москва
Сообщений: 814
nateless
Вся БД на одном сервере с 64GB RAM (из которых используется только 10GB) и SSD жесктим диском, на котором только БД.

А почему, если не секрет ?
22 мар 16, 13:28    [18963558]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
Все форумы / Сравнение СУБД Ответить