Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Сравнение СУБД Новый топик    Ответить
 Выбор БД для веб-аналитики  [new]
Oachkatzlschwoaf
Member

Откуда:
Сообщений: 4
Привет!

У меня следующая задача: моя система собирает в день ~300M хитов с разных сайтов.
Каждый клик задается: временем, id пользователя, типом хита (рекламный или обычный), адресом страницы, id сайта.

Так же есть массив пользователей ~200M, про которых известно пол, возрастная группа, страна.

Требуется спроектировать систему, которая на основании данных по хитам могла бы реал-тайм выдавать отчеты о хитах различных групп пользователей.

Например: построить график по хитам для девушек 15-20 и 35-40 из России с октября по сентябрь.

Какую БД, решение вы советуете для этого выбрать?

Сам я изучаю возможность применения HBase.
4 авг 11, 21:31    [11073409]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74930
Такие графики не строят по "сырым данным" а делают кубики (сегментирование) с использованием какого-нибудь OLAP сервера.

автор
моя система собирает в день ~300M хитов с разных сайтов ... Так же есть массив пользователей ~200M


И на чем все это крутится?

ЗЫ. Omniture-2 хотите написать?!
4 авг 11, 21:42    [11073437]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
Oachkatzlschwoaf
Member

Откуда:
Сообщений: 4
Окей, что можете посоветовать под OLAP? Лучше всего opensource решение.
Кстати используется ли OLAP в хадуп решениях?

Речь идет о внутреннем сервисе, просто очень критично время выдачи данных - это должен быть realtime, без часового ожидания отчетов :-)
4 авг 11, 21:52    [11073461]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74930
автор
Окей, что можете посоветовать под OLAP? Лучше всего opensource решение.


opensource решение (в Вашем понимании) == бесплатность?
4 авг 11, 21:57    [11073468]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74930
автор
хадуп решениях


А это то Вам зачем?! Кубик у Вас будет небольшой, учитывая количество возможных срезов аналитики.
4 авг 11, 22:00    [11073480]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
Dimitry Sibiryakov
Member

Откуда:
Сообщений: 54772

Oachkatzlschwoaf
моя система собирает в день ~300M хитов с разных сайтов.
Так же есть массив пользователей ~200M

Т.е. каждый пользователь делает полтора клика в день. Эта система действительно работает
или это очередной прожект с высованными из пальцы цифрами?

Posted via ActualForum NNTP Server 1.4

4 авг 11, 22:07    [11073501]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74930
Dimitry Sibiryakov,

Если бы у него была "такая система" - не было бы у него таких вопросов.
4 авг 11, 22:11    [11073511]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
Oachkatzlschwoaf
Member

Откуда:
Сообщений: 4
Да, это система для одного из действующих веб-ресурсов.

200M пользователей это месячные уники MAU. 300M хитов - это дневные данные, в среднем в день ресурс имеет 2M уников DAU.

Да, в первую очередь, меня интересуют бесплатные решения, под свободными лицензиями.

В сторону хадупа я начал думать, т.к. его использует Facebook в том числе для анализа статистики посредством Hive. Но Hive работает достаточно медленно для получения данных, а для меня важен реалтайм.

Если вы посоветуете статьи по построению и аналитике с помощью OLAP буду очень благодарен. И конечно, жду помощи для выбора базы данных под такую задачу :-)
4 авг 11, 23:02    [11073648]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
SERG1257
Member

Откуда:
Сообщений: 2931
https://www.sql.ru/forum/actualtopics.aspx?bid=26
5 авг 11, 03:41    [11074041]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
Oachkatzlschwoaf
Member

Откуда:
Сообщений: 4
Что можете сказать о Mondrian?

Какую в данном случае лучше выбрать БД для хранения данных?
5 авг 11, 17:07    [11077967]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
svnv
Member

Откуда:
Сообщений: 208
Oachkatzlschwoaf
Какую в данном случае лучше выбрать БД для хранения данных?

http://en.wikipedia.org/wiki/Column-oriented_DBMS
7 авг 11, 22:41    [11083272]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
AAron
Member

Откуда: Москва
Сообщений: 4324
open source - вряд ли, я бы попробовал MOLAP - SQL Server, Essbase, Cognos
7 авг 11, 23:06    [11083314]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
Apex
Member

Откуда: Made in USSR
Сообщений: 3910
pkarklin
Такие графики не строят по "сырым данным" а делают кубики (сегментирование) с использованием какого-нибудь OLAP сервера.

Что значит "сырые данные", что мешает по данным, которые привел автор построить эти графики? Почему в качестве пояснения для слова "кубики" в скобочках стоит "сегментирование"?
8 авг 11, 01:11    [11083483]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74930
Apex,

Потому что "для девушек 15-20 и 35-40 из России" в WEB-аналитике называется сегментированием. И, судя по стартовому посту автора таких сегментов вырисовывается немного, кубик, действиетльно будет небольшим и желаемый отчет по такому кубику может быть получен молниеносно, чем долго и упорно нехилым железом молотить данные за несколько месяцев.

А кубик обновлять раз в день, инкрементально. Тоже не сильно адская задача.
8 авг 11, 12:47    [11085127]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
vadiminfo
Member

Откуда: Обнинск
Сообщений: 4802
AAron
я бы попробовал MOLAP - SQL Server, Essbase, Cognos

А я юзау Оракл с Йекселем. Но это наверное не для инета, так заказчика захотел. Но есть типа JDeveloper, там Бины для Олапа есть.
8 авг 11, 15:00    [11086153]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
Apex
Member

Откуда: Made in USSR
Сообщений: 3910
pkarklin
Потому что "для девушек 15-20 и 35-40 из России" в WEB-аналитике называется сегментированием. И, судя по стартовому посту автора таких сегментов вырисовывается немного, кубик, действиетльно будет небольшим и желаемый отчет по такому кубику может быть получен молниеносно, чем долго и упорно нехилым железом молотить данные за несколько месяцев.

Тогда уже не сегментирование, а сегментация и не в вэб-аналитике, а в маркетинге вообще. И к кубикам (читай к реализации) все это имеет косвенное отношение.
8 авг 11, 15:26    [11086354]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74930
Apex,

Сегментация-сегментирование, аннуляция-аннулирование... Не находите?

А отношение кубика (в части получения быстрого ответа на аналитический запрос) имеет самое прямое отношение.
8 авг 11, 15:34    [11086431]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
MOLAP
Guest
pkarklin
Apex,

Сегментация-сегментирование, аннуляция-аннулирование... Не находите?

А отношение кубика (в части получения быстрого ответа на аналитический запрос) имеет самое прямое отношение.

Под кубиком имеется ввиду выгрузка и хранение в MOLAP или так же H/ROLAP с материализованными представлениями?
8 авг 11, 17:01    [11087148]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74930
MOLAP
Под кубиком имеется ввиду выгрузка и хранение в MOLAP или так же H/ROLAP с материализованными представлениями?


Я не увидел в требованиях ТС необходимости в выделенном. Ежедневного процессинга MOLAP куба будет, IMHO, предостаточно.
8 авг 11, 17:58    [11087644]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
AAron
Member

Откуда: Москва
Сообщений: 4324
vadiminfo
AAron
я бы попробовал MOLAP - SQL Server, Essbase, Cognos

А я юзау Оракл с Йекселем. Но это наверное не для инета, так заказчика захотел. Но есть типа JDeveloper, там Бины для Олапа есть.

возможно и Oracle (речь только о СУБД?) с Экселем хватит. А может и нет. Но JDeveloper, имхо, надо забыть. Есть более подходящие для такой задачи вещи типа Oracle BI.
8 авг 11, 23:24    [11088753]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
vadiminfo
Member

Откуда: Обнинск
Сообщений: 4802
AAron
возможно и Oracle (речь только о СУБД?) с Экселем хватит. А может и нет. Но JDeveloper, имхо, надо забыть. Есть более подходящие для такой задачи вещи типа Oracle BI.

Ну почти только о СУБД. Ну там объекты то в СУБД, но для их создания все же используются клиентская тулса Analytic Workspace Manager (AWM). Ну Экселя то пока хватит: типа заказчик сам про Йксель пожелания высказал, а у Оракла есть приблуда юзать его как клиента для егойных кубов.
Ну в широком смысле, если под Oracle BI скрывается совокупность всех средств у Оракла для, то входят и Джававские бины для работы с кубами (которые упоминал), которые моно юзать в JDeveloper.
А так конечно у него есть тулы и более продвинутые. По-моему, что-то купленное. На семинарах слышал, но сам не юзал.
9 авг 11, 10:16    [11089513]     Ответить | Цитировать Сообщить модератору
 Re: Выбор БД для веб-аналитики  [new]
AAron
Member

Откуда: Москва
Сообщений: 4324
vadiminfo,

я говорил о СУБД в смысле РСУБД. OLAP Option все-таки несколько отдельно стоит, хотя и встроен.
OBI позволяет работать в том числе и с кубами OO, но все как-то через... в общем, пока мы пытаемся запустить такой вариант.
13 авг 11, 18:50    [11114732]     Ответить | Цитировать Сообщить модератору
Все форумы / Сравнение СУБД Ответить