Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Oracle Новый топик    Ответить
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
 Что почитать насчёт обращения с big data?  [new]
Лиса Алиса
Guest
Как создавать эффективные запросы и переливать большие таблицы (десятки миллионов строк) за небольшое время? Как создавать индексы, чтобы не страдали ни загрузка, ни скорость работы с запросами и так далее. Можно на английском. Просто чтобы это были не отвлечённые рассуждения, а конкретные правила.
6 дек 17, 17:20    [21012041]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
DВА
Member

Откуда:
Сообщений: 5019
Лиса Алиса
Как создавать эффективные запросы и переливать большие таблицы (десятки миллионов строк) за небольшое время? Как создавать индексы, чтобы не страдали ни загрузка, ни скорость работы с запросами и так далее. Можно на английском. Просто чтобы это были не отвлечённые рассуждения, а конкретные правила.


не помню кто из ораклистов сказал - "если бы существовали конкретные правила, они бы уже давно были реализованы на уровне ядра" ))
6 дек 17, 17:28    [21012087]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
env
Member

Откуда: Россия, Москва
Сообщений: 5598
DВА,

Так в 18-й версии же всё само автонастроится и будет идеально работать.
6 дек 17, 17:35    [21012129]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
Лиса Алиса
Guest
DВА,

Том Кайт сказал в оракл для профессионалов.:) Читаю. А ещё что стоит почитать?
6 дек 17, 17:50    [21012191]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
DВА
Member

Откуда:
Сообщений: 5019
Лиса Алиса
DВА,

Том Кайт сказал в оракл для профессионалов.:) Читаю. А ещё что стоит почитать?

Ну после Кайта приличным тоном считается читать Милсапа
там правда тоже вода, но мозги систематизирует )
осилите Милсапа, переходите на Льюиса
6 дек 17, 18:00    [21012248]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
rf_mail
Member

Откуда:
Сообщений: 49
Лиса Алиса
Как создавать эффективные запросы и переливать большие таблицы (десятки миллионов строк) за небольшое время? Как создавать индексы, чтобы не страдали ни загрузка, ни скорость работы с запросами и так далее. Можно на английском. Просто чтобы это были не отвлечённые рассуждения, а конкретные правила.


best fairy docs
6 дек 17, 18:10    [21012298]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
Тролин
Member

Откуда:
Сообщений: 205
Скоро выйдут 18с (12.2.0.3)и 19с (12.2.0.4)...в каждой улучшений и автоматизаций на 1500%....админы для менеджеров не нужны. Зп помно снижать вопрос в том что на рынке технарей уже не остается
6 дек 17, 19:06    [21012537]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
Тролин
Member

Откуда:
Сообщений: 205
Это описание страшного сна
6 дек 17, 19:07    [21012540]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
Bobby Z.
Member

Откуда: NJ USA
Сообщений: 343
Лиса Алиса
Как создавать эффективные запросы и переливать большие таблицы (десятки миллионов строк) за небольшое время? Как создавать индексы, чтобы не страдали ни загрузка, ни скорость работы с запросами и так далее. Можно на английском. Просто чтобы это были не отвлечённые рассуждения, а конкретные правила.
Ваши вопросы весьма абстрактны и не имеют отношения к big data. От слова "вообще". Big data - это про 3V: Volume, Velocity, Variety (в последнее время, с подачи IBM, ещё добавляют Veracity). Реляционные БД, в целом, не решают последние два V, а многие спотыкаются ещё и на первых двух. А Вы спрашиваете про оптимизацию производительности, причём, как я понимаю, в контексте конкретной RDBMS: Oracle. Начинайте с Concepts, потом, как коллеги рекомендуют, Кэри Миллсап, Джонатан Льюис, Коннор Макдоналд, Танел Подер, Чарльз Хупер, их блогроллы,... И - эксперименты, эксперименты, эксперименты. Пробовать и проверять на практике всё, что узнали, постоянно задавать себе вопросы "а как это работает?" и "а что, если...?" и самостоятельно находить на них ответы, в документации, или в книгах, блогах, или, наконец, экпериментально, а если не получается найти, то спрашивать у тех, у кого получилось.

А за конкретными правилами - это к Бурлесону. :)
6 дек 17, 19:20    [21012566]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
dbms_photoshop
Member

Откуда: sqlmdx.net
Сообщений: 4903
Bobby Z.
Ваши вопросы весьма абстрактны и не имеют отношения к big data. От слова "вообще". Big data - это про 3V: Volume, Velocity, Variety
Меня тоже поразило как все оказались на одной волне с ТС.

В наших краях big data - это экосистема hadoop.
Соотетсвенно, если в названии позиции есть big data, то речь гарантированно про hadoop.

А то доходит до абсурда, когда мне знакомый из России говорит "я устроился разработчиком C# на big data project",
по факту это оказалось C# + MSSQL, а big data использовано ибо им кажется что у них много данных.
6 дек 17, 20:04    [21012650]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
dbms_photoshop
Member

Откуда: sqlmdx.net
Сообщений: 4903
Лиса Алиса
DВА,

Том Кайт сказал в оракл для профессионалов.:) Читаю. А ещё что стоит почитать?
oracle vldb best practices
6 дек 17, 20:06    [21012655]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
DВА
Member

Откуда:
Сообщений: 5019
dbms_photoshop,
ну если уже докапываться "до буквы закона", то биг дата это все-таки не непересекающийся с ораклом ни одним местом хадуп, а Oracle Big Data Appliance )
6 дек 17, 22:47    [21013008]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
Bobby Z.
Member

Откуда: NJ USA
Сообщений: 343
DВА
не непересекающийся с ораклом ни одним местом хадуп
Ну, как бы уже давно пересекающийся через Big Data SQL... И дальше будет только больше пересечений, потому что Hadoop - это, конечно, модно и круто и у всех ассоциируется с big data, но при этом всем хочется SQL, причём не рудиментарный HiveQL, а полноценный, сравнимый по возможностям с Oracle или Transact-SQL. Ну потому что ничего лучше SQL для декларативной работы с множествами пока так и не придумали (хоть Баба-Яга Крис Дейт и против). Наваять такой SQL engine в open source с нуля проблематично, но можно попытаться портировать что-то уже работающее и проверенное временем. И такие попытки есть, и весьма многообещающие: HAWQ, он же Pivotal Greenplum on Hadoop. Greenplum, в свою очередь, основан на PostgreSQL, который среди open source RDBMS, пожалуй, единственный достойный конкурент Ораклу. Так что с этой стороны конвергенция идёт вовсю. Вендорам традиционных RDBMS, чтобы не потерять рынок, ничего другого не остаётся, как поддерживать популярные гетерогенные хранилища данных наравне со своими собственными, что они все наперегонки и делают (Oracle Big Data SQL, Microsoft Polybase, IBM BigInsights).
7 дек 17, 05:12    [21013362]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
dbms_photoshop
Member

Откуда: sqlmdx.net
Сообщений: 4903
DВА
биг дата это все-таки не непересекающийся с ораклом ни одним местом хадуп
Вообще то Оракл (и MSSQL и другие) его очень активно пересекает. Почитай хоть про external tables на hdfs.
Big Data SQL Quick Start. Introduction - Part1
Big Data SQL Quick Start. Offloading - Part2

Подер тоже захотел откусить кусок пирога и даже основал компанию Gluent, которая предоставляет скрещенные решения на Hadoop + Oracle - Connecting Hadoop and Oracle.
И сделано у него чуть лучше и гибче чем в поставке из коробки, но для меня не до конца понятно на что он надеется.
В лучшем случае Оракл это купит, в худшем - сделает то же самое уже со своими улучшениями.

Просто поначалу у многих была истерия по миграции всех RDBMS на здооровенные hadoop кластеры состоящие из "commodity hardware" или в облако, потом стало приходить понимание, что даже как хранилище с возможностью модицикаций данных для оперативного дня hadoop не очень (правда есть достаточно умные люди, которые все еще надеятся реализовать модификацию данных в hadoop). Все идет как раз к скрешенным решениям когда, скажем, неделя в Оракле, а остальное оффлоадится в хадуп.
DВА
Oracle Big Data Appliance
Это, наверное, первым делом приходит на ум тому, кто начинает утро с чтения Оракловых маркетинговых буклетов.
7 дек 17, 11:46    [21014261]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
dbms_photoshop
Member

Откуда: sqlmdx.net
Сообщений: 4903
Bobby Z.
при этом всем хочется SQL, причём не рудиментарный HiveQL, а полноценный, сравнимый по возможностям с Oracle или Transact-SQL
А всем это кому?
HiveQL практически ничем не уступает microsoft диалекту SQL.
Есть аналитические функции, grouping sets, нет разве что CTE (так оно не очень и надо - для этих целей другие инструменты).
А то, что есть некоторые ограничения на подзапросы или предикаты, так это даже плюс.
Ибо пишущий должен немного понимать как работает инструмент, чтоб не делать ложных выводов.
Вот Impala поддерживает OR-предикаты соединения в отличие от Hive и бизнес аналитик пишет соединение двух табличек,
а потом ждет окончания выполнения весь день ибо OR - это только nested loops при невозможности сделать concatenation.
И пока запрос выполняется он еще создает шум и рассказывает окружающим какой Impala отстой.
Bobby Z.
Ну потому что ничего лучше SQL для декларативной работы с множествами пока так и не придумали
В 95% случаев таки лучше, для остальных 5% есть Spark.
Не понятно такое зацикливание на SQL engine, многие фишки не имеют смысла ибо нет инексов (те же коррелированные скаляры кооторые не могут быть unnested).
Все развивается вполне логично и если есть желание - можно допилить свою query transformation - всё открыто. Это не Оракл.
Bobby Z.
попытаться портировать что-то уже работающее и проверенное временем
Уже есть SQL engines
Spark SQL
Impala
Hive
Tez
... что еще портировать?
Это выглядит как попытки перешедшего с MSSQL на Oracle портировать свои best practices со временными таблицами.
Надо понимать отличия в архитектуре и что там уместно, а что нафиг не надо.
7 дек 17, 12:06    [21014360]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
dbms_photoshop
Member

Откуда: sqlmdx.net
Сообщений: 4903
Bobby Z.
Вендорам традиционных RDBMS, чтобы не потерять рынок, ничего другого не остаётся, как поддерживать популярные гетерогенные хранилища данных наравне со своими собственными, что они все наперегонки и делают (Oracle Big Data SQL, Microsoft Polybase, IBM BigInsights).
Кроме поддержки скрещенных решений можно предлагать свои механизмы по размызванию нагрузки, что Оракл и сделал с его sharding architecture.
Правда мне неизвестны реальные примеры использования.
7 дек 17, 12:11    [21014404]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
DВА
Member

Откуда:
Сообщений: 5019
dbms_photoshop
Вообще то Оракл (и MSSQL и другие) его очень активно пересекает. Почитай хоть про external tables на hdfs.
Big Data SQL Quick Start. Introduction - Part1
Big Data SQL Quick Start. Offloading - Part2

Так это и есть компонент Oracle Big Data Appliance , который был чуть позже от него отвязан и пущен в свободное плавание ))
7 дек 17, 13:10    [21014815]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
dbms_photoshop
Member

Откуда: sqlmdx.net
Сообщений: 4903
DВА
dbms_photoshop
Вообще то Оракл (и MSSQL и другие) его очень активно пересекает. Почитай хоть про external tables на hdfs.
Big Data SQL Quick Start. Introduction - Part1
Big Data SQL Quick Start. Offloading - Part2

Так это и есть компонент Oracle Big Data Appliance , который был чуть позже от него отвязан и пущен в свободное плавание ))
Я может быть что-то кардинально упускаю, но тут написано Full Rack 18 x Compute / Storage Nodes.
У меня в колхозе hadoop 400 nodes и, подозреваю, стоит оно дешевле.
Не очень понятно, в чем смысл ставить hadoop на тот гламурный сервак.
7 дек 17, 13:31    [21014923]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
Alexander Ryndin
Member

Откуда:
Сообщений: 4704
Блог
dbms_photoshop
DВА
пропущено...

Так это и есть компонент Oracle Big Data Appliance , который был чуть позже от него отвязан и пущен в свободное плавание ))
Я может быть что-то кардинально упускаю, но тут написано Full Rack 18 x Compute / Storage Nodes.
У меня в колхозе hadoop 400 nodes и, подозреваю, стоит оно дешевле.
Не очень понятно, в чем смысл ставить hadoop на тот гламурный сервак.
1) Там Cloudera Data Hub Edition входит в поставку
2) Если брать сравнимое железо от других вендоров (ну т.е. не на горбушке россыпью), то цена будет сравнима
3) Oracle Big Data Appliance обычно берут, когда Hadoop становится достаточно критичным для бизнеса
4) У Oracle на данный момент лучший ПАК для Big Data (по оценке Forrester) https://blogs.oracle.com/infrastructure/oracle-bda-leads-the-big-data-pack
Картинка с другого сайта.
7 дек 17, 13:57    [21015014]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
DВА
Member

Откуда:
Сообщений: 5019
dbms_photoshop
DВА
пропущено...

Так это и есть компонент Oracle Big Data Appliance , который был чуть позже от него отвязан и пущен в свободное плавание ))
Я может быть что-то кардинально упускаю, но тут написано Full Rack 18 x Compute / Storage Nodes.
У меня в колхозе hadoop 400 nodes и, подозреваю, стоит оно дешевле.
Не очень понятно, в чем смысл ставить hadoop на тот гламурный сервак.



«Oracle Big Data Appliance является превосходным выбором для клиентов, которые хотят работать с полным комплексом передовых Hadoop-технологий Cloudera. Это более экономичный и быстрый в развертывании вариант в сравнении с созданием кластера собственными силами, — заявил Майк Олсон (Mike Olson), основатель, главный статег и председатель совета директоров компании Cloudera. — Что касается выполнения запросов к данным в Hadoop, мы отметили огромную потребность клиентов в SQL. Именно поэтому Cloudera разработала решение Impala, которое Oracle включает в платформу Oracle Big Data Appliance, чтобы предоставить клиентам возможность легко и эффективно выполнять запросы к данным в Hadoop с использованием SQL. Клиентам, которым требуется выполнять запросы и анализировать данные, размещенные в Hadoop и Oracle Database, решение Oracle Big Data SQL предлагает поддержку HDFS, позволяет использовать существующие навыки SQL и политики безопасности, а также упрощает интеграцию Hadoop с существующей инфраструктурой Oracle».
:)
Кстати тоже до сих пор не понимаю, почему бы ПО с селов экзадаты не распространять без привязки к самой экзадате ) Кому нада - воссоздал себе экзадату на парочке домашних ноутов ))
Но жирафф большой ему видней ))
7 дек 17, 14:02    [21015040]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
dbpatch
Member

Откуда:
Сообщений: 1034
dbms_photoshop
Bobby Z.
Ваши вопросы весьма абстрактны и не имеют отношения к big data. От слова "вообще". Big data - это про 3V: Volume, Velocity, Variety
Меня тоже поразило как все оказались на одной волне с ТС.

В наших краях big data - это экосистема hadoop.
Соотетсвенно, если в названии позиции есть big data, то речь гарантированно про hadoop.

А то доходит до абсурда, когда мне знакомый из России говорит "я устроился разработчиком C# на big data project",
по факту это оказалось C# + MSSQL, а big data использовано ибо им кажется что у них много данных.


в вашем колхозе - да, это наверное гарантированно.
а так - полезно иногда читать не только ленту.ру газету Сельскую Жизнь, но быть хоть не много в курсе, как на самом деле обстоят дела.

ну или Технику Молодежи почитать, тоже сгодится, сойти за умного:
https://habrahabr.ru/post/303802/
7 дек 17, 14:21    [21015132]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
Alexander Ryndin
Member

Откуда:
Сообщений: 4704
Блог
DВА,

Для того, чтобы обеспечить более высокий уровень сервиса нужно иметь меньшую энтропию, чем имеет самосбор (диски, флеш кэш, драйвера, ОС, firmware, файловая система и т.д.)...
Но для тех, у кого железо жестко зафиксировано - это печалька
7 дек 17, 14:23    [21015148]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
dbpatch
Member

Откуда:
Сообщений: 1034
Alexander Ryndin
DВА,

Для того, чтобы обеспечить более высокий уровень сервиса нужно иметь меньшую энтропию, чем имеет самосбор (диски, флеш кэш, драйвера, ОС, firmware, файловая система и т.д.)...
Но для тех, у кого железо жестко зафиксировано - это печалька


самосборы бывают разные - кто-то на ноутах себе RAC собирает, а кто-то инфраструктуру в виде готовых контейнеров поставляет, или датацентры целиком вместе с DevOpsами и прочим.

вот последним фичи екзадата не помешали бы, чисто в софте - ценного там только ее компрессия, которая якобы только жутко аппаратная, на самом деле это лишь софтовая реализация + нетехнический hardware vendor-lock.

но из-за HCC компрессии заставлять покупать железно только одного производителя - это как-то... неконкуретно, что-ли..
7 дек 17, 14:30    [21015180]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
Alexander Ryndin
Member

Откуда:
Сообщений: 4704
Блог
dbpatch,

Там помимо hcc довольно много всего...
7 дек 17, 14:39    [21015219]     Ответить | Цитировать Сообщить модератору
 Re: Что почитать насчёт обращения с big data?  [new]
dbpatch
Member

Откуда:
Сообщений: 1034
Alexander Ryndin
dbpatch,

Там помимо hcc довольно много всего...


к примеру?

all flash storage, infiniband network - не смешно, такое могут не только они, а порой и получше.
storage offloading - фича, скажем так, спорная, нужно очень хорошо постараться, чтоб увидеть ее бенефит, для generic case разницы и вовсе особой нет.

а больше там и нет ничего такого

лучше бы они допилили до ума свои external tables, чтоб можно было задавать всякие аргументы-параметры уровня сессии для препроцессора, не через, простите, ......у, т.е. грязные хаки с parent process id

то что они там в 12.2 сделали - это совсем мимо кассы.

хотя это уже не про экзадата
7 дек 17, 14:50    [21015259]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
Все форумы / Oracle Ответить