Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / OLAP и DWH Новый топик    Ответить
 Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
vikkiv
Member

Откуда: London
Сообщений: 1704
Оно само по себе никуда не сдвинется, поэтому не забываем голосовать за добавление MD в облака для ускорения движения.
Особенно с учётом что на платформе множество масштабируемых источников висит (APS/MPP)
https://feedback.azure.com/forums/556165-azure-analysis-services
Голосуем чтобы ускорить выпуск сервиса
Спасибо.
10 авг 18, 16:33    [21638161]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
Alex_496
Member

Откуда:
Сообщений: 3742
vikkiv,

Azure SSAS Multidimensional как PaaS имеется ввиду?

? и есть ли голосовалка, чтобы SSAS Multidimensional не объявляли как Deprecated
10 авг 18, 17:35    [21638216]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
vikkiv
Member

Откуда: London
Сообщений: 1704
Alex_496,

а где MD обьявляли deprecated?
10 авг 18, 18:04    [21638235]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
vikkiv
Member

Откуда: London
Сообщений: 1704
на счёт - "есть-ли голосовалка" , так создай, по аналогии как выше по линку у многих MS продуктов вполне хватает места
10 авг 18, 18:06    [21638238]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
vikkiv
Member

Откуда: London
Сообщений: 1704
ну да, PaaS т.к. пока если под это дело разворачивать отдельную VM на IaaS - то как-то дороговато обходится.
10 авг 18, 18:10    [21638240]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
ShIgor
Member

Откуда: Нижний Новгород
Сообщений: 2116
vikkiv,

1. голосуй не голосуй, все-равно получишь... заранее известный результат
2. MS в конституцию изменения вносить не будет
3. а потом нас обвинят во вмешательство в процесс голосования

ну, а если серьезно, то не удивлюсь если в следующей версии SQL, MD пометят как deprecated
10 авг 18, 18:15    [21638244]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
Alex_496
Member

Откуда:
Сообщений: 3742
vikkiv
Alex_496,

а где MD обьявляли deprecated?


про MD не объявляли, я такого не говорил. Но Tabular-у больше продвигают
10 авг 18, 21:02    [21638326]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
vikkiv
Member

Откуда: London
Сообщений: 1704
ShIgor

1. Ну почему, функциональность с поддержкой в десятки-сотни тысяч пользователей с довольно высокой долей вероятности обычно проходила по статистике, я там посмотрел голосовалки - в принципе много где под 1000 голосов, практически нет где в десятках тысяч и подавляющее большинство всякой мелочи около сотни голосов.

2. в основном против платёжеспособного рынка не попрёшь, если только сам себе злой буратино, хотя и поддержку APS/PDW на SSMS прикрутить уже десяток лет не могут.

3. Гы
ну, а если серьезно, то не удивлюсь если в следующей версии SQL, MD пометят как deprecated
Ну если такой массой будут выносить на outsource на выходцев из того-же региона - то конечно, например Индия вообще-то изначально (ещё лет 30-40 назад) позиционировала себя на IT рынке как источник именно дешевого и низкоквалифицированного труда в первую очередь.

много где наблюдаю постепенную замену ума на капитал/деньги, вкачивают на 20% больше денег в инфраструктуру/лицензии убирая/заменяя 13% бюджета работников на кадры попроще, получают +1% производительности на выходе IT.. ну а дальше разгребание г..-кода как тут на многих ветках в друг друга кидаются.. в общем разбираются почему крокодил не ловится и прочий перевод стрелок.. Хотя и видел немало случаев где с умом подходят соблюдая разумный баланс по классике задач максимизации..
...Но Tabular-у больше продвигают..
да уж, с 2008-го вектор даже без намёка на поворот, тут уже вне всяких сомнений, в принципе если приглядется на более широкую картину - то имеет смысл быть чтобы не создавать конкуренцию другим продуктам на которые сделана ставка, тот-же Azure с его железно-вычислительными мощностями - только в выйгрыше если MOLAP немного придушат, да и в сегментах с действительно сложными расчётами (а не простая коммерческая бухгалрерия) переход на R + ROLAP например в банках/рисках/страховании только выигрывает, лет 10 назад о таком даже и не мечтали - всё по кактусам ходили от безвыходности.
11 авг 18, 00:18    [21638448]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
vikkiv
Member

Откуда: London
Сообщений: 1704
Кстати эта фишка (SSAS/MD) на первом месте (580 голосов) по требованиям пользователей для Azure Analysis Services.
(только жаль что уже как пару лет не отписываются по планам)

Многие запросы с количеством голосов под тысячу - попадают в разработку.
Скорее всего если выпустят - с ценой побольше будет чем у табличной модели.
Я по схожей причине сижу на Azure SQL DataBase (вообще копейки в месяц) вместо Azure SQL DWH / MPP (бывший APS/PDW)
т.к. ценник на порядок отличается (SQL в 100 раз дешевле чем DWH), в основном из-за дорогого хранилища.

вместе с Azure Data Factory / ADF под простейшие эксперименты/разработку - совсем смешная сумма выходит.
(по ценнику разработчика - бесплатная подписка через Visual Studio Dev Essentials)
2 окт 18, 23:37    [21693530]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
Alex_496
Member

Откуда:
Сообщений: 3742
vikkiv,

у Вас Azure SQL DataBase - как PaaS? Под задачи DWH/DataMart используете? Если да, то сколько терабайт база, сколько инкремент в день в штатном режиме Upload-ите, сколько раз в день?
3 окт 18, 09:39    [21693698]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
vikkiv
Member

Откуда: London
Сообщений: 1704
Alex_496,

текущая - только под разработку/обучение, ну там к интервью подготовиться, проект мелкий показать вроде прототипа модели данных да процессов/workflows (разные методы обновления загрузки данных через Data Factory / ADF), для этих целей по сути без разницы DWH или SQL DB - а по отличия по цене чувствительны (особенно при таких финансовых размерностях, просто для их DWH только Premium Storage доступен , а там ставки очень тяжелые).

прошлые в основном всё non-critical было (т.е. ниже терабайта) , остальное по большому счёту на своих серверах хостили
3 окт 18, 14:17    [21694096]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
Alex_496
Member

Откуда:
Сообщений: 3742
vikkiv,

т.е. энтерпрайз DWH в MS облаке PaaS не делали

Кто же делает, кто
3 окт 18, 17:30    [21694385]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
vikkiv
Member

Откуда: London
Сообщений: 1704
Alex_496,

я на них в проектах (один банк, и крупная организация оптовой торговли) работал только, Dev в основном (структуры/модели данных, требования..) как платформа для BI/аналитики, админили другие (как впрочем и большая часть ETL, которая собственно вовсе и не BI) - вообще из другой страны (подешевле, хотя приходилось туда летать в командировку, сомнительное удовольствие)
ну и миграции с ETL (ADF/PS) немного естественно.

речь в сообщениях выше - это то что есть для себя, тестовая лаборатория, т.к. Azure Trial-а по 30 дней на долго не хватит а платить чисто ради личного интереса - дороговато получается (да и на каждый новый триал - дебетных карт не напасёшься)

так что весь проект целиком не архитектил, части только, но не совсем понимаю всего пафоса на рынке вокруг PaaS, по моему опыту сложностей минимум для обычного SQL-щика, а для Front-End - это всего-лишь немного другой ConnectionString, ну может аутентификация чуть с добавками, в остальном та-же петрушка.


а так - отвечая на твой вопрос - работают, очень даже, кроме выше перечисленных ещё и к страховщику на проект миграции всей платформы данных почти не попал (по деньгам не сошлись).

для SQL части преимущества многим компаниям очевидны:
- более высокая безопасность и относительная независимость от третьих сторон, (Data Centers, Hosting Providers)
- простой вход/выход в проекты (на хостинг контрактах в основном фиксированная плата, ещё и на срок привязан)
- контроль за расходами (на ночь можно вообще отключать)
- гибкость в масштабировании
- половину DBA сразу можно отправить куда подальше (в SQL довольно высокая степень автоматизации оптимизаций, а в DWH нет)


у нас на рынке в общем (и на Azure в частности) спрос на облачные навыки растёт стремительно, на всякие onPermises и свои хостинги - так-же пропорционально падает, очевидно что это "Жж-жж-жж не с проста", явно широкий переход / сдвиг парадигм судя по многим признакам, хотя конечно и у классических решений останется некий свой рынок (по тем-же определённым требованиям безопасности и контроля например).
3 окт 18, 19:29    [21694518]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
Alex_496
Member

Откуда:
Сообщений: 3742
vikkiv,

уточнял, потому как надо знать, какие нежданчики могут вылезти при переносе протестированное ХД с Dev (IaaS) на PaaS как будущий prod.
Express канал купить на последнюю милю уже вырисовывается.

Data Factory даже не смотрим.

рекорды - устойчивый повторяемый в разные сессии Upload данных в облако замеряли сколько Гб в минуту?
3 окт 18, 20:17    [21694552]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
vikkiv
Member

Откуда: London
Сообщений: 1704
Alex_496,

не, у меня мониторинга мало совсем, в основном чекпоинты прошло/не прошло.
а так по теории ведь просто всё, сетевые основы, у MS свои сервера в таких-же ДатаЦентрах хостят, так что смотря где сервер и что там дальше по tracert маршруту в порядке приоритетности динамически перекидывается, ну разве что дополнительные пути по линии аутентификации... остальное ресурсо-затраты на обработку/трансформации принимающей стороны в зависимости от отдачи, ну может ещё настройка GateWay если такой сценарий дакачки данных планируется.

вылезает у каждого своё, форумы на MSDN и TechNet есть по этой теме, там по очень разным вопросам плачутся, что-то из-за завышенных ожиданий, что-то из-за криворукости, кто-то по реальным глюкам и др. проблемам, по разному в общем.
4 окт 18, 06:57    [21694749]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
churupaha
Member

Откуда: Краснодар
Сообщений: 991
Ребята, поделюсь своими впечатлениями про пиление DWH в Azure, написано немного сумбурно (не перечитывал), но мне кажетя что стоит этим поделиться, всё не так ажурно!

- Azure DWH в то время только стал GA и строился на standard storage. Сначала цена всего была N, спустя полгода стала 2*N (подняли тарифы). Пользовался Start/Pause для экономии денег - иногда надо было писать в суппорт, чтобы они таки застартовали DWH руками (баг). Отключил geobackups - всё равно продолжали в течении полугода чаржить за него, после месячного выноса мозга техподдержке и пинания меня то к продажникам, то к технарям, признали баг в коде отключения гео бэкапов и вернули бабло на счет ажура. Пробовал запилить ELT (не ETL) - я не знаю как другие MPP работают, но тут очень всё зависит какую колонку оно выберет для shuffle данных (на промежуточных этапах плана выполнения) и если уникальных значений в колонке по которой делается шафл мало, то всё данные для обработки на какой-то стадии попадут на один/два дистрибушна прицепленных к паре нод, остальные будут простаивать, можно помогать хинтами, а оно надо? думал лить данные с blob storage или adls через polybase, руками писать автоматизацию было долго и стремно хотелось проще. нашел проще - ADF Copy Activity умеет это делать через polybase и всю рутину берет на себя и вот не задача - не позволяло указать формат даты/время источника чтобы его правильно парсить... обратился в тех поддержку - сказали ну вы каким нибудь pig пройдитесь по данным на blob storage поменяйте формат даты на тот что понимает polybase (или adf) и потом живите спокойно. чего? политика билинга не очень хороша - пока головы онлайн - всё билится, сторадж билится постоянно. если у вас уже где-то есть стар схема и надо перелить в azure dwh, то конечно онобудет класно и быстро работать (с columnstore), но если надо запилить ELT - то вылазит куча гемора, что не хочется этим гамном пользоваться. может что-то изменилось, не знаю. вобщем плюнул на это сырое г.

- Azure Data Factory v1 - дешево, сердито, угрюмо, местами уныло. местами не хватало функциональности в т. ч. такой - как зареранить data slice несколько раз в день без костылей (никак, нужны костыли). если у вас большая adf с кучей связанных пайплайнов, то при рестарте цепочки слайсов надо прыгать на одной ноге и бить в бубен (скриптами) чтобы рестарт процессинга этих слайсов прошел согласно констрейнтам в adf диаграмме, а не в разнобой... есть куча мелких недочетов, которые не дают тебе ехать дальше.

- Azure Data Factory v2 - не знаю... мельком смотрел вроде многую дубовость v1 пофиксили... но как на деле хз

- Azure Data Lake Analytics (U-SQL) - не плохой комбайн, на нем вполне можно построить процессинг данных и вместе с ADF получится облачный ETL. Начал юзать сие поделье с момента выхода его в GA. Прошёл по всем граблям что можно было - DML ломающий U-SQL таблицы, UPDATE STATISTICS ломающий таблицу %), так и не работающая нормально статистика, просто баги движка типа "c++ error... line 100500, col 200" - да, кодогенератор U-SQL -> C++ имеет баги и иногда кодогенерация происходит с ошибками и всё лежит. Куча переписки с суппортом и Майклом Рисом (архитектором U-SQL движка), баги признавали и пилили кастомные билды в наш ажур регион и используя кастомную версию U-SQL движка можно было запускать свои скрипты (до выхода фиксов в релиз). Еще не ведитесь на маркетинг, что вы можете налить в Data Lake Storage всякой неструктурированной дичи и с помощью U-SQL как взять да как обработать это всё да еще и дёшево! НетЪ!

Пусть у вас есть куча мелких, в первых версиях для каждого входного файла создавался vertex, и YARN контейнер переходил от одного vertex'a к другому, YARN контейнер переиспользовался. Предположим, мелкие файлы у вас JSON и XML для их обработки U-SQL'ем нужно писать кастомный EXTRACTOR на .NET. Как только вы юзаете .NET, YARN контейнер не переиспользуется а переинициализируется при переходе от одного vertex'a к другому (помните 1 vertex на 1 файл?). Оверхед огромный в районе 5 секунд было! Это делало невозможным обработку большого обьема мелких файлов с нестандартным форматом (не CSV) невозможным. Оверхед > времени полезной работы уже на нескольких тысячах входных файлов. И техподдержка рекомендовала мержить тем же ADF COpy активити мелкие файлы XML/JSON в крупные файлы 1Gb-4Gb каждый с трансформацией в CSV. С таким оно работает быстро. Потом они запилили трейс флаг который заставлял на этапе кампиляции ассоциировать несколько файлов с одним vertex'ом. Немного помогло, но есть другое. Когда вы кверите каталог на ADLS по шаблону (не просто один большой файл) то на этапе компиляции оно получает список этих файлов и хардкодит в т. н. план выполнения (там куча всего скомпиленные dll + метаданные) и вот это получение списка файлов очень затратное и процесс компиляции раньше падал по таймауту уже на нескольких тысячах файлов. Сделали потом трейс флаг, который заставляет сканить каталоги асинхронно в несколько потоков как я понял, но всё равно у всего этого есть легко достижимый предел прочности, особенно если наслушаться маркетологов про Azure Data Lake Analytics - леёте и процессьте.

Оно задумано для обработки нескольких ОГРОМНЫХ splitable файлов (CSV), в этом случае с vertex'ом ассоциируется пачка экстентов и т. д..

Не следует думать что оно сможет обрабатывать огромные XML, JSON файлы. Они не splitable (читать про кастомные расширения U-SQL на .NET и опцию Recursive)
...
Много можно написать (у меня есть почта, она же и скайп, если кому-то будут интересны конкретные мелкие вопросы - пишите, вдруг я уже наступил в эту кучку...).

Что в итоге, всё же удалось запилить вот такое:

- источники Azure SQL, Table Storage, Cosmo DB, ADLS (телеметрия)
- с помощью ADF+U-SQL был запилен ETL который инкрементально поддерживает Star Schema на максимально возможном уровне детализации в U-SQL (каталоге) - типа HIVE CATALOG, на базу похоже
- с помощью ADF+U-SQL запилена агрегация до нужной детализации и копирование на OnPremises SQL Server в дата марты в виде стар схемы тоже инкрементально (Azure / On Premises через Data Gateway)
- дата марты скармливаются в On Premises SSAS MD
- аналитики смотрят SSAS кубы через Power BI
- все процессы инкрементальные...

ADLS + U-SQL тем хорош, что дёшев, storage 39$ / Tb и U-SQL биллится по формуле nodes_count * duration_time_hours * 2$ + c (где c они несколько центов накидуют за компиляцию U-SQL джобов), т. е. платите только за реальное время работы ваших джобов (не за время ресурса в online как в azure dwh).

последние две штуки можно было разместить в Azure SQL + Azure SSAS Tabular, но на тот момент Azure SSAS Tabular только вышел и уже не было сил идти по еще новым граблям.

Требование делать всё в Azure было спущено сверху из NY, сам бы я забил на это на самой начальной стадии.
12 окт 18, 11:47    [21702329]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
churupaha
Member

Откуда: Краснодар
Сообщений: 991
+ если кому надо замеры для Azure SQL vs ОбычнаяЖелезяка. Показывает, что скрывается за DTU Azure SQL. Замеры были сделаны в в марте в 2016 году, если я верно помню.

К сообщению приложен файл (resources.zip - 138Kb) cкачать
12 окт 18, 12:13    [21702356]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
churupaha
Member

Откуда: Краснодар
Сообщений: 991
+ добавлю стандартное

всё что написано - просто моё личное мнение основанное на личном опыте/наблюдениях и может быть ошибочным
12 окт 18, 12:18    [21702364]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
churupaha
Member

Откуда: Краснодар
Сообщений: 991
+ посмотрите на планы выполнения и траблшутинг перфоманса Azure DWH, кратко, там 3 вида планов, очень неудобно докапаться до причины тормазов:

- один высокоуровненвый (тупо список шагов, какая операция делается на нодах, data movement service (DMS) операция или какая-то sql команда)
в зависимости от текущего шага (см. предыдущий пункт), надо смотреть либо
- что происходит с DMS сейчас (data skew, сколько куда льется, может быть повисло на каком то дистрибушне)
- что происходит с SQL командой на конкретной ноде! с неё можно выдрат estimate план, получить актуальный или live execution plan хотябы раньше было нельзя...

всё это доступно было через анальные команды... то еще удобство.
12 окт 18, 12:51    [21702404]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
vikkiv
Member

Откуда: London
Сообщений: 1704
churupaha,

Полностью согласен, не техническое мнение: продукт - жертвa Agile, всех гонят наверное за Sprint закрыть Task-и, много разных команд работают над разными сегментами с отличающимся качеством и проблемами в связи между ними.
Понять такую навязанную скорость можно - продажи и конкуренция (потом вход на рынок будет очень тяжелым, т.к. AWS/Google и др. растут быстро)
но не хочется быть подопытной мышью борющейся с ветряными мельницами.
у нас похожее было на PowerBI пару лет назад, когда вроде и объявили продукт как GA, взялся за реализацию проекта - но нестабильных костылей (меняющихся от выпуска к выпуску) хватало:
вроде и приготовишь кое-как работающее решение - но следующий месяц в новом релизе или изменят или отменят какую-то функциональность - и всё летит к чёрту / перестаёт работать.

Как профессионалу - знать и иметь опыт надо: модно и бюджеты выделяются / денег платят, да и реально перспективы рынка труда в основном за облачными решениями (спрос туда серьёзно из традиционных ниш уходит)
но в то-же время аккуратно - по кем-то уже протоптанному и надёжному пути, т.е. туда где все грабли стоптаны другими чтобы самому через такой ад не проходить.
Они (MS) сами не определились во многом, что и понятно, те-же цены за сервис и их волатильность (с тенденцией в большую сторону): неизвестно какой спрос на рынке будет в конце (окупит-ли), а ресурс выделить чтобы заманить надо, да так чтобы не обвалить другие продукты приносящие прибыль (и насколько они чувствительны по цене между собой)..

Сам по причинам выше - осторожно беру на серьёзное освоение только уже проверенные временем (более менее стабильные) куски продуктов Azure (напр: SQL+ADF+SSAS/Tab), на новые пока даже не смотрю (либо очень поверхностно - в общих чертах/концептуально), т.к. других лабораторных кроликов хватает. Кстати примерно так и получается - между объявлением GA и адекватно пользовательным продуктом (чтобы не попасть в расходную пехоту первой шеренги армии мучеников) - для такой сложной по реализации технологии нужно минимум: пару лет на рынке для обкатки/латания дыр.
12 окт 18, 12:51    [21702405]     Ответить | Цитировать Сообщить модератору
 Re: Azure Analysis Services: Multidimensional - Голосуем чтобы ускорить выпуск сервиса  [new]
vikkiv
Member

Откуда: London
Сообщений: 1704
написал им в той-же ветке на своём корявом очередной троле-провокационный пост в стиле близко к грани нервного срыва
может ответят что наконец, а то уж десять лет без MD изменений и никаких весомых шагов в облаке...
30 окт 18, 19:53    [21719473]     Ответить | Цитировать Сообщить модератору
Все форумы / OLAP и DWH Ответить