Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / OLAP и DWH Новый топик    Ответить
 map reduce в масштабе все организации  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
Вопрос в порядке бреда )
Почему-то, когда наши компании внедряют всякие big data и open source-технологии, то обычно это делается на брендованном оборудовании за много-много миллионов. Почему не делают, например, как на рисунке?

Смысл в том, чтобы размазать все данные по контейнерам на простых пользовательских машинах, вес которых (для примера) будет определятся по скорости обработки данных. И чем больше вес, тем больше данных туда можно положить/обработать. Распределение данных пусть будет с избыточностью на случай, если часть машин будет отключена по каким-то причинам. Если же будет отключено много машин - расчет сделают map-элементы на схеме (часть неотключаемого ядра).


При этом и у нас, и в мире много организаций, где парк ПК составляет несколько десятков тысяч машин... Вкусно же!
И самый главный плюс - самоапгрейдящиеся вычислительные элементы

ps а может так уже у кого-то реализовано? если да, то поделитесь инфой

К сообщению приложен файл. Размер - 50Kb


Сообщение было отредактировано: 9 сен 20, 15:14
9 сен 20, 15:17    [22194267]     Ответить | Цитировать Сообщить модератору
 Re: map reduce в масштабе все организации  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 377
Критик,

так и встает перед глазами эта эпичная картина - три дня считал скоринг, который можно было за 20 минут посчитать, но поскольку клиенты сидят на еле живом wi-fi, постоянно перегружаются расчет занял 3 дня. всего то на 60 часов позже чем позволяет SLA. но данные блин пропали - на третий день сократили один из отделов и вот ведь непруха, данные легли именно на тот злаполучный.
9 сен 20, 16:16    [22194299]     Ответить | Цитировать Сообщить модератору
 Re: map reduce в масштабе все организации  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
H5N1,

Ну что значит "постоянно перегружаются"? Обмен между клиентскими нодами можно построить на чем-то наподобие внутреннего торрент-трекера, будет весьма быстро.

И вопрос с распределением данных вполне можно решить.

Если же такая неприятность все же случилась, то ваш скоринг просто посчитается на map-узлах за те же условные 20 минут, вместо 20 секунд на клиентских нодах.
9 сен 20, 17:28    [22194323]     Ответить | Цитировать Сообщить модератору
 Re: map reduce в масштабе все организации  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 377
Критик

Ну что значит "постоянно перегружаются"? Обмен между клиентскими нодами можно построить на чем-то наподобие внутреннего торрент-трекера, будет весьма быстро.

какая разница что там за протокол поверх wi-fi на соплях ? ну и классический мап-редюс это процессинг запускается на том узле, где данные. ярн смотрит что нода не отвечает, перезапускает задачу маппера или редюсера заново, на ноде, где есть нужные блоки.

Критик

И вопрос с распределением данных вполне можно решить.

можно, но имхо это уже ближе к облакам. компьют нода на ноутбука вытягивает по wi-fi откуда-то данные и начинает считать, но тут чувак пошел на обед и опустил крышку, комп ушел в хибернейт ...

Критик

Если же такая неприятность все же случилась, то ваш скоринг просто посчитается на map-узлах за те же условные 20 минут, вместо 20 секунд на клиентских нодах.

а зачем ? пока там клиенты гоняли по wi-fi эти гигабайты и ярн рестартовал задачи, клиентский комп намотал шифровальщика и часть вычислений превратил уже в кашу.
мне кажется индустрия уже что-то такое проходило во времена foxpro. помню старперы вечно бегали по этажам пытаясь понять у кого вирус и кто дописывает мусор в конец dbf файликов.

Сообщение было отредактировано: 9 сен 20, 18:24
9 сен 20, 18:26    [22194368]     Ответить | Цитировать Сообщить модератору
 Re: map reduce в масштабе все организации  [new]
L_argo
Member

Откуда:
Сообщений: 1303
Смысл в том, чтобы размазать все данные по контейнерам на простых пользовательских машинах
Доступность и сетевая производительность каждого контейнера будет под большим вопросом. А также администрирование.

По сабжу: качество бреда отменное. Плюсую...
10 сен 20, 09:17    [22194558]     Ответить | Цитировать Сообщить модератору
 Re: map reduce в масштабе все организации  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34263
Блог
L_argo,

Сетевые сбои крайне редки, а если все же происходят, то не будет работать не только то, что нарисовано на картинке, но и все другие системы. Также уже не редки 10-гигабитные сетки. Вопросы доступности узлов решаются многократной избыточностью и неотключаемым ядром.

Производительность тоже вопрос решаемый, скажем, выделить каждому контейнеру сколько-то Гб ОЗУ, CPU с самым низким приоритетом и свой nvme-диск. Ведь не секрет, что 95% времени обычные офисные машины просто простаивают и уж точно не утилизируют полностью ресурсы процессора.

Почему вообще такая идея возникла - сейчас все идут в сторону удешевления, в том числе и в плане перехода на на дешёвое потребительское оборудование в датацентрах. Так почему бы не сделать нечто вроде SETI@home или ее аналогов для больших корпораций?
10 сен 20, 17:03    [22194958]     Ответить | Цитировать Сообщить модератору
 Re: map reduce в масштабе все организации  [new]
.Евгений
Member

Откуда:
Сообщений: 574
Критик
нечто вроде SETI@home или ее аналогов
Архитектура подобных распределенных вычислений намного проще и представляет собой несколько очередей заданий и результатов между сервером и клиентами. Нет никаких весов, размазываний, распределений и сборок.
10 сен 20, 17:17    [22194974]     Ответить | Цитировать Сообщить модератору
Все форумы / OLAP и DWH Ответить