Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Работа Новый топик    Ответить
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
 Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
Дмитрий Дальний
Member

Откуда: СПб
Сообщений: 59
Всем привет,

Ищу место стажера с 1.09.2019 на время с 18:00 в часовом поясе МСК, сам нахожусь в СПб.
Интересен стек SPARK, PySpark, Java в ETL.

Умею linux, oracle, ms sql, ssis, NI FI.
Хороше знаю диалекты SQL, T-SQL, PL-SQL(1 год не работал).
Знаю Informatica BDM, EDC.
Понимаю стэк HADOOP
Цель поработать в проектах, можно опенсурсных. Пообщаться со специалистами. Возможно переехать на данный стек.
24 авг 19, 20:23    [21957038]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
RonibGreat
Member

Откуда:
Сообщений: 1020
Дмитрий Дальний,

Ты даже представления зеленого не имеешь что такое Хадуп и вся лабуда вокруг него. Необходимо несколько лет работы с ним чтобы начать его понимать и зачем это все. Не говоря о тулките от различных вендоров. Там много всего.... Так что вменяемый с твоими скилсами тебя и близко не подпустит, в смысле ты будешь бесполезен несколько лет пока научишься. Берут выпускников универов, кто уже потратил несколько лет на начальное обучение всего что связано с Хадуп.
24 авг 19, 22:25    [21957071]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
RonibGreat
Member

Откуда:
Сообщений: 1020
Ну а чтобы ты понял о чем я, то вот тебе такая простая задачка для начинающих Хадуповцев:
Есть два или три файла данных, каждый размером в 5 терабайт. Теперь надо выбрать разницу из каждого файла и предоставить отчет. Данные могут оличаться как количеством строк, их расположением в файле, могут быть дубликаты строк в немеряных количествах, может быть разница в количестве полей коих более 2 тысяч в каждом файле. На основе очищенных даных сделать статистический отчет, скажем посчитать среднее по критерию 5 -6 полей. Проанализировать выбранную разницу и сделать детальный отчет о том что произошло. Вот примерно такие постановы в Хадупе.

Тебе сливают файлы и требуют отчет. Я тебе еще слишком подробное описание дал о том что надо делать с файлами. Обычно заказчик дает ссылку на файлы и все, и ждет от тебя что-нибудь вменяемое что ему поможет сделать соответствующие выводы и соответственно бабки инвестировать или заработать...
24 авг 19, 22:35    [21957079]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2285
Нзр закрыли вы теперь сюда всё лезете как тараканы со своим бредом.
24 авг 19, 23:39    [21957091]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
RonibGreat
Member

Откуда:
Сообщений: 1020
Бумбараш,

Где бред? Я два года отработал в большом банке с офиссами по всему миру работая с хадупом как разработчик и дата-аналитик.
Обрабатывал данные Торонтовской, Токийской, и Лондонских бирж касательно транзакций нашего банка. 30 милллионов записей каждый день в наш банк данных на хадупе и их надо было обрабатывать. Одних только мета данных кних 100 тысяч для описания транзакций. По русски - словарей.
Так что много чего могу рассказать...
Честно удивляюсь почему сей монстр до сих пор живет, и самое интересное на просторах России - что он там делает? Кто то распиливает бабло - другого объяснения его применения в России я не могу найти.
25 авг 19, 00:01    [21957093]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2285
В России сейчас самый разгар внедрения этого всего в банках. Учить несколько лет там нечего )
25 авг 19, 00:25    [21957095]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
кит северных морей
Member

Откуда: Красноярск
Сообщений: 673
RonibGreat
30 милллионов записей каждый день в наш банк данных на хадупе
это много что-ли?
25 авг 19, 00:41    [21957097]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2285
В Торонто много
25 авг 19, 00:44    [21957098]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
RonibGreat
Member

Откуда:
Сообщений: 1020
кит северных морей
RonibGreat
30 милллионов записей каждый день в наш банк данных на хадупе
это много что-ли?

Это больше чем дохрена, особенно когда заказчик ждет от тебя чего -нибудь вменяемого из этих данных. Нудная работа скажу вам, придумывать идею, а потом писать процессы по выборке и агрегированию, а потом еще объянять "младшим" (индусам китайцам) как отчет сделать чтобы клиент понял.. Хуже работы не придумаешь - неблагодарная работа. Точнее много работы - а на выхлопе то что и так все знают...
25 авг 19, 00:55    [21957099]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
RonibGreat
Member

Откуда:
Сообщений: 1020
Бумбараш
В России сейчас самый разгар внедрения этого всего в банках. Учить несколько лет там нечего )

Нечего? Ну-ну... если считать как выбрать из данных "Хело волд", то да. Пример простейчей задачки я уже описал выше.
25 авг 19, 00:57    [21957100]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
Дмитрий Дальний
Member

Откуда: СПб
Сообщений: 59
RonibGreat,

Ты абсолютно прав, поэтому и ищу место стажера.
Твою задачу как 2 пальца об асфальт, решу с помощью Informatica BDM (получится гофнокод на спарк), но у меня нет таких задач, а они мне интересны.
Поэтому и ищу место стажера.

Я ведь не писал что знаю стек HADOOP, а написал понимаю :)
25 авг 19, 08:35    [21957119]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
Дмитрий Дальний
Member

Откуда: СПб
Сообщений: 59
RonibGreat,

Про студентов, мне тут студент сдал задачу, загрузка 500 Гб, 14 часов занимала. Схема файл->небольшая обработка->РСУБД. После правки мной укладывается в 1,5 часа. Можно еще убрать около часа, но уже лень и так сойдет. Причина, опыта у них мало. Знания вроде то есть, а вот опыт пропить тяжело, если он не набран.
25 авг 19, 08:44    [21957120]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
Nelrum
Member

Откуда:
Сообщений: 176
Дмитрий Дальний
RonibGreat,

Про студентов, мне тут студент сдал задачу, загрузка 500 Гб, 14 часов занимала. Схема файл->небольшая обработка->РСУБД. После правки мной укладывается в 1,5 часа. Можно еще убрать около часа, но уже лень и так сойдет. Причина, опыта у них мало. Знания вроде то есть, а вот опыт пропить тяжело, если он не набран.


Ну раз уж началось меренье, давайте уж и ссылку на репозиторий, там мы уж найдем линейку и всё оценим.
500gb, 14 часов, 1.5 часа, пол часа… что обсуждается, о чем, не понятно. При чем здесь опыт при таком не шибко большом объеме данных если это было преобразование и запихивание не структурированных данных в реляционную базу. Это делалось на 2х ядерном 10ти-летнем нет топе?
25 авг 19, 14:15    [21957208]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
Vyatich
Member

Откуда:
Сообщений: 3169
Nelrum
Дмитрий Дальний
RonibGreat,

Про студентов, мне тут студент сдал задачу, загрузка 500 Гб, 14 часов занимала. Схема файл->небольшая обработка->РСУБД. После правки мной укладывается в 1,5 часа. Можно еще убрать около часа, но уже лень и так сойдет. Причина, опыта у них мало. Знания вроде то есть, а вот опыт пропить тяжело, если он не набран.


Ну раз уж началось меренье, давайте уж и ссылку на репозиторий, там мы уж найдем линейку и всё оценим.
500gb, 14 часов, 1.5 часа, пол часа… что обсуждается, о чем, не понятно. При чем здесь опыт при таком не шибко большом объеме данных если это было преобразование и запихивание не структурированных данных в реляционную базу. Это делалось на 2х ядерном 10ти-летнем нет топе?

А зачем вообще запихивать 500 Гб не структурированных данных в реляционную базу?
25 авг 19, 16:45    [21957235]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
iOracleDev
Member

Откуда:
Сообщений: 303
Vyatich
А зачем вообще запихивать 500 Гб не структурированных данных в реляционную базу?

Наверное смысл как раз в структурировании информации, чтобы в дальнейшем с ней могли работать предметные юзвери.
25 авг 19, 18:00    [21957249]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
Дмитрий Дальний
Member

Откуда: СПб
Сообщений: 59
Nelrum,

Не хотел мерятся, но на всякий случай.
Это уже грузится с помощью SSIS занимает по времени от 7 до 12 минут. А тут проект на Informatica BDM который работал 14 часов, его поправил, стал работать 1,5 часа. Есть возможность сделать чтобы грузился минут за 20, но смысла не вижу. Основная задача достигнута в Informatica EDC построен лайнедж, и теперь потребитель витрины видит как и откуда получены данные.

Под номером 9, как раз в тему твоего коммента
25 авг 19, 18:54    [21957265]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
Дмитрий Дальний
Member

Откуда: СПб
Сообщений: 59
iOracleDev,

Ты прав, предварительно обработать, сделать доступными для группы пользователей, привести типы данных .... В общем что и делает ДА.
25 авг 19, 19:01    [21957273]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
RonibGreat
Member

Откуда:
Сообщений: 1020
Дмитрий Дальний
RonibGreat,

Ты абсолютно прав, поэтому и ищу место стажера.
Твою задачу как 2 пальца об асфальт, решу с помощью Informatica BDM (получится гофнокод на спарк), но у меня нет таких задач, а они мне интересны.
Поэтому и ищу место стажера.

Я ведь не писал что знаю стек HADOOP, а написал понимаю :)

У меня где-то остались материаллы по Хадупу, когда я проходил трейнинг в Роял Банке. Могу скинуть, где-то все должно быть на хард-драйве. Там много всего интересного. Мы проходили трейнинг и у нас было все организовано с реальными данными на амазонских сервисах. Амазон дает все для Хадупа, правда охренительно дорого- сотнями баксов надо раскошелиться и гемороя потом от них отвязаться.
25 авг 19, 21:16    [21957332]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
Дмитрий Дальний
Member

Откуда: СПб
Сообщений: 59
RonibGreat,

Спасибо, за предложение. Но вроде курсы намечаются по hadoop, конечно они так себе ... Но инфы в инет очень много, и вполне понятно как искать.
25 авг 19, 22:47    [21957368]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
Александр Бердышев
Member

Откуда: Санкт-Петербург
Сообщений: 266
Попробуй сунуться в Segmento - они в Питере на Васильевском острове сидят.
Под этот стек как раз сейчас аналитика ищут, на hh можешь запросто найти.

Из плюсов кампании: вполне вменяемо платят джунам и мидлам, опыт полезный (несколько миллиардов записей в день - а не 30 миллионов, как коллега говорил).
Из минусов: любят увольнять людей одним днём.
26 авг 19, 12:14    [21957573]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
alexeyvg
Member

Откуда: Moscow
Сообщений: 29041
Дмитрий Дальний
Ищу место стажера с 1.09.2019 на время с 18:00 в часовом поясе МСК, сам нахожусь в СПб.
Вообще компании охотно берут джуниоров, потому что платить много не надо.
Если у вас есть теоретическое знание основ, плюс небольшой опыт, то ничего невозможного.

Курсы для джуниора очень полезны (знания, + сигнал для HR-ов, которые отбирают по ключевым словам). Но параллельно подавайтесь на все вакансии, которые увидите, не бойтесь, за спрос денег не берут.

RonibGreat
Так что вменяемый с твоими скилсами тебя и близко не подпустит, в смысле ты будешь бесполезен несколько лет пока научишься. Берут выпускников универов, кто уже потратил несколько лет на начальное обучение всего что связано с Хадуп.
Ну автор и будет учиться.

Если ему, конечно, не больше 40, а лучше не больше 30. Если больше, то более реально искать что то по своей специальности, смотря, что бы где то "рядом" был этот хадуп.
26 авг 19, 13:05    [21957604]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
Бумбараш
Member

Откуда: никем не победимая, самая любимая
Сообщений: 2285
зачем ему искать работу?
Если он сидит на BDM, значит уже сидит на хадупе. Спарк это просто библиотека для хадупа. Ставь и гоняй с утра до ночи что хочешь.
26 авг 19, 13:16    [21957611]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
Interloper
Member

Откуда: Москва
Сообщений: 493
Александр Бердышев
Из минусов: любят увольнять людей одним днём.

Это законно?
26 авг 19, 14:38    [21957667]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
alexeyvg
Member

Откуда: Moscow
Сообщений: 29041
Бумбараш
зачем ему искать работу?
Если он сидит на BDM, значит уже сидит на хадупе. Спарк это просто библиотека для хадупа. Ставь и гоняй с утра до ночи что хочешь.
"Гонять" - это не опыт, это будут скилы хуже чем у студента (тех хотя бы системно учат)
26 авг 19, 17:37    [21957796]     Ответить | Цитировать Сообщить модератору
 Re: Ищу место стажера на SPARK, PySpark, Java в ETL  [new]
Дмитрий Дальний
Member

Откуда: СПб
Сообщений: 59
Для информации я не ищу работу, я ищу стажерство, желательно на открытом проекте. Если сложится то готов поменять работу.
Да я сейчас работаю на хадупе, через BDM это то еще извращение, как гланды через выхлопную трубу. Но задачи будут выполнены :)
26 авг 19, 18:20    [21957834]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
Все форумы / Работа Ответить