Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Java Новый топик    Ответить
Топик располагается на нескольких страницах: Ctrl  назад   1 [2]      все
 Re: Библиотека для небольшого етл  [new]
mayton
Member

Откуда: loopback
Сообщений: 51389
Я не против Stax. Я просто к тому что память у него может жрать не только исходный документ
но и агрегации и сортировки. Здесь уже что Стакс что SAX.
25 май 21, 18:49    [22327013]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
asv79
Member

Откуда: Тверь
Сообщений: 3319
razliv
Основная проблема то - что большинство библиотек, при файлах выше гигабайта, выбивают out of memory :)
.
очень интересное заявление,Библиотека тут не причем
попробуйте увеличить xms xmx до 10 г

Сообщение было отредактировано: 25 май 21, 19:09
25 май 21, 19:13    [22327026]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
asv79
Member

Откуда: Тверь
Сообщений: 3319
mayton
Учитывая его 3 Гигабайта - JavaStreamApi можно попробовать. Но надо будет расширяться по -Xmx да и то не факт
что нам хватит разумных пределов.

если он упал по оом без стримов - со стримами он упадет на 1.5 гига
ему нужно просто увеличить хип,если нет денег на хип ,тогда пусть создает отдельную тему где мы будем решать нерешаемое)
25 май 21, 19:21    [22327029]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
mayton
Member

Откуда: loopback
Сообщений: 51389
Вот тут пишут что spark-узлам рекомендовано 8Г https://spark.apache.org/docs/latest/hardware-provisioning.html
и из них три четверти под нужды собственно spark-машины и хвостик для нужд ОС.

При правильном тюнинге объем обрабатываемых данных может быть бесконечным. Надо только тюнить.
Поглядывать в мониторинг и разбрасывать датасеты по специальным персистентным структурам (их
там 4 типа бывает... кажется memory, disk+memory, ...e.t.c.)
25 май 21, 19:28    [22327033]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 515
razliv
Основная проблема то - что большинство библиотек, при файлах выше гигабайта, выбивают out of memory :)

бери spark. во первых не только для этой задачи пригодиться, во вторых 100% гарантия, что прожует. плюс это думю самое близкое к pandas, может и sparkPy можно зпустить. я для халтурки парсил 1с xml файлики - отлично работает и в локальном режиме.
25 май 21, 21:07    [22327093]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
mayton
Member

Откуда: loopback
Сообщений: 51389
Простое растягивание -Xmx кстати не решает вообще всех проблем скейлинга памяти.

Шутки ради... где-то был топик где мы растили толстую строку StringBuilder-ом.
Не могу найти где... может и не здесь а в rsdn или habr.
25 май 21, 21:16    [22327100]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
asv79
Member

Откуда: Тверь
Сообщений: 3319
mayton
Простое растягивание -Xmx кстати не решает вообще всех проблем скейлинга памяти.

Шутки ради... где-то был топик где мы растили толстую строку StringBuilder-ом.
Не могу найти где... может и не здесь а в rsdn или habr.

как так не решает? тс упал по ООМ - дай больше хипа не упадет
другое дело,где програмные просчеты и жор памяти напоминает снежный ком- но тогда причем тут вообще наше обсуждение - мы же обсуждаем готовые фреймворки и либы и их падение по оом- где такие проблемы уже были исключены - иначе бы был вселенский вой и мы бы об этом услышали первыми

по факту есть ситуация - чел взял файл 1 гиг и попытался его обработать посредством своего аппа ,который был запущен скорей всео с парой гиг хипа,а может и меньше- справедливо получил ООМ и пришел зачем то сюда.
1.непонятно причем тут джава
2.решения на джаве быть не может ,это девопсятина
25 май 21, 21:24    [22327105]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
mayton
Member

Откуда: loopback
Сообщений: 51389
asv79
mayton
Простое растягивание -Xmx кстати не решает вообще всех проблем скейлинга памяти.

Шутки ради... где-то был топик где мы растили толстую строку StringBuilder-ом.
Не могу найти где... может и не здесь а в rsdn или habr.

как так не решает? тс упал по ООМ - дай больше хипа не упадет
другое дело,где програмные просчеты и жор памяти напоминает снежный ком- но тогда причем тут вообще наше обсуждение - мы же обсуждаем готовые фреймворки и либы и их падение по оом- где такие проблемы уже были исключены - иначе бы был вселенский вой и мы бы об этом услышали первыми

по факту есть ситуация - чел взял файл 1 гиг и попытался его обработать посредством своего аппа ,который был запущен скорей всео с парой гиг хипа,а может и меньше- справедливо получил ООМ и пришел зачем то сюда.
1.непонятно причем тут джава
2.решения на джаве быть не может ,это девопсятина

А ты пробовал 3х гигбайтный файл прогрузить в java String? Это не в тему этого топика. Просто так.
25 май 21, 21:27    [22327106]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 515
asv79

как так не решает? тс упал по ООМ - дай больше хипа не упадет

ваша наивность умиляет
в java прочесть 2-3 гб и сделать трансформации - sort, group by , join entities - на типичной машине шансы почти нулевые.
никакого смысла городить из этого олимпиадную задачу нет, в спарке почти наверняка вся задачу уместиться в 10 строк кода и будет работать и с 3 гб и с 300 гб файлами на ноутбуке. 99.9% без всякого тюнинга.
25 май 21, 22:13    [22327119]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
asv79
Member

Откуда: Тверь
Сообщений: 3319
mayton

А ты пробовал 3х гигбайтный файл прогрузить в java String? Это не в тему этого топика. Просто так.

почему именно в стринг? ты намекаешь на кеширование и пул?
по теме скажу что грузил и большие объекты - например емайл рассылки и файлы там были далеко выше 3 г
25 май 21, 22:20    [22327121]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
mayton
Member

Откуда: loopback
Сообщений: 51389
H5N1
asv79

как так не решает? тс упал по ООМ - дай больше хипа не упадет

ваша наивность умиляет
в java прочесть 2-3 гб и сделать трансформации - sort, group by , join entities - на типичной машине шансы почти нулевые.
никакого смысла городить из этого олимпиадную задачу нет, в спарке почти наверняка вся задачу уместиться в 10 строк кода и будет работать и с 3 гб и с 300 гб файлами на ноутбуке. 99.9% без всякого тюнинга.

Я-бы предложил заслушать постановку реальной задачи. Тут ... бабка надвое сказала. Или помру или нет.
25 май 21, 22:48    [22327138]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 515
mayton

Я-бы предложил заслушать постановку реальной задачи. Тут ... бабка надвое сказала. Или помру или нет.

зачем? "прочесть 2-3 гб и сделать трансформации - sort, group by , join entities" достаточно что бы отмести самопальные велосипеды.
25 май 21, 23:03    [22327143]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
Sergunka
Member

Откуда: Bay Area, CA
Сообщений: 2517
H5N1
razliv
Основная проблема то - что большинство библиотек, при файлах выше гигабайта, выбивают out of memory :)

бери spark. во первых не только для этой задачи пригодиться, во вторых 100% гарантия, что прожует. плюс это думю самое близкое к pandas, может и sparkPy можно зпустить. я для халтурки парсил 1с xml файлики - отлично работает и в локальном режиме.


+1 спарк все сделает за милую душу и кода там будет минимум.
26 май 21, 03:39    [22327187]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
mayton
Member

Откуда: loopback
Сообщений: 51389
H5N1
mayton

Я-бы предложил заслушать постановку реальной задачи. Тут ... бабка надвое сказала. Или помру или нет.

зачем? "прочесть 2-3 гб и сделать трансформации - sort, group by , join entities" достаточно что бы отмести самопальные велосипеды.

spark - это тяжелая артиллерия. Хотя я тоже голосую за изучение ново-теха. У нас даже шутка такая ходит
- "resume driven development". Это когда ты выбираешь не те технологии которых "необходимо и достаточно",
а те, который позволят прокачать твоё CV.
26 май 21, 09:36    [22327244]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
razliv
Member

Откуда:
Сообщений: 1231
Вроде получилось договорится посылать данные меньшими порциями, слегка оптимизировать действующий код
- надеюсь пролетим :)
27 май 21, 08:17    [22327781]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
PetroNotC Sharp
Member

Откуда:
Сообщений: 8254
razliv
Вроде получилось договорится посылать данные меньшими порциями, слегка оптимизировать действующий код
- надеюсь пролетим :)
вооот. Против архитектуры глупостями не попрешь.
А могли бы спарк замутить))))
27 май 21, 08:30    [22327786]     Ответить | Цитировать Сообщить модератору
 Re: Библиотека для небольшого етл  [new]
mayton
Member

Откуда: loopback
Сообщений: 51389
- Просил я только масла на завтрак мне подать (С) Король из Английской сказки.
27 май 21, 10:44    [22327835]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: Ctrl  назад   1 [2]      все
Все форумы / Java Ответить