Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / NoSQL, Big Data Новый топик    Ответить
 удаленная отладка MapReduce  [new]
noTpyJI
Member

Откуда:
Сообщений: 116
Доброго времени суток!

Есть вопрос который меня очень волнует.
Возможно ли в Hadoop сделать remote debugger MapReduce приложения.
Поиски в гугле привели меня к HADOOP_OPTS

export HADOOP_OPTS="-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5005"


такая настройка дает возможность дебажить только main class. А вот сам Mapper таим способом неудается отладить.
31 окт 18, 16:04    [21720513]     Ответить | Цитировать Сообщить модератору
 Re: удаленная отладка MapReduce  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 374
локально имхо надо дебажить в stand-alone режиме, там где тесты пишешь.
а на реальном кластере сомневаюсь что это возможно. ну стартануло 100500 маперов, который из тысяч дебажить хочешь?
31 окт 18, 16:20    [21720546]     Ответить | Цитировать Сообщить модератору
 Re: удаленная отладка MapReduce  [new]
noTpyJI
Member

Откуда:
Сообщений: 116
H5N1,

На сколько я понял есть несколько режимов работы

1) Standalone
2) Pseudo distributed
3) Fully distributed

У меня есть sandbox vm от hortonworks в которой запускается один локальный mapper,
неужели его нельзя отдебжить?
31 окт 18, 17:03    [21720603]     Ответить | Цитировать Сообщить модератору
 Re: удаленная отладка MapReduce  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 374
noTpyJI
На сколько я понял есть несколько режимов работы

1) Standalone
2) Pseudo distributed
3) Fully distributed

У меня есть sandbox vm от hortonworks в которой запускается один локальный mapper,
неужели его нельзя отдебжить?

на сколько я видел в этих vm идет совершенно полноценный кластер, просто one node cluster. т.е. он нормально поднимает тучи маперов в параллель, каждый мапер в своей jvm.
наверняка есть способ, но не думаю что он тривиальный. для отладки я запускаю из идеи в винде и standalone режиме, с заглушкой вместо хадупа, без всяких ярнов. на кластере тесты того что уже как-то отлажено.
1 ноя 18, 14:41    [21721588]     Ответить | Цитировать Сообщить модератору
 Re: удаленная отладка MapReduce  [new]
Alexey Tomin
Member

Откуда: Самара
Сообщений: 1943
noTpyJI
H5N1,

На сколько я понял есть несколько режимов работы

1) Standalone
2) Pseudo distributed
3) Fully distributed

У меня есть sandbox vm от hortonworks в которой запускается один локальный mapper,
неужели его нельзя отдебжить?


Берёшь hadoop mini cluster и пишешь unit-test'ы. Не работает в windows, но это нафиг не надо.
1 ноя 18, 15:23    [21721644]     Ответить | Цитировать Сообщить модератору
 Re: удаленная отладка MapReduce  [new]
noTpyJI
Member

Откуда:
Сообщений: 116
H5N1,

к сожалению не всегда есть возможность запустить в винде в standalone режиме. Например у меня приложение в качестве вывода использует HCatOutput и для работы mapper - а нужно metastore. Я так и не нашел как сделать заглушку для hive.
Можно написать junit тест, как я и поступил но так и не получилось словить ошибку. а писать print ы тоже занятие не из приятных.
6 ноя 18, 11:49    [21725022]     Ответить | Цитировать Сообщить модератору
 Re: удаленная отладка MapReduce  [new]
Apex
Member

Откуда: Made in USSR
Сообщений: 3909
noTpyJI
H5N1,

к сожалению не всегда есть возможность запустить в винде в standalone режиме. Например у меня приложение в качестве вывода использует HCatOutput и для работы mapper - а нужно metastore. Я так и не нашел как сделать заглушку для hive.
Можно написать junit тест, как я и поступил но так и не получилось словить ошибку. а писать print ы тоже занятие не из приятных.

Когда HiveMetaStoreClient создается он проверяет в каком режиме его запустили, если режим локальный, то он локально же Derby разворачивает с metastore. Так что в тестах можно все это заставить работать.
8 янв 19, 02:17    [21779710]     Ответить | Цитировать Сообщить модератору
Все форумы / NoSQL, Big Data Ответить