Size: a a a

2019 August 09

ЕГ

Евгений Глотов in Data Engineers
Так я ничего не добавляю, просто Спарк хоум прописываю
источник

ЕГ

Евгений Глотов in Data Engineers
Вопрос в том, что у меня в функции поднятия сессии спаркхоум один, а импортировали из другого
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
может не стоит спарк в класпас для ярн нод добавлять? =)
мб людям нужно экономить на старте, у меня были клиенты которые даже бизнес-логику пытались раскидывать максимально, лишь бы быстрее запускались
источник

ЕГ

Евгений Глотов in Data Engineers
Короче несостыковочки
источник

A

Alex in Data Engineers
в общем хз
ярн класспас составляет из того что явно ему в конфиги сунули + локализованные ресурсы

@dartov если хочешь экономить, то закинь на hdfs, локализация быстро достаточно проходит
источник

A

Alex in Data Engineers
иначе может оказаться: часть нод на мейнтенсе, ты меняешь конфигурации и всякие spark_home закидывая новые jar, ноды вернулись из айти сапорта и вкинулись в кластер, получил веселье
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
в общем хз
ярн класспас составляет из того что явно ему в конфиги сунули + локализованные ресурсы

@dartov если хочешь экономить, то закинь на hdfs, локализация быстро достаточно проходит
да, причем их хранили там с очень большим РФ, но клиент хотел быстрее
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
иначе может оказаться: часть нод на мейнтенсе, ты меняешь конфигурации и всякие spark_home закидывая новые jar, ноды вернулись из айти сапорта и вкинулись в кластер, получил веселье
плюсую, кидать что-то по кластеру это путь к unique snowflake
источник

AZ

Anton Zadorozhniy in Data Engineers
ну и конечно kinit в пользовательской сессии это беда, если пароль то его пользователю придется знать (убивает ССО), и многие могут попробовать закодить в скрипт, а если китаб - его можно достать или дать другому пользователю
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
в общем хз
ярн класспас составляет из того что явно ему в конфиги сунули + локализованные ресурсы

@dartov если хочешь экономить, то закинь на hdfs, локализация быстро достаточно проходит
у Яцека неплохо расписано, я к нему обращаюсь чтобы в код не лазить часто https://jaceklaskowski.gitbooks.io/mastering-apache-spark/yarn/spark-yarn-client.html
источник

A

Alex in Data Engineers
я это знаю, generic что и как попадает в класспас =\ для типа mr кстати есть отдельная магия с забором файлов с hdfs и распаковкой в класспасс
источник

A

Alex in Data Engineers
хотел бы уточнить один вопрос: кто-либо гонял dataproc на гугловой платформе для spark ?
источник
2019 August 12

Ж

Жмака in Data Engineers
Всем привет! Хадуп 2.7.4 без менеджера с apache nutch. Надо перенесии namenode, journalnode, zkfc, resource manager на три новых сервера и оставить на прежнем только датанод и нод менеджер. Как лучше сделать без лишних головных болей?
источник

AZ

Anton Zadorozhniy in Data Engineers
Жмака
Всем привет! Хадуп 2.7.4 без менеджера с apache nutch. Надо перенесии namenode, journalnode, zkfc, resource manager на три новых сервера и оставить на прежнем только датанод и нод менеджер. Как лучше сделать без лишних головных болей?
без даунтайма не получится, а так - остановил все сервисы на одной ноде, обновил конфу, рестартовал на старых нодах, стартовал сервисы на новой ноде, повторить
источник

Ж

Жмака in Data Engineers
Даунтайм не проблема. Там еще high availability есть
источник

AZ

Anton Zadorozhniy in Data Engineers
Жмака
Даунтайм не проблема. Там еще high availability есть
в смысле за рамками кластера? так-то у HDFS условная HA
источник

Ж

Жмака in Data Engineers
Не. С тремя journal nodes и двумя namenodes. Конфигурации только там где ай пи адреса записаны? Не совсем понятно. Надо данные с диска переносить
источник

AZ

Anton Zadorozhniy in Data Engineers
Жмака
Не. С тремя journal nodes и двумя namenodes. Конфигурации только там где ай пи адреса записаны? Не совсем понятно. Надо данные с диска переносить
данные переносить не нужно, при рестарте с новой конфигурацией у вас данные отреплицируются на новую ноду
источник

AZ

Anton Zadorozhniy in Data Engineers
но забэкапить fsimage всегда полезно, безотносительно переездов
источник

AZ

Anton Zadorozhniy in Data Engineers
а с двумя namenode у вас условный HA потому что при потере одной неймноды, если вам нужно завести новую с другими адресами/именами - вам нужно рестартовать оставшуюся активную, то есть даунтайм
источник