Size: a a a

2021 March 01

AZ

Anton Zadorozhniy in Data Engineers
и бигдата, да
источник

GP

Grigory Pomadchin in Data Engineers
а мне покзаалось что вопрос был зачем комуто кубер в большедатах
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
вот решает другие типы проблем тлдр
источник

GP

Grigory Pomadchin in Data Engineers
не у всех они есть
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
а куда деваться с бареметалом? минио + спрак он кубер?
источник

GP

Grigory Pomadchin in Data Engineers
ааа ну ет д
источник

GP

Grigory Pomadchin in Data Engineers
но минио тоже вариант так та
источник

GP

Grigory Pomadchin in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
да, это скорее чтобы еще опыт подрасширить, ну и джоб секьюрити, для самых циничных
источник

GP

Grigory Pomadchin in Data Engineers
в целом новые проекты когда начинаются
к8с втащат для сервисов
втаскивать ярн только для н жоб? проще наверное уж два к8с кластера поддерживать
источник

AZ

Anton Zadorozhniy in Data Engineers
кмк надо смотреть что умеют опсы, если ярн варят хорошо - почему нет?
источник

AZ

Anton Zadorozhniy in Data Engineers
ну и да, зависит от объемов и стека, если хранилище хорошо работает на жирном сервере ПГ, а пайплайны это просто сиквел через дбт - то конечно кубера хватит, чисто чтобы воркеров эйрфлоу запускать
источник

K

KrivdaTheTriewe in Data Engineers
Grigory Pomadchin
но минио тоже вариант так та
нет
источник

GP

Grigory Pomadchin in Data Engineers
я не понимаю это боты какие-то которые вечно презаходят или что
источник

A

Alex in Data Engineers
Grigory Pomadchin
спарки на ярне 3 работают как и на ярне 2 афаик
не знаю можно ли заставить спарки в докер контейнерах под ярном работать

но наверн както можно - у ярна там сеттингов милиард
Ещё год назад запускал спарк и в докер контейнерах на ярне, кластер собирался, secured hdfs работал, керберос авторизация проходила

Библиотеки hadoop монтировал с хост системы чтобы с собой не таскать
источник

GP

Grigory Pomadchin in Data Engineers
Alex
Ещё год назад запускал спарк и в докер контейнерах на ярне, кластер собирался, secured hdfs работал, керберос авторизация проходила

Библиотеки hadoop монтировал с хост системы чтобы с собой не таскать
удобно? расскажи как запускать сча спарк на ярне?
источник

GP

Grigory Pomadchin in Data Engineers
Хочу чтоб у меня под каждый старт жобы свой имедж был
источник

A

Alex in Data Engineers
KrivdaTheTriewe
а что если не дай бох, я хочу запустить джаву 16
Тут будут основные проблемы чтобы hdfs либы полетели, а с ними проблемы на клиенте не замечал

Просто в конфигурации приложения указываете java_home какой хотите использовать, ноде менеджер  будет использовать его

Можно указывать прямо в момент Spark-submit, для драйвера одно, для воркеров другое
источник

A

Alex in Data Engineers
Grigory Pomadchin
удобно? расскажи как запускать сча спарк на ярне?
Спарк ничего нового относительно обычной джобы в докер ярне не требует, немного плясок было с другим

1. У хортона под питон 2й был скрипт, в контейнере только 3й, соответственно что-то не отработалось (нужно глянуть что там было, не вспомню)
2. Во время тестов у меня в контейнере своя джава стояла для тестов, по другим путям чем на хосте, пришлось пару параметров докинуть где её брать (оттуда и узнал что без проблем переписывается на сабмите пути)
3 как и вообще весь докер на ярне. Может быть медленный старт из-за того что образы качаются, только в 3.3 довезли чтобы они повторно pull делали для проверки обновлений, иначе раз закешировавшишь он там живёт постоянно(решали давая новый тег на ребилде образа или ансибл скриптами пулл делали, чтобы джобы не рескедулить с новым тегом) , не чистились скачанные имейджи (вроде уже пофиксили, нужно смотреть)
источник