Size: a a a

2020 January 20

SK

Sergej Khakhulin in Data Engineers
Нарлд не закидываете тапками, насколько плоха идея запускать yarn внтури другого оркестратора?
источник

DG

Denis Gabaydulin in Data Engineers
А почему именно yarn? А HDFS?
источник

SK

Sergej Khakhulin in Data Engineers
Denis Gabaydulin
А почему именно yarn? А HDFS?
Для spark кластера
источник

РА

Рамиль Ахмадеев in Data Engineers
а на каком планируете запускать?
источник

DG

Denis Gabaydulin in Data Engineers
Spark кластер умеет и без yarn (как standalone например).
источник

SK

Sergej Khakhulin in Data Engineers
Вижу так, раскатать на впс swarm/nomad а внутри него задеплоить контейнеры с yarn
источник

SK

Sergej Khakhulin in Data Engineers
Denis Gabaydulin
Spark кластер умеет и без yarn (как standalone например).
Spark-submit в кластер режиме в стендалон не умеет
источник

РА

Рамиль Ахмадеев in Data Engineers
проще уж тогда раскатать кубик и в нем уже спарк
источник

РА

Рамиль Ахмадеев in Data Engineers
а еще у спарка есть свой кластер
источник

SK

Sergej Khakhulin in Data Engineers
Рамиль Ахмадеев
а еще у спарка есть свой кластер
Spark-submit в кластер режиме в стендалон не умеет
источник

SK

Sergej Khakhulin in Data Engineers
Рамиль Ахмадеев
проще уж тогда раскатать кубик и в нем уже спарк
У нас нет компетенции в кубике😅
источник

SK

Sergej Khakhulin in Data Engineers
Просто вопрос скорее в том как раскатывать yarn с помощью ansible или можно его в образ докера закатать почти безболезненно
источник

РА

Рамиль Ахмадеев in Data Engineers
ну тогда делайте матрешку
источник

РА

Рамиль Ахмадеев in Data Engineers
кроме доп. оверхеда это ни чем особо не грозит
источник

DG

Denis Gabaydulin in Data Engineers
Sergej Khakhulin
Spark-submit в кластер режиме в стендалон не умеет
В смысле? Можно вполне поднять standalone cluster и запускать джобы распределенно.
источник

РА

Рамиль Ахмадеев in Data Engineers
Sergej Khakhulin
Просто вопрос скорее в том как раскатывать yarn с помощью ansible или можно его в образ докера закатать почти безболезненно
т.к. это под спарк то с дискими вроде особой нужды нет работать, как это бывает у части ярн приложений, поэтому можно хоть так, хоть так по мне
источник

DG

Denis Gabaydulin in Data Engineers
Просто вам тогда нужно какое-то общее хранилище. S3 например.
источник

SK

Sergej Khakhulin in Data Engineers
Denis Gabaydulin
В смысле? Можно вполне поднять standalone cluster и запускать джобы распределенно.
В стенд алон можно сабмитить только в клиент режиме что черновато Спарк драйвером на ноде которая делает сабмит
источник

SK

Sergej Khakhulin in Data Engineers
Denis Gabaydulin
Просто вам тогда нужно какое-то общее хранилище. S3 например.
Есть s3 минио в дистрибьютер моде
источник

DG

Denis Gabaydulin in Data Engineers
Ну хз, разворачивать yarn только чтобы запускать driver на другой ноде. Такое.
источник