Size: a a a

2022 January 30

A

Alex in Moscow Spark
тогда привидите пример где гибко
источник

ПФ

Паша Финкельштейн... in Moscow Spark
С кубиком конечно могу — у меня уже есть кластер, двигаем остальные ресурсы выделяем больше там, где нам надо.
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Собственно смотрим на любые SaaS спарка и видим что примерн так оно и работает — просто докидываем в печку ресурсов
источник

A

Alex in Moscow Spark
так кубик не динамически создан кластер, а уже готов, ноды добавить не 20 секунд задача
так и в ярне если виртуалки есть, то только запустить процесс
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну кубик у нас обычно не только под дата инжиринг заведён, он типа огромный растянут на все ресурсы какие есть
источник

Д

Дмитрий in Moscow Spark
Прикольно прочитал про trinodb, понял что с этим работал как с presto. Но не прижилась она тогда у нас. Ели кактус с hive mr2, tez.
источник

ПФ

Паша Финкельштейн... in Moscow Spark
ну так это спинофф престо, собственно
источник

Д

Дмитрий in Moscow Spark
А как с hdfs ? Отдельный ресурс ? Или s3 ?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А про hdfs  в задаче ничего не было, откуда он тут взялся?
источник

A

Alex in Moscow Spark
в теории оно хорошо.... на практике я почти везде вижу "много k8s кластеров под разные задачи, а расширение требует время"
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну я работал минимум в двух компаниях где не так и в одной где так
источник

Д

Дмитрий in Moscow Spark
Я спросил, задачу не ставил ...
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Я не знаю, я не оч понимаю зачем в наше время hdfs, но с другой стороны принципиальных проблем с его подключением не вижу
источник

Д

Дмитрий in Moscow Spark
Где его разворачивать hdfs, s3 ? Отдельно или тоже в к8s ?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну берём, ставим minio или ceph или берём облако подходящего нам провайдера и используем там S3 API
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А уж с S3 API в наше время что угодно может работать
источник

A

Alex in Moscow Spark
свежо предание, да верится с трудом

мы делали тесты minio против hdfs
все ворклоады в 2-3 раза медленней
некоторые на порядок
часть не уложилось в указанный таймаут

minio настраивали консультанты от них самих, то есть "не смогла"
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну я не наставиваю что это идеальное решение вообще никак ) У нас Amazon S3 + Yandex S3 :)
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Знаю конторы с Ceph
источник

A

Alex in Moscow Spark
пока остановились на vast data + сверху обмазать всё кешом от alluxio, иначе ворклоады на impala и vertica сильно сливали,
с alluxio примерно на уровне, часть быстрее, часть медленней
источник