Size: a a a

2021 August 24

DM

Dmitry Mittov in Moscow Spark
conf.spark.jars: „s3://…“
источник

DM

Dmitry Mittov in Moscow Spark
А то каждый понапихает своего в CP и ад начнётся
источник

DM

Dmitry Mittov in Moscow Spark
Ещё есть spark.jars.packages - скачать что-то прям для этого запуска
источник

DM

Dmitry Mittov in Moscow Spark
А ещё лучше - запускать контейнер в kubernetes, с помощью k8s-spark-operator
источник

М

Михаил in Moscow Spark
А spark в kube по производительности уступает spark на hadoop? Ближе к данным все таки?
источник

A

Alex in Moscow Spark
зависит от задачи
источник

A

Alex in Moscow Spark
если у вас стриминг, то всё не так очевидно
источник

N

Nikita Blagodarnyy in Moscow Spark
в чят призывается верховный спаркокубовод @fall_out_bug
источник

GP

Grigory Pomadchin in Moscow Spark
))) я наверн там имел ввиду - другие общепонятные способы пускать пайспарк; это то понятно
источник

GP

Grigory Pomadchin in Moscow Spark
источник

GP

Grigory Pomadchin in Moscow Spark
Если у тебя все лежит в s3 / GCP / azure то не вижу чем куб уступать будет
источник

A

Alex in Moscow Spark
Если в s3 то да
Если на хдфс то нет
источник

М

Михаил in Moscow Spark
понял, спасибо!
источник

GP

Grigory Pomadchin in Moscow Spark
Вообще, был доклад же 2017 года на спарк саммите; вся идея локалити была в том что б кубоспарк пытался искать датаноду у себя на машине сначала
источник

A

Alex in Moscow Spark
Да, вроде как линкедин рассказывал
источник

A

Alex in Moscow Spark
Потому что без этого было совсем грустно по скорости, с датанода локалити было лучше
источник

A

Alex in Moscow Spark
Но вроде как эти вещи уже все интегрировали в третий спарк
источник

GP

Grigory Pomadchin in Moscow Spark
значит оно норм работать будет еали на каждой ноде кубера есть датанода
источник

GP

Grigory Pomadchin in Moscow Spark
Да тоже хз я как-то не пускал хдфс на кубере
источник

A

Alex in Moscow Spark
Нужно убера спрашивать :) они пускают
источник