Телеграмм чат группы moscowspark страница 772

conf.spark.jars: „s3://…“

12:30пожаловаться #1

А то каждый понапихает своего в CP и ад начнётся

12:32пожаловаться #2

Ещё есть spark.jars.packages - скачать что-то прям для этого запуска

12:33пожаловаться #3

А ещё лучше - запускать контейнер в kubernetes, с помощью k8s-spark-operator

12:34пожаловаться #4

Михаил in Moscow Spark

А spark в kube по производительности уступает spark на hadoop? Ближе к данным все таки?

зависит от задачи

если у вас стриминг, то всё не так очевидно

13:27пожаловаться #7

Nikita Blagodarnyy in Moscow Spark

в чят призывается верховный спаркокубовод @fall_out_bug

13:34пожаловаться #8

))) я наверн там имел ввиду - другие общепонятные способы пускать пайспарк; это то понятно

13:34пожаловаться #9

sticker.webp

(36.23 Кб)

13:34пожаловаться #10

Если у тебя все лежит в s3 / GCP / azure то не вижу чем куб уступать будет

13:36пожаловаться #11

Если в s3 то да
Если на хдфс то нет

13:38пожаловаться #12

Михаил in Moscow Spark

понял, спасибо!

13:40пожаловаться #13

Вообще, был доклад же 2017 года на спарк саммите; вся идея локалити была в том что б кубоспарк пытался искать датаноду у себя на машине сначала

13:46пожаловаться #14

Да, вроде как линкедин рассказывал

13:46пожаловаться #15

Потому что без этого было совсем грустно по скорости, с датанода локалити было лучше

13:47пожаловаться #16

Но вроде как эти вещи уже все интегрировали в третий спарк

13:47пожаловаться #17

значит оно норм работать будет еали на каждой ноде кубера есть датанода

13:48пожаловаться #18

Да тоже хз я как-то не пускал хдфс на кубере

13:48пожаловаться #19

Нужно убера спрашивать :) они пускают