Телеграмм чат группы moscowspark страница 140

Ещё варианты:
1) Задавать через переменные окружения
2) Класть конфигурацию файлом
3) Прокидывать конфигурации в hadoopConf: spark.yarn.am.extraJavaOptions -Dmy.app.name=AppName -Dmy.app.arg=arg1
Получать через sc.hadoopConfiguration.get("my.app.arg").

источник

15:35пожаловаться #6

Salam andra in Moscow Spark

На hdfs можно закинуть конфиги, и в spark - submit прописать в --files ( https://stackoverflow.com/questions/34900023/read-files-sent-with-spark-submit-by-the-driver ), дальше как @krivdathetriewe сказал

Stack Overflow

Read files sent with spark-submit by the driver

I am sending a Spark job to run on a remote cluster by running

spark-submit ... --deploy-mode cluster --files some.properties ...
I want to read the content of the some.properties file by the dri...

источник

15:36пожаловаться #7

tenKe in Moscow Spark

йамл

источник

15:36пожаловаться #8

KrivdaTheTriewe in Moscow Spark

c files плохо то,что вы по -факту не можете нормалньо посомтреть с какими аргументами что у вас запустилось

источник

15:37пожаловаться #9

KrivdaTheTriewe in Moscow Spark

Datamove

hocon - это же формат, так? А где эти файлы уонфигурации хранятся, вот в чем вопрос

аргументом спарк джобы

источник

15:37пожаловаться #10

KrivdaTheTriewe in Moscow Spark

вы спарк сабмит можете аргумент передать

источник

15:37пожаловаться #11

KrivdaTheTriewe in Moscow Spark

никто не мешает содержимое файла нафигачить

источник

15:37пожаловаться #12

Oleg in Moscow Spark

Datamove

Привет, Коллеги! Вопрос к практикующим.
Есть спарк с хадупом, стандартный дистрибутив HDP.
Есть некая задача агрегации данных, которую надо запускать как батч или стрим, и она читает из кафки и пишет в кафку. Топиков много, задач надо много запускать, но код одинаковый. *Вопрос: Как вы параметризуете задачи?*. Т.е. чтоб передавать, например, топики как параметры?
Я такое пытался делать:
в программу передается название приложения, по нему читается из конфига параметры:

appName = sys.argv[1]
spark = SparkSession.builder.appName(appName).getOrCreate()
topic_in = spark.conf.get("spark."+appName+".topic_in")

такой конфиг можно, например, хранить в zookeeper.
Меня интересует, есть ли какой-то более правильный и удобный способ?
Вопрос, повторяю, на стандартном кластере, а не в облаке, не для кубернетеса и проч. Спасибо заранее!

сдается вы кафка коннект пишете

источник

15:38пожаловаться #13

Datamove in Moscow Spark

> сдается вы кафка коннект пишете

источник

16:15пожаловаться #14

Datamove in Moscow Spark

пока не для продакшена :)

источник

16:15пожаловаться #15

Datamove in Moscow Spark