Size: a a a

2019 June 28

K

KrivdaTheTriewe in Moscow Spark
вообще не мешает с питоном так поступить
источник

PK

Pavel Klemenkov in Moscow Spark
KrivdaTheTriewe
мы сделали велосипед  дикий ?но работающий, аргументом передается hocon конфиг(прям так) и парсится pureconfig в case class
Кривда, ты питон читать умеешь?)
источник

K

KrivdaTheTriewe in Moscow Spark
Pavel Klemenkov
Кривда, ты питон читать умеешь?)
питон позволяет хокон использовать
источник

K

KrivdaTheTriewe in Moscow Spark
ну то есть вообще можно полноценный конфиг передавать base64 аргументом (или в чистом виде) и парсить pyhocon
источник

D

Datamove in Moscow Spark
hocon - это же  формат, так? А где эти файлы уонфигурации хранятся, вот в чем вопрос
источник

AI

Andrei Iatsuk in Moscow Spark
Ещё варианты:
1) Задавать через переменные окружения
2) Класть конфигурацию файлом
3) Прокидывать конфигурации в hadoopConf: spark.yarn.am.extraJavaOptions -Dmy.app.name=AppName -Dmy.app.arg=arg1
Получать через sc.hadoopConfiguration.get("my.app.arg").
источник

Sa

Salam andra in Moscow Spark
На hdfs можно закинуть конфиги, и в spark - submit прописать в --files ( https://stackoverflow.com/questions/34900023/read-files-sent-with-spark-submit-by-the-driver ), дальше как @krivdathetriewe  сказал
источник

t

tenKe in Moscow Spark
йамл
источник

K

KrivdaTheTriewe in Moscow Spark
c files плохо то,что вы по -факту не можете нормалньо посомтреть с какими аргументами что у вас запустилось
источник

K

KrivdaTheTriewe in Moscow Spark
Datamove
hocon - это же  формат, так? А где эти файлы уонфигурации хранятся, вот в чем вопрос
аргументом спарк джобы
источник

K

KrivdaTheTriewe in Moscow Spark
вы спарк сабмит можете аргумент передать
источник

K

KrivdaTheTriewe in Moscow Spark
никто не мешает содержимое файла нафигачить
источник

O

Oleg in Moscow Spark
Datamove
Привет, Коллеги! Вопрос к практикующим.
Есть спарк с хадупом, стандартный дистрибутив HDP.
Есть некая задача агрегации данных, которую надо запускать как батч или стрим, и она читает из кафки и пишет в кафку. Топиков много, задач надо много запускать, но код одинаковый. *Вопрос: Как вы параметризуете задачи?*. Т.е. чтоб передавать, например, топики как параметры?
Я такое пытался делать:
в программу передается название приложения, по нему читается из конфига параметры:
appName = sys.argv[1]
spark = SparkSession.builder.appName(appName).getOrCreate()
topic_in = spark.conf.get("spark."+appName+".topic_in")
такой конфиг можно, например, хранить в zookeeper.
Меня интересует, есть ли какой-то более правильный и удобный способ?
Вопрос, повторяю, на стандартном кластере, а не в облаке, не для кубернетеса и проч. Спасибо заранее!
сдается вы кафка коннект пишете
источник

D

Datamove in Moscow Spark
> сдается вы кафка коннект пишете
источник

D

Datamove in Moscow Spark
пока не для продакшена :)
источник

D

Datamove in Moscow Spark
В общем, идея просто в файлах хранить, либо передавать все в приложения с аргументами. Это норм идеи, спасибо!
источник

D

Datamove in Moscow Spark
hadoopConf - это xml?
источник

K

KrivdaTheTriewe in Moscow Spark
С файлами лучше остановиться , пока остановка не стала последней
источник

L

Les in Moscow Spark
Коллеги, приветствую! Подскажите пожалуйста как передать sql запрос из #NiFi процессора ConvertJSONToSQL в PutSQL ?
источник

S

Stanislav in Moscow Spark
Les
Коллеги, приветствую! Подскажите пожалуйста как передать sql запрос из #NiFi процессора ConvertJSONToSQL в PutSQL ?
сюда https://t.me/nifiusers, но хочешь ты чего то странного
источник