Size: a a a

2020 January 16

IP

Ilya Pribytkov in Data Engineers
Братцы, zeppelin ном ктонибудь пользовался?
источник

DZ

Dmitry Zuev in Data Engineers
нет
источник

AE

Alexey Evdokimov in Data Engineers
Renarde
Всем привет!

Вопрос - допустим у вас есть пачка spark-job в одном репозитории.
Ну то есть для одной job-ы аргументы например такие:

job1-conf.json:

{
“input_path”:”/some/input/path”,
“output_path”: “/some/output/path”
}


job2-conf.json:

{
 “input_path”:”/some/output/path”, # from the previous config
“output_path”:”/some/other/output/path”
}

Как вы управляете связанными конфигурациями в них?
Я пока вижу опции по типу jsonnet или hocon.
в общей конфиге получается как-то так:
       {
           "name": "constraint_all_worker",
           "output": {
               "path": "{output_path}/constraint_all_worker"
           }
       },
       {
           "name": "category1099_sliced",
           "input": {
               "columns": [
                   "catid",
                   "userid",
                   "score"
               ]
           },
           "output": {
               "path": "s3://bucket/path/to/destination/sliced"
           }
       },
источник

IP

Ilya Pribytkov in Data Engineers
Как узнать куда в интерпретаторе zeppelin пишуться логи, если в коде они реализованы стандартным скаловским логированием?
источник

IP

Ilya Pribytkov in Data Engineers
А?
источник

IP

Ilya Pribytkov in Data Engineers
Вроде нащел
источник

DZ

Dmitry Zuev in Data Engineers
Коллеги, кто прикручивал spark-bigquery connector?
ClassNotFoundException чо не делай.
Версия 0.11.0 , спарк 2.4.3 on k8s, scala 2.11
источник

GP

Grigory Pomadchin in Data Engineers
Dmitry Zuev
Коллеги, кто прикручивал spark-bigquery connector?
ClassNotFoundException чо не делай.
Версия 0.11.0 , спарк 2.4.3 on k8s, scala 2.11
а что не находит?
источник

DZ

Dmitry Zuev in Data Engineers
Grigory Pomadchin
а что не находит?
коннектор
источник

DZ

Dmitry Zuev in Data Engineers
java.lang.ClassNotFoundException: com.google.cloud.spark.bigquery.DefaultSource
источник

DZ

Dmitry Zuev in Data Engineers
так в доке .format(bigquery) , но видел в каком то ишью  .format(com.google.cloud.spark.bigquery) , и так и так пробовал не работает
источник

DZ

Dmitry Zuev in Data Engineers
конечно же в jars клал
источник

GP

Grigory Pomadchin in Data Engineers
Dmitry Zuev
так в доке .format(bigquery) , но видел в каком то ишью  .format(com.google.cloud.spark.bigquery) , и так и так пробовал не работает
ток это спросить хотел
источник

DZ

Dmitry Zuev in Data Engineers
через параметры передавал --jars
источник

DZ

Dmitry Zuev in Data Engineers
правда в sbt не прописывал ничего, но так вроде не требе
источник

DZ

Dmitry Zuev in Data Engineers
фэтджар можно конечно попробовать, думаю там будут траблы с шейдингом
источник

K

KrivdaTheTriewe in Data Engineers
Вот поэтому я всегда делаю фетджар
источник

DZ

Dmitry Zuev in Data Engineers
"com.google.cloud.spark" %% "spark-bigquery" % "0.11.0-beta" classifier "shaded"  
это добавлял, делал .format(com.google.cloud.spark.bigquery)
падало с No functional channel service provider found
источник

DZ

Dmitry Zuev in Data Engineers
KrivdaTheTriewe
Вот поэтому я всегда делаю фетджар
я тоже
источник

VZ

Vitali Z in Data Engineers
приветствую, может кто занимался прикручиванием authentication к prestodb jdbc в emr?  Интересует простой password auth
источник