Size: a a a

2021 September 07

DR

Denis Rybak in Data Engineers
из help по pyspark  
--deploy-mode DEPLOY_MODE   Whether to launch the driver program locally ("client") or
                             on one of the worker machines inside the cluster ("cluster")
                             (Default: client).
источник

DR

Denis Rybak in Data Engineers
ошибку ловлю из контейнера с юпитером, удалось в полной мере ее увидеть запустив pyspark внутри этого же контейнера, как выше кидал
источник

DR

Denis Rybak in Data Engineers
сетевой доступ есть, сеть плоская, fw нет
источник

DR

Denis Rybak in Data Engineers
проблема, подозреваю в том, что:
1) CDH не резолвит хостнейм внутри контейнера который (да и с чего бы ему)
2) из-за динамически выделяемого порта драйвера
источник

DR

Denis Rybak in Data Engineers
с портом теперь понятно куда копать, спасибо
источник

DR

Denis Rybak in Data Engineers
с dns что-нибудь придумаю
источник

DR

Denis Rybak in Data Engineers
кстати, вопрос, а если попробовать с deploy-mode = cluster, он не должен создавать локальный экземпляр драйвера? а должен обратиться за ним в кластер? или я неверно понимаю суть
источник

R

Roman in Data Engineers
ну если округлить, то грубо говоря так.
Вот только в cluster моде нельзя интерактивно работать, вы отправляете уже готовый и собранный код на кластер.
источник

DR

Denis Rybak in Data Engineers
ну да, по аналогии с spark-submit
источник

S

Svyatoslav in Data Engineers
Коллеги, привет! А есть ли чат с вакансиями?
источник

D

Dmitriy in Data Engineers
В описании
источник

S

Svyatoslav in Data Engineers
Спасибо!
источник

N

Nikita Blagodarnyy in Data Engineers
А Консюмер не вступил.
источник

PK

Pavel Klemenkov in Data Engineers
А он точно Продюсер?
источник

DR

Denis Rybak in Data Engineers
я еще встретил такое
.set("spark.driver.host", "driver-service.jhub.svc.cluster.local") # Needs to match svс
т.е., получается, драйверу можно и хост передать для прослушивания?
источник

OI

Oleg Ilinsky in Data Engineers
можно глупый вопрос?
вот есть джоб, он уже 40+ минут висит
Экзекуторы все создались сразу, но ui с планом и всеми борщами пустой
в stages вообще ничего

Правильно ли я понимаю, что всё это время он листит файлы, берёт из них небольшие семплы и пытается сгенерить план? (файлов где-то штук 600-700, они в с3)
источник

N

Nikita Blagodarnyy in Data Engineers
а че в коде написано? может там цикл бесконечный на драйвере
источник

OI

Oleg Ilinsky in Data Engineers
не, циклов нет) раньше для того же джоба план появлялся сильно быстрее
есть теория, что у нас какая-то срань с с3, но пруфы не могу найти
источник

OI

Oleg Ilinsky in Data Engineers
в конце insertIntoTable
источник

ЕГ

Евгений Глотов... in Data Engineers
А раньше файлов сильно меньше было?
источник