из help по pyspark --deploy-mode DEPLOY_MODE Whether to launch the driver program locally ("client") or on one of the worker machines inside the cluster ("cluster") (Default: client).
проблема, подозреваю в том, что: 1) CDH не резолвит хостнейм внутри контейнера который (да и с чего бы ему) 2) из-за динамически выделяемого порта драйвера
кстати, вопрос, а если попробовать с deploy-mode = cluster, он не должен создавать локальный экземпляр драйвера? а должен обратиться за ним в кластер? или я неверно понимаю суть
я еще встретил такое .set("spark.driver.host", "driver-service.jhub.svc.cluster.local") # Needs to match svс т.е., получается, драйверу можно и хост передать для прослушивания?
можно глупый вопрос? вот есть джоб, он уже 40+ минут висит Экзекуторы все создались сразу, но ui с планом и всеми борщами пустой в stages вообще ничего
Правильно ли я понимаю, что всё это время он листит файлы, берёт из них небольшие семплы и пытается сгенерить план? (файлов где-то штук 600-700, они в с3)