Size: a a a

2020 February 27

BK

Brusе Kawabata in Data Engineers
Спасибо, я походу понял в чем проблема
источник

R

Renarde in Data Engineers
Brusе Kawabata
Спасибо, я походу понял в чем проблема
Если файлов действительно много, стоит схему самостоятельно написать и прокинуть в ридер через .schema
источник

BK

Brusе Kawabata in Data Engineers
А я не могу ее как-нибудь закэшировать ?
источник

BK

Brusе Kawabata in Data Engineers
Прочитать джейсоны, взять схему, сохранить ее как-нибудь и потом использовать ?
источник

АШ

Арсен Шакирзянов in Data Engineers
В json можешь сохранить, а потом считать из того же json'a
источник

BK

Brusе Kawabata in Data Engineers
Написал самостоятельно схему, варнинг все равно выпадает
источник

OI

Oleg Ilinsky in Data Engineers
Привет!
Я тут чёта погрузился в депенденси хел с зависимостями спарка.
Идея такая: есть кластер хадупа (3.1, спарк 2.3.3), но там версия спарка, которая мне не подходит.
Нужно запустить спарк 2.4.4, но с хадупом 2.8.2, но с ярном, который в кластере.
Поставил spark-2.4.4-without-hadoop, отдельно поставил hadoop-2.8.2. Взял с кластера конфиги (YARN, HDFS, HIVE и др). Добавил spark-client конфиги (spark-env.sh и spark-defaults.conf).
В итоге в —master local всё стартует, ходит в hdfs и в minio, но с попыткой запустить из-под ярна какая-то лажа:
18:22:13 ERROR YarnClientSchedulerBackend: The YARN application has already ended! It might have been killed or the Application Master may have failed to start. Check the YARN application logs for more details.

ERROR SparkContext: Error initializing SparkContext.

Container exited with a non-zero exit code 1. Error file: prelaunch.err.
WARN DomainSocketFactory: The short-circuit local reads feature cannot be used because libhadoop cannot be loaded.
Exception in thread "main" java.lang.NoSuchFieldError: NONE


Мб кто видел что-то похожее или догадывается, что в конфигах я мог забыть?) Я чота уже поплыл.
источник

ME

Mikhail Epikhin in Data Engineers
А зачем вы берете spark without hadoop, если хотите ярна?
источник

ME

Mikhail Epikhin in Data Engineers
Возьмите spark-2.4.4 + prebuild hadoop 2.7
источник

ME

Mikhail Epikhin in Data Engineers
Ну и конечно есть вариант сбилдить самому
источник

OI

Oleg Ilinsky in Data Engineers
Mikhail Epikhin
Возьмите spark-2.4.4 + prebuild hadoop 2.7
это у меня есть и оно работает 😊
Но мне нужно ходить в минио и там рекомендуется хадуп 2.8.2 https://github.com/minio/cookbook/blob/master/docs/apache-spark-with-minio.md.
источник

ME

Mikhail Epikhin in Data Engineers
Oleg Ilinsky
это у меня есть и оно работает 😊
Но мне нужно ходить в минио и там рекомендуется хадуп 2.8.2 https://github.com/minio/cookbook/blob/master/docs/apache-spark-with-minio.md.
Ну ок, просто спарк оттуда берет клиента для s3a
источник

AS

Andrey Smirnov in Data Engineers
Oleg Ilinsky
это у меня есть и оно работает 😊
Но мне нужно ходить в минио и там рекомендуется хадуп 2.8.2 https://github.com/minio/cookbook/blob/master/docs/apache-spark-with-minio.md.
у меня эта сборка пашет на хадуп 2.9
источник

ME

Mikhail Epikhin in Data Engineers
Кмк тут вариант только собрать самому
источник

ME

Mikhail Epikhin in Data Engineers
У нас 2.10 хадуп и 2.4.4 Спарк и все ок с С3
источник

OI

Oleg Ilinsky in Data Engineers
ну у меня есть 2.4.4 спарк с 2.7 хадуп - всё ок, 2.3.3 спарк с 3.1 хадуп - тоже ок
а вот тут чота развалилось

P.S. 2.4 спарк нужно для стримов)
источник

ME

Mikhail Epikhin in Data Engineers
Попробуйте так
источник

ME

Mikhail Epikhin in Data Engineers
Oleg Ilinsky
ну у меня есть 2.4.4 спарк с 2.7 хадуп - всё ок, 2.3.3 спарк с 3.1 хадуп - тоже ок
а вот тут чота развалилось

P.S. 2.4 спарк нужно для стримов)
Попробуйте сбилдить, я могу помочь в личке если что
источник

ME

Mikhail Epikhin in Data Engineers
Чат, а кто-то пользуется активно apache knox? Как оно? Какие проблемы с ним есть?
источник

OI

Oleg Ilinsky in Data Engineers
Mikhail Epikhin
Попробуйте сбилдить, я могу помочь в личке если что
окей, спасибо)
источник