Телеграмм чат группы hadoopusers страница 2124

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1803 membersпожаловаться на группу

2020 February 27

BK

Brusе Kawabata in Data Engineers

Спасибо, я походу понял в чем проблема

источник

16:23пожаловаться #1

R

Renarde in Data Engineers

Brusе Kawabata

Спасибо, я походу понял в чем проблема

Если файлов действительно много, стоит схему самостоятельно написать и прокинуть в ридер через .schema

источник

16:24пожаловаться #2

BK

Brusе Kawabata in Data Engineers

А я не могу ее как-нибудь закэшировать ?

источник

16:27пожаловаться #3

BK

Brusе Kawabata in Data Engineers

Прочитать джейсоны, взять схему, сохранить ее как-нибудь и потом использовать ?

источник

16:27пожаловаться #4

АШ

Арсен Шакирзянов in Data Engineers

В json можешь сохранить, а потом считать из того же json'a

источник

16:47пожаловаться #5

BK

Brusе Kawabata in Data Engineers

Написал самостоятельно схему, варнинг все равно выпадает

источник

17:29пожаловаться #6

OI

Oleg Ilinsky in Data Engineers

Привет!
Я тут чёта погрузился в депенденси хел с зависимостями спарка.
Идея такая: есть кластер хадупа (3.1, спарк 2.3.3), но там версия спарка, которая мне не подходит.
Нужно запустить спарк 2.4.4, но с хадупом 2.8.2, но с ярном, который в кластере.
Поставил spark-2.4.4-without-hadoop, отдельно поставил hadoop-2.8.2. Взял с кластера конфиги (YARN, HDFS, HIVE и др). Добавил spark-client конфиги (spark-env.sh и spark-defaults.conf).
В итоге в —master local всё стартует, ходит в hdfs и в minio, но с попыткой запустить из-под ярна какая-то лажа:

18:22:13 ERROR YarnClientSchedulerBackend: The YARN application has already ended! It might have been killed or the Application Master may have failed to start. Check the YARN application logs for more details.

ERROR SparkContext: Error initializing SparkContext.

Container exited with a non-zero exit code 1. Error file: prelaunch.err.
WARN DomainSocketFactory: The short-circuit local reads feature cannot be used because libhadoop cannot be loaded.
Exception in thread "main" java.lang.NoSuchFieldError: NONE

Мб кто видел что-то похожее или догадывается, что в конфигах я мог забыть?) Я чота уже поплыл.

источник

18:28пожаловаться #7

ME

Mikhail Epikhin in Data Engineers

А зачем вы берете spark without hadoop, если хотите ярна?

источник

18:37пожаловаться #8

ME

Mikhail Epikhin in Data Engineers

Возьмите spark-2.4.4 + prebuild hadoop 2.7

источник

18:37пожаловаться #9

ME

Mikhail Epikhin in Data Engineers

Ну и конечно есть вариант сбилдить самому

источник

18:38пожаловаться #10

OI

Oleg Ilinsky in Data Engineers

Mikhail Epikhin

Возьмите spark-2.4.4 + prebuild hadoop 2.7

это у меня есть и оно работает 😊
Но мне нужно ходить в минио и там рекомендуется хадуп 2.8.2 https://github.com/minio/cookbook/blob/master/docs/apache-spark-with-minio.md.

minio/cookbook

Collection of MinIO recipes. Contribute to minio/cookbook development by creating an account on GitHub.

источник

18:39пожаловаться #11

ME

Mikhail Epikhin in Data Engineers

это у меня есть и оно работает 😊
Но мне нужно ходить в минио и там рекомендуется хадуп 2.8.2 https://github.com/minio/cookbook/blob/master/docs/apache-spark-with-minio.md.

minio/cookbook

Collection of MinIO recipes. Contribute to minio/cookbook development by creating an account on GitHub.

Ну ок, просто спарк оттуда берет клиента для s3a

источник

18:40пожаловаться #12

AS

Andrey Smirnov in Data Engineers

это у меня есть и оно работает 😊
Но мне нужно ходить в минио и там рекомендуется хадуп 2.8.2 https://github.com/minio/cookbook/blob/master/docs/apache-spark-with-minio.md.

minio/cookbook

Collection of MinIO recipes. Contribute to minio/cookbook development by creating an account on GitHub.

у меня эта сборка пашет на хадуп 2.9

источник

18:40пожаловаться #13

ME

Mikhail Epikhin in Data Engineers

Кмк тут вариант только собрать самому

источник

18:40пожаловаться #14

ME

Mikhail Epikhin in Data Engineers

У нас 2.10 хадуп и 2.4.4 Спарк и все ок с С3

источник

18:41пожаловаться #15

OI

Oleg Ilinsky in Data Engineers

ну у меня есть 2.4.4 спарк с 2.7 хадуп - всё ок, 2.3.3 спарк с 3.1 хадуп - тоже ок
а вот тут чота развалилось

P.S. 2.4 спарк нужно для стримов)

источник

18:42пожаловаться #16

ME

Mikhail Epikhin in Data Engineers

Попробуйте так

источник

18:48пожаловаться #17

ME

Mikhail Epikhin in Data Engineers

ну у меня есть 2.4.4 спарк с 2.7 хадуп - всё ок, 2.3.3 спарк с 3.1 хадуп - тоже ок
а вот тут чота развалилось

P.S. 2.4 спарк нужно для стримов)

Попробуйте сбилдить, я могу помочь в личке если что

источник

18:50пожаловаться #18

ME

Mikhail Epikhin in Data Engineers

Чат, а кто-то пользуется активно apache knox? Как оно? Какие проблемы с ним есть?

источник

18:50пожаловаться #19

OI

Oleg Ilinsky in Data Engineers

Mikhail Epikhin

Попробуйте сбилдить, я могу помочь в личке если что

окей, спасибо)

источник

18:51пожаловаться #20