Телеграмм чат группы hadoopusers страница 3751

Size: a a a

Data Engineers

2021 June 08

ExecutorLostFailure (executor 4 exited caused by one of the running tasks) Reason: Container killed by YARN for exceeding memory limits. 4.5 GB of 4.5 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead.

Вот такая ошибка была у тасок в заваленной стейдже

источник

17:08пожаловаться #1

Max Efremov in Data Engineers

для нового сетапа клиент вообще не подходит, там не получается к драйверу подключиться, всё закрыто. Ну и не дело прод решения сабмитить в клиентском режиме, наверное)

источник

17:10пожаловаться #2

ИК

Иван Калининский... in Data Engineers

Припоминаю, что спарк делает неправильную оценку размера набора данных на основе двух семплов, тогда экзекуторы требуют намного больше памяти, чем нужно, ярн их киляет. Но совсем не уверен, что это именно такой кейс. На всякий случай попробуй передать часть памяти --executor-memory в spark.executor.memoryOverhead. Вдруг поможет

источник

17:13пожаловаться #3

Max Efremov in Data Engineers

Пока решил проблему через --executor-memory 8g, но любопытно, почему смена режима с клиента на кластер так влияет

источник

17:14пожаловаться #4

ИК

Иван Калининский... in Data Engineers

по идее не должна влиять вообще, или даже быть лучше, когда режим кластер, ведь тогда к управлению ресурсами ближе

источник

17:15пожаловаться #5

Stanislav in Data Engineers

это просто ООМ
не хватило памяти

источник

17:21пожаловаться #6

Stanislav in Data Engineers

посмотри что с данными, может перекос

источник

17:21пожаловаться #7

ИК

Иван Калининский... in Data Engineers

До OOM всё же не дошло, ярн не допустил

источник

18:01пожаловаться #8

Stanislav in Data Engineers

да толку, все равно все упало и ничего не работает )

источник

18:16пожаловаться #9

АM

Алексей Mильто... in Data Engineers

Решил первую проблему
У драйвера не было прав на запрос ресурсов кластера да и просто ролей не было
Дал ему cluster-admin

источник

18:23пожаловаться #10

Ruslan Krivoshein in Data Engineers

Подскажите, а из Кафки при помощи Spark Streaming и pyspark можно получать данные? Не могу найти гайдов и не могу подходящую версию spark-streaming-kafka подобрать.
В spark-shell удаётся осуществить import org.apache.spark.streaming.kafka.KafkaUtils, а вот в pyspark from pyspark.streaming.kafka import KafkaUtils выдаёт No module named 'pyspark.streaming.kafka'. Версия spark-streaming-kafka-0-8_2.11-2.4.8.jar

источник

19:40пожаловаться #11

Grigory Pomadchin in Data Engineers

можно

источник

19:41пожаловаться #12

Grigory Pomadchin in Data Engineers

вообще тебе нужна spark-streaming-kafka-0-10

источник

19:42пожаловаться #13

Grigory Pomadchin in Data Engineers

хм интересно оно ваще в петоне работает?