Size: a a a

2021 June 08

ME

Max Efremov in Data Engineers
ExecutorLostFailure (executor 4 exited caused by one of the running tasks) Reason: Container killed by YARN for exceeding memory limits. 4.5 GB of 4.5 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead. 

Вот такая ошибка была у тасок в заваленной стейдже
источник

ME

Max Efremov in Data Engineers
для нового сетапа клиент вообще не подходит, там не получается к драйверу подключиться, всё закрыто. Ну и не дело прод решения сабмитить в клиентском режиме, наверное)
источник

ИК

Иван Калининский... in Data Engineers
Припоминаю, что спарк делает неправильную оценку размера набора данных на основе двух семплов, тогда экзекуторы требуют намного больше памяти, чем нужно, ярн их киляет. Но совсем не уверен, что это именно такой кейс. На всякий случай попробуй передать часть памяти --executor-memory в spark.executor.memoryOverhead. Вдруг поможет
источник

ME

Max Efremov in Data Engineers
Пока решил проблему через --executor-memory 8g, но любопытно, почему смена режима с клиента на кластер так влияет
источник

ИК

Иван Калининский... in Data Engineers
по идее не должна влиять вообще, или даже быть лучше, когда режим кластер, ведь тогда к управлению ресурсами ближе
источник

S

Stanislav in Data Engineers
это просто ООМ
не хватило памяти
источник

S

Stanislav in Data Engineers
посмотри что с данными, может перекос
источник

ИК

Иван Калининский... in Data Engineers
До OOM всё же не дошло, ярн не допустил
источник

S

Stanislav in Data Engineers
да толку, все равно все упало и ничего не работает )
источник

АM

Алексей Mильто... in Data Engineers
Решил первую проблему
У драйвера не было прав на запрос ресурсов кластера да  и просто ролей не было
Дал ему cluster-admin
источник

RK

Ruslan Krivoshein in Data Engineers
Подскажите, а из Кафки при помощи Spark Streaming и pyspark можно получать данные? Не могу найти гайдов и не могу подходящую версию spark-streaming-kafka подобрать.
В spark-shell удаётся осуществить import org.apache.spark.streaming.kafka.KafkaUtils, а вот в pyspark from pyspark.streaming.kafka import KafkaUtils выдаёт No module named 'pyspark.streaming.kafka'. Версия spark-streaming-kafka-0-8_2.11-2.4.8.jar
источник

GP

Grigory Pomadchin in Data Engineers
можно
источник

GP

Grigory Pomadchin in Data Engineers
вообще тебе нужна spark-streaming-kafka-0-10
источник

GP

Grigory Pomadchin in Data Engineers
хм интересно оно ваще в петоне работает?
источник

GP

Grigory Pomadchin in Data Engineers
источник

RK

Ruslan Krivoshein in Data Engineers
Вот эти джарники внутрь спарка складывал, но не удавалось осуществить свой замысел
источник

RK

Ruslan Krivoshein in Data Engineers
Либо pyspark валился при запуске, либо также No module ...
источник

ИШ

Игорь Шевцов... in Data Engineers
Их не внутрь спарка надо складывать, а окружением объявить
источник

ИШ

Игорь Шевцов... in Data Engineers
Стримим без проблем
источник

GP

Grigory Pomadchin in Data Engineers
что значит вообще внутрь спарка
источник