Size: a a a

2021 June 08

UD

Uncel Duk in Data Engineers
100d это как раз sds
источник

S

Stanislav in Data Engineers
И то правда. Не следил я, отдают эти железки сейчас обьектный интерфейс
источник

OI

Oleg Ivchenko in Data Engineers
Переслано от Oleg Ivchenko
Всем привет!

Приглашаем поучаствовать в русскоязычном MeetUp администраторов экосистемы Hadoop, который пройдет 2 июля 2021г. с 18 до 23 часов.
Организаторы: лаборатория инноватики МФТИ и МТС.

В программе четыре докладчика из МФТИ, МТС, Yandex и Swisscom. Они расскажут как у них живёт Hadoop, какие проблемы возникают при администрировании и как решаются.
С учетом того что Cloudera стала платной, будет особенно интересно послушать про продукт Yandex.Dataproc (это Hadoop от Яндекс.Облака) и про опыт переезда инфраструктуры с Hadoop на Kubernetes.

Приглашаются все желающие! Подробности см. на сайте https://hadoop-admins.ru .
источник

VP

Vitaly Pismarev in Data Engineers
У меня пишет The specified coupon "DB_CE" is not valid
источник

GP

Grigory Pomadchin in Data Engineers
снял с пина) видимо уже не валиден
источник

GP

Grigory Pomadchin in Data Engineers
в треде пишут что истек срок действия
источник

ПФ

Паша Финкельштейн... in Data Engineers
Переслано от Томак Ксения...
DE or DIE #7

Ребята, мы рады анонсировать митап #7 нашего сообщества DE or DIE!

Дата и время: 16 июня (среда) 18:00
Формат: Онлайн (трансляция на YouTube)

Регистрация по ссылке: https://deordie.timepad.ru/event/1669693/

Темы:
18:00-19:00. Handling late data. How to make the right choice? - Дарья Буланова
19:15-20:15. Ingestion and historization in the Data Lake? - Илья Тодор
20:15-20:45. After Show - организаторы DE or DIE и спикеры

(*): Несмотря на англоязычные названия доклады будут на русском языке.

Ждем вас в следующую среду. Ссылку на трансляцию опубликуем за час до мероприятия.
источник

АM

Алексей Mильто... in Data Engineers
Ребята, всем привет
У меня проблема со спарком, а точнее spark-submit
Я деплою джобу на локальный minikube кластер 8 гб памяти 4 ядра, но у меня возникает две проблемы
Первая, под с драйвером стартует и берет 1,4гб и 1 ядро, но драйвер не создает executors, а сам в одиночку начинает выполнять таски
Второе, после загрузки данных в облако спарк зависает и не выполняет следующие джобы (show() и другие)
источник

АM

Алексей Mильто... in Data Engineers
Даже когда через идею запускаю, драйвер просто не создает executor'ы
источник

АM

Алексей Mильто... in Data Engineers
Была у кого такая проблема?
источник

GP

Grigory Pomadchin in Data Engineers
Как пускаешь покаж спарк сабмит; у тя кубер как менеджер ресурсов?
источник

АM

Алексей Mильто... in Data Engineers
Да, кубер менеджер ресурсов
источник

АM

Алексей Mильто... in Data Engineers
Сейчас команду скину
источник

АM

Алексей Mильто... in Data Engineers
spark-submit --master k8s://127.0.0.1:63658 --deploy-mode cluster --name sparkapp --class com.milto.scala.SparkApplication --conf spark.executor.instances=1 --conf spark.kubernetes.container.image=alexm2000/spark:v1 local:///opt/spark/jars/spark-1.0.0.jar
источник

ME

Max Efremov in Data Engineers
Хм, а подскажите по спарку: есть джоба, которая раньше запускалась в ярне в клиентском режиме и работала хорошо. Сейчас пускаю её в кластерном режиме и у меня отваливаются экзекьюторы, т.к. их убивает ярн из-за выхода за лимиты памяти контейнера. Сама джоба простая: с помощью 10 экзекьюторов вычитать данные из MS SQL и положить на S3. Параметры памяти и ядер не менял, число партиций и прочее одинаковое.
Чем вообще так глобально может отличаться клиентский режим от кластерного в лучшую сторону по ресурсам?
источник

АШ

Арсен Шакирзянов... in Data Engineers
кластерный режим от клиентского отличается тем, что драйвер запускается в ярне. Точно экзекьюторы отваливаются, а не драйвер? Может для драйвера указано бОльшее кол-во памяти, чем для экзекьюторов.
источник

ME

Max Efremov in Data Engineers
точно экзекьюторы, в UI смотрю, там куча умерших экзекьюторов и тасок на них. Драйвер в обоих случаях мелкий, 1.1 гига памяти написано.
Пока решил проблему увеличением памяти на экзекьюторах просто, с 4х до 8 гигов но любопытно, что это было
источник

S

Stanislav in Data Engineers
ну ваще т странно
ты при старте задаешь размер памяти, это хмх
источник

S

Stanislav in Data Engineers
контейнеры должны упать по ООМ
источник

S

Stanislav in Data Engineers
лучше - у тебя не загружен сабмит хост, можно использовать любую дохлую тачку
источник