Size: a a a

2020 November 18

M

Mironiken in Data Engineers
Логов с экзекьюторов совсем нет?
источник

SD

Serg D. in Data Engineers
Andrey Smirnov
Вы можете вычитывать всю таблицу и на спарке ее фильтровать
Ок, спасибо. Перепроверю.
источник

SD

Serg D. in Data Engineers
Mironiken
Логов с экзекьюторов совсем нет?
На текущий момент - нет. Только логи приклада. Там вижу ровно то же самое. Между началом сохранения файла и завершения - 5 часов.
источник

SS

Sergey Shushkov in Data Engineers
А пишет то куда?
источник

SD

Serg D. in Data Engineers
В hdfs. Как parquet файл.
источник

SS

Sergey Shushkov in Data Engineers
Сеть одна, перезапусков, потерь экзекуторов нет?
источник

SD

Serg D. in Data Engineers
Видимо есть...
источник

SS

Sergey Shushkov in Data Engineers
4 стейджа из них 11 упали? Хороший рейт )
источник

SD

Serg D. in Data Engineers
У меня тоже большое кол-во вопросов к кластеру, но пока они без ответа )))
источник

M

Mironiken in Data Engineers
Вполне возможно причина падений - какие-нибудь кривые хардбиты
источник

SD

Serg D. in Data Engineers
Andrey Smirnov
Вы можете вычитывать всю таблицу и на спарке ее фильтровать
Спасибо. Судя по всему в этом и было дело. Поправил фильтры и результат уже заметен. Буду дальше копать. Спасибо.
Failed tasks вроде тоже пропали. Нужно еще погонять для чистоты эксперимента
источник

AS

Andrey Smirnov in Data Engineers
Serg D.
Спасибо. Судя по всему в этом и было дело. Поправил фильтры и результат уже заметен. Буду дальше копать. Спасибо.
Failed tasks вроде тоже пропали. Нужно еще погонять для чистоты эксперимента
есть особенности в использовании коннекторов (какой у вас, какой hbase), это уже обсуждалось в чате
источник

SD

Serg D. in Data Engineers
Понял, поищу. Спасибо
источник

AZ

Anton Zadorozhniy in Data Engineers
Всеми любимый Мартин Клепман выложил свой университетский курс по распределенным системам в публичный доступ https://martin.kleppmann.com/2020/11/18/distributed-systems-and-elliptic-curves.html
источник

T

T in Data Engineers
супер, спасибо за ссылку!
источник

ME

Max Efremov in Data Engineers
А у кого-то были с Apache Livy проблемы, что ресурсов не хватает? Десяток джоб запустишь и всё, нет ресурсов в кластере для новых...
источник

АЖ

Андрей Жуков... in Data Engineers
Max Efremov
А у кого-то были с Apache Livy проблемы, что ресурсов не хватает? Десяток джоб запустишь и всё, нет ресурсов в кластере для новых...
а их реально нет?
источник

ME

Mikhail Epikhin in Data Engineers
Max Efremov
А у кого-то были с Apache Livy проблемы, что ресурсов не хватает? Десяток джоб запустишь и всё, нет ресурсов в кластере для новых...
Ну вопрос что в YARN, тут не важно через что запускать
источник

ME

Mikhail Epikhin in Data Engineers
Подозреваю что вы создали много сессий и не отпускаете их просто
источник

ME

Max Efremov in Data Engineers
Да фиг знает, там 4 ec2 машины, ожидаю, что в очередь построятся, если сразу не могут все
источник