Size: a a a

2021 May 12

ЕГ

Евгений Глотов... in Data Engineers
Или нет?
источник

D

Dmitry in Data Engineers
обычно там где падает 1000-2000 тасков
источник

А

Алексей in Data Engineers
да, шафл партишен увеличьте, должно помочь
источник

ЕГ

Евгений Глотов... in Data Engineers
1000 тасков падает?
источник

ЕГ

Евгений Глотов... in Data Engineers
Или всего 1000 тасков
источник

ЕГ

Евгений Глотов... in Data Engineers
Если шафл партишен не установлен на 1000, то 1000 тасков - это не джойн, не групбай и не окно, это обычный мап таск на чтение данных
источник

ЕГ

Евгений Глотов... in Data Engineers
Если он падает с оом, то это может быть например чтение здоровых json.gz
источник

ЕГ

Евгений Глотов... in Data Engineers
Читает мало данных, распаковывает, умирает под завалом)
источник

K

KrivdaTheTriewe in Data Engineers
Можно логику на эирфлоу написать :)
источник

D

Dmitry in Data Engineers
когда подкручиваю память из 1000-2000 тасков несколько десятков падает, при рестарте проходят. читают gz.parquet
источник

ЕГ

Евгений Глотов... in Data Engineers
Может размер страйпа слишком большой установлен?
источник

ЕГ

Евгений Глотов... in Data Engineers
А там в одной из колонок какие-нибудь строки бесконечной длины
источник

ЕГ

Евгений Глотов... in Data Engineers
А дальше-то джойн в 200 тасков делается?
источник

D

Dmitry in Data Engineers
сейчас перепроверю
источник

D

Dmitry in Data Engineers
хм, данные чуть изменились уже и планы вроде другие. теперь вообще обсурдный план выходит
источник

D

Dmitry in Data Engineers
источник

D

Dmitry in Data Engineers
но у меня собственно глобальный вопрос, а как же с таким работать ? что на тему памяти выставлять зепелину ? что hive on spark ? я же не знаю кто и что там соберется анализировать.
источник

ЕГ

Евгений Глотов... in Data Engineers
А джойн-то где
источник

ЕГ

Евгений Глотов... in Data Engineers
Лучше всего выкинуть хайв он спарк в мусорку
источник

ЕГ

Евгений Глотов... in Data Engineers
И в цеппелин настроить нормальный спарк интерпретатор
источник