Size: a a a

2021 April 27

GP

Grigory Pomadchin in Data Engineers
это как
источник

KS

K S in Data Engineers
И 299 воркеров кажись
источник

GP

Grigory Pomadchin in Data Engineers
ну  тебя 300 воркеров и ты им кормишь 50к партиций;
источник

GP

Grigory Pomadchin in Data Engineers
скок каждый воркер партиций за раз обрабатывает?
источник

GP

Grigory Pomadchin in Data Engineers
Параллелизм какой?
источник

N

Nikita Blagodarnyy in Data Engineers
На 51 тачке 30-40 тыс партиций при инициирующей загрузке вполне норм едет.
источник

GP

Grigory Pomadchin in Data Engineers
ну и что в жобах делается над знать
источник

KS

K S in Data Engineers
Зависит от количества данных, в среднем 50-100 партиций, но иногда попадается data skew от 50 тысяч до 6 млн.
источник

GP

Grigory Pomadchin in Data Engineers
чел ну ты сча спросил мета вопрос
источник

GP

Grigory Pomadchin in Data Engineers
а сча вскрывается что у тебя и данных перекос
источник

AZ

Anton Zadorozhniy in Data Engineers
Только если потом пишете это все в Glue таблицу - там стоит квота 20тыс партиций на таблицу, ее можно приподнять (но будет больно)
источник

GP

Grigory Pomadchin in Data Engineers
и тд и тп
источник

GP

Grigory Pomadchin in Data Engineers
и что глю а не баре ярн/ спарк
источник

GP

Grigory Pomadchin in Data Engineers
Гавно партицирование у тебя а не то что у тебя 50к партиций
источник

KS

K S in Data Engineers
Согласен, решение так себе, тяжелое наследие с которым приходится работать.
источник

KS

K S in Data Engineers
Вот теперь ломаю голову как разрулить это.
источник

GP

Grigory Pomadchin in Data Engineers
ну короче ты выясни из за чего медленно
источник

GP

Grigory Pomadchin in Data Engineers
или какая-то партиция большая оч и долго процессиями
источник

GP

Grigory Pomadchin in Data Engineers
Или у тебя какой-то один екзек обрабатывает все партиции
источник

GP

Grigory Pomadchin in Data Engineers
Почему медленно типа
источник