Господа Спарководы. Спрошу вашего опыта. Есть вот такие вводные данные. По записи данных Спарком в HIVE.
"1млрд в 150 партиций залился за 20 минут 600млн в одну партицию - 2 часа 10 минут"
Для меня это несколько странно. Но что можно придумать. Чтобы 1 единственную перекошенную партицию в 600млн записывать быстрее? (остальные партиции по 3-20млн строк)
паркет тот же самый порядочно памяти/cpu может жрать на записи особенно если некоторые части не влазят в буфер в памяти и он начинает их спилить на диск