Телеграмм чат группы hadoopusers страница 1565

13:24пожаловаться #5

神

神風 in Data Engineers

Grigory Pomadchin

А во что пишешь?

На hdfs в паркете.

13:25пожаловаться #6

神風

На hdfs в паркете.

ну наивное решение это уменьшить количество партиций перед записью

13:46пожаловаться #7

правильное наверное свой райтер определить; может @krivdathetriewe знает

13:46пожаловаться #8

Мы раз в сутки по партиции компактим

13:47пожаловаться #9

KrivdaTheTriewe

Мы раз в сутки по партиции компактим

а ты не пробовал https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.ForeachWriter ?

13:47пожаловаться #10

神

神風 in Data Engineers

Grigory Pomadchin

ну наивное решение это уменьшить количество партиций перед записью

Ну то есть красивого решения нет. Мне партиции нужно сохранить как есть.

13:48пожаловаться #11

нету; логика потому что - уникальный файл на партицию ¯\_(ツ)_/¯

13:50пожаловаться #12

Grigory Pomadchin

а ты не пробовал https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.ForeachWriter ?

неа , и мне кажется это сильно сложнее

13:58пожаловаться #13

я даже пока не понимаю как это выглядело бы

13:58пожаловаться #14

у тебя есть микробатч , в рамках которого ты можешь создать хдфс файл , и там дескриптор нужно будет передать между микробатчами

13:59пожаловаться #15

чтобы аппендить в файл

13:59пожаловаться #16

это не вяжется с теми гарантиями, что спарк дает(

14:00пожаловаться #17

神風

Ну то есть красивого решения нет. Мне партиции нужно сохранить как есть.

можно увеличить размер микробатча

14:00пожаловаться #18

можно сделать потом просто insert from select в эту же партицию и не парится

14:00пожаловаться #19

Pavel Klemenkov in Data Engineers

Друзья, а есть аналог CRISP-DM только для процессинга? Ну типа стадии обработки ingestion, cleaning, etc. Уровни стека, типа storage layer, processing layer?