Телеграмм чат группы hadoopusers страница 3214

Size: a a a

Data Engineers

2021 February 04

Хммм ситуация когда внутри файла 100 записей и 50 запись битая :( хочется что нибудь чтобы достать хотя бы 49 записей ... в идеале 99 :)

c spark.sql.files.ignoreCorruptFiles=true должен читать фаил частично

источник

16:23пожаловаться #1

T in Data Engineers

если мы о спраке говорим

источник

16:23пожаловаться #2

Shadilan R16 MU Rost... in Data Engineers

ну в крайнем случае через спарк прикручу, сейчас просто возникла проблема что файлы побились пришлось из архива выгружать много данных и создавать дубли в таргете :( хотелось бы починить файлы Спасибо

источник

16:24пожаловаться #3

Shadilan R16 MU Rost... in Data Engineers

Думал уже сам сесть написать, но времени не было :(

источник

16:24пожаловаться #4

T in Data Engineers

Только вы потестируйте локально прежде чем спарк тащить я то я могу и ошибаться =)

источник

16:26пожаловаться #5

Shadilan R16 MU Rost... in Data Engineers

да спарк есть :) просто не моей команде :)

источник

16:29пожаловаться #6

Alex in Data Engineers

Просто вы не сказали ни формат данных ни чем читать хотите :)

источник

16:31пожаловаться #7

Alex in Data Engineers

Модет это что кастомные и можно поправить код

источник

16:31пожаловаться #8

Alex in Data Engineers

Ведь если есть код, то дальше можно крутить хоть фильтрацию по полям :)

источник

16:32пожаловаться #9

Shadilan R16 MU Rost... in Data Engineers

Ну в моем случае это NiFi :) да там можно пдкрутить ридер чтобы он умел битые читать, кстати хорошая мысль сделать авроридер который сможет и битые распарсить и тогда смогу решать на ходу проблему

источник

16:33пожаловаться #10

Сергей in Data Engineers

K S

Да, мое описание довольно таки хаотично, вдобавок моими толстыми пальцами трудно попасть в эти маленькие буковки на телефоне 😁

Идея использования delta lake, Hudi, Iceberg пришла от необходимости периодически делать backfill. Насколько я понял, эти технологии могут помочь облегчить эти операции. SCD1 когда-то удовлетворял потребности этой компании, когда данных было немного. Теперь дата сет вырос в несколько раз, железо ненадежное, и нарастить его тоже проблематично и долго. Поэтому я решил перевести всё в режим SCD2, или IDL + deltas.

Без backfill можно держать две таблицы - одна актуальная, другая с историей, места жрёт немного больше, зато немного экономии на том, что не нужно елозить и филить данные

Table_name
Table_name_log

источник

16:56пожаловаться #11

Alexey Evdokimov in Data Engineers

кто знает, есть ли какой способ выдернуть из SparkHadoopWriter кол-во записей, которые он записал?

источник

18:10пожаловаться #12

Alexey Evdokimov in Data Engineers

у него же вроде как есть метрики, как до них добраться из спарк контекста?

источник

18:12пожаловаться #13

Alexey Evdokimov in Data Engineers

окей, сам спросил, сам нашёл

sc.addSparkListener(new SparkListener() {
override def onTaskEnd(taskEnd: SparkListenerTaskEnd) {
типа так ---> taskEnd.taskMetrics.outputMetrics.recordsWritten
}
})

источник

18:36пожаловаться #14

Alexey Evdokimov in Data Engineers

но теперь вопрос как понять какую именно рддху писала эта таска

источник

18:42пожаловаться #15

Vasiliy in Data Engineers

Anton Zadorozhniy

Они стоят ещё местами, продавать тоже прекратили

Смотря кому. Ритейлу продали

источник

18:49пожаловаться #16

Vasiliy in Data Engineers

Хотя оч активно муссировались слухи, что все, bda почил

источник

18:50пожаловаться #17

ИК

Иван Калининский... in Data Engineers

Alexey Evdokimov

В полях SparkListenerTaskEnd.TaskInfo есть taskId, оно должно появиться в имени файла. Регексп "part-(\d+)-.*". Часть \d+ - это должно быть taskId

И, если не затруднит, после нескольких миллиардов записей, дайте фидбек, правильно ли считает, Хочу использовать, чтобы не делать запрос с input_file_name()

источник

19:55пожаловаться #18

Алексей in Data Engineers

Иван Калининский

Если таска рестартовалась, то говорят счётчик не сбрасывается

источник

20:13пожаловаться #19

ИК

Иван Калининский... in Data Engineers

Алексей

Если таска рестартовалась, то говорят счётчик не сбрасывается

вот и я об этом беспокоюсь

источник

20:13пожаловаться #20