Телеграмм чат группы hadoopusers страница 3116

бывает просто, что, например, кх из 10 раз 1 раз валится на записи. и надо перекореживать заново килотонны данных, чтобы перезаписать их в айсберг, куда они еще в прошлый раз норм заехали.

источник

23:32пожаловаться #9

Nikita Blagodarnyy in Data Engineers

+ есть кейс, когда одни и те же сырые данные надо в будущем переобработать по-другому.

источник

23:33пожаловаться #10

Nikita Blagodarnyy in Data Engineers

а они уже размножились по разным таргетам и единой версии правда нету.

источник

23:34пожаловаться #11

Nikita Blagodarnyy in Data Engineers

+ насколько я помню, в foreachbatch api урезанный.

источник

23:35пожаловаться #12

Nikita Blagodarnyy in Data Engineers

мы наваливаем сырье в hdfs, потом его следующий джоб разбирает по схеме, пуляет задания всем страждущим новой порции, а потом уже всякие разные джобы это берут и перекладывают/модифицируют/считают так как им надо и тогда когда оно им надо.

источник

23:38пожаловаться #13

Jane Frankenstein in Data Engineers

ого, спасибо :)

источник

23:40пожаловаться #14

Jane Frankenstein in Data Engineers

а вы стракчерд стриминг юзаете?

источник

23:40пожаловаться #15

Jane Frankenstein in Data Engineers

Nikita Blagodarnyy