Телеграмм чат группы hadoopusers страница 1984

@krivdathetriewe да по сути можно и каким нибудт distcp сделать это все, только вот я пробовал написать на scal'e, но в моем ноутбуке видимо нет пакета hadoop.tools

источник

09:16пожаловаться #5

DM

David Manukian in Data Engineers

@novikov_d_k Да я вроде и не извинялся, да и за что)

источник

09:28пожаловаться #6

ДД

Дмитрий Демитов in Data Engineers

халява с обновлениями HDP закончилась?

источник

11:39пожаловаться #7

E

Evgenij in Data Engineers

🆗, да.
Как кто решает сейчас обновление HDP
или какие есть мысли по этому поводу?

источник

11:42пожаловаться #8

BK

Brusе Kawabata in Data Engineers

А что за халява с обновлениями для HDP ? Они теперь платные ?

источник

11:50пожаловаться #9

S

Stanislav in Data Engineers

3.1.4 будет жить вечно

источник

11:57пожаловаться #10

A

Alex in Data Engineers

Brusе Kawabata

А что за халява с обновлениями для HDP ? Они теперь платные ?

сорцы все доступны в гите
бинари для кастомеров

источник

12:00пожаловаться #11

BK

Brusе Kawabata in Data Engineers

А понятно

источник

12:01пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

Evgenij

🆗, да.
Как кто решает сейчас обновление HDP
или какие есть мысли по этому поводу?

для клиентов ничего не изменилось, а остальным надо теперь собирать все самим

источник

12:02пожаловаться #13

MK

Mikhail Kumachev in Data Engineers

Коллеги, добрый день! Помогите решить архитектурную проблему организации правильного надежного пайплайна.
Дано: есть один source данных и два sink'а (две разных таблицы в одном DWH) и работает это через staging.
При этом необходимо обеспечить, чтобы данные в таблицах разбегались как можно меньше, плюс максимально сократить число обращений к источнику.
Разумеется предполагается, что пайплайн может упасть на любой операции: чтение из источника в staging, переливка из staging'а в таблицу 1 или переливка из staging'а в таблицу 2. Например, в ситуации, когда в таблицу 1 данные успели перелиться, а в таблицу 2 – нет, данные разбегутся, но нужно каким-то образом уметь повторять переливку только в таблицу 2 ровно тех данных, что перелились в таблицу 1. При этом по умолчанию сейчас staging очищается перед стартом пайплайна.
У кого-то был опыт в решении подобной задачи? Как правильно это сделать? Меня интересуют не инструменты, а "принципиальная схема" решения.

источник

12:05пожаловаться #14

DZ

Dmitry Zuev in Data Engineers

Mikhail Kumachev

Коллеги, добрый день! Помогите решить архитектурную проблему организации правильного надежного пайплайна.
Дано: есть один source данных и два sink'а (две разных таблицы в одном DWH) и работает это через staging.
При этом необходимо обеспечить, чтобы данные в таблицах разбегались как можно меньше, плюс максимально сократить число обращений к источнику.
Разумеется предполагается, что пайплайн может упасть на любой операции: чтение из источника в staging, переливка из staging'а в таблицу 1 или переливка из staging'а в таблицу 2. Например, в ситуации, когда в таблицу 1 данные успели перелиться, а в таблицу 2 – нет, данные разбегутся, но нужно каким-то образом уметь повторять переливку только в таблицу 2 ровно тех данных, что перелились в таблицу 1. При этом по умолчанию сейчас staging очищается перед стартом пайплайна.
У кого-то был опыт в решении подобной задачи? Как правильно это сделать? Меня интересуют не инструменты, а "принципиальная схема" решения.

Делать атомарную заливку?

источник

12:08пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

Mikhail Kumachev

Коллеги, добрый день! Помогите решить архитектурную проблему организации правильного надежного пайплайна.
Дано: есть один source данных и два sink'а (две разных таблицы в одном DWH) и работает это через staging.
При этом необходимо обеспечить, чтобы данные в таблицах разбегались как можно меньше, плюс максимально сократить число обращений к источнику.
Разумеется предполагается, что пайплайн может упасть на любой операции: чтение из источника в staging, переливка из staging'а в таблицу 1 или переливка из staging'а в таблицу 2. Например, в ситуации, когда в таблицу 1 данные успели перелиться, а в таблицу 2 – нет, данные разбегутся, но нужно каким-то образом уметь повторять переливку только в таблицу 2 ровно тех данных, что перелились в таблицу 1. При этом по умолчанию сейчас staging очищается перед стартом пайплайна.
У кого-то был опыт в решении подобной задачи? Как правильно это сделать? Меня интересуют не инструменты, а "принципиальная схема" решения.

обычный ETL пайплайн решает эту задачу, у вас на предпоследнем этапе готовы дельты в формате целевых таблиц, их заливка должна быть идемпотентной

источник

12:08пожаловаться #16

DZ

Dmitry Zuev in Data Engineers

Но в случае идемпотентой может быть момент когда часть залилась

источник

12:09пожаловаться #17

DZ

Dmitry Zuev in Data Engineers

И как раз то что описано

источник

12:09пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

(обычный ETL пайплайн это 1) лэндинг 2) генерация суррогатников и потеряшек 3) преобразование в целевую модель 4) определение истории 5) заливка в цель)

источник

12:09пожаловаться #19

OA

Oleksandr Averchenko in Data Engineers

Anton Zadorozhniy

(обычный ETL пайплайн это 1) лэндинг 2) генерация суррогатников и потеряшек 3) преобразование в целевую модель 4) определение истории 5) заливка в цель)

Где дата кволити?

источник

12:11пожаловаться #20