Size: a a a

2021 October 05

YI

Yaroslav S Ivanov in Data Engineers
полагаю, тут рейндж зависит от того, как мы отхешируем наши pk (которые, все еще, будут уникальны, полагаю, т.к. забираем с реляционного источника)
источник

YI

Yaroslav S Ivanov in Data Engineers
Въехал, понял, спасибо!
источник

ЕГ

Евгений Глотов... in Data Engineers
Ренж колонка просто будет 1, 2, 3, .., N
источник

ЕГ

Евгений Глотов... in Data Engineers
В бакетировании
источник

ЕГ

Евгений Глотов... in Data Engineers
А вот в рэнж партишининге все ключи просто сортируются, и ищутся границы партиций, от какого до какого ключа взять данные, чтобы было равномерно
источник

ЕГ

Евгений Глотов... in Data Engineers
Поэтому он в 2 прохода работает
источник

YI

Yaroslav S Ivanov in Data Engineers
Т.е. пройтись и определить границы, а затем разбить на партиции, границы которых мы уже знаем, если правильно понял
источник

ЕГ

Евгений Глотов... in Data Engineers
Да
источник

ЕГ

Евгений Глотов... in Data Engineers
Ну там семплирование и всё такое, один фиг долго работает
источник

YI

Yaroslav S Ivanov in Data Engineers
далее можно параллелить вплоть по кол-во нод = кол-во партиций, получается
источник

ЕГ

Евгений Глотов... in Data Engineers
Да
источник

ЕГ

Евгений Глотов... in Data Engineers
И потом с такой структурой можно range запросы как раз мутить
источник

YI

Yaroslav S Ivanov in Data Engineers
Однако, для такого вычисления дельт, нам нужно взять "все данные источника", а также "все текущие, уже сохраненные в целевой структуре, данные". И вышеописанную операцию (рассчет хешей и бакетирование) проделывать для обоих наборов. Либо хранить уже посчитанную таблицу хешей для целевой таблицы и обновлять ее после кажой итерации рассчета и заливки дельт.
источник

C

Combot in Data Engineers
Мариночка has been banned! Reason: CAS ban.
источник

AP

Al. P. in Data Engineers
Посоветуйте фундаментальный труд по дата инженирингу/аналитике? Нужны не конкретные технологии, а что-то вроде философии, основных идей, подходов и т.п. Для меня эта область немного новая, а так я не новичек ни разу.
источник

D

Dmitriy in Data Engineers
Высоконагруженные приложения. Программирование масштабирование поддержка | Клеппман Мартин держите, олучше нету
источник

D

Dmitriy in Data Engineers
это по DE
источник

AP

Al. P. in Data Engineers
Это более архитектура, чем домен.
источник

AP

Al. P. in Data Engineers
Интересно именно “доменное” знание, понимание и т.п. А так DDIA я конечно читал.
источник

D

Dmitriy in Data Engineers
ну все знаете значит
источник