Size: a a a

2021 June 05

TC

Tasty Cake in Data Engineers
я просто поднял в сворме. У клиента нет денег запускать в клауд-среде дельталейк
источник

T

T in Data Engineers
Зависит от того что принято в команде иногда попадается все начистом sql, иногда scala, бывает даже R. В любом случаии знать sql очень полезно
источник

TC

Tasty Cake in Data Engineers
базовый синтаксис такой же. + умеет работать с комплексными структурами данных (списки, словари)
источник

T

T in Data Engineers
OSS delta проигрывает hudi по фичам и комьюнити имхо, почитайте историю чата много раз поднималась эта тема
источник

АР

Андрей Романов... in Data Engineers
не туда вопрос, сорян
источник

TC

Tasty Cake in Data Engineers
да, я как нибудь почитаю. только вчера заджойнился просто. пришел сюда просить помощи.
источник

MZ

Maxim Zadonskiy in Data Engineers
В проектировании тоже используют?
источник

TC

Tasty Cake in Data Engineers
хммм... все равно странно, при том, что дельта интегрирована в ажур, поддерживается в авсе. Амеры ее любят
источник

TC

Tasty Cake in Data Engineers
при этом еще ранать ее легко
источник

T

T in Data Engineers
Hudi и iceberg тоже есть в Aws, + у Амазона рынок сильно больше чем у azure
источник

T

T in Data Engineers
В проектировании чего?
источник

MZ

Maxim Zadonskiy in Data Engineers
Табличных витрин или их нет в этой экосистеме?
источник

TC

Tasty Cake in Data Engineers
не спорю. но если делать все с нуля, и клиент хотел дельталейк, то это экономия ресурсов и тулов - вместо худи использовать дельту. понравился мерж в ней и таймтревел
источник

T

T in Data Engineers
Я не понимаю вашего вопроса, разверните его пожалуйста. Кто используется в проектирование ветрин sql? В контексте спарка?
источник

MZ

Maxim Zadonskiy in Data Engineers
Я просто хочу понять как устроена архитектура в экосистеме хадуп в отличие от обычных хранилищ
источник

TC

Tasty Cake in Data Engineers
Архитектура в системе хадуп - это даталейк. Хранилище в варехаусе - это факты, дименшены. Наличие констрейнтов между двумя типами этих таблиц
источник

MZ

Maxim Zadonskiy in Data Engineers
А на каких субд это хранилище и даталейк располагается?
источник

TC

Tasty Cake in Data Engineers
В даталейке тоже есть факты и дименшены. Но на прошлом проекте у нас было просто: стейджинг, лэндинг и все уходило в дименшены. При этом реляционных ограничений типа констрейнтов у нас не было. Да и хайв, не помню, чтобы такое умел делать. Особенно если Талица внешние
источник

TC

Tasty Cake in Data Engineers
Спарк и метахранилище в хайве. А описание объектов в хайве хранится обычно в мускуле, посгре. Можно оракл или дб2 прикрутить
источник

TC

Tasty Cake in Data Engineers
То есть данные не в совсем субд хранятся. Интерфейс для доступа к данным ну как в субд.
источник