Size: a a a

2019 May 24

K

KrivdaTheTriewe in Data Engineers
они ее ТОЛЬКО заанонсили
источник

R

Renarde in Data Engineers
ну мы ей задолго до анонса пользовались внутри датабрикса - все нормально с ней)
источник

AP

Alexander Piminov in Data Engineers
Nikita Blagodarnyy
Но нужно вроде указать partition(x, y, z)
Да, dynamic позволяет не волноваться, что партиции будут созданы, но поля нужно в SQL задавать.
источник

АЖ

Андрей Жуков in Data Engineers
KrivdaTheTriewe
они ее ТОЛЬКО заанонсили
пересядь на иглу датабрикса с лица хадупа!
источник

AP

Alexander Piminov in Data Engineers
Renarde
ну мы ей задолго до анонса пользовались внутри датабрикса - все нормально с ней)
Вот это интересно, неужели, никаких проблем?🙂
источник

K

KrivdaTheTriewe in Data Engineers
я хотел бы как то динамически выяснить имена партиций и заинсертить партицированно)
источник

K

KrivdaTheTriewe in Data Engineers
и чтобы это движком хайва обрабатывалось, чтобы компакшн инструкции отработали корректно
источник

AP

Alexander Piminov in Data Engineers
KrivdaTheTriewe
я хотел бы как то динамически выяснить имена партиций и заинсертить партицированно)
Поля или конкретные партиции - каталоги? Поля нужно задать (например, dt), а конкретные партиции (например, dt=<today>) уже не нужно, если dynamic включен. Поля можно из metadata вытащить, но это некоторое кода количество сбоку.
источник

R

Renarde in Data Engineers
Alexander Piminov
Вот это интересно, неужели, никаких проблем?🙂
нуууу
смотря какой ворклоад, на самом деле. функционал описанный там работает целиком, и merge into и все плюшки с time-travel
другая проблема что когда тебе нужно сделать атомарный upsert (скажем 20к апдейтов на таблицу в 400 лямов строк) она требует уж больно большой кластер держать
но если у вас on-premises свой хадуп, то это прям норм кейс
источник

K

KrivdaTheTriewe in Data Engineers
Alexander Piminov
Поля или конкретные партиции - каталоги? Поля нужно задать (например, dt), а конкретные партиции (например, dt=<today>) уже не нужно, если dynamic включен. Поля можно из metadata вытащить, но это некоторое кода количество сбоку.
ну код я знаю как писать, но я же ленивый)
источник

K

KrivdaTheTriewe in Data Engineers
Renarde
нуууу
смотря какой ворклоад, на самом деле. функционал описанный там работает целиком, и merge into и все плюшки с time-travel
другая проблема что когда тебе нужно сделать атомарный upsert (скажем 20к апдейтов на таблицу в 400 лямов строк) она требует уж больно большой кластер держать
но если у вас on-premises свой хадуп, то это прям норм кейс
если в спарк добавят поддержку менедж тейблов хайва
источник

K

KrivdaTheTriewe in Data Engineers
то дельта не нужна будет
источник

K

KrivdaTheTriewe in Data Engineers
источник

N

Nikita Blagodarnyy in Data Engineers
Да ладно, там 10 строк петона, лазящего по метастору
источник

K

KrivdaTheTriewe in Data Engineers
Nikita Blagodarnyy
Да ладно, там 10 строк петона, лазящего по метастору
а тесты?
источник

K

KrivdaTheTriewe in Data Engineers
и чтобы это все в даге было
источник

A

Alex in Data Engineers
KrivdaTheTriewe
если в спарк добавят поддержку менедж тейблов хайва
менедж тейблы это которые орки свежие?
источник

K

KrivdaTheTriewe in Data Engineers
которые кислые таблички поддерживают
источник

R

Renarde in Data Engineers
KrivdaTheTriewe
если в спарк добавят поддержку менедж тейблов хайва
"если бы у бабушки..."
вообще больше всего хочется увидеть индексы на паркете наконец, но это видимо до второго пришествия
источник

N

Nikita Blagodarnyy in Data Engineers
Renarde
"если бы у бабушки..."
вообще больше всего хочется увидеть индексы на паркете наконец, но это видимо до второго пришествия
Какие? Btree?
источник