Size: a a a

2021 May 18

PK

Pavel Klemenkov in Data Engineers
Мегафон пока офлайн не принимает. Поэтому онлайн. Ну, либо, если найдется другая площадка.
источник

S

Stanislav in Data Engineers
Ясно, спасибо
источник

C

Combot in Data Engineers
Ирина Данилова has been banned! Reason: CAS ban.
источник

N

Nikita Blagodarnyy in Data Engineers
@pomadchin @krivdathetriewe @zuynew повысьте гражданке продажи задарма
источник

T

T in Data Engineers
Привет, есть тут знатоки Apache iceberg, я побраузил интернет, и не совсем понял, как в нем реализуются usert операции.
Правильно ли я понимаю что а момент usert, просто создаётся новый data file с обновленными значениями а затем обновляются манефесты?
источник

N

Nikita Blagodarnyy in Data Engineers
@dartov его собственноручно пишет.
источник

AZ

Anton Zadorozhniy in Data Engineers
да вы что, я уже сто лет "на тренерской работе"
источник

AZ

Anton Zadorozhniy in Data Engineers
Merge делается через создание нового датафайла и снапшота в метаданных, как и append; merge сейчас есть только в Spark3 extensions (и только через SQL), во Flink нет пока
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

T

T in Data Engineers
Спасибо! Что если несколько врайтеров? Первый запишит остальные будут ретраить и создавать помере комитов новые снепшоты, да?
источник

AZ

Anton Zadorozhniy in Data Engineers
транзакции там в каталоге, честные
источник

T

T in Data Engineers
Да я как раз его начал смотреть, спасибо
источник

T

T in Data Engineers
Там получается каждый раз создаётся новая копия дата фаилов, правильно?
источник

AZ

Anton Zadorozhniy in Data Engineers
только для тех которые будут меняться
источник

AZ

Anton Zadorozhniy in Data Engineers
там агрессивный partition pruning
источник

T

T in Data Engineers
Отлично, теперь все вроде как разложилось по полочкам, больше спасибо!
источник

AZ

Anton Zadorozhniy in Data Engineers
попробуйте поиграться, сделайте мердж и посмотрите через table introspection как выглядят снапшоты
источник

AZ

Anton Zadorozhniy in Data Engineers
там будут и другие способы, просто copy-on-write самый простой в реализации, не требует компакций, и работает норм для больших файлов (у нас же тут бигдата)
источник

T

T in Data Engineers
Да как раз вечером, как все митинги закончатся😂,  планировал по запускать и поковырять фаилы
источник

N

Nikita Blagodarnyy in Data Engineers
А как-то регулируется число снапшотов?
источник