Телеграмм чат группы hadoopusers страница 3673

Это легко посмотреть, ULID хранится как логический тип UUID (это тоже 16 байт), а для UUID паркет вроде умеет min max

18:27пожаловаться #1

Все эти монотонные штуки нужны для генерации ключей в онлайне, в батче только лукапить если; для чистого батч UUID достаточно

18:28пожаловаться #2

для батча - да. сделать репартишон dim-таблицы и fact-таблицы по натуральному ключу и сджойнить.
но мне нужно выжать максимальную производительность для ad-hoc запросов в Star Schema Model

18:32пожаловаться #3

Максимальную производительность и спарк?) денормализуйте

18:33пожаловаться #4

поправьте если ошибаюсь, пожалуйста:
1) хочу генерировать в dim-таблицах монотонные суррогатные ключи, сортируя по наиболее употребимым в запросах полям (country_code/language/etc)
2) при генерации fact-таблиц хочу сортировать записи по суррогатным ключам
3) тем самым помимо очевидного partition pruning по датам могу получить dynamic file pruning

18:36пожаловаться #5

Я правильно понимаю что вы на датабриксе? Там zordering для пропускания файлов работает, он вроде может на uuid колонках работать

18:39пожаловаться #6

монотонность тут вообще не нужна, у вас понятия "времени" же нет

18:42пожаловаться #7

сортировать можно и бинарные данные, и строчки

18:42пожаловаться #8

да, ДатаБрикс. предлагаете наплевать на потенциальные коллизии и на бОльший размер?

18:42пожаловаться #9

да, монотонность неверное не требуется

18:43пожаловаться #10

коллизий с UUID?

18:44пожаловаться #11

Yukari I in Data Engineers

Суррогатные ключи можно хоть хеш-функцией, хоть uuid генерить. Коллизии там случатся с ничтожной вероятностью.

18:45пожаловаться #12

это абсолютно невозможно?

18:46пожаловаться #13

почему, возможно
> Only after generating 1 billion UUIDs every second for the next 100 years, the probability of creating just one duplicate would be about 50%. Or, to put it another way, the probability of one duplicate would be about 50% if every person on earth owned 600 million UUIDs.

18:46пожаловаться #14

обычно эту возможность игнорируют

18:47пожаловаться #15

ну и потом если у вас случайный UUID кладется в мапинговую таблицу, даже если вы поймаете коллизию - просто генерите новый UUID

18:52пожаловаться #16