Size: a a a

2021 May 21

GP

Grigory Pomadchin in Data Engineers
Скаланы тут SBTB прикатила! (28-29 Октября, 2021)
———
CFP подавать тут (до 31 мая): https://www.scale.bythebay.io/cfp
Билеты покупать тут: https://www.scale.bythebay.io/register
———
Залетайте на одну из самых известных скала конф!
источник

AZ

Anton Zadorozhniy in Data Engineers
Через членство в ACM: 100 USD в год, если из развивающейся страны - меньше (40 для России, 25 для Украины)
источник

PA

Panchenko Andrey in Data Engineers
Тю,так это же даром считай. Я свою последнюю книжку покупал за 45 баксов
источник

AZ

Anton Zadorozhniy in Data Engineers
Это действительно не дорого, АСМ хорошая организация (у них ещё журнальчики интересные, digital library и остальное полезное для ресерчеров)
источник

AS

Andrey Smirnov in Data Engineers
тю, скала уже после rust и typescript, скатилась в маргиналы типа хаскеля и свифта :(
источник

GP

Grigory Pomadchin in Data Engineers
ну не приходи на конфу)0
источник

λ

λoλdog in Data Engineers
Wat?
источник

AZ

Anton Zadorozhniy in Data Engineers
Мне нравится clojure и racket, но конфа все равно отличная
источник
2021 May 22

С

Сергей in Data Engineers
Сексии всегда берутся целком, если только если не для одна лиза
источник

С

Сергей in Data Engineers
Так они фактически именно так и хранятся, только запись делиется один раз в гонце, а не при каждом редакторе
источник

С

Сергей in Data Engineers
Мне кажется автор этого на вопрос ответа сторонник жёстоких бдсм-игр, делай также и 69 до старости обеспечен.

Потому что в порядке вещей для сессии добавить колонку и каждый раз при этом менять схему таблицы(!!!) , особенно если там очен-дох-я данных = игра очень весёлая.

В общем пусть нах* пи*ют с этим правельным ответом, нам такой изврат не нужен
источник

С

Сергей in Data Engineers
И забыл сказать, что сессии - это ещё и мютексы, пока первая страница не закончилась, вторая будет ждать своей очереди

И по факту весь асинхронный Ajax не такой уж и асинхронный, там где начинаются сессии.

Вполне видимо из этих соображений и было разбивать на колонки/таблицы, чтобы брать нужные кусочки сессии. Возможно где-то latency и сократит, при этом радикально увеличит итоговую нагрузку на сервер. (при использовании колонной дБ)
источник

SS

Sergey Sheremeta in Data Engineers
дяденьки, здравствуйте! поделитесь как вы генерируете суррогатные ключи в своих даталаках?
неужто хешами?
источник

NB

Nikita Bakanchev in Data Engineers
У бриксов был вебинар на этот счет https://www.youtube.com/watch?v=aF2hRH5WZAU&t=1782s
источник

SS

Sergey Sheremeta in Data Engineers
ага, видел! интересно что именно на практике используют коллеги
источник

ME

Max Efremov in Data Engineers
uuid?
источник

SS

Sergey Sheremeta in Data Engineers
Я все-таки склоняюсь к числовому сиквенсу: жмётся лучше, предикаты лучше работают при сканировании по ренжу
источник

AZ

Anton Zadorozhniy in Data Engineers
если вам нужна монтонность посмотрите на ULID или варианты snowflake ID
источник

SS

Sergey Sheremeta in Data Engineers
ULID выглядит интересно, но будет ли parquet и databrick delta metadata учитывать min-max ренжи ULID файлов для file pruning? (очевидно, что нужно будет при записи сортировать по ULID)
источник

SS

Sergey Sheremeta in Data Engineers
Snowflake ID: как я понял, это Long значения, которые в Спарке можно генерировать функцией/UDF внутри mapPartition? не могу найти примеров реализации подобного в Спарке ((
источник