Телеграмм чат группы hadoopusers страница 3672

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2470 membersпожаловаться на группу

2021 May 21

GP

Grigory Pomadchin in Data Engineers

Скаланы тут SBTB прикатила! (28-29 Октября, 2021)
———
CFP подавать тут (до 31 мая): https://www.scale.bythebay.io/cfp
Билеты покупать тут: https://www.scale.bythebay.io/register
———
Залетайте на одну из самых известных скала конф!

Scale By the Bay

CFP | Scale By the Bay

источник

21:53пожаловаться #1

AZ

Anton Zadorozhniy in Data Engineers

Через членство в ACM: 100 USD в год, если из развивающейся страны - меньше (40 для России, 25 для Украины)

источник

22:03пожаловаться #2

PA

Panchenko Andrey in Data Engineers

Тю,так это же даром считай. Я свою последнюю книжку покупал за 45 баксов

источник

22:05пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

Это действительно не дорого, АСМ хорошая организация (у них ещё журнальчики интересные, digital library и остальное полезное для ресерчеров)

источник

22:09пожаловаться #4

AS

Andrey Smirnov in Data Engineers

тю, скала уже после rust и typescript, скатилась в маргиналы типа хаскеля и свифта :(

источник

22:10пожаловаться #5

GP

Grigory Pomadchin in Data Engineers

ну не приходи на конфу)0

источник

22:11пожаловаться #6

λ

λoλdog in Data Engineers

Wat?

источник

22:16пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

Мне нравится clojure и racket, но конфа все равно отличная

источник

22:17пожаловаться #8

2021 May 22

С

Сергей in Data Engineers

Сексии всегда берутся целком, если только если не для одна лиза

источник

06:03пожаловаться #9

С

Сергей in Data Engineers

Так они фактически именно так и хранятся, только запись делиется один раз в гонце, а не при каждом редакторе

источник

06:07пожаловаться #10

С

Сергей in Data Engineers

Мне кажется автор этого на вопрос ответа сторонник жёстоких бдсм-игр, делай также и 69 до старости обеспечен.

Потому что в порядке вещей для сессии добавить колонку и каждый раз при этом менять схему таблицы(!!!) , особенно если там очен-дох-я данных = игра очень весёлая.

В общем пусть нах* пи*ют с этим правельным ответом, нам такой изврат не нужен

источник

06:19пожаловаться #11

С

Сергей in Data Engineers

И забыл сказать, что сессии - это ещё и мютексы, пока первая страница не закончилась, вторая будет ждать своей очереди

И по факту весь асинхронный Ajax не такой уж и асинхронный, там где начинаются сессии.

Вполне видимо из этих соображений и было разбивать на колонки/таблицы, чтобы брать нужные кусочки сессии. Возможно где-то latency и сократит, при этом радикально увеличит итоговую нагрузку на сервер. (при использовании колонной дБ)

источник

06:31пожаловаться #12

SS

Sergey Sheremeta in Data Engineers

дяденьки, здравствуйте! поделитесь как вы генерируете суррогатные ключи в своих даталаках?
неужто хешами?

источник

11:10пожаловаться #13

NB

Nikita Bakanchev in Data Engineers

У бриксов был вебинар на этот счет https://www.youtube.com/watch?v=aF2hRH5WZAU&t=1782s

Generating Surrogate Keys for your Data Lakehouse with Spark SQL and Delta Lake

For this tech chat, we will discuss a popular data warehousing fundamental - surrogate keys. As we had discussed in various other Delta Lake tech talks, the ...

источник

11:14пожаловаться #14

SS

Sergey Sheremeta in Data Engineers

ага, видел! интересно что именно на практике используют коллеги

источник

11:15пожаловаться #15

ME

Max Efremov in Data Engineers

uuid?

источник

14:39пожаловаться #16

SS

Sergey Sheremeta in Data Engineers

Я все-таки склоняюсь к числовому сиквенсу: жмётся лучше, предикаты лучше работают при сканировании по ренжу

источник

15:26пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

если вам нужна монтонность посмотрите на ULID или варианты snowflake ID

источник

16:58пожаловаться #18

SS

Sergey Sheremeta in Data Engineers

ULID выглядит интересно, но будет ли parquet и databrick delta metadata учитывать min-max ренжи ULID файлов для file pruning? (очевидно, что нужно будет при записи сортировать по ULID)

источник

18:20пожаловаться #19

SS

Sergey Sheremeta in Data Engineers

Snowflake ID: как я понял, это Long значения, которые в Спарке можно генерировать функцией/UDF внутри mapPartition? не могу найти примеров реализации подобного в Спарке ((

источник

18:22пожаловаться #20