Телеграмм чат группы hadoopusers страница 4306

ну вот наши заказчики, имея все исходные данные и штат аналитиков, сами ни черта посчитать не могут. терабайтные датасеты в пандас не впихнёшь.
нанимают нас :D а мы как раз идём снизу вверх, от алгоритмов

источник

19:09пожаловаться #6

._. in Data Engineers

А ну без тестов никуда)

источник

19:10пожаловаться #7

ЕГ

Евгений Глотов... in Data Engineers

Они значит не задумываются о том, чтобы смочь, но вы им не подскажете, так как вам так выгоднее)

источник

19:10пожаловаться #8

Alexey Evdokimov in Data Engineers

ну я бы даже подсказал. не бесплатно, конечно. но им проще платить субподрядчику больше, чем самим чё-то строить

источник

19:16пожаловаться #9

Andrey Smirnov in Data Engineers

Вы для них литературные негры, за копейки и в срок, ничего личного, просто бизнес

источник

21:40пожаловаться #10

РБ

Руслан Бикмаев... in Data Engineers

Негров нельзя ругать.

источник

22:19пожаловаться #11

Pavel in Data Engineers

🏃🏿‍♂️🔫

источник

23:41пожаловаться #12

2021 October 07

РБ

Руслан Бикмаев... in Data Engineers

источник

00:21пожаловаться #13

ЕГ

Евгений Глотов... in Data Engineers

sticker.webp

(22.24 Кб)

источник

00:23пожаловаться #14

Dmitry in Data Engineers

хм, что-то я в ступоре. значительно укрупнил размер файлов в паре delta таблиц (тот что опенсоурсный датабрикс) за которыми дня два наблюдал. теперь hdfs dfs -du -h говорит что они раза в 3-4 меньше весят. это какое-то совпадение (типа вакум вдруг зачистил больше чем обычно) или за легендами о блоке все же что-то есть ?

источник

10:04пожаловаться #15

Dmitry in Data Engineers

или это просто hdfs dfs тулзы считают занятые файлами блоки * 128 мб, а в реале на линуксовой файловой системе все нормально хранится ?

источник

10:11пожаловаться #16

Igar in Data Engineers

если формат хранения колоночный (parquet/orc), то в каждом файле есть метаданные. Если файлы совсем маленькие, то метаданных может быть больше чем самих данных. При укрупнении файлов эта разница нивелируется. Плсюс эффект от колоночного хранения

источник

10:15пожаловаться #17

ПФ

Паша Финкельштейн... in Data Engineers

Слушайте, хочу странного:

источник

10:20пожаловаться #18

ПФ

Паша Финкельштейн... in Data Engineers

Хочу синтетического skewed job спаркового. Как сделать?

источник

10:20пожаловаться #19

Rustam Iksanov in Data Engineers

хочешь нагенерировать сам перекошенный датасет?

источник

10:24пожаловаться #20