Size: a a a

2021 October 06

ЕГ

Евгений Глотов... in Data Engineers
Если не решается за час, всегда можно позвать старшего товарища
источник

AE

Alexey Evdokimov in Data Engineers
если он вообще есть, этот "старший товарищ"
источник

ЕГ

Евгений Глотов... in Data Engineers
источник

ЕГ

Евгений Глотов... in Data Engineers
Тогда коллективно)
источник

T

T in Data Engineers
Большое спасибо
источник

AE

Alexey Evdokimov in Data Engineers
ну вот наши заказчики, имея все исходные данные и штат аналитиков, сами ни черта посчитать не могут. терабайтные датасеты в пандас не впихнёшь.
нанимают нас :D а мы как раз идём снизу вверх, от алгоритмов
источник

.

._. in Data Engineers
А ну без тестов никуда)
источник

ЕГ

Евгений Глотов... in Data Engineers
Они значит не задумываются о том, чтобы смочь, но вы им не подскажете, так как вам так выгоднее)
источник

AE

Alexey Evdokimov in Data Engineers
ну я бы даже подсказал. не бесплатно, конечно. но им проще платить субподрядчику больше, чем самим чё-то строить
источник

AS

Andrey Smirnov in Data Engineers
Вы для них литературные негры, за копейки и в срок, ничего личного, просто бизнес
источник

РБ

Руслан Бикмаев... in Data Engineers
Негров нельзя ругать.
источник

P

Pavel in Data Engineers
🏃🏿‍♂️🔫
источник
2021 October 07

РБ

Руслан Бикмаев... in Data Engineers
источник

ЕГ

Евгений Глотов... in Data Engineers
источник

D

Dmitry in Data Engineers
хм, что-то я в ступоре. значительно укрупнил размер файлов в паре delta таблиц (тот что опенсоурсный датабрикс) за которыми дня два наблюдал. теперь hdfs dfs -du -h говорит что они раза в 3-4  меньше весят. это какое-то совпадение (типа вакум вдруг зачистил больше чем обычно) или за легендами о блоке все же что-то есть ?
источник

D

Dmitry in Data Engineers
или это просто hdfs dfs тулзы считают занятые файлами блоки * 128 мб, а в реале на линуксовой файловой системе все нормально хранится ?
источник

I

Igar in Data Engineers
если формат хранения колоночный (parquet/orc), то в каждом файле есть метаданные. Если файлы совсем маленькие, то метаданных может быть больше чем самих данных. При укрупнении файлов эта разница нивелируется. Плсюс эффект от колоночного хранения
источник

ПФ

Паша Финкельштейн... in Data Engineers
Слушайте, хочу странного:
источник

ПФ

Паша Финкельштейн... in Data Engineers
Хочу синтетического skewed job спаркового. Как сделать?
источник

RI

Rustam Iksanov in Data Engineers
хочешь нагенерировать сам перекошенный датасет?
источник