ну вот наши заказчики, имея все исходные данные и штат аналитиков, сами ни черта посчитать не могут. терабайтные датасеты в пандас не впихнёшь. нанимают нас :D а мы как раз идём снизу вверх, от алгоритмов
хм, что-то я в ступоре. значительно укрупнил размер файлов в паре delta таблиц (тот что опенсоурсный датабрикс) за которыми дня два наблюдал. теперь hdfs dfs -du -h говорит что они раза в 3-4 меньше весят. это какое-то совпадение (типа вакум вдруг зачистил больше чем обычно) или за легендами о блоке все же что-то есть ?
если формат хранения колоночный (parquet/orc), то в каждом файле есть метаданные. Если файлы совсем маленькие, то метаданных может быть больше чем самих данных. При укрупнении файлов эта разница нивелируется. Плсюс эффект от колоночного хранения