Size: a a a

2021 September 10

ИК

Иван Калининский... in Data Engineers
ну, это с ходу такие соображения, что касается файлов, то я всегда склоняюсь к тому, что файлы одинакового размера лучше, и стараюсь, чтобы приложения обладали информацией, как лучше разделить данные, чтобы этой цели достичь

И разве в HDFS есть какая-то другая запись? ))
источник

Д

Дмитрий in Data Engineers
Не знаю, но слышал сказки про блоки.
источник

Д

Дмитрий in Data Engineers
@KaiNie_R но полюбому спасибо !
источник

AZ

Anton Zadorozhniy in Data Engineers
Интересно, расскажите?
источник

GP

Grigory Pomadchin in Data Engineers
Рибята а есть дешевый способ в спарке анкодить / декодить объекты в / из InternalRow (кроме как руками писать их для конкретных типов)? Материализация из анкодера сериалайзера / десериалайзера дорогая; а десериалайзер еще и не тредсейфный
источник

ИК

Иван Калининский... in Data Engineers
Только RowEncoder использую. Но он относительно редко материализуется в сериалайзер (per partition)
источник

Д

Дмитрий in Data Engineers
Мое мнение что это сказки, но буду смотреть как сделана запись в паркет или орк, другой правды нет. Я знаю по букварям что пишем всегда в конец файла.
источник

GP

Grigory Pomadchin in Data Engineers
ну пер партишен кстати годно наврерное
источник

GP

Grigory Pomadchin in Data Engineers
гляну почему у меня пер запись вообще десериалайзер вызывался
источник

ИК

Иван Калининский... in Data Engineers
Может в Kryo есть что-то нужное, чтобы далеко не ходить?
источник

GP

Grigory Pomadchin in Data Engineers
Ну ро анкодер удобен что б T <=> InternalRow <=> Row (там сами датасеты делают)
источник

GP

Grigory Pomadchin in Data Engineers
там в принципе не может быть
источник

ИК

Иван Калининский... in Data Engineers
ну да, другие объекты не перекодировал, только Row
источник

ИК

Иван Калининский... in Data Engineers
InternalRow по сути Byte[], может байтСтрим в него попробовать записать? Но есть тонкости с кратностью 8 байт
источник

GP

Grigory Pomadchin in Data Engineers
а зачем? мне надо материализовывать из него)
источник

GP

Grigory Pomadchin in Data Engineers
запись то не дорого
источник

GP

Grigory Pomadchin in Data Engineers
ну т.к. она обычно контролируется хорошо
источник

GP

Grigory Pomadchin in Data Engineers
а десериализация может случиться скажем на жойне по экспрешонам (и вот в этих экспрешонах десериализация)
источник

ИК

Иван Калининский... in Data Engineers
если так, то джойн делать очень дорого.
А в спаркочате что говорят?
источник

GP

Grigory Pomadchin in Data Engineers
там не спросил)
ну наверное надо убедиться что пер партишен материализация
источник