Size: a a a

2021 March 19

AZ

Anton Zadorozhniy in Data Engineers
И есть между ними FastEthernet
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Андрей Жуков
у кого-то 10 машин на 64 ядра и 256 оперативки с дисками на 40 Тб, а у кого-то 100 на 4 ядра и 16 оперативки и дисками по 2 Тб
а у кого-то 100 машин, как у кого-то 10...
источник

АЖ

Андрей Жуков... in Data Engineers
Vladislav 👻 Shishkov
а у кого-то 100 машин, как у кого-то 10...
и даже жирнее!
источник

АЖ

Андрей Жуков... in Data Engineers
Anton Zadorozhniy
И есть между ними FastEthernet
ну, кстати, в одном телекоме видел кластер хадуп в дцать машин 8/16, но с кучей дисков и быстрой сетью, типа под терадату
источник

ME

Max Efremov in Data Engineers
Андрей Жуков
у кого-то 10 машин на 64 ядра и 256 оперативки с дисками на 40 Тб, а у кого-то 100 на 4 ядра и 16 оперативки и дисками по 2 Тб
Суммарным
источник

N

Nikita Blagodarnyy in Data Engineers
Кто знает, что это за дичь?
источник

N

Nikita Blagodarnyy in Data Engineers
такое возникает при чтении партиции целиком.  если я ему скажу зачитать конкретно этот файл, то все будет без ошибок.
источник

ЕГ

Евгений Глотов... in Data Engineers
Nikita Blagodarnyy
такое возникает при чтении партиции целиком.  если я ему скажу зачитать конкретно этот файл, то все будет без ошибок.
А партицию в несколько этапов записывали?
источник

N

Nikita Blagodarnyy in Data Engineers
я хз, ее hudi-фреймворк пишет.
источник

ЕГ

Евгений Глотов... in Data Engineers
Может быть так, что например в первом файле колонка инт, а во втором децимал, или стринг, или что-то вроде того
источник

ЕГ

Евгений Глотов... in Data Engineers
Он схему из первого файла получил, но считать по ней не может, так как каст некастуемых типов не проходит
источник

N

Nikita Blagodarnyy in Data Engineers
merge_schema написать?
источник

ЕГ

Евгений Глотов... in Data Engineers
Как минимум проверить схему в каждом файле
источник

ЕГ

Евгений Глотов... in Data Engineers
Если есть несостыковки, то это хреново
источник

ЕГ

Евгений Глотов... in Data Engineers
В плане процесса, который их создаёт
источник

ЕГ

Евгений Глотов... in Data Engineers
Лучше не городить костыли со считыванием, а пересоздать с единой конечной схемой
источник

N

Nikita Blagodarnyy in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
такое возникает при чтении партиции целиком.  если я ему скажу зачитать конкретно этот файл, то все будет без ошибок.
Схемы разные, в стриминге такое постоянно видел https://stackoverflow.com/questions/59492879/spark-streaming-caused-by-org-apache-parquet-io-parquetdecodingexception-can
источник

N

Nikita Blagodarnyy in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
Зато гибко!)
источник