Size: a a a

2021 January 28

KS

K S in Data Engineers
Эту привилегию всегда делали за меня другие люди, сисадмины. А теперь я сам по себе и приходится во всё вникать самому.
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Бояре, встала задача интеграции пайплайнов с оркестрацией и билдами. Первой вехой в моём роадмепе стоит освоение CircleCI. Подскажите что почитать, желательно в контексте DE. Компания оплачивает мне доступ в O'Reilly online и другие системы обучения.
у CircleCI есть документация и примеры, начните с них
источник

KS

K S in Data Engineers
Возможно есть какие-то бест практисес для DE.
источник

R

Renarde in Data Engineers
Anton Zadorozhniy
у CircleCI есть документация и примеры, начните с них
+1
тут достаточно документации и сделать пару примеров самому
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Возможно есть какие-то бест практисес для DE.
на начальном этапе лучшие практики ДЕ условно совпадает с лучшими практиками СЕ
источник

DZ

Dmitry Zuev in Data Engineers
K S
Возможно есть какие-то бест практисес для DE.
Они для всей разработки примерно одинаковые
источник

KS

K S in Data Engineers
Понятно, спасибо. Начну с официальной документации, а там посмотрим.
источник

A

Alexander in Data Engineers
Подскажите, пжл, квери в Престо (Trino😅) ломаются об

[16777217] Query failed (#20210128_153156_26325_m328m): java.io.IOException: Invalid sync! java.io.IOException: Invalid sync!

Таблица стоит на авро файлах, видимо что-то повреждено. Как найти поврежденный файл?
источник
2021 January 29

KS

K S in Data Engineers
источник

A

Alex in Data Engineers
The combination of Rust and Arrow also results in much lower memory usage than Apache Spark — up to 5x lower memory usage in some cases. This means that more processing can fit on a single node, reducing the overhead of distributed compute

=/ меньше ешь памяти, значит больше можно на машинку написать, хотя упираешься ты чаще в cpu
источник

GP

Grigory Pomadchin in Data Engineers
бывает переодически спарк на расте
помнится был одно время spark rust репозиторий который был пустым
источник

KS

K S in Data Engineers
А в спарке есть оверхед на serde?
источник

A

Alex in Data Engineers
Смотря для чего
источник

KS

K S in Data Engineers
Alex
The combination of Rust and Arrow also results in much lower memory usage than Apache Spark — up to 5x lower memory usage in some cases. This means that more processing can fit on a single node, reducing the overhead of distributed compute

=/ меньше ешь памяти, значит больше можно на машинку написать, хотя упираешься ты чаще в cpu
И ещё наверное меньше ресурсов уходит на SerDe, не знаю сколько это в процентах  от общей нагрузки, 2% или 20%, если значительно, то пропускная способность будет выше.
источник

A

Alex in Data Engineers
В рдд в том виде как его принято считать есть

В датафреймах оно уже над сериализованными блобами операции выполняет, причём часто эти блобы в колумнар формате лежат
источник

A

Alex in Data Engineers
Для общения с питон процессами тоже ушли от per object serialization и гоняют тот же arrow
источник

A

Alex in Data Engineers
:) это из той же оперы как разрабы спарка заявляют: у нас все в памяти
источник

A

Alex in Data Engineers
Если обратить внимание на пару вещей и молчаливо проигнорировать пачку других, то можно всегда показать свой продукт лучше чем конкурента
источник

GP

Grigory Pomadchin in Data Engineers
Alex
Для общения с питон процессами тоже ушли от per object serialization и гоняют тот же arrow
Ну ничего чем родной пикл медленнее нет
источник

GP

Grigory Pomadchin in Data Engineers
Интересный конечно момент это рапидс и жпу с эрроу
источник