Телеграмм чат группы hadoopusers страница 3182

Эту привилегию всегда делали за меня другие люди, сисадмины. А теперь я сам по себе и приходится во всё вникать самому.

12:16пожаловаться #1

Anton Zadorozhniy in Data Engineers

Бояре, встала задача интеграции пайплайнов с оркестрацией и билдами. Первой вехой в моём роадмепе стоит освоение CircleCI. Подскажите что почитать, желательно в контексте DE. Компания оплачивает мне доступ в O'Reilly online и другие системы обучения.

у CircleCI есть документация и примеры, начните с них

12:17пожаловаться #2

Возможно есть какие-то бест практисес для DE.

12:18пожаловаться #3

Renarde in Data Engineers

Anton Zadorozhniy

у CircleCI есть документация и примеры, начните с них

+1
тут достаточно документации и сделать пару примеров самому

12:18пожаловаться #4

Anton Zadorozhniy in Data Engineers

Возможно есть какие-то бест практисес для DE.

на начальном этапе лучшие практики ДЕ условно совпадает с лучшими практиками СЕ

12:18пожаловаться #5

Dmitry Zuev in Data Engineers

Возможно есть какие-то бест практисес для DE.

Они для всей разработки примерно одинаковые

12:18пожаловаться #6

Понятно, спасибо. Начну с официальной документации, а там посмотрим.

12:20пожаловаться #7

Alexander in Data Engineers

Подскажите, пжл, квери в Престо (Trino😅) ломаются об

[16777217] Query failed (#20210128_153156_26325_m328m): java.io.IOException: Invalid sync! java.io.IOException: Invalid sync!

Таблица стоит на авро файлах, видимо что-то повреждено. Как найти поврежденный файл?

18:33пожаловаться #8

2021 January 29

Ballista, a distributed compute platform made with Rust and Apache Arrow

Кто-нибудь пробовал вот эту штуку
https://notamonadtutorial.com/ballista-a-distributed-compute-platform-made-with-rust-and-apache-arrow-5f4d1f51c698

Medium

An interview with its creator, Andy Grove

05:55пожаловаться #9

The combination of Rust and Arrow also results in much lower memory usage than Apache Spark — up to 5x lower memory usage in some cases. This means that more processing can fit on a single node, reducing the overhead of distributed compute

=/ меньше ешь памяти, значит больше можно на машинку написать, хотя упираешься ты чаще в cpu

06:08пожаловаться #10

Grigory Pomadchin in Data Engineers

Ballista, a distributed compute platform made with Rust and Apache Arrow

Кто-нибудь пробовал вот эту штуку
https://notamonadtutorial.com/ballista-a-distributed-compute-platform-made-with-rust-and-apache-arrow-5f4d1f51c698

Medium

An interview with its creator, Andy Grove

бывает переодически спарк на расте
помнится был одно время spark rust репозиторий который был пустым

06:18пожаловаться #11

А в спарке есть оверхед на serde?

06:20пожаловаться #12

Смотря для чего

06:22пожаловаться #13

Alex

И ещё наверное меньше ресурсов уходит на SerDe, не знаю сколько это в процентах от общей нагрузки, 2% или 20%, если значительно, то пропускная способность будет выше.

06:22пожаловаться #14

В рдд в том виде как его принято считать есть

В датафреймах оно уже над сериализованными блобами операции выполняет, причём часто эти блобы в колумнар формате лежат

06:23пожаловаться #15

Для общения с питон процессами тоже ушли от per object serialization и гоняют тот же arrow

06:24пожаловаться #16

:) это из той же оперы как разрабы спарка заявляют: у нас все в памяти

06:25пожаловаться #17