Size: a a a

2019 October 05

ЕГ

Евгений Глотов in Data Engineers
но только я не знаю, где он реализован, а где нет)
источник

A

Alex in Data Engineers
в любом случае это доступ из 2х процессов в одну память, никто на такое не пойдёт
источник

A

Alex in Data Engineers
насколько помню только в fork норм это сделано (CoW памяти)
источник

ЕГ

Евгений Глотов in Data Engineers
на чтение точно есть такая тема
источник

ЕГ

Евгений Глотов in Data Engineers
но не факт, что udf не имеет права на запись в данные массивы
источник

A

Alex in Data Engineers
источник

ЕГ

Евгений Глотов in Data Engineers
ссылка класс👍
источник

ЕГ

Евгений Глотов in Data Engineers
спасибо
источник

ЕГ

Евгений Глотов in Data Engineers
в такие тонкости не углублялся, потому что фичи надо пилить)
источник

UD

Uncel Duk in Data Engineers
Alex
то есть:
1) мы игнорируем стоимость копирования из памяти jvm в питоновскую память и обратно
2) что даже в пандас люди любят подавать питоновскую лямбду и производительность падает ниже дна
Клустер опять "тормозит"
источник

UD

Uncel Duk in Data Engineers
источник

ЕГ

Евгений Глотов in Data Engineers
https://www2.cs.duke.edu/ari/trapeze/freenix/node6.html
а вот всё-таки и такое где-то есть)
источник

ЕГ

Евгений Глотов in Data Engineers
сокеты с copy-on-write)
источник

A

Alex in Data Engineers
просто многие от спарка ожидают магии

сразу было tungsten решит наши проблемы так как будет кодогенерация, обещания были вплоть до нативного кода и запуска на gpu
закончилось генерацией java классов на лету, компиляцией их janino (для проверки что все ок), отправкой исходного кода на воркеры, там повторной компиляции, установки в класспас и выполнения

был pyspark, медленный как …., так как каждый объект сериализовался
потом ввели датафреймы которые на графиках показывали что чуть ли не быстрее скаловских датафреймов
НО это были тесты когда из питона вызывали агрегирующие функции и как таковое все выполнение в спарк рантайме было, как только нужно перегонять данные в питон процесс, то конечно со схемой уже чуть лучше, не нужно каждый объект отдельно сериализовать, но все равно данные гонять

появился arrow
опять обещания что вот уж на этот раз zero copy
закончилось как всегда …… чуть лучше с форматом, но данные так же гоняются
источник

A

Alex in Data Engineers
Евгений Глотов
https://www2.cs.duke.edu/ari/trapeze/freenix/node6.html
а вот всё-таки и такое где-то есть)
как исследовательский проект?
таких проектов вагон и маленькая тележка …. проблемы когда их в прод пытаются затянуть
источник

ЕГ

Евгений Глотов in Data Engineers
ну, вот есть прод, надо отскорить 100млн абонентов
источник

ЕГ

Евгений Глотов in Data Engineers
есть 30 дсов
источник

ЕГ

Евгений Глотов in Data Engineers
которые гоняют бустец, нейросетки, применяют либы готовые
источник

ЕГ

Евгений Глотов in Data Engineers
можно выкатить то, что получилось напилить, за несколько дней, с падением производительности в 2 раза
источник

ЕГ

Евгений Глотов in Data Engineers
из-за копирования в сокете
источник