Телеграмм чат группы hadoopusers страница 1668

то есть:
1) мы игнорируем стоимость копирования из памяти jvm в питоновскую память и обратно
2) что даже в пандас люди любят подавать питоновскую лямбду и производительность падает ниже дна

Клустер опять "тормозит"

источник

01:10пожаловаться #10

Uncel Duk in Data Engineers

sticker.webp

(3.07 Кб)

источник

01:10пожаловаться #11

ЕГ

Евгений Глотов in Data Engineers

https://www2.cs.duke.edu/ari/trapeze/freenix/node6.html
а вот всё-таки и такое где-то есть)

источник

01:11пожаловаться #12

ЕГ

Евгений Глотов in Data Engineers

сокеты с copy-on-write)

источник

01:11пожаловаться #13

Alex in Data Engineers

просто многие от спарка ожидают магии

сразу было tungsten решит наши проблемы так как будет кодогенерация, обещания были вплоть до нативного кода и запуска на gpu
закончилось генерацией java классов на лету, компиляцией их janino (для проверки что все ок), отправкой исходного кода на воркеры, там повторной компиляции, установки в класспас и выполнения

был pyspark, медленный как …., так как каждый объект сериализовался
потом ввели датафреймы которые на графиках показывали что чуть ли не быстрее скаловских датафреймов
НО это были тесты когда из питона вызывали агрегирующие функции и как таковое все выполнение в спарк рантайме было, как только нужно перегонять данные в питон процесс, то конечно со схемой уже чуть лучше, не нужно каждый объект отдельно сериализовать, но все равно данные гонять

появился arrow
опять обещания что вот уж на этот раз zero copy
закончилось как всегда …… чуть лучше с форматом, но данные так же гоняются

источник

01:12пожаловаться #14

Alex in Data Engineers

Евгений Глотов

https://www2.cs.duke.edu/ari/trapeze/freenix/node6.html
а вот всё-таки и такое где-то есть)

как исследовательский проект?
таких проектов вагон и маленькая тележка …. проблемы когда их в прод пытаются затянуть

источник

01:13пожаловаться #15

ЕГ

Евгений Глотов in Data Engineers

ну, вот есть прод, надо отскорить 100млн абонентов

источник