Size: a a a

2019 October 05

AS

Andrey Smirnov in Data Engineers
Евгений Глотов
ну это смотря какие вычисления, если они все под капотом на си, то будет ещё и быстро)
известно заблуждение, если на С значит быстро, еще многое от рук писавших зависит
https://notamonadtutorial.com/weld-accelerating-numpy-scikit-and-pandas-as-much-as-100x-with-rust-and-llvm-12ec1c630a1
источник

ЕГ

Евгений Глотов in Data Engineers
а людей надо обучать, от этого всем только лучше)
источник

A

Alex in Data Engineers
Евгений Глотов
я же написал, pandas udf, данные спарк держит в pyarrow, пандас тоже - где здесь jvm?
как эти pyarrow попадают в другой процесс?
источник

A

Alex in Data Engineers
jvm и питон это разные процессы на машинке
источник

A

Alex in Data Engineers
ну вот самый простой вариант:
прочитали паркет в arrow
магия
они оказались в pyarrow в питоне
обработали
магия
спарком начали делать джойны и тд
источник

ЕГ

Евгений Глотов in Data Engineers
указатель в двух процессах на общую память мб
источник

A

Alex in Data Engineers
хотел бы сейчас выругаться, но на жаль нет
источник

A

Alex in Data Engineers
источник

A

Alex in Data Engineers
не умеет спарк в такое
источник

GP

Grigory Pomadchin in Data Engineers
да он без магии конвертит датасеты в байт эрреи на экзекуторах
источник

ЕГ

Евгений Глотов in Data Engineers
ну в общем даже если перегонять массив байт из процесса в процесс, это работает быстрее, чем с кучей конвертаций
источник

ЕГ

Евгений Глотов in Data Engineers
можно конечно упороться и написать всё на чистом си, используя MPI, но вы поседеете, а проект так и не сдадите)
источник

ЕГ

Евгений Глотов in Data Engineers
на самом деле, виртуалэнв на экзекуторах иногда дольше создавать, чем гонять десятки гигов данных в udf
источник

ЕГ

Евгений Глотов in Data Engineers
Alex
не умеет спарк в такое
а на операционку нет надежды, что соптимизирует копирование?
источник

A

Alex in Data Engineers
это как?
источник

ЕГ

Евгений Глотов in Data Engineers
ну, видит здоровый кусок данных, которые копируются из процесса в процесс
источник

A

Alex in Data Engineers
и поэтому дадим 2м процессам его на запись?
источник

A

Alex in Data Engineers
к тому же в сокет влетают отдельные буфера
источник

A

Alex in Data Engineers
там же не memcpy даже
источник

ЕГ

Евгений Глотов in Data Engineers
ну, copy on write никто не отменял
источник