Size: a a a

2021 July 06

ME

Mikhail Epikhin in Data Engineers
источник

M

Misha in Data Engineers
Добрый день, может кто-то знает. Почему PySpark работает в 4 раза медленнее или что-то необходимо сделать перед вычислениями над rdd?
Вывод:
Length: 4160889
Classic operations: 1.4955859184265137
PySpark operations: 4.892405271530151
источник

PK

Pavel Klemenkov in Data Engineers
Ну, 4 мульта интов на спарке перемножать очевидно медленней будет.
источник

PK

Pavel Klemenkov in Data Engineers
Куча накладных расходов на запуск, сериализация-десиарилазация. Опять же непонятно сколько ядер и памяти на драйвере и экзекьютерах
источник

M

Misha in Data Engineers
А при каких условиях тогда спарк себя лучше покажет?
источник

AE

Alexey Evdokimov in Data Engineers
эт такой синтетический тест? а что именно тестируется?
источник

M

Misha in Data Engineers
Решил провести инвестигейт спарка, посмотреть как он вообще, слышал быстрее выполняет обработку данных с помощью распараллеливания. Вот и пытаюсь смоделировать ситуацию с каким-то расчетом где спарк лучше себя покажет
источник

AE

Alexey Evdokimov in Data Engineers
лолушки
источник

AE

Alexey Evdokimov in Data Engineers
не, ну если взять 4ккк интов и перемножить, то локально они не влезут в память
источник

AE

Alexey Evdokimov in Data Engineers
а спарк не подавится
источник

M

Misha in Data Engineers
Так его лучше юзать, чтобы проблем с памятью не было, а не для скорости?
источник

T

T in Data Engineers
Лучше  xargs -P тогда взять
источник

AE

Alexey Evdokimov in Data Engineers
чья там коронная шутка про big data not many data?
источник

AE

Alexey Evdokimov in Data Engineers
спарк не про скорость, не про размер, и даже не про масштабируемость.

он про возможность вычислять вещи, плохо или вообще не вычислимые локально
источник

AZ

Anton Zadorozhniy in Data Engineers
Новое слово в computer science, что-то невычислимое на одном компьютере, надо на премию Тьюринга подавать
источник

SO

Simon Osipov in Data Engineers
>не про рамзмер, не про масштабируемость

Вычислять локально…
источник

V

Vasiliy in Data Engineers
Искал новизну и не нашел. Учитывая что любой вычислитель на планете не является Тьюринг-полным исполнителем, да и архитектурные ограничения куда как суровее, что-то невычислимое на одном компе давно называется частным случаем np-полной задачи, а машина, ввиду конечности её состояний и ограниченности срока эксплуатации, -универсальной машиной тьюринга. Ниче блин нового.
источник

GP

Grigory Pomadchin in Data Engineers
можно и про скорость и дешевизну
источник

V

Vasiliy in Data Engineers
Да оно все локально. Просто вы время экономите, если ресурсы шарите. Да и то не всегда.
источник

V

Vasiliy in Data Engineers
Класс задач то не меняется
источник