Телеграмм чат группы hadoopusers страница 3850

Добрый день, может кто-то знает. Почему PySpark работает в 4 раза медленнее или что-то необходимо сделать перед вычислениями над rdd?
Вывод:

Length: 4160889
Classic operations: 1.4955859184265137
PySpark operations: 4.892405271530151

18:59пожаловаться #2

Pavel Klemenkov in Data Engineers

Ну, 4 мульта интов на спарке перемножать очевидно медленней будет.

19:10пожаловаться #3

Pavel Klemenkov in Data Engineers

Куча накладных расходов на запуск, сериализация-десиарилазация. Опять же непонятно сколько ядер и памяти на драйвере и экзекьютерах

19:11пожаловаться #4

А при каких условиях тогда спарк себя лучше покажет?

19:13пожаловаться #5

эт такой синтетический тест? а что именно тестируется?

19:13пожаловаться #6

Решил провести инвестигейт спарка, посмотреть как он вообще, слышал быстрее выполняет обработку данных с помощью распараллеливания. Вот и пытаюсь смоделировать ситуацию с каким-то расчетом где спарк лучше себя покажет

19:14пожаловаться #7

лолушки

19:15пожаловаться #8

не, ну если взять 4ккк интов и перемножить, то локально они не влезут в память

19:16пожаловаться #9

а спарк не подавится

19:16пожаловаться #10

Так его лучше юзать, чтобы проблем с памятью не было, а не для скорости?

19:17пожаловаться #11

T in Data Engineers

Лучше xargs -P тогда взять

19:17пожаловаться #12

чья там коронная шутка про big data not many data?

19:17пожаловаться #13

спарк не про скорость, не про размер, и даже не про масштабируемость.

он про возможность вычислять вещи, плохо или вообще не вычислимые локально

19:20пожаловаться #14

Anton Zadorozhniy in Data Engineers

Новое слово в computer science, что-то невычислимое на одном компьютере, надо на премию Тьюринга подавать

20:32пожаловаться #15

Simon Osipov in Data Engineers

>не про рамзмер, не про масштабируемость

Вычислять локально…

22:00пожаловаться #16

Vasiliy in Data Engineers

Искал новизну и не нашел. Учитывая что любой вычислитель на планете не является Тьюринг-полным исполнителем, да и архитектурные ограничения куда как суровее, что-то невычислимое на одном компе давно называется частным случаем np-полной задачи, а машина, ввиду конечности её состояний и ограниченности срока эксплуатации, -универсальной машиной тьюринга. Ниче блин нового.

22:05пожаловаться #17

Grigory Pomadchin in Data Engineers

можно и про скорость и дешевизну

22:05пожаловаться #18

Vasiliy in Data Engineers

Да оно все локально. Просто вы время экономите, если ресурсы шарите. Да и то не всегда.

22:06пожаловаться #19

Vasiliy in Data Engineers

Класс задач то не меняется