просто многие от спарка ожидают магии
сразу было tungsten решит наши проблемы так как будет кодогенерация, обещания были вплоть до нативного кода и запуска на gpu
закончилось генерацией java классов на лету, компиляцией их janino (для проверки что все ок), отправкой исходного кода на воркеры, там повторной компиляции, установки в класспас и выполнения
был pyspark, медленный как …., так как каждый объект сериализовался
потом ввели датафреймы которые на графиках показывали что чуть ли не быстрее скаловских датафреймов
НО это были тесты когда из питона вызывали агрегирующие функции и как таковое все выполнение в спарк рантайме было, как только нужно перегонять данные в питон процесс, то конечно со схемой уже чуть лучше, не нужно каждый объект отдельно сериализовать, но все равно данные гонять
появился arrow
опять обещания что вот уж на этот раз zero copy
закончилось как всегда …… чуть лучше с форматом, но данные так же гоняются