Size: a a a

2022 February 11

I

Ivan in Moscow Spark
pyspark.sql.SparkSession.builder.config("spark.jars", "tmp_2.11-1.0.jar").getOrCreate
вот так не получается, скрипт лежит в одной директории с jar
источник
2022 February 14

SI

Sergey Ivanychev in Moscow Spark
Вопрос по PySpark + написание тестов: возможно ли запускать тесты параллельно в разных процессах (например, используя `pytest-xdist`) но используя одну локальную спарк сессию на все потоки?
источник

SI

Sergey Ivanychev in Moscow Spark
Или единственный вариант это в каждом потоке создавать `SparkSession.builder.master('local[1]')`
источник

k

kvadratura in Moscow Spark
я просто на тест сеты разделял, а в женкинсе запускал разные тест сеты в паралель. на каждый тест сет 1 spark session только создается, на нем могут и 400 тестов исполняться
источник

k

kvadratura in Moscow Spark
как-то мне показалось, что так меньше всего приседаний

в скалатест, кстати, параллельно исполняется из коробки вроде, несколько тредов используют одну и ту же сессию. с путоном и его тредами - хз, как там себя путонская спарк сессия ведет
источник

SI

Sergey Ivanychev in Moscow Spark
Нормальное решение, да. Я запускаю просто по сессии на процесс и все работает. Просто память жрет, хотелось бы одну сессию
источник

SI

Sergey Ivanychev in Moscow Spark
Если бы это были треды :)
источник

k

kvadratura in Moscow Spark
одна сессия на много путестов у вас уже?
источник

SI

Sergey Ivanychev in Moscow Spark
В питоне гил, там только процессы параллелят по ядрам
источник

SI

Sergey Ivanychev in Moscow Spark
Не, у нас путест с xdist, в каждом воркере создаётся сессия
источник

k

kvadratura in Moscow Spark
памят так и так будет жрать, я думаю. количество работы одинаковое все равно - женкинс тест сеты параллелит, или путон сам как-то хитро
источник

SI

Sergey Ivanychev in Moscow Spark
Ну я понял, да
источник

k

kvadratura in Moscow Spark
не знаю, что такое xdist. я просто путест фиксчур прокидывал, в нем - сессия, а на ней все тесты
источник

SI

Sergey Ivanychev in Moscow Spark
Мне интересно можно ли из нескольких процессов на скале/питоне использовать одну спарксесссию
источник

SI

Sergey Ivanychev in Moscow Spark
pytest-xdist
источник

k

kvadratura in Moscow Spark
из нескольких тредов на скале - можно. из нескольких процессов сомневаюсь
источник

SI

Sergey Ivanychev in Moscow Spark
Штука просто тесткейсы запускает параллельно
источник

SI

Sergey Ivanychev in Moscow Spark
Ага, вот тоже не нашёл как из нескольких процессов
источник

SI

Sergey Ivanychev in Moscow Spark
Только livy поднимать :)
источник

k

kvadratura in Moscow Spark
не пользовался. только обычным путестом. один вызов путест - одна спарк сессия - куча тестов на ней. а параллелить тесты на 1 сессии - мало смысла, я думаю
источник