погодите. если модель надо обучать именно на всех больших данных - тут конечно без Spark ML не обойтись.
если нужно только делать inference - можно построить модель на питоне и запаковать ее в pyspark
задача общая, есть различные pipeline ы обучения, в основном на python
их надо запускать, получать модели и далее сервить, вот я сейчас хочу разобраться, какие есть варианты для запуска обучения