Ребята, помогите плиз кмк, с performance проблемой spark structured streaming & kafka
В общем, есть кафка топик на 24 партиции, с не skew распределенными ключами. Так же есть spark-streming jobа, которая пытается выгрясти все даннные из этого топика. Message в топике достаточно маленькие, но их очень много - 13 миллиардов. Кластеру spark - консюмеру выделил 8 "жирных" (core, ram) нод, но через Spark UI вижу, что на первом стейдже висят 24 активные таски, и только один executor & driver. Все остальные 7 нод отвалились, поскольку они долго были в idle статусе.
2 часа назад запустил streamer (spark 3.1, scala 12), и за это время он обработал только 500М строк. Собственно вопрос, куда копать, чтоб увеличить пропускную способность джобы?