Всем привет! Вопрос к тем, кто использует Kafka + Spark Structured Streaming.
Проблема такая - данные писались стриминговым пайплайном, с чекпоинтами. Затем пайплайн отключили на определенный промежуток времени, а потом включили вновь.
Проблема в том, что в кафке за это время накопилось очень много эвентов, и чтение этого первого батча занимает очень много времени. Как правильно лимитировать спарк, так чтобы он разбирал очередь константными частями (скажем, по X эвентов за один микро-батч)?