Коллеги помогите советом:
есть kafka - там данные (json). Забираю все structured streaming. Я их на ходу забираю и раскладываю условно в звездочку. При этом проверяю не пришли ли какие новые значения полей из которых набиваются справочники. Получется что source один а sink-ов много. По факту получается что на каждый sink происходит чтение из топика. Проблема в том что вылетает периодически
OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions
Как я понимаю, выходит это когда первые несколько чтений прошли нормально а дальше в середине батча на каком то из синков просто kafka данные уже потерла.
startingOffsets=earliest
сделать
kafkaDf.cache
не выходить потому что
Queries with streaming sources must be executed with writeStream.start()
В общем то довольно таки честно. Городить велосипед не хочется. Есть ли какое-то нормальное решение для такого рода проблкм? На скала подкасте Андрей из NVidia говорил, что они строят streaming платформу, наверняка похожее что-то было. Spark 2.3.1