В разрезе чего тебе парсинг нужно делать. Если есть какая-то потоковость данных простым решением будет использовать спарк джобу которая агрегирует какой-то поток из MQ ( сам кладешь в кафку ) , делает первичную обработку, и сохранет в протобаф партицированный в нужном расширении.