Хотелось бы все же вернуться к утонувшему во флейме вопросу Real-time vs Batching. Почему? Ну этот спор часто всплывает и ничем не заканчивается :)
Т.к. я неприкрытый фанат Спланка, то вижу что любую задачу можно решить как в одном, так и в другом подходе. Отличие лишь в удобстве и простоте решения, а также допущений, на которые можно пойти.
Я выделил ряд принципиальным моментов, в которой эти две технологии начинают различаться чуть более существенно. Коротко их можно разложить на два класса: допущение по latency и ограничение по ресурсам.
Real-time нельзя просто так остановить со словами: Воу-воу, полегче у меня CPU не хватает или памяти (очереди растут и все умирает). Batching вам на это ответит: Да не вопрос, только теперь ты будешь получать от меня ответ не через 15 сек, а через 60.
Мне кажется ключевым моментом является возможность поместить данные в память и эффективно с ними работать если мы говорим про near real time процессы а не отчетность/статистику. Ты это правильно на схеме отрисовал
С точки зрения процессов SOC как правило счет идет на десятки минут, включая повышенные SLA - на минуты, но отнюдь не на секунды.
Здесь и реалтайм и микробатч справится.
SIEM в принципе не реалтаймовая система учитывая сколько времени проходит от происходящего события до просмотра алерта человеком (целевая система, сборщик, пайплайн сием, сервисдеск, алертинг)