есть у меня данные от двух типов систем -
1. большой файл с кучей строк, 2-4 раза в день
2. маленькие json'ы но очень часто, несколько в секунду
данные 2 надо обрабатывать, вторые близко к реальному времени,
обрабатывать: трансформировать json в плоскую структуру, что-то выкинув, сохранить части плоской структры в 3 sql таблицы, можно делать в паралель.
хочется иметь возможность переобработки входящих данных, если програмисты где-то накосячили, что-то поменялось во входящем формате,
первое отлично решается через apache airflow,
или можно использовать apache airflow для второго типа задач? или там будет слишком большой overhead?