Может просто поручить это тестерам? Они обычно сами способны правильно нагенерить. Ну а ты им просто предложи помощь с надёжной автоматикой для их скриптов
Каждая команда сама тестирует как придумает :) обычно просто деплоит в стейдж (другого ничего, стейдж и прод) и дёргает апстрим чтобы тот переиграл события. Я такого хаоса ещё не видел, но всем нравится