Ну long-term идея в том, чтобы система могла автоматически анализировать логи, составлять regex'ы и категоризировать их, чтобы затем автоматически ставить причину падения для deployment'ов
Кажется, что на ваших объемах вручную проанализировать все известные ошибки и составить регэкспы будет на три порядка дешевле, чем писать артифишиал интеллидженс машин лёрнинг десижн мейкер.
На данных большего объёма можно будет выстроить систему автоматизации первой линии поддержки, наклепать эвристик для упрощения разметки и тулов для классификации новых типов ошибок. И только когда это всё будет сделано, и этого будет уже не хватать, настанет время расчехлять "честное" машинное обучение.