если формулировать чё мы творим в целом, то эт будет так.
1. пришол заказчик, сказал, ребяты у вас крутая эвристика, вот вам датасет (в произвольном формате)
2. мы собрали ему pipeline из наших эвристик. каждая берёт и классифицирует, фильтурет, аугментит или ещё как измывается над записями датасета. состав наших полей в процессе меняется, но они только добавляются, а исходные все остаются. смысла большей части из них мы даже не знаем.
3. мы выгрузили ему перехераченный датасет. плюс ещё суммарный репорт по нему. точнее, десяток или сотню репортов по неким наборам критериев.
а потом такие
4. повторить на следующий раз с другим датасетом (с немного другими полями) и, возможно, чуточку иными настройками эвристик (ну это заказчик скажет).
5. автоматизировать это всё.