обычно это творчество сильно под задачу.
варианты, которые я пробовал - это CVAE (сложно и опять же данные нужны хотя бы несколько тысяч, и результаты не очень, свой шум там), потом пробовал сохраняя таргет подменять фичи на те что из датасетах, на основе эвристик из просмотра глазами сотни сэмплов, это лучше способ. еще вариант - модельные данные с небольшими шумами, примешивать в датасет (коэффициенты для моделирования можно из байесовских методов доставать, типа pymc3). проблема тут что достаточно мощный мл конечно разгадает формулу, но, зная, модельный сэмпл или нет, заюзав это как фичу, один раз удалось докинуть скора (регрессия).
в последний раз надо было у случайного процесса идентифицировать 4 параметра (модель хестона если кто знает). там синтетику получить легко, нагонял на ней сетку, потом уже на реальном процессе извлек параметры. сетка научилась по метрикам плохо... но кривые выдаёт чуть ли не совпадающие.