Привет всем!
У меня есть вопрос к шарящим людям. Если поможете советом, то буду очень благодарен, а то идей совсем нет(
Есть задача двух автомобилей (считай догонялки 2 игроков). К каждому агенту написана нейронная сеть, которая должна решать свою задачу: либо, чтобы эффективно догнать соперника, либо эффективно убежать. Задача решается в ближних областях. Метод решения прост (поэтому и прошу совета): каждому агенту передается местоположение себя и соперника и прописаны награды за его поимку. У того, кто догоняет, идет штраф за время (стимул догнать быстрее). Тот, кто убегает, наоборот получает за время бонус (стимул дольше жить).
Сейчас модель работает не очень хорошо. Наблюдаются длительные застои, когда агенты ничего не делают, а просто стоят на месте. Был опыт введения наград (или наказаний) за увеличение (или уменьшение) расстояния между агентами, но это ни к чему не привело. Агенты просто разбегались в углы и там стояли.
Если есть идеи, как можно оптимизировать процесс или найти дополнительные условия для стимулов, помогите пожалуйста)
P. S. Модель разрабатываю в unity, скрипты для агентов пишутся на С#, нейронка обучается с помощью pytorch