Есть задача создать агента, который бегает по гриду 12х12 с врагами, стенками и одним выходом.
Соответственно, генерируется среда, где случайным образом расставляются, скажем, два врага, один выход и кучка стен.
При этом стартовое положение агента, "врагов", выхода и стен в гриде - абсолютно случайное.
Агент наказывается за каждую итерацию, за то, что пытается войти в стену, сталкивается с врагом, или встает в ранее посещенную клетку.
Пытаюсь это дело обучить DQN, однако оно ни в какую не желает этого делать. Прямо сейчас, к примеру, у меня падает лосс стабильно, но при этом также падает и награда. Я так понимаю, это означает, что система оверфиттится на конкретные (последние) примеры и не может совладать с гридами, которые раньше не видела