Сделал сейчас, пробовал при этом "туман войны" как запихивать отдельным слоем, так и вообще убрать или множить другие слои тензора на этот самый туман (множит на ноль все, чего не видно), результат одинаковый - с падением эпсилона падает награда, падает лосс, то есть примерно то же самое, что было раньше.
На данный момент агент получает -0.001 награды за каждый шаг, -0.005 за удар о стену, вход в ранее посещенную клетку -0.005 за решение оставаться на месте. За нахождение выхода или столкновение с врагом получает +1\-1 соответственно и конец эпизода.
Не знаю даже в чем причина может быть, что-то RL мне не дается так просто, как картинки с текстом и таблицами
Попробуйте для начала упростить задачу. Убрать туман и соперников. Оставьте только агента и стены