Size: a a a

RL reading group

2021 October 04

ИН

Иван Насонов... in RL reading group
Потому что когда я у цели скорость сделал сначала в 3, а потом в 2 раза меньше, чем у агента, то игрок ее очень быстро догонял и правильно это делал
источник

ИН

Иван Насонов... in RL reading group
Да конечно. Для рандомной позиции на игровой плоскости
источник

DK

Dmitriy Krylov in RL reading group
а расстояние правильно считается в случае движения?
источник

PK

Petr Kuderov in RL reading group
Понял. А вектор скорости на вход или просто память у агента есть, чтобы он динамику видел?
источник

ИН

Иван Насонов... in RL reading group
Скорость подается на вход, но это максимальное значение скорости. Величину и вектор направления агент, как и цель, должны научиться определять сами
источник

A

Alex in RL reading group
А что является входными данными? Картинка/фрейм? Или 4 фрейма?
источник

ИН

Иван Насонов... in RL reading group
Думаю С# модуль разности местоположений должен был правильно считать. Но в дальнейшем я все равно отказался от расстояния, потому что оно не сильно улучшало работу
источник

ИН

Иван Насонов... in RL reading group
Для каждого игрока на вход подается его местоположение и местоположение соперника. На основе наблюдений, высчитывается новое местоположение игрока, в которое он идет (то есть выход, по сути, это вектор, куда должен передвинуться агент). Процесс повторяется, пока агент не достигнет цели или пока не превысит N-ое (максимально допустимое) количество шагов на карте
источник

A

Alex in RL reading group
А какая exploration стратегия? Рандом?
Вообще интересно было бы посмотреть на reward plots для агентов. У одного должен расти, а у другого падать
источник

A

Alex in RL reading group
Выглядит так будто оба агента это одна и та же сеть
источник

p

pa_antya in RL reading group
+1
источник
2021 October 05

ИН

Иван Насонов... in RL reading group
Я делал с эпсилон стратегией
По поводу графиков - да, так и есть)
источник

ИН

Иван Насонов... in RL reading group
Нет, сети разные, но, конечно же, они очень похожи
источник

GS

Gleb Sterkin in RL reading group
Точно веса не шареные, случайно?
источник

A

Alex in RL reading group
Или ревард
источник

ИН

Иван Насонов... in RL reading group
Как ревард может быть случайным?
источник

A

Alex in RL reading group
Пошареный всмысле
Т е обе модели используют один ревард, а график строится по другому
источник

ИН

Иван Насонов... in RL reading group
А нет, реварды у них различаются
источник
2021 October 07

p

pa_antya in RL reading group
Добрый день!
А можно предлагать темы для семинаров?)
источник

AB

Alexey Boyko in RL reading group
Это же вроде точно решаемая модель из differential game theory
источник