Телеграмм чат группы theoreticalrl страница 248

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

RL reading group

1226 membersпожаловаться на группу

2021 October 04

ИН

Иван Насонов... in RL reading group

Потому что когда я у цели скорость сделал сначала в 3, а потом в 2 раза меньше, чем у агента, то игрок ее очень быстро догонял и правильно это делал

источник

21:07пожаловаться #1

ИН

Иван Насонов... in RL reading group

Да конечно. Для рандомной позиции на игровой плоскости

источник

21:07пожаловаться #2

DK

Dmitriy Krylov in RL reading group

а расстояние правильно считается в случае движения?

источник

21:08пожаловаться #3

PK

Petr Kuderov in RL reading group

Понял. А вектор скорости на вход или просто память у агента есть, чтобы он динамику видел?

источник

21:09пожаловаться #4

ИН

Иван Насонов... in RL reading group

Скорость подается на вход, но это максимальное значение скорости. Величину и вектор направления агент, как и цель, должны научиться определять сами

источник

21:10пожаловаться #5

A

Alex in RL reading group

А что является входными данными? Картинка/фрейм? Или 4 фрейма?

источник

21:11пожаловаться #6

ИН

Иван Насонов... in RL reading group

Думаю С# модуль разности местоположений должен был правильно считать. Но в дальнейшем я все равно отказался от расстояния, потому что оно не сильно улучшало работу

источник

21:12пожаловаться #7

ИН

Иван Насонов... in RL reading group

Для каждого игрока на вход подается его местоположение и местоположение соперника. На основе наблюдений, высчитывается новое местоположение игрока, в которое он идет (то есть выход, по сути, это вектор, куда должен передвинуться агент). Процесс повторяется, пока агент не достигнет цели или пока не превысит N-ое (максимально допустимое) количество шагов на карте

источник

21:17пожаловаться #8

A

Alex in RL reading group

А какая exploration стратегия? Рандом?
Вообще интересно было бы посмотреть на reward plots для агентов. У одного должен расти, а у другого падать

источник

21:22пожаловаться #9

A

Alex in RL reading group

Выглядит так будто оба агента это одна и та же сеть

источник

21:23пожаловаться #10

p

pa_antya in RL reading group

+1

источник

21:31пожаловаться #11

2021 October 05

ИН

Иван Насонов... in RL reading group

Я делал с эпсилон стратегией
По поводу графиков - да, так и есть)

источник

01:07пожаловаться #12

ИН

Иван Насонов... in RL reading group

Нет, сети разные, но, конечно же, они очень похожи

источник

01:07пожаловаться #13

GS

Gleb Sterkin in RL reading group

Точно веса не шареные, случайно?

источник

01:08пожаловаться #14

A

Alex in RL reading group

Или ревард

источник

01:09пожаловаться #15

ИН

Иван Насонов... in RL reading group

Как ревард может быть случайным?

источник

01:12пожаловаться #16

A

Alex in RL reading group

Пошареный всмысле
Т е обе модели используют один ревард, а график строится по другому

источник

01:13пожаловаться #17

ИН

Иван Насонов... in RL reading group

А нет, реварды у них различаются

источник

01:14пожаловаться #18

2021 October 07

p

pa_antya in RL reading group

Добрый день!
А можно предлагать темы для семинаров?)

источник

10:57пожаловаться #19

AB

Alexey Boyko in RL reading group

Это же вроде точно решаемая модель из differential game theory

источник

11:00пожаловаться #20