Телеграмм чат группы theoreticalrl страница 251

Существуют ли решения для обучения правилам игры?
Например есть датасет с 10к игр в крестики нолики / шашки / шахматы.
Нужна модель, принимающая на вход очередной ход и вывод: можно ли так ходить или нельзя.

источник

11:37пожаловаться #4

Alexey Yurasov in RL reading group

Конечно хорошо бы иметь датасет с неправильными ходами, но его скорее всего не будет

источник

11:38пожаловаться #5

cydoroga in RL reading group

Похоже на задачу inverse rl, где вы ищете траектории, которые эксперт никогда не совершает

Почитайте про maximum entropy inverse rl

источник

11:39пожаловаться #6

Shmuma in RL reading group

Почему-то сразу вспомнился process mining - где по логу наблюдений вы строите конечный автомат или его вероятностную модель

источник

11:40пожаловаться #7

АС

Артём С in RL reading group

Обучайтесь на тройках (текущее состояние доски, следующее состояние, случайное состояние)

(см. triplet loss и ко)

источник

11:40пожаловаться #8

АС

Артём С in RL reading group

А там можно и в сторону negative mining посмотреть

источник

11:40пожаловаться #9

Alexey Yurasov in RL reading group

Благодарю!!

источник

11:43пожаловаться #10

Max Kaledin in RL reading group

Может, ещё это будет полезно https://arxiv.org/abs/2103.12656

источник

13:34пожаловаться #11

Max Kaledin in RL reading group

И вот это https://arxiv.org/abs/1706.03741

источник

13:38пожаловаться #12

Alexey Yurasov in RL reading group

Спасибо почитаю 🤝

источник

13:41пожаловаться #13

Ivan Mikhnenkov in RL reading group

Спасибо, потрясный чувак :)

источник

18:24пожаловаться #14

2021 October 27

pa_antya in RL reading group

Добрый вечер, подскажите пожалуйста, нормали ли, если в DQN лосс сильно взлетает (как и норма градиентов)?
И что с этим можно попробовать сделать?
как понять что решение сходится нормально, или наоборот сходится, но не нормально?
Существуют какие-то явные или эмпериеские признаки, что обучние идёт?
Подскажите пожалуйста

источник

16:23пожаловаться #15

pa_antya in RL reading group

DQN, loss и grad_norm

источник

16:24пожаловаться #16

pa_antya in RL reading group

image_2021-10-27_16-24-38.png

(58.75 Кб)

источник

16:24пожаловаться #17

pa_antya in RL reading group

image_2021-10-27_16-24-38.png

(12.93 Кб)

источник

16:24пожаловаться #18

pa_antya in RL reading group

image_2021-10-27_16-24-38.png

(10.3 Кб)

источник

16:24пожаловаться #19

pa_antya in RL reading group

есть скорее интуитивное ощущение, что если градиент слишком большой то ничгео не учится, но мне периодически говорили, что если сошлось, то не стоит обращать внимания на лосы/градиенты.
Я считаю что это не совсем верно и хчоется как-то прояснить момент

источник

16:25пожаловаться #20