Size: a a a

RL reading group

2021 October 22

IM

Ivan Mikhnenkov in RL reading group
интересно разобраться как alphastar работает,  описание довольно сложное, но многообещающее
источник
2021 October 23

A

Alex in RL reading group
Там у Янника Килчера есть видео на ютубе, скорее всего
Он часто расшифровывает большие статьи
источник

DV

Dolce Vita in RL reading group
Жизненно
источник
2021 October 26

AY

Alexey Yurasov in RL reading group
Существуют ли решения для обучения правилам игры?
Например есть датасет с 10к игр в крестики нолики / шашки / шахматы.
Нужна модель, принимающая на вход очередной ход и вывод: можно ли так ходить или нельзя.
источник

AY

Alexey Yurasov in RL reading group
Конечно хорошо бы иметь датасет с неправильными ходами, но его скорее всего не будет
источник

c

cydoroga in RL reading group
Похоже на задачу inverse rl, где вы ищете траектории, которые эксперт никогда не совершает

Почитайте про maximum entropy inverse rl
источник

S

Shmuma in RL reading group
Почему-то сразу вспомнился process mining - где по логу наблюдений вы строите конечный автомат или его вероятностную модель
источник

АС

Артём С in RL reading group
Обучайтесь на тройках (текущее состояние доски, следующее состояние, случайное состояние)

(см. triplet loss и ко)
источник

АС

Артём С in RL reading group
А там можно и в сторону negative mining посмотреть
источник

AY

Alexey Yurasov in RL reading group
Благодарю!!
источник

MK

Max Kaledin in RL reading group
Может, ещё это будет полезно https://arxiv.org/abs/2103.12656
источник

MK

Max Kaledin in RL reading group
источник

AY

Alexey Yurasov in RL reading group
Спасибо почитаю 🤝
источник

IM

Ivan Mikhnenkov in RL reading group
Спасибо, потрясный чувак :)
источник
2021 October 27

p

pa_antya in RL reading group
Добрый вечер, подскажите пожалуйста, нормали ли, если в DQN лосс сильно взлетает (как и норма градиентов)?
И что с этим можно попробовать сделать?
как понять что решение сходится нормально, или наоборот сходится, но не нормально?
Существуют какие-то явные или эмпериеские признаки, что обучние идёт?
Подскажите пожалуйста
источник

p

pa_antya in RL reading group
DQN, loss и grad_norm
источник

p

pa_antya in RL reading group
источник

p

pa_antya in RL reading group
источник

p

pa_antya in RL reading group
источник

p

pa_antya in RL reading group
есть скорее интуитивное ощущение, что если градиент слишком большой то ничгео не учится, но мне периодически говорили, что если сошлось, то не стоит обращать внимания на лосы/градиенты.
Я считаю что это не совсем верно и хчоется как-то прояснить момент
источник