Size: a a a

RL reading group

2021 October 27

A

Alex in RL reading group
>Сходится ненормально
Это не понять, надо по-хорошему запускать несколько раз с разными сидами для рандома
Ну и можно уменьшить шаг оптимизатора, может он там осцилирует
источник

p

pa_antya in RL reading group
мб есть какие-то статьи на эту тему, подскажите пожалуйста
источник

A

Alex in RL reading group
А какой оптимизатор и с какими параметрами?
источник

p

pa_antya in RL reading group
Да, запуск с разными сидами +
про оптимизатор, спасибо, имется в виду lr? или частота обновления?
источник

p

pa_antya in RL reading group
adam, 1e-3 - 1e-4 один из двух, сейчас точно не помню
источник

p

pa_antya in RL reading group
тут скорее вопрос больше идеологический, а не для решения конкретной ситуации.
ЧТо-то вроде на что обращать внимание и что тюнить
источник

VK

Vlad Kurenkov in RL reading group
лучше графика награды не особо чего придумали за всё время
источник

S

Shmuma in RL reading group
в любой нейросети, лосс 10^15 - это не нормально
источник

p

pa_antya in RL reading group
к примету тут дело в gamma = 0.9999, если понихить то среда решается и лосы не жуткие, но периодически встречаю что бывают подобные постепенные взрывы лоса
источник

VK

Vlad Kurenkov in RL reading group
можно ещё на overestimation bias смотреть, для более удачных гиперпараметров (внутри алгоритма) он обычно меньше
источник

p

pa_antya in RL reading group
Смотреть, увеличивается ревард или нет, вот лучший критерий?)
источник

VK

Vlad Kurenkov in RL reading group
да)
источник

p

pa_antya in RL reading group
ага, спасибо за подтверждение
у нас такое же ощущние что что-то не то
источник

S

Shmuma in RL reading group
как минимум потому что погрешность при значениях порядка 10^15 (для float32) составляет что-то около 6*10^7. То есть у вас градиенты - плюс минус миллион
источник

p

pa_antya in RL reading group
overestimation bias — что это и как считать?)
источник

VK

Vlad Kurenkov in RL reading group
q_true - q_estimated
источник

VK

Vlad Kurenkov in RL reading group
q_true монтекарлой с роллаутов
источник

АН

Александр Никулин... in RL reading group
это скорее в целом причина, можно почитать про double dqn и ее мотивацию
источник

АН

Александр Никулин... in RL reading group
обычно помогает просто уменьшить частоту обновления таргет сети
источник

АН

Александр Никулин... in RL reading group
либо tau, если используется софт апдейт, а не хард
источник