Телеграмм чат группы theoreticalrl страница 252

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

RL reading group

1223 membersпожаловаться на группу

2021 October 27

A

Alex in RL reading group

>Сходится ненормально
Это не понять, надо по-хорошему запускать несколько раз с разными сидами для рандома
Ну и можно уменьшить шаг оптимизатора, может он там осцилирует

источник

16:25пожаловаться #1

p

pa_antya in RL reading group

мб есть какие-то статьи на эту тему, подскажите пожалуйста

источник

16:25пожаловаться #2

A

Alex in RL reading group

А какой оптимизатор и с какими параметрами?

источник

16:26пожаловаться #3

p

pa_antya in RL reading group

Да, запуск с разными сидами +
про оптимизатор, спасибо, имется в виду lr? или частота обновления?

источник

16:27пожаловаться #4

p

pa_antya in RL reading group

adam, 1e-3 - 1e-4 один из двух, сейчас точно не помню

источник

16:27пожаловаться #5

p

pa_antya in RL reading group

тут скорее вопрос больше идеологический, а не для решения конкретной ситуации.
ЧТо-то вроде на что обращать внимание и что тюнить

источник

16:28пожаловаться #6

VK

Vlad Kurenkov in RL reading group

лучше графика награды не особо чего придумали за всё время

источник

16:29пожаловаться #7

S

Shmuma in RL reading group

в любой нейросети, лосс 10^15 - это не нормально

источник

16:29пожаловаться #8

p

pa_antya in RL reading group

к примету тут дело в gamma = 0.9999, если понихить то среда решается и лосы не жуткие, но периодически встречаю что бывают подобные постепенные взрывы лоса

источник

16:29пожаловаться #9

VK

Vlad Kurenkov in RL reading group

можно ещё на overestimation bias смотреть, для более удачных гиперпараметров (внутри алгоритма) он обычно меньше

источник

16:30пожаловаться #10

p

pa_antya in RL reading group

Смотреть, увеличивается ревард или нет, вот лучший критерий?)

источник

16:31пожаловаться #11

VK

Vlad Kurenkov in RL reading group

да)

источник

16:31пожаловаться #12

p

pa_antya in RL reading group

ага, спасибо за подтверждение
у нас такое же ощущние что что-то не то

источник

16:34пожаловаться #13

S

Shmuma in RL reading group

как минимум потому что погрешность при значениях порядка 10^15 (для float32) составляет что-то около 6*10^7. То есть у вас градиенты - плюс минус миллион

источник

16:34пожаловаться #14

p

pa_antya in RL reading group

overestimation bias — что это и как считать?)

источник

16:35пожаловаться #15

VK

Vlad Kurenkov in RL reading group

q_true - q_estimated

источник

16:35пожаловаться #16

VK

Vlad Kurenkov in RL reading group

q_true монтекарлой с роллаутов

источник

16:35пожаловаться #17

АН

Александр Никулин... in RL reading group

это скорее в целом причина, можно почитать про double dqn и ее мотивацию

источник

18:10пожаловаться #18

АН

Александр Никулин... in RL reading group

обычно помогает просто уменьшить частоту обновления таргет сети

источник

18:11пожаловаться #19

АН

Александр Никулин... in RL reading group

либо tau, если используется софт апдейт, а не хард

источник

18:11пожаловаться #20