Size: a a a

RL reading group

2018 May 10

JH

Just Heuristic in RL reading group
только там ещё 3 пункта
источник

JH

Just Heuristic in RL reading group
агент влияет на данные, данные влияют на обучение агента, они кубырем летят в едреня
источник

DP

Dmitry Persiyanov in RL reading group
Переобучается под последний опыт? Особенно если обучающие примеры сгенерированы из распределения, заданным текущей политикой или около того (aka behavioral policy ~ agent policy)
источник

DP

Dmitry Persiyanov in RL reading group
Это наверное то же самое что и Саша написал в последнем сообщении
источник

АС

Артём С in RL reading group
Т.е. experience replay бы решил эту проблему?
источник

SK

Sergey Kolesnikov in RL reading group
если в replay большинство сэмплов - за камнем, как это поможет?
источник

DP

Dmitry Persiyanov in RL reading group
Бесконечно большой наверное да + если алгоритм офф полиси, но это не точно
источник

SK

Sergey Kolesnikov in RL reading group
короче говоря, ведь именно потому exploration так важен в RL
источник

DP

Dmitry Persiyanov in RL reading group
Плюсую
источник

АС

Артём С in RL reading group
Хм, видимо, нужен diverse experience replay
источник

EN

Evgenii Nikishin in RL reading group
Артём С
Т.е. experience replay бы решил эту проблему?
если что, есть штука под названием ACER (actor critic with experience replay)
источник

📒

📒 in RL reading group
кстати кто нить может код глянуть на acer, когда считаю retrace то инициализирую его value значением next_state как по идее должно и быть но acer не сходится
а когда retrace делаю ноль сходится
источник
2018 May 11

EN

Evgenii Nikishin in RL reading group
Evgenii Nikishin
а кто-нибудь может дать накидать догадок, почему в RL часто возникают ситуации, когда агент забывает хорошую политику (как на графике)
вдогонку ко вчерашнему обсуждению:
https://youtu.be/KZd-jkmeIcU?t=27m6s
источник
2018 May 13

MG

Maria Garkavenko in RL reading group
Evgenii Nikishin
вдогонку ко вчерашнему обсуждению:
https://youtu.be/KZd-jkmeIcU?t=27m6s
здорово! а где-нибудь есть слайды с этой лекции?
источник

EN

Evgenii Nikishin in RL reading group
источник

MG

Maria Garkavenko in RL reading group
спасибо!
источник
2018 May 15

c

cydoroga in RL reading group
Уже в этот четверг на нашем семинаре в 19:00 в ШАДе, ауд Стенфорд будет совместный спич от участников NIPS'17: Learning to Run (@fgvbrt @Parilo and @scitator)

Если у вас нет пропуска, не забудьте зарегистрироваться по ссылке до сегодняшней ночи :
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Вы узнаете:
- чем занимается лаборатория нейро-био-механики Стенфорда (в честь нашей аудитории)
- сколько нужно мощностей, или собери кластер в домашних условиях
- сколько можно пробежать на одной ноге
- не PPO едины
- где достать baseline для NIPS'18
- есть ли data leek в RL

Приходите, будет много, реально много разных политик ( и да, это будут бегающие человечки )
источник

YY

Yulia Yakovleva 🚀🤔... in RL reading group
cydoroga
Уже в этот четверг на нашем семинаре в 19:00 в ШАДе, ауд Стенфорд будет совместный спич от участников NIPS'17: Learning to Run (@fgvbrt @Parilo and @scitator)

Если у вас нет пропуска, не забудьте зарегистрироваться по ссылке до сегодняшней ночи :
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Вы узнаете:
- чем занимается лаборатория нейро-био-механики Стенфорда (в честь нашей аудитории)
- сколько нужно мощностей, или собери кластер в домашних условиях
- сколько можно пробежать на одной ноге
- не PPO едины
- где достать baseline для NIPS'18
- есть ли data leek в RL

Приходите, будет много, реально много разных политик ( и да, это будут бегающие человечки )
Ого, звучит ужасно интересно!
источник

MG

Maria Garkavenko in RL reading group
Yulia Yakovleva 🚀🤔
Ого, звучит ужасно интересно!
Ага! А запись будет? И если будет, то где?
источник

S

Shmuma in RL reading group
Обязательно!
источник