Телеграмм чат группы theoreticalrl страница 90

2018 May 10

JH

Just Heuristic in RL reading group

только там ещё 3 пункта

источник

21:14пожаловаться #1

JH

Just Heuristic in RL reading group

агент влияет на данные, данные влияют на обучение агента, они кубырем летят в едреня

источник

21:15пожаловаться #2

DP

Dmitry Persiyanov in RL reading group

Переобучается под последний опыт? Особенно если обучающие примеры сгенерированы из распределения, заданным текущей политикой или около того (aka behavioral policy ~ agent policy)

источник

21:16пожаловаться #3

DP

Dmitry Persiyanov in RL reading group

Это наверное то же самое что и Саша написал в последнем сообщении

источник

21:17пожаловаться #4

АС

Артём С in RL reading group

Т.е. experience replay бы решил эту проблему?

источник

21:19пожаловаться #5

SK

Sergey Kolesnikov in RL reading group

если в replay большинство сэмплов - за камнем, как это поможет?

источник

21:19пожаловаться #6

DP

Dmitry Persiyanov in RL reading group

Бесконечно большой наверное да + если алгоритм офф полиси, но это не точно

источник

21:19пожаловаться #7

SK

Sergey Kolesnikov in RL reading group

короче говоря, ведь именно потому exploration так важен в RL

источник

21:20пожаловаться #8

DP

Dmitry Persiyanov in RL reading group

Плюсую

источник

21:21пожаловаться #9

АС

Артём С in RL reading group

Хм, видимо, нужен diverse experience replay

источник

21:22пожаловаться #10

EN

Evgenii Nikishin in RL reading group

Артём С

Т.е. experience replay бы решил эту проблему?

если что, есть штука под названием ACER (actor critic with experience replay)

источник

21:22пожаловаться #11

📒

📒 in RL reading group

кстати кто нить может код глянуть на acer, когда считаю retrace то инициализирую его value значением next_state как по идее должно и быть но acer не сходится
а когда retrace делаю ноль сходится

источник

21:24пожаловаться #12

2018 May 11

EN

Evgenii Nikishin in RL reading group

Evgenii Nikishin

а кто-нибудь может дать накидать догадок, почему в RL часто возникают ситуации, когда агент забывает хорошую политику (как на графике)

вдогонку ко вчерашнему обсуждению:
https://youtu.be/KZd-jkmeIcU?t=27m6s

источник

16:03пожаловаться #13

2018 May 13

MG

Maria Garkavenko in RL reading group

Evgenii Nikishin

вдогонку ко вчерашнему обсуждению:
https://youtu.be/KZd-jkmeIcU?t=27m6s

здорово! а где-нибудь есть слайды с этой лекции?

источник

17:26пожаловаться #14

EN

Evgenii Nikishin in RL reading group

https://drive.google.com/drive/folders/0B2zoFVYw1rN3N0RUNXE1WnNObTQ

источник

19:18пожаловаться #15

MG

Maria Garkavenko in RL reading group

Evgenii Nikishin

https://drive.google.com/drive/folders/0B2zoFVYw1rN3N0RUNXE1WnNObTQ

спасибо!

источник

23:32пожаловаться #16

2018 May 15

c

cydoroga in RL reading group

Уже в этот четверг на нашем семинаре в 19:00 в ШАДе, ауд Стенфорд будет совместный спич от участников NIPS'17: Learning to Run (@fgvbrt @Parilo and @scitator)

Если у вас нет пропуска, не забудьте зарегистрироваться по ссылке до сегодняшней ночи :
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Вы узнаете:
- чем занимается лаборатория нейро-био-механики Стенфорда (в честь нашей аудитории)
- сколько нужно мощностей, или собери кластер в домашних условиях
- сколько можно пробежать на одной ноге
- не PPO едины
- где достать baseline для NIPS'18
- есть ли data leek в RL

Приходите, будет много, реально много разных политик ( и да, это будут бегающие человечки )

Google Docs

Deep RL reading group meeting

Если у Вас нет ШАДовского пропуска, и если Вы бы хотели посетить семинар, на котором разбираются статьи про RL, то эта форма – для Вас!

Несколько важных моментов:

1. Эту форму нужно будет заполнять КАЖДЫЙ РАЗ перед каждым семинаром, указывая дату предстоящего семинара

2. Отправлять форму нужно НЕ ПОЗЖЕ ВЕЧЕРА ДНЯ ПРЕДШЕСТВУЮЩЕГО СЕМИНАРУ (не позже среды, если семинар в чт). Если вдруг вы в день семинара поняли, что не успели отправить форму – пишите организаторам, что-нибудь придумаем!

3. В день семинара нужно ПРИХОДИТЬ С ПАСПОРТОМ. Без него могут не пустить.

источник

15:12пожаловаться #17

YY

Yulia Yakovleva 🚀🤔... in RL reading group

cydoroga

Уже в этот четверг на нашем семинаре в 19:00 в ШАДе, ауд Стенфорд будет совместный спич от участников NIPS'17: Learning to Run (@fgvbrt @Parilo and @scitator)

Если у вас нет пропуска, не забудьте зарегистрироваться по ссылке до сегодняшней ночи :
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Вы узнаете:
- чем занимается лаборатория нейро-био-механики Стенфорда (в честь нашей аудитории)
- сколько нужно мощностей, или собери кластер в домашних условиях
- сколько можно пробежать на одной ноге
- не PPO едины
- где достать baseline для NIPS'18
- есть ли data leek в RL

Приходите, будет много, реально много разных политик ( и да, это будут бегающие человечки )

Google Docs

Deep RL reading group meeting

Если у Вас нет ШАДовского пропуска, и если Вы бы хотели посетить семинар, на котором разбираются статьи про RL, то эта форма – для Вас!

Несколько важных моментов:

1. Эту форму нужно будет заполнять КАЖДЫЙ РАЗ перед каждым семинаром, указывая дату предстоящего семинара

2. Отправлять форму нужно НЕ ПОЗЖЕ ВЕЧЕРА ДНЯ ПРЕДШЕСТВУЮЩЕГО СЕМИНАРУ (не позже среды, если семинар в чт). Если вдруг вы в день семинара поняли, что не успели отправить форму – пишите организаторам, что-нибудь придумаем!

3. В день семинара нужно ПРИХОДИТЬ С ПАСПОРТОМ. Без него могут не пустить.

Ого, звучит ужасно интересно!

источник

15:13пожаловаться #18

MG

Maria Garkavenko in RL reading group

Yulia Yakovleva 🚀🤔

Ого, звучит ужасно интересно!

Ага! А запись будет? И если будет, то где?

источник

15:17пожаловаться #19

S

Shmuma in RL reading group

Обязательно!

источник

15:36пожаловаться #20