Size: a a a

RL reading group

2018 October 04

V

Val in RL reading group
источник

IM

Ilya Melnikov in RL reading group
спасибо)
источник

AR

Artem Ryzhikov in RL reading group
https://youtu.be/-KzvHc16HlM вот ещё неплохое выступление, где как раз говорится про REINFORCE, его недостатки, дискретные переменные и зачем нужна гумбелевская релаксация
источник

AR

Artem Ryzhikov in RL reading group
https://arxiv.org/abs/1803.05649 и ещё в дополнение ко второй статье доклада считаю уместным добавить по возможное использование Sylvester Normalizing Flows, которые выучичают f(x)=x+g(x), что могло бы более консервативно менять пространство состояний, более стабильно выучивать политику поверх политики и настакивать normalizing flows большей глубины
источник

АС

Артём С in RL reading group
Artem Ryzhikov
https://youtu.be/-KzvHc16HlM вот ещё неплохое выступление, где как раз говорится про REINFORCE, его недостатки, дискретные переменные и зачем нужна гумбелевская релаксация
Можно ещё блог мой почитать
http://artem.sobolev.name/
источник

АС

Артём С in RL reading group
Правда, про продвинутые REINFORCE методы я так и не написал
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Артём С
Можно ещё блог мой почитать
http://artem.sobolev.name/
👍
источник
2018 October 09

A

Alexander O in RL reading group
а каждую неделю семинар есть или по мере появления готовых докладчиков?
источник
2018 October 10

c

cydoroga in RL reading group
Alexander O
а каждую неделю семинар есть или по мере появления готовых докладчиков?
Хотелось бы, чтобы эти две вещи друг другу не мешали.

На эту неделю докладчика нет и поэтому завтра семинара НЕ БУДЕТ

Очень надеюсь, что со следующей недели мы сможем наладить еженедельные выступления.

Хочу еще добавить, что выступать всегда полезно самому выступающему. Не стесняйтесь!
Если вы сами не можете разобраться в статье, выбрать статью, пишите сюда или в личку мне или другому участнику группы. Вместе может быть проще разобраться и посмотреть на вопрос шире.

Пишите мне о своем желании выступить и том, с какой статьей, если вы ее выбрали, либо выберем вместе.

В ближайшее время мы постраемся сделать табличку, где можно будет записаться просто внеся себя и название выбранной статьи в нее. Плюс там будет список с актуальных на данный момент статей
источник
2018 October 11

ST

Stepan Troeshestov in RL reading group
А можно ли посмотреть на вашу реализацию софт актор критика? Со всеми вот этими фишками, про которые вы на семинаре рассказывали?
источник

SK

Sergey Kolesnikov in RL reading group
есть официальная версия
источник

SK

Sergey Kolesnikov in RL reading group
мы кучу всякого после нипса выложим
источник

ST

Stepan Troeshestov in RL reading group
А я вроде нашёл на гитхабе у @rl_agent
источник

ST

Stepan Troeshestov in RL reading group
Собственно, большое спасибо и моё увожение
источник

AG

Aleksey Grinchuk in RL reading group
Там для дискретных действий, в ней не очень много смысла. Для continuous будет позже.
источник
2018 October 15

YY

Yulia Yakovleva 🚀🤔... in RL reading group
А вот выложили код той статьи, где робот повторял трюки за человеком!
https://twitter.com/xbpeng4/status/1051880967814574087
источник
2018 October 16

SK

Sergey Kolesnikov in RL reading group
коллеги, в это воскресенье будет DS QA в Я и даже будет секция про RL, соответственно, если у вас есть интересные RL вопросы (а может и ответы) - напишите в форму
https://docs.google.com/forms/d/e/1FAIpQLSfFmiNtcxBKoKEUB_PLb6ie0D5PqO1T2-8OFqTSfEW45cW7Pw/viewform?usp=sf_link

tnx

PS. только давайте в одну форму по одному вопросу/ответу, ибо иначе каша
источник
2018 October 18

AB

Alexey Boyko in RL reading group
Будет семинар сегодня или нет?
источник

AP

Alexander Pashevich in RL reading group
может быть кто то может порекомендовать имплементацию SAC на пайторче? буду благодарен
источник

c

cydoroga in RL reading group
На этой неделе семинара не будет
Сорри за такую нестабильность в частоте семинаров, но опыт показывает, что лучше не делать, чем делать абы как.
Со следующей недели семинары начнутся точно.
Если не будет непредвиденных накладок, то мы все же сделаем их еженедельными.
Спасибо за понимание.
источник