Size: a a a

RL reading group

2017 June 06

P

Pavel Shvechikov in RL reading group
По мотивам статьи Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic из нашего списка для разбора только что вышла работа Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning https://arxiv.org/abs/1706.00387, в которой сравнивают несколько способов комбинирования лучшего от off-ppolicy и от on-policy алгоритмов.
Кажется, что еще один день нужно будет посвятить этой теме.
источник

P

Pavel Shvechikov in RL reading group
Ссылка на расписание https://docs.google.com/spreadsheets/d/1ZeL1_mfR1ccwKKO_ihKs6R26pqy5bsJgU_t3jJjSN5c

Ссылка на регистрацию, если у Вас нет пропуска в ШАД  https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Вся информация о семинаре, включая рекомендации по подготовке – https://docs.google.com/document/d/1TPcOguGQHpIEsh07pK_PaKozjg-dbm8zMVZL4iM518Y
источник

P

Pavel Shvechikov in RL reading group
В запиненном сообщении - ссылка на форму для регистрации, если у Вас нет пропуска ШАД, но Вы бы хотели семинар посетить.
Большая просьба – заполнять эту форму не позже вечера среды.
источник
2017 June 08

c

cydoroga in RL reading group
Ссылка на мою презентацию
http://slides.com/cydoroga/rl_lecture1/fullscreen
источник

EN

Evgenii Nikishin in RL reading group
источник

c

cydoroga in RL reading group
Для желающих познать мощь q learning, кто этого еще сделать не успел:
https://arxiv.org/pdf/1312.5602
источник

SP

Sofia Potapova in RL reading group
Всем привет! Презентации будут в отдельное место складываться, чтобы не искать по чату?
источник

c

cydoroga in RL reading group
Надеюсь, никто не обидится - добавил в таблицу с расписанием столбец с ссылкой на презентацию. Думаю, можно туда выкладывать ссылки на презентации, расшаренные по ссылке в облаке
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
cydoroga
Надеюсь, никто не обидится - добавил в таблицу с расписанием столбец с ссылкой на презентацию. Думаю, можно туда выкладывать ссылки на презентации, расшаренные по ссылке в облаке
раз уж это RL reading group, наверное в каждой презентации делать intro to rl не обязательно
источник

c

cydoroga in RL reading group
Я только за, если он будет не нужен)
источник

P

Pavel Shvechikov in RL reading group
Дельное замечание. В первый раз сделали, больше не будем : )
источник

P

Pavel Shvechikov in RL reading group
Всем, кто задал сегодня хотя бы один вопрос — 👍 👍 👍
источник
2017 June 10

P

Pavel Shvechikov in RL reading group
OpenAI начал интересоваться мультиагентными системами
https://blog.openai.com/learning-to-cooperate-compete-and-communicate/
источник
2017 June 13

P

Pavel Shvechikov in RL reading group
Deepmind совместно с OpenAI сделали алгоритм, который учится на основе бинарной информации о том, какой из двух эпизодов лучше.
https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/
Метод позволяет просто и удобно для человека формулировать сложные функции наград
источник
2017 June 14

P

Pavel Shvechikov in RL reading group
Мы начинаем раскрывать тему применения генеративных глубинных моделей и, в частности, GANов,  к задачам обучения с подкреплением. В  предстоящий четверг на семинаре Вы сможете услышать о решении задачи Imitation Learning с помощью противоборствующих сетей от Boris . Им будут освещены два (👏) свежих подхода к решению этой задачи. В конце @justheuristic также расскажет свое видение места GANов в RL. Приходите, будет интересно!

Для желающих посетить семинар и не имеющих пропуска, на всякий случай, напоминаю, что заполнить гуглоформу на разовый пропуск нужно до завтрашнего дня, то есть сегодня.
источник
2017 June 15

EZ

Evgenii Zheltonozhsk... in RL reading group
Deep reinforcement learning from human preferences https://arxiv.org/abs/1706.03741
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Интересная статья от DeepMind и OpenAI о том как тренировать агента с помощью человека делающего бинарный выбор
источник

P

Pavel Shvechikov in RL reading group
Pavel Shvechikov
Deepmind совместно с OpenAI сделали алгоритм, который учится на основе бинарной информации о том, какой из двух эпизодов лучше.
https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/
Метод позволяет просто и удобно для человека формулировать сложные функции наград
Добавлю, что пост выше ровно об этой же статье.
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Pavel Shvechikov
Добавлю, что пост выше ровно об этой же статье.
упс, пропустил
источник

AG

Artem Grachev in RL reading group
а есть ещё какая-то возможность получить пропуск?
источник