Телеграмм чат группы theoreticalrl страница 3

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

RL reading group

1092 membersпожаловаться на группу

1
«
…
‹
1
2
3
4
›
…
»

2017 June 06

P

Pavel Shvechikov in RL reading group

По мотивам статьи Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic из нашего списка для разбора только что вышла работа Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning https://arxiv.org/abs/1706.00387, в которой сравнивают несколько способов комбинирования лучшего от off-ppolicy и от on-policy алгоритмов.
Кажется, что еще один день нужно будет посвятить этой теме.

источник

12:25пожаловаться #1

P

Pavel Shvechikov in RL reading group

Ссылка на расписание https://docs.google.com/spreadsheets/d/1ZeL1_mfR1ccwKKO_ihKs6R26pqy5bsJgU_t3jJjSN5c

Ссылка на регистрацию, если у Вас нет пропуска в ШАД https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Вся информация о семинаре, включая рекомендации по подготовке – https://docs.google.com/document/d/1TPcOguGQHpIEsh07pK_PaKozjg-dbm8zMVZL4iM518Y

Deep RL reading group.ods

Deep RL

Paper,When,Where,Who,Notes,Presentations
<a href="https://arxiv.org/abs/1703.01988">Neural Episodic Control</a>,19:00 08.06.2017 ,ШАД, Гарвард,Никишин,This paper is one of the recent silent breakthroughs to intellectual agent with human-like memory,<a href="https://yadi.sk/i/wXGVGqp-3Jx...

источник

23:26пожаловаться #2

P

Pavel Shvechikov in RL reading group

В запиненном сообщении - ссылка на форму для регистрации, если у Вас нет пропуска ШАД, но Вы бы хотели семинар посетить.
Большая просьба – заполнять эту форму не позже вечера среды.

источник

23:28пожаловаться #3

2017 June 08

c

cydoroga in RL reading group

Ссылка на мою презентацию
http://slides.com/cydoroga/rl_lecture1/fullscreen

источник

18:56пожаловаться #4

EN

Evgenii Nikishin in RL reading group

NEC_Nikishin.pdf

источник

19:00пожаловаться #5

c

cydoroga in RL reading group

Для желающих познать мощь q learning, кто этого еще сделать не успел:
https://arxiv.org/pdf/1312.5602

источник

19:17пожаловаться #6

SP

Sofia Potapova in RL reading group

Всем привет! Презентации будут в отдельное место складываться, чтобы не искать по чату?

источник

19:26пожаловаться #7

c

cydoroga in RL reading group

Надеюсь, никто не обидится - добавил в таблицу с расписанием столбец с ссылкой на презентацию. Думаю, можно туда выкладывать ссылки на презентации, расшаренные по ссылке в облаке

источник

22:18пожаловаться #8

EZ

Evgenii Zheltonozhsk... in RL reading group

Надеюсь, никто не обидится - добавил в таблицу с расписанием столбец с ссылкой на презентацию. Думаю, можно туда выкладывать ссылки на презентации, расшаренные по ссылке в облаке

раз уж это RL reading group, наверное в каждой презентации делать intro to rl не обязательно

источник

22:25пожаловаться #9

c

cydoroga in RL reading group

Я только за, если он будет не нужен)

источник

22:25пожаловаться #10

P

Pavel Shvechikov in RL reading group

Дельное замечание. В первый раз сделали, больше не будем : )

источник

22:25пожаловаться #11

P

Pavel Shvechikov in RL reading group

Всем, кто задал сегодня хотя бы один вопрос — 👍 👍 👍

источник

23:10пожаловаться #12

2017 June 10

P

Pavel Shvechikov in RL reading group

OpenAI начал интересоваться мультиагентными системами
https://blog.openai.com/learning-to-cooperate-compete-and-communicate/

Learning to Cooperate, Compete, and Communicate

Multiagent environments where agents compete for resources are stepping stones on the path to AGI. Multiagent environments have two useful properties: first, there is a natural curriculum — the difficulty of the environment is determined by the skill of your competitors (and if you're competing against clones of yourself, the environment

источник

09:25пожаловаться #13

2017 June 13

P

Pavel Shvechikov in RL reading group

Deepmind совместно с OpenAI сделали алгоритм, который учится на основе бинарной информации о том, какой из двух эпизодов лучше.
https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/
Метод позволяет просто и удобно для человека формулировать сложные функции наград

Learning from Human Preferences

One step towards building safe AI systems is to remove the need for humans to write goal functions, since using a simple proxy for a complex goal, or getting the complex goal a bit wrong, can lead to undesirable and even dangerous behavior. In collaboration with DeepMind's safety team, we've

источник

22:53пожаловаться #14

2017 June 14

P

Pavel Shvechikov in RL reading group

Мы начинаем раскрывать тему применения генеративных глубинных моделей и, в частности, GANов, к задачам обучения с подкреплением. В предстоящий четверг на семинаре Вы сможете услышать о решении задачи Imitation Learning с помощью противоборствующих сетей от Boris . Им будут освещены два (👏) свежих подхода к решению этой задачи. В конце @justheuristic также расскажет свое видение места GANов в RL. Приходите, будет интересно!

Для желающих посетить семинар и не имеющих пропуска, на всякий случай, напоминаю, что заполнить гуглоформу на разовый пропуск нужно до завтрашнего дня, то есть сегодня.

источник

16:33пожаловаться #15

2017 June 15

EZ

Evgenii Zheltonozhsk... in RL reading group

Deep reinforcement learning from human preferences https://arxiv.org/abs/1706.03741

источник

09:41пожаловаться #16

EZ

Evgenii Zheltonozhsk... in RL reading group

Интересная статья от DeepMind и OpenAI о том как тренировать агента с помощью человека делающего бинарный выбор

источник

09:43пожаловаться #17

P

Pavel Shvechikov in RL reading group

Pavel Shvechikov

Deepmind совместно с OpenAI сделали алгоритм, который учится на основе бинарной информации о том, какой из двух эпизодов лучше.
https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/
Метод позволяет просто и удобно для человека формулировать сложные функции наград

Learning from Human Preferences

One step towards building safe AI systems is to remove the need for humans to write goal functions, since using a simple proxy for a complex goal, or getting the complex goal a bit wrong, can lead to undesirable and even dangerous behavior. In collaboration with DeepMind's safety team, we've

Добавлю, что пост выше ровно об этой же статье.

источник

09:55пожаловаться #18

EZ

Evgenii Zheltonozhsk... in RL reading group

Pavel Shvechikov

Добавлю, что пост выше ровно об этой же статье.

упс, пропустил

источник

09:56пожаловаться #19

AG

Artem Grachev in RL reading group

а есть ещё какая-то возможность получить пропуск?

источник

12:51пожаловаться #20

1
«
…
‹
1
2
3
4
›
…
»