Телеграмм чат группы theoreticalrl страница 254

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

RL reading group

1228 membersпожаловаться на группу

2021 December 06

AA

Arip Asadulaev in RL reading group

Круто, поздравляю!

Только я не очень понял постановку вопроса в названии статьи, мне казалось вполне очевидно когда использовать offline когда cloning.

Offline RL направлен на то, чтоб получить оптимальную стратегию имея данные собранные стратегией которая может быть даже случайной. То есть для offline данные собраны какой-то не эффективной стратегией (или множеством стратегий), или когда мы не знаем насколько хорошая стратегия собрала эти данные. Behavour cloning насколько я знаю подразумевает что стратегия которая у нас сформировала данные является эталонной и нам надо ее выучить.

Говоря короче, offline используется когда данные собраны не оптимальной стратегией, а Behavour cloning когда оптимальной. Пока я не сел читать статью буду благодарен если дашь некоторые комментарии насчет этого, чтоб я лучше понял)

источник

17:07пожаловаться #1

VK

Vlad Kurenkov in RL reading group

в недавней литературе стало заметно, что bc на самом деле может дать перформанс лучше чем в данных + offline-rl не всегда может показать результат лучше bc

источник

17:12пожаловаться #2

VK

Vlad Kurenkov in RL reading group

вот эта конкретно статья левайна и кумара, они рассматривают случаи при каких условиях второе происходит

источник

17:13пожаловаться #3

AA

Arip Asadulaev in RL reading group

Ну вот в моем понимании кажется что когда данные собраны хорошей стратегией bc и может дать лучше результат, другой вопрос как оценить насколько данные подходят для одного или второго подхода предварительно без перебора, в условии когда мы не знаем откуда пришли данные.

источник

17:17пожаловаться #4

AA

Arip Asadulaev in RL reading group

или было показано что даже когда данные случайные bc дает лучше результат? тогда встает вопрос как это показали, если эмпирически то это очень large scale experiments. Скинь статью)

источник

17:20пожаловаться #5

VK

Vlad Kurenkov in RL reading group

вот они как раз и отвечают на это, там есть прям сноски с practical insights; например

> Practical Insight 4.2. Offline RL is preferred over BC, even with expert or near-expert data, when either the initial state distribution changes during deployment and when the environment has a few “critical” states, i.e., states where precisely taking the expert action is necessary.

источник

17:21пожаловаться #6

VK

Vlad Kurenkov in RL reading group

если под случайными данными имеется ввиду буквально рандомная политика, то такого я не видел; обычно речь идёт о каком-то +- рабочем агенте с/без добавления шума

источник

17:23пожаловаться #7

VK

Vlad Kurenkov in RL reading group

- у нас в статье есть пару кейсов, где bc даёт результат лучше стратегии, которая данные собирала; почему такое произошло? — вопрос открытый
- в статье neorl можно посмотреть в таблицу с результатми и увидеть, что такое тоже происходит

по эмпирике где bc аутперформит offline-rl — можно посмотреть related work в статье выше, там всё наглядно (самые важные — implicit behavioral cloning и What matters in learning from offline
human demonstrations for robot manipulation)

источник

17:30пожаловаться #8

AA

Arip Asadulaev in RL reading group

То есть всегда надо использовать Offline RL?

источник

17:30пожаловаться #9

VK

Vlad Kurenkov in RL reading group

почему? 🙂

источник

17:31пожаловаться #10

AA

Arip Asadulaev in RL reading group

Offline RL is preferred over BC, even with expert or near-expert data

источник

17:32пожаловаться #11

VK

Vlad Kurenkov in RL reading group

when …

источник

17:32пожаловаться #12

AA

Arip Asadulaev in RL reading group

а блин, прошу прощения я почему то там мысленно дописал even после запятой

источник

17:39пожаловаться #13

VK

Vlad Kurenkov in RL reading group

да ничего) но статья правда интересная, почитайте

источник

17:42пожаловаться #14

VK

Vlad Kurenkov in RL reading group

они вроде тоже будут на нипсе, только на воркшопе по deep rl’ю

источник

17:43пожаловаться #15

AA

Arip Asadulaev in RL reading group

Балин, я вообще короче все попутал и подумал это в вашей статье название Should I Run Offline Reinforcement Learning or Behavioral Cloning? В любом случае большое спасибо за обсуждение, почитаю обе статьи и мб еще что нибудь спрошу)

источник

17:52пожаловаться #16

VK

Vlad Kurenkov in RL reading group

AnimatedSticker.tgs

источник

17:53пожаловаться #17

2021 December 13

VK

Vlad Kurenkov in RL reading group

btw, если вдруг кто-то занимается differentiable robot simulators и/или evolutionary strategies, заходите так же завтра на 4th Robot Learning (http://www.robot-learning.ml/2021/) воркшоп, мы там расскажем про то как подружить два этих подхода

> abstract
In recent years, Evolutionary Strategies were actively explored in robotic tasks for policy search as they provide a simpler alternative to reinforcement learning algorithms. However, this class of algorithms is often claimed to be extremely sample-inefficient. On the other hand, there is a growing interest in Differentiable Robot Simulators (DRS) as they potentially can find successful policies with only a handful of trajectories. But the resulting gradient is not always useful for the first-order optimization. In this work, we demonstrate how DRS gradient can be used in conjunction with Evolutionary Strategies. Preliminary results suggest that this combination can reduce sample complexity of Evolutionary Strategies by 3x-5x times in both simulation and the real world.

> arXiv
https://arxiv.org/abs/2110.00438

> github
https://github.com/vkurenkov/guided-es-by-differentiable-simulators

источник

23:27пожаловаться #18

2021 December 16

AG

Alexander Grishin in RL reading group

Привет всем!

Мы (AIRI) и я (я), в частности, организовываем RL тусовку в субботу на ODS дата елке.
Что будет (и не только):
- история о том, как наука докатилась до meta-gradients + reward learning + multi-agent + reinforcement learning
- рассказ про память у агентов
- доклад про Imitation Learning в мультиагентах
- децентрализованное планирование в мультиагентах
- оригинальный взгляд на обучение модели среды

Начинаем в субботу (18 декабря) в 14:45 в Youtube канале, подробности и расписание тут, позже еще скину ссылку в Spatial.Chat

источник

17:54пожаловаться #19

AG

Alexander Grishin in RL reading group

Еще считаю, что нужно заскочить послушать Сергея Колесникова (@scitator) про итоги 2021 года в RL в 12:50

источник

17:55пожаловаться #20