Size: a a a

RL reading group

2021 December 06

AA

Arip Asadulaev in RL reading group
Круто, поздравляю!

Только я не очень понял постановку вопроса в названии статьи, мне казалось вполне очевидно когда использовать offline когда cloning.

Offline RL направлен на то, чтоб получить оптимальную стратегию имея данные собранные стратегией которая может быть даже случайной. То есть для offline данные собраны какой-то не эффективной стратегией (или множеством стратегий), или когда мы не знаем насколько хорошая стратегия собрала эти данные. Behavour cloning насколько я знаю подразумевает что стратегия которая у нас сформировала данные является эталонной и нам надо ее выучить.

Говоря короче, offline используется когда данные собраны не оптимальной стратегией, а Behavour cloning когда оптимальной. Пока я не сел читать статью буду благодарен если дашь некоторые комментарии насчет этого, чтоб я лучше понял)
источник

VK

Vlad Kurenkov in RL reading group
в недавней литературе стало заметно, что bc на самом деле может дать перформанс лучше чем в данных + offline-rl не всегда может показать результат лучше bc
источник

VK

Vlad Kurenkov in RL reading group
вот эта конкретно статья левайна и кумара, они рассматривают случаи при каких условиях второе происходит
источник

AA

Arip Asadulaev in RL reading group
Ну вот в моем понимании кажется что когда данные собраны хорошей стратегией bc и может дать лучше результат, другой вопрос как оценить насколько данные подходят для одного или второго подхода предварительно без перебора, в условии когда мы не знаем откуда пришли данные.
источник

AA

Arip Asadulaev in RL reading group
или было показано что даже когда данные случайные bc дает лучше результат? тогда встает вопрос как это показали, если эмпирически то это очень large scale experiments. Скинь статью)
источник

VK

Vlad Kurenkov in RL reading group
вот они как раз и отвечают на это, там есть прям сноски с practical insights; например

> Practical Insight 4.2. Offline RL is preferred over BC, even with expert or near-expert data, when either the initial state distribution changes during deployment and when the environment has a few “critical” states, i.e., states where precisely taking the expert action is necessary.
источник

VK

Vlad Kurenkov in RL reading group
если под случайными данными имеется ввиду буквально рандомная политика, то такого я не видел; обычно речь идёт о каком-то +- рабочем агенте с/без добавления шума
источник

VK

Vlad Kurenkov in RL reading group
- у нас в статье есть пару кейсов, где bc даёт результат лучше стратегии, которая данные собирала; почему такое произошло? — вопрос открытый
- в статье neorl можно посмотреть в таблицу с результатми и увидеть, что такое тоже происходит

по эмпирике где bc аутперформит offline-rl — можно посмотреть related work в статье выше, там всё наглядно (самые важные — implicit behavioral cloning и What matters in learning from offline
human demonstrations for robot manipulation)
источник

AA

Arip Asadulaev in RL reading group
То есть всегда надо использовать Offline RL?
источник

VK

Vlad Kurenkov in RL reading group
почему? 🙂
источник

AA

Arip Asadulaev in RL reading group
Offline RL is preferred over BC, even with expert or near-expert data
источник

VK

Vlad Kurenkov in RL reading group
when …
источник

AA

Arip Asadulaev in RL reading group
а блин, прошу прощения я почему то там мысленно дописал even после запятой
источник

VK

Vlad Kurenkov in RL reading group
да ничего) но статья правда интересная, почитайте
источник

VK

Vlad Kurenkov in RL reading group
они вроде тоже будут на нипсе, только на воркшопе по deep rl’ю
источник

AA

Arip Asadulaev in RL reading group
Балин, я вообще короче все попутал и подумал это в вашей статье название Should I Run Offline Reinforcement Learning or Behavioral Cloning? В любом случае большое спасибо за обсуждение, почитаю обе статьи и мб еще что нибудь спрошу)
источник

VK

Vlad Kurenkov in RL reading group
источник
2021 December 13

VK

Vlad Kurenkov in RL reading group
btw, если вдруг кто-то занимается differentiable robot simulators и/или evolutionary strategies, заходите так же завтра на 4th Robot Learning (http://www.robot-learning.ml/2021/) воркшоп, мы там расскажем про то как подружить два этих подхода

> abstract
In recent years, Evolutionary Strategies were actively explored in robotic tasks for policy search as they provide a simpler alternative to reinforcement learning algorithms. However, this class of algorithms is often claimed to be extremely sample-inefficient. On the other hand, there is a growing interest in Differentiable Robot Simulators (DRS) as they potentially can find successful policies with only a handful of trajectories. But the resulting gradient is not always useful for the first-order optimization. In this work, we demonstrate how DRS gradient can be used in conjunction with Evolutionary Strategies. Preliminary results suggest that this combination can reduce sample complexity of Evolutionary Strategies by 3x-5x times in both simulation and the real world.

> arXiv
https://arxiv.org/abs/2110.00438

> github
https://github.com/vkurenkov/guided-es-by-differentiable-simulators
источник
2021 December 16

AG

Alexander Grishin in RL reading group
Привет всем!

Мы (AIRI) и я (я), в частности, организовываем RL тусовку в субботу на ODS дата елке.
Что будет (и не только):
- история о том, как наука докатилась до meta-gradients + reward learning + multi-agent + reinforcement learning
- рассказ про память у агентов
- доклад про Imitation Learning в мультиагентах
- децентрализованное планирование в мультиагентах
- оригинальный взгляд на обучение модели среды

Начинаем в субботу (18 декабря) в 14:45 в Youtube канале, подробности и расписание тут, позже еще скину ссылку в Spatial.Chat
источник

AG

Alexander Grishin in RL reading group
Еще считаю, что нужно заскочить послушать Сергея Колесникова (@scitator) про итоги 2021 года в RL в 12:50
источник