Телеграмм чат группы theoreticalrl страница 247

Size: a a a

RL reading group

1226 membersпожаловаться на группу

2021 September 23

Alexander Grishin in RL reading group

Там даже внутри одного проблемы с разницей между версиями и тоже нельзя

источник

17:02пожаловаться #1

2021 September 26

Arezoo🦋🧚🏻‍♀️... in RL reading group

Мой ноутбук старый, и у меня всего 4 процессора, я подумал, могу ли я использовать Google Colab для планирования пути мобильного робота? и есть ли какой-либо метод или онлайн-платформа, которые работают быстрее или лучше?

источник

12:21пожаловаться #2

Shyngys in RL reading group

Планирование робота где проходит? 2Д симулятор, 3Д симулятор (Gazebo?), реальный робот?
Для первого варианта где тестирование на какой-то двухмерной матрице вполне себе, если визуализация там же, но подрубать колаб для внешнего вывода кажется очень сложным

источник

12:24пожаловаться #3

Arezoo🦋🧚🏻‍♀️... in RL reading group

он находится на Gazebo, и я планирую использовать ROS для его реализации. но я боюсь, что мой собственный ноутбук не справится с этим.

источник

12:29пожаловаться #4

Shyngys in RL reading group

Если сможете запустить ROS node в колабе дайте знать) Тоже интересно. Но пока я не видел таких примеров

источник

12:32пожаловаться #5

Shyngys in RL reading group

А вообще я тоже запускал симуляцию и планирование на своем старом ноуте, тоже с 4 ядрами, было все ок

источник

12:32пожаловаться #6

Arezoo🦋🧚🏻‍♀️... in RL reading group

да, мне было интересно, возможно это или нет. Спасибо

источник

12:34пожаловаться #7

Arezoo🦋🧚🏻‍♀️... in RL reading group

Тогда я попробую👌

источник

12:35пожаловаться #8

2021 September 30

Alexey Yurasov in RL reading group

Google AI Blog: Improving Generalization in Reinforcement Learning using Policy Similarity Embeddings
https://ai.googleblog.com/2021/09/improving-generalization-in.html?m=1

Google AI Blog

Improving Generalization in Reinforcement Learning using Policy Similarity Embeddings

Posted by Rishabh Agarwal, Research Associate, Google Research, Brain Team Reinforcement learning (RL) is a sequential decision-making p...

источник

11:34пожаловаться #9

2021 October 01

Alexander Grishin in RL reading group

Может кто-нибудь в курсе, никак не могу вспомнить название достаточно свежей статьи (может это был talk) на тему того, как правильно сравнивать качество работы rl алгоритмов?

источник

14:47пожаловаться #10

ИР

Иван Рубачёв... in RL reading group

https://twitter.com/agarwl_/status/1432800830621687817 такое недавно видел

Twitter

Rishabh Agarwal

tl;dr: Our findings call for a change in how we evaluate performance on deep RL benchmarks, for which we present more reliable protocols, easily applicable with *even a handful of runs*, to prevent unreliable results from stagnating the field. arxiv.org/abs/2108.13264 (1/N)

источник

14:50пожаловаться #11

Alexander Grishin in RL reading group

Оно! Класс, спасибо

источник

14:51пожаловаться #12

2021 October 03

Alexander Grishin in RL reading group

Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning
https://arxiv.org/abs/2109.11978?context=cs.LG

источник

00:18пожаловаться #13

2021 October 04

ИН

Иван Насонов... in RL reading group

Привет всем!
У меня есть вопрос к шарящим людям. Если поможете советом, то буду очень благодарен, а то идей совсем нет(

Есть задача двух автомобилей (считай догонялки 2 игроков). К каждому агенту написана нейронная сеть, которая должна решать свою задачу: либо, чтобы эффективно догнать соперника, либо эффективно убежать. Задача решается в ближних областях. Метод решения прост (поэтому и прошу совета): каждому агенту передается местоположение себя и соперника и прописаны награды за его поимку. У того, кто догоняет, идет штраф за время (стимул догнать быстрее). Тот, кто убегает, наоборот получает за время бонус (стимул дольше жить).

Сейчас модель работает не очень хорошо. Наблюдаются длительные застои, когда агенты ничего не делают, а просто стоят на месте. Был опыт введения наград (или наказаний) за увеличение (или уменьшение) расстояния между агентами, но это ни к чему не привело. Агенты просто разбегались в углы и там стояли.

Если есть идеи, как можно оптимизировать процесс или найти дополнительные условия для стимулов, помогите пожалуйста)

P. S. Модель разрабатываю в unity, скрипты для агентов пишутся на С#, нейронка обучается с помощью pytorch

источник

20:46пожаловаться #14

Alex in RL reading group

А почему во втором случае догоняющая модель убежала в угол?
Может так быть, что ошибка в имплементации?

источник

20:59пожаловаться #15

Petr Kuderov in RL reading group

Зафиксируй позицию убегающего на месте и добейся того, чтобы догоняющий просто учился приезжать в нужную точку.

Это в принципе хороший юнит тест для поверхностной проверки на баги

источник

21:05пожаловаться #16

ИН

Иван Насонов... in RL reading group

Сомневаюсь. Все методы сначала тестирую на неподвижной цели и на ней все работает очень быстро и правильно

источник

21:06пожаловаться #17

ИН

Иван Насонов... in RL reading group

С этого начинал разработку проекта)

источник

21:06пожаловаться #18