Size: a a a

RL reading group

2021 September 23

AG

Alexander Grishin in RL reading group
Там даже внутри одного проблемы с разницей между версиями и тоже нельзя
источник
2021 September 26

A

Arezoo🦋🧚🏻‍♀️... in RL reading group
Мой ноутбук старый, и у меня всего 4 процессора, я подумал, могу ли я использовать Google Colab для планирования пути мобильного робота? и есть ли какой-либо метод или онлайн-платформа, которые работают быстрее или лучше?
источник

S

Shyngys in RL reading group
Планирование робота где проходит? 2Д симулятор, 3Д симулятор (Gazebo?), реальный робот?
Для первого варианта где тестирование на какой-то двухмерной матрице вполне себе, если визуализация там же, но подрубать колаб для внешнего вывода кажется очень сложным
источник

A

Arezoo🦋🧚🏻‍♀️... in RL reading group
он находится на Gazebo, и я планирую использовать ROS для его реализации. но я боюсь, что мой собственный ноутбук не справится с этим.
источник

S

Shyngys in RL reading group
Если сможете запустить ROS node в колабе дайте знать) Тоже интересно. Но пока я не видел таких примеров
источник

S

Shyngys in RL reading group
А вообще я тоже запускал симуляцию и планирование на своем старом ноуте, тоже с 4 ядрами, было все ок
источник

A

Arezoo🦋🧚🏻‍♀️... in RL reading group
да, мне было интересно, возможно это или нет. Спасибо
источник

A

Arezoo🦋🧚🏻‍♀️... in RL reading group
Тогда я попробую👌
источник
2021 September 30

AY

Alexey Yurasov in RL reading group
Google AI Blog: Improving Generalization in Reinforcement Learning using Policy Similarity Embeddings
https://ai.googleblog.com/2021/09/improving-generalization-in.html?m=1
источник
2021 October 01

AG

Alexander Grishin in RL reading group
Может кто-нибудь в курсе, никак не могу вспомнить название достаточно свежей статьи (может это был talk) на тему того, как правильно сравнивать качество работы rl алгоритмов?
источник

ИР

Иван Рубачёв... in RL reading group
https://twitter.com/agarwl_/status/1432800830621687817 такое недавно видел
источник

AG

Alexander Grishin in RL reading group
Оно! Класс, спасибо
источник
2021 October 03

AG

Alexander Grishin in RL reading group
Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning
https://arxiv.org/abs/2109.11978?context=cs.LG
источник
2021 October 04

ИН

Иван Насонов... in RL reading group
Привет всем!
У меня есть вопрос к шарящим людям. Если поможете советом, то буду очень благодарен, а то идей совсем нет(

Есть задача двух автомобилей (считай догонялки 2 игроков). К каждому агенту написана нейронная сеть, которая должна решать свою задачу: либо, чтобы эффективно догнать соперника, либо эффективно убежать. Задача решается в ближних областях. Метод решения прост (поэтому и прошу совета): каждому агенту передается местоположение себя и соперника и прописаны награды за его поимку. У того, кто догоняет, идет штраф за время (стимул догнать быстрее). Тот, кто убегает, наоборот получает за время бонус (стимул дольше жить).

Сейчас модель работает не очень хорошо. Наблюдаются длительные застои, когда агенты ничего не делают, а просто стоят на месте. Был опыт введения наград (или наказаний) за увеличение (или уменьшение) расстояния между агентами, но это ни к чему не привело. Агенты просто разбегались в углы и там стояли.

Если есть идеи, как можно оптимизировать процесс или найти дополнительные условия для стимулов, помогите пожалуйста)

P. S. Модель разрабатываю в unity, скрипты для агентов пишутся на С#, нейронка обучается с помощью pytorch
источник

A

Alex in RL reading group
А почему во втором случае догоняющая модель убежала в угол?
Может так быть, что ошибка в имплементации?
источник

PK

Petr Kuderov in RL reading group
Зафиксируй позицию убегающего на месте и добейся того, чтобы догоняющий просто учился приезжать в нужную точку.

Это в принципе хороший юнит тест для поверхностной проверки на баги
источник

ИН

Иван Насонов... in RL reading group
Сомневаюсь. Все методы сначала тестирую на неподвижной цели и на ней все работает очень быстро и правильно
источник

ИН

Иван Насонов... in RL reading group
С этого начинал разработку проекта)
источник

ИН

Иван Насонов... in RL reading group
В этом плане все работает
источник

PK

Petr Kuderov in RL reading group
Ок, и учишь для любой случайной позиции, а не для одной, да?
источник