Телеграмм чат группы theoreticalrl страница 250

Автор сравнивает ее с DM-Lab, Mujoco, VizDoom, но их конечно нельзя назвать специализированными для model-based. Библиотека по ссылке в общем случае предназначена для object-oriented RL, но я предполагаю, что она разработана отчасти как продолжение исследования Data-Efficient Model-Based RL through Unsupervised Object Discovery and Curiosity-Driven Exploration https://arxiv.org/abs/1905.09275

источник

15:59пожаловаться #6

Boris in RL reading group

Короче, я пробовал запускать демо на win10 и ubuntu 20.04, состояние среды должно рендериться через tkinter, окно появляется, но оно пустое. Под виндой все работает, если зажать левую кнопку мыши на title bar окна с игрой)) Но это явно не то, как оно должно работать

источник

16:01пожаловаться #7

Ivan Mikhnenkov in RL reading group

Не подскажите, какие хорошие подходы для контроля одним агентов варьирующегося числа юнитов разного типа?

И как эта парадигма называется? Это же не мультиагентность, я так понимаю (агент один, варьируется action space)?

Игра напоминает старкрафт, но намного проще - lux ai challenge на кегл, пытаюсь сделать дизайн end to end rl agent, чтобы один контролил всех своих юнитов, тк подход где каждый юнит сам принимает решения кажется неполноценным, хоть и популярный среди rl приложений

источник

22:04пожаловаться #8

Alexander O in RL reading group

Посмотри qmix статью и там во введении или в первых главах есть описание

источник

22:29пожаловаться #9

Ivan Mikhnenkov in RL reading group

спасибо, я прочитаю

источник

22:35пожаловаться #10

2021 October 14

Anna in RL reading group

Всем привет, кто-нибудь сталкивался с проблемой гпу внутри среды рллиба?
Рекомендация на сайте @ray.remote() и use_gpu() работает только вне среды (и иногда срабатывает внутри, ведёт себя нестабильно и при запуске тех же ячеек выдаёт разный результат)

источник

15:06пожаловаться #11

2021 October 18

Evgenii Zheltonozhsk... in RL reading group

https://twitter.com/DeepMind/status/1450118090143014913

Twitter

DeepMind

We’ve acquired the MuJoCo physics simulator (mujoco.org) and are making it free for all, to support research everywhere. MuJoCo is a fast, powerful, easy-to-use, and soon to be open-source simulation tool, designed for robotics research: dpmd.ai/mujoco-blog

источник

18:51пожаловаться #12

Shyngys in RL reading group

Наконец-то!

источник

20:25пожаловаться #13

Perry in RL reading group

раньше лицензия достаточно больших денег стоила

источник

21:12пожаловаться #14

Ivan Drago in RL reading group

при этом с edu мейлом без проблем можно было получить

источник

22:06пожаловаться #15

Ivan Konyushenko in RL reading group

кто-то знает какие-то хорошие курсы по mujoco? желательно, конкретно по коллаборативным манипуляторам

источник

22:19пожаловаться #16

Konstantin Sozykin in RL reading group

нет - там были проблемы)
нельзя было юзать для ресерча например)

источник

22:21пожаловаться #17

Sergey Slotin in RL reading group

Интересно, сколько заплатили

источник

22:42пожаловаться #18

Perry in RL reading group

А вот да?

источник

22:44пожаловаться #19

2021 October 22

Ivan Mikhnenkov in RL reading group

архитектура qmix больше подходит для сеттинга, где количество юнитов постоянно, а не варьируется т.к. 1) mixing network, которая берет на вход q-values юнитов это mlp, и 2) предполагается выучивание q-value для каждого юнита
Мб если модифицировать qmix mixing network в какую то рекурентность, то можно переделать метод для варьирующегося числа юнитов

еще меня чуть смущает, что такой сильный акцент на partial observability между самими юнитами, per unit q-values, которые они как бы фиксят через hypernetwork от state для весов mixing net, чтобы интегрировать оценку q-value на основе всей доступной инфы, как будто есть недостаток в изначальной архитектуре с q-values per unit, а это костыль поверх этого недостатка (относительно их же примеров с игрой в табличку и маленькие файты в старкрафт, где нет этой partial obervability per unit), имхо, мб моя критика от непонимания чего-то
возможно в старкрафт и тд сеттингах (fully cooperative, shared team reward) centralized policy мне кажется лучше, чем decentralized

источник

10:37пожаловаться #20