Size: a a a

RL reading group

2021 September 07

PK

Pavel Khakimov in RL reading group
Попробую в терминах DS.
Я для себя выработал следующую интуицию: случайный шум - это некий аналог регуляризации, чтобы избежать оверфита. Есть фичи, по которым модель делает предсказание. Какие-то фичи важные, какие-то просто мусор. Вычищать мусорные фичи хз как да и может просто быть ресурсоемко. Вот и добавляют случайность.
Что-то важное такой шум повредит не сильно, а мусорные фичи забьет, и модель мусорным фичам не будет давать большой вес.
...
Фичи в данном случае embedding картинки 4x4 (если я правильно понял).
Модель - RL агент.
источник

RR

Rena Rena in RL reading group
источник

RR

Rena Rena in RL reading group
Спасибо
источник

RR

Rena Rena in RL reading group
спасибо
источник
2021 September 13

A

Alexandr Notchenko in RL reading group
забавно видеть что в RL ресерче все также плохо как и вдругих областях DL ресерча, если верить автору статьи
https://jacobbuckman.com/2021-05-29-please-commit-more-blatant-academic-fraud/
источник

В

Владимир in RL reading group
источник
2021 September 14

SI

Sviatoslav Iguana in RL reading group
Ну наконец-то.
источник

DK

Denis Kuznedelev in RL reading group
Вот что происходит, когда Value function не гладкая!
источник
2021 September 17

AI

Andrey Isachenko in RL reading group
источник

SS

Sergey Sviridov in RL reading group
Breaking news
источник

AI

Andrey Isachenko in RL reading group
Предполагается ток что-то максимально on the edge тут постить?
источник

MK

Max Kaledin in RL reading group
не обижайся, просто это такая книга, которую почти все видели самой первой после слов Reinforcement Learning)
поэтому иногда появляется естественная реакция "это баян"; буквально, с 1999го
источник

AI

Andrey Isachenko in RL reading group
Да я вкурсе как бы. Но как оказалось не все вкурсе что есть 2nd edition например
источник

MK

Max Kaledin in RL reading group
не буду спорить, но сказал, что думаю)
источник

AI

Andrey Isachenko in RL reading group
Из менее боянистого есть вот эта у меня еще, может интереснее будет
источник
2021 September 20

JH

Just Heuristic in RL reading group
@cydoroga @scitator подскажите пацару дорогу
источник

MB

Mikhail Burtsev in RL reading group
В ближайшую пятницу 24.09 в 16:00 состоится открытый семинар лаборатории нейронных сетей и глубокого обучения МФТИ. Приглашаю всех, кого интересует тема на стыке rl и нейробиологии присоединяться :)

Ссылка для подключения - https://us02web.zoom.us/j/82065813002?pwd=U0R6S1AvVXNJSGY1UFVHRXFYWGh3dz09

Докладчик: Сергей Шуваев, МФТИ, Cold Spring Harbor Laboratory

ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ В МОДЕЛЯХ МОТИВИРОВАННОГО ПОВЕДЕНИЯ
Решения, принимаемые животными и человеком, зависят не только от стимулов окружающей среды, но также от внутренних физиологических и психологических состояний организма, совокупно известных как мотивация. Многие аспекты мотивации получили детальное описание, но моделирование влияния мотивационных состояний на стратегии животных, необходимое для корректной интерпретации поведенческих данных, пока существует только в виде концепций. Для построения численной модели мотивации, мы отталкиваемся от теоретических и экспериментальных данных в задачах питания из истощаемых источников – детально изученном случае влияния внутреннего состояния субъектов на поведенческие стратегии. Мы показываем, что решения животных в этих задачах могут быть объяснены модуляцией функции вознаграждения, при которой будущие вознаграждения рассматриваются относительно краткосрочного среднего уровня прошлых вознаграждений. Такая модуляция вознаграждения позволяет эффективно учитывать динамику параметров окружающей среды; она порождается обучением с подкреплением и согласуется с активностью дофаминергических нейронов в вентральной тегментальной области мозга. Распространение модели на более общий случай множественных мотиваций показало, что мотивация в моделях глубокого обучения с подкреплением может порождать многоцелевые непрерывные поведения, которые подстраиваются под потребности организма без переучивания. Поскольку выбор действий у человека и животных зависит от состояний сытости, бодрствования и т.д., включение мотивации в расчёт действия позволит точнее интерпретировать естественные поведения.

https://proceedings.neurips.cc/paper/2020/hash/da97f65bd113e490a5fab20c4a69f586-Abstract.html
https://www.frontiersin.org/articles/10.3389/fnsys.2020.609316/full
источник
2021 September 22

IK

Ivan Konyushenko in RL reading group
Может кто знает, что почитать (или посмотреть репо) по поводу распознавания точки захвата у предмета при manipulator object grasping с помощью RL? Например, как намекнуть модели, что класс предметов с ручками бессмысленно брать не за ручку (например, кастрюлю, ложку). Не обучать же отдельно на каждый вид.
источник

SG

Sergey Golovanov in RL reading group
источник
2021 September 23

P

Perry in RL reading group
Привет всем) а можете, пожалуйста, посоветовать что-нибудь для питона для того, чтобы разработать собственный gym-env по типу 3d-человека на скейте/сегвее/мопеде? Спасибо
источник