Size: a a a

2020 September 10

V🇺

Vladislav 🇺🇸🚜🇷🇺... in pro.algorithms
Constantine Drozdov
мне кажется, что главный вопрос RL что мы оптимизируем
есть формулировка Actor-Critic, в ней у нас есть две части: Actor - по стейту дает распределение над действиями и Critic - по стейту дает матожидание результата в предположении что мы действуем соответственно Actor'у
источник

CD

Constantine Drozdov in pro.algorithms
Vladislav 🇺🇸🚜🇷🇺
есть формулировка Actor-Critic, в ней у нас есть две части: Actor - по стейту дает распределение над действиями и Critic - по стейту дает матожидание результата в предположении что мы действуем соответственно Actor'у
похоже, что это баззворды про эту же схему
источник

CD

Constantine Drozdov in pro.algorithms
вопрос - она работает, когда ожидаемое расстояние в графе от старта до финиша так эдак 20?
источник

CD

Constantine Drozdov in pro.algorithms
и при этом граф очень широкий сам по себе
источник

V🇺

Vladislav 🇺🇸🚜🇷🇺... in pro.algorithms
зависит
источник

V🇺

Vladislav 🇺🇸🚜🇷🇺... in pro.algorithms
в нардах работает, например
источник

CD

Constantine Drozdov in pro.algorithms
условно граф подмножеств, старт в маске 0, финиш в маске -1, быстро придумает биткаунт?
источник

V🇺

Vladislav 🇺🇸🚜🇷🇺... in pro.algorithms
Vladislav 🇺🇸🚜🇷🇺
в нардах работает, например
классическая работа по теме https://en.wikipedia.org/wiki/TD-Gammon
источник

CD

Constantine Drozdov in pro.algorithms
это буквально то, что я описываю, для нард?
источник

V🇺

Vladislav 🇺🇸🚜🇷🇺... in pro.algorithms
Constantine Drozdov
это буквально то, что я описываю, для нард?
да
источник

CD

Constantine Drozdov in pro.algorithms
легчайший велосипед в моей жизни, хех
источник

V🇺

Vladislav 🇺🇸🚜🇷🇺... in pro.algorithms
ну может не совсем буквально, но близко
источник

CD

Constantine Drozdov in pro.algorithms
это будет работать, если я сам нахерачу рандомной фигни вместо нейронки?
источник

CD

Constantine Drozdov in pro.algorithms
как примерно контролировать что все идет по плану?
источник

CD

Constantine Drozdov in pro.algorithms
по a * log t + b модели для невязки?
источник

V🇺

Vladislav 🇺🇸🚜🇷🇺... in pro.algorithms
Constantine Drozdov
это будет работать, если я сам нахерачу рандомной фигни вместо нейронки?
смотря насколько твоя рандомная фигня способна приблизить истинную функцию
источник

CD

Constantine Drozdov in pro.algorithms
Vladislav 🇺🇸🚜🇷🇺
смотря насколько твоя рандомная фигня способна приблизить истинную функцию
наверное, качество приближения я увижу в ожидании невязки
кроме того, в моей рандомной фигне должно быть достаточно много параметров, чтобы не свалиться в локальный оптимум, очевидно
источник

CD

Constantine Drozdov in pro.algorithms
Vladislav 🇺🇸🚜🇷🇺
смотря насколько твоя рандомная фигня способна приблизить истинную функцию
и да, по-моему Alpha* использует другую схему, почему?
источник

V🇺

Vladislav 🇺🇸🚜🇷🇺... in pro.algorithms
Constantine Drozdov
и да, по-моему Alpha* использует другую схему, почему?
alpha* вообще не про это же?
источник

CD

Constantine Drozdov in pro.algorithms
Vladislav 🇺🇸🚜🇷🇺
alpha* вообще не про это же?
ну я про AlphaGo etc
источник