Size: a a a

2020 September 10

ND

Nick Doudchenko in pro.algorithms
Constantine Drozdov
А есть шарящие в оптимизациях? Для игры на графе "прийди от старта к финишу" хочу назначить 0 начальной позиции, 1 конечной и после этого оптимизировать согласованность оценки, то есть минимизировать невязку между оценкой позиции и средним оценки по рандому возможных переходов. Плюсы, минусы, подводные камни?
к слову об оптимизации, с понедельника начинается весьма офигенный воркшоп CO@Work, но не знаю не поздно ли туда регистрироваться
источник

CD

Constantine Drozdov in pro.algorithms
Nick Doudchenko
к слову об оптимизации, с понедельника начинается весьма офигенный воркшоп CO@Work, но не знаю не поздно ли туда регистрироваться
я пока этим только на развлекуху занимаюсь, изучаю рандомные идеи применительно к рандомным задачам
источник

CD

Constantine Drozdov in pro.algorithms
Evgenii Zheltonozhskii🇮🇱
нетабличный рл это боль
смотри, в простейшей модели я могу просто сам быстренько накидать штук 20 эвристик на тему "насколько хорошая рука у меня" и подгонять весовые коэфы
источник

CD

Constantine Drozdov in pro.algorithms
тем более что такие параметры известны - скажем, расстояние до выигрышной руки
источник

CD

Constantine Drozdov in pro.algorithms
это еще до момента, что я могу декомпозировать задачу и спрашивать отдельно, потому что взаимодействия групп 9 9 9 и 8 отрванных состоит только в паре
источник

V🇺

Vladislav 🇺🇸🚜🇷🇺... in pro.algorithms
Constantine Drozdov
смотри, в простейшей модели я могу просто сам быстренько накидать штук 20 эвристик на тему "насколько хорошая рука у меня" и подгонять весовые коэфы
и ты хочешь использовать оценку чтобы выбирать лучшее действие?
источник

CD

Constantine Drozdov in pro.algorithms
Vladislav 🇺🇸🚜🇷🇺
и ты хочешь использовать оценку чтобы выбирать лучшее действие?
ну я хочу согласовать оценку руки из 13 тайлов
источник

V🇺

Vladislav 🇺🇸🚜🇷🇺... in pro.algorithms
а цель конечная какая?
источник

CD

Constantine Drozdov in pro.algorithms
по принципу пришел рандомный 14 => выкинул на лучшую => получилось в среднем столько же
источник

EZ

Evgenii Zheltonozhsk... in pro.algorithms
Vladislav 🇺🇸🚜🇷🇺
а цель конечная какая?
ну собрать какую то руку видимо
источник

CD

Constantine Drozdov in pro.algorithms
Vladislav 🇺🇸🚜🇷🇺
а цель конечная какая?
оптимально руки собирать
источник

CD

Constantine Drozdov in pro.algorithms
унижать японских школьников
источник

V🇺

Vladislav 🇺🇸🚜🇷🇺... in pro.algorithms
Constantine Drozdov
оптимально руки собирать
ну ты реально reinforcement learning сейчас изобретаешь
источник

EZ

Evgenii Zheltonozhsk... in pro.algorithms
Constantine Drozdov
унижать японских школьников
для этого rl не нужен
источник

CD

Constantine Drozdov in pro.algorithms
Vladislav 🇺🇸🚜🇷🇺
ну ты реально reinforcement learning сейчас изобретаешь
мне кажется, что главный вопрос RL что мы оптимизируем
источник

CD

Constantine Drozdov in pro.algorithms
а не как мы оптимзируем
источник

EZ

Evgenii Zheltonozhsk... in pro.algorithms
ну не
источник

CD

Constantine Drozdov in pro.algorithms
Constantine Drozdov
по принципу пришел рандомный 14 => выкинул на лучшую => получилось в среднем столько же
собственно мой вопрос - будет ли работать вот такая схема над невязкой оценки
источник

EZ

Evgenii Zheltonozhsk... in pro.algorithms
по хорошему как раз рл должен работать с тривиальным ревордом
источник

CD

Constantine Drozdov in pro.algorithms
вроде не её использовали
источник