Emergent Communication through Negotiation
https://openreview.net/pdf?id=Hk6WhagRW👓
В чем понт?
Как нужно организовывать переговоры, чтобы достичь цели? Чем переговоры с несколькими людьми отличаются от переговоров с конкретным человеком? Кто предоставляет больше информации - тот, кто начинает говорить первым или последним? Когда переговаривающиеся могут пойти на компромисс? На эти и многие другие вопросы можно ответить используя RL-среду с агентами как пробирку.
🔎 Подробности
👯♂️
Агенты и задача
Зададим 2 агентов и 3 продукта - перец, клубнику и вишню. Зададим каждому агенту фиксированный коэффициент "любви" к каждому продукту - от 0 до 5. В результате игры агентам нужно договориться, какое количество (от 0 до 10) каждого продукта они выбирают. Сделаем 2 вида агентов. Для эгоистичных агентов наградой будет "любовь" умноженная на количество каждого продукта только для себя, а у каждого из коллективных агентов - сумма таких наград для обоих агентов. Будем также штрафовать агентов за длину переговоров. Дадим агентам 2 канала коммуникации - предложение, где они спрашивают другого агента, устраивает ли их выбранное количество продуктов, и лингвистический - набор символов в свободной форме, который агенты учат сами ( они могутдаже врать друг другу). Будим учить 3 политики - для получения предложения, лингвистического сообщения и для того, чтобы закончить коммуникацию.
🗒
Анализ
Авторы анализируют поведение агентов и отвечают на будоражащие вопросы. Например...
🍽
Могут ли эгоистичные агенты честно делить награду?
Да, могут. После того, как агенты выучиваются обнаруживается, что их награды примерно одинаковые. Причем учатся они лучше по каналу предложения, лингвистический канал слишком шумный.
🔗
Могут ли агенты пойти на компромисс?
Зададим агентам немного другую награду - суммарную награду агентов, нормированную на максимальную награду, которую можно получить с исходными коэффициентами "любви" агентов к конкретным продуктам. В таком сетапе выясняется, что роль лингвистического сообщения в свободной форме возрастает и агенты начинают кооперироваться, сдвигать свой реворд в сторону агента с большими коэффициентами "любви".
🖋
О чем пишут агенты, и кто именно пишет?
Посмотрим на набор лингвистических сообщений и обнаружим, что их большое разнообразие и информативность присутствует только у агента, который начал говорить вторым - агенты автоматически разделяются на слушающего и говорящего. По сообщениям, которые передают агенты будем предсказывать, к какому решению они пришли в итоге - это получается хорошо, значит в сообщениях есть семантический контекст.
👨👩👧👦
Имитация социума.
Теперь зафиксируем слушающего и говорящего агента, и на каждую итерацию тренировки будем давать ему не одного уникального агента, а нового агента из набора из 10 агентов. Попробуем передавать информацию об ID агента. Занимательно, что ID больше поможет эгоистичному агенту, чем кооперативному. Интересно также, что в процессе тренировки агенты формируют единый язык, который позволяет поднять качество.
🍢Что в итоге
Выводы полученные в статье, коррелируют с наработками из теории игр. Кажется, что подобные среды могут стать способом изучать психологию "in silico" (в вычислительной симуляции).