Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2021 March 30

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
вдруг заработало. Добро пожаловать в мир магии )
источник

PY

Popov Yuri in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Класс? Скоко человек команда делала работу????
источник

AY

Alexey Yurasov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Popov Yuri
Класс? Скоко человек команда делала работу????
Несколько человек вроде. Не знаю, не участвовал
источник
2021 March 31

I

Ingvar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Господа, подскажите дураку
источник

I

Ingvar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Есть задача создать агента, который бегает по гриду 12х12 с врагами, стенками и одним выходом.

Соответственно, генерируется среда, где случайным образом расставляются, скажем, два врага, один выход и кучка стен.

При этом стартовое положение агента, "врагов", выхода и стен в гриде - абсолютно случайное.

Агент наказывается за каждую итерацию, за то, что пытается войти в стену, сталкивается с врагом, или встает в ранее посещенную клетку.

Пытаюсь это дело обучить DQN, однако оно ни в какую не желает этого делать. Прямо сейчас, к примеру, у меня падает лосс стабильно, но при этом также падает и награда. Я так понимаю, это означает, что система оверфиттится на конкретные (последние) примеры и не может совладать с гридами, которые раньше не видела
источник

I

Ingvar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Куда можно копать и что делать?
источник

I

Ingvar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
И еще один момент - изначально грид закрыт для агента, он видит 3х3 клетки вокруг себя, а также то, что видел ранее
источник

AY

Alexey Yurasov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ingvar
Есть задача создать агента, который бегает по гриду 12х12 с врагами, стенками и одним выходом.

Соответственно, генерируется среда, где случайным образом расставляются, скажем, два врага, один выход и кучка стен.

При этом стартовое положение агента, "врагов", выхода и стен в гриде - абсолютно случайное.

Агент наказывается за каждую итерацию, за то, что пытается войти в стену, сталкивается с врагом, или встает в ранее посещенную клетку.

Пытаюсь это дело обучить DQN, однако оно ни в какую не желает этого делать. Прямо сейчас, к примеру, у меня падает лосс стабильно, но при этом также падает и награда. Я так понимаю, это означает, что система оверфиттится на конкретные (последние) примеры и не может совладать с гридами, которые раньше не видела
Как формируете входы в нс?
Например в hungry geese на kaggle у команды из handyrl у каждого агента (своего, вражеского) свой слой матрицы. И они как слоеный пирог отправляются на вход в нс
И что за задача, соревнование? :)
источник

AY

Alexey Yurasov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Alexey Yurasov
Как формируете входы в нс?
Например в hungry geese на kaggle у команды из handyrl у каждого агента (своего, вражеского) свой слой матрицы. И они как слоеный пирог отправляются на вход в нс
И что за задача, соревнование? :)
источник

I

Ingvar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Alexey Yurasov
Как формируете входы в нс?
Например в hungry geese на kaggle у команды из handyrl у каждого агента (своего, вражеского) свой слой матрицы. И они как слоеный пирог отправляются на вход в нс
И что за задача, соревнование? :)
Одна матрица, 14х14
источник

I

Ingvar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
1х14х14, если быть точным, на ней по краям находятся также стены, которые есть всегда, этими стенами ограничен, собственно, сам 12х12 грид. Значение в клетке отображает ее содержимое (клетка проходима, в клетке стена, в клетке враг, в клетке выход)
источник

I

Ingvar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Задача для обучения
источник

AY

Alexey Yurasov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ingvar
1х14х14, если быть точным, на ней по краям находятся также стены, которые есть всегда, этими стенами ограничен, собственно, сам 12х12 грид. Значение в клетке отображает ее содержимое (клетка проходима, в клетке стена, в клетке враг, в клетке выход)
По аналогии с решением handyrl я бы выделил отдельно матрицу 14х14 с нулями и единицами
1. для стен (то есть там будут только стены в 1. И 0 все остальное)
2. для агента
3-n для остальных агентов
Ну и перед отправкой это все решейпнуть в одну матрицу
так у нс будет вся необходимая информация - где какой агент и где стены
источник

AY

Alexey Yurasov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ingvar
Задача для обучения
если она есть в открытом доступе мне было бы тоже интересно её решить
источник

I

Ingvar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Alexey Yurasov
По аналогии с решением handyrl я бы выделил отдельно матрицу 14х14 с нулями и единицами
1. для стен (то есть там будут только стены в 1. И 0 все остальное)
2. для агента
3-n для остальных агентов
Ну и перед отправкой это все решейпнуть в одну матрицу
так у нс будет вся необходимая информация - где какой агент и где стены
Кстати думал так сделать, попробую вечером, спасибо
источник

I

Ingvar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Alexey Yurasov
если она есть в открытом доступе мне было бы тоже интересно её решить
Нету, мне ее дал товарищ, который подтягивает мои скиллы. Но она и сформулирована была текстом и очень просто.

Генерируется грид 12х12, в котором должны быть расставлены стены случайным образом, случайным образом расставлена пара врагов, начальная точка для агента и "выход". Агент должен научиться  разведывать грид, не биться в стены и стабильно находить выход.
источник

I

Ingvar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Сделать нужно посредством DQN, т.е. не DL-методы не подойдут
источник

TN

Timofey Naumenko in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ingvar
Нету, мне ее дал товарищ, который подтягивает мои скиллы. Но она и сформулирована была текстом и очень просто.

Генерируется грид 12х12, в котором должны быть расставлены стены случайным образом, случайным образом расставлена пара врагов, начальная точка для агента и "выход". Агент должен научиться  разведывать грид, не биться в стены и стабильно находить выход.
Уже уважаю вашего товарища)
источник

I

Ingvar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ingvar
Нету, мне ее дал товарищ, который подтягивает мои скиллы. Но она и сформулирована была текстом и очень просто.

Генерируется грид 12х12, в котором должны быть расставлены стены случайным образом, случайным образом расставлена пара врагов, начальная точка для агента и "выход". Агент должен научиться  разведывать грид, не биться в стены и стабильно находить выход.
Также важный момент, что изначально грид закрыт "туманом войны", говоря в игровых терминах, и грид генерируется рандомно. Т.е. решение, которое будет уверенно себя чувствовать в одной и той же среде не подходит
источник

AY

Alexey Yurasov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Можно сделать решение на ифах для оценки dqn, смотреть, когда dqn научится побеждать иф политику
источник