вот эти данные потом разбиваются
после этого на какой-то эмпирически сначала подобранной топологии сети мы проводим обучение где на входе даем визуал игры и результат, а на выходе должны получить последовательность активностей игрока, грубо говоря
в общем стимул - реакция упрощенно
прогоняем много, долго, тюня параметры и топологию, пока не поймаем оптимальные параметры для обучения