Привет! На всякий случай тоже закину идею про одну интересную, более теоретическую статью: A Connection between Generative Adversarial Networks, Inverse Reinforcement Learning, and Energy-Based Models, она про связь Inverse RL (когда по имеющимся сессиям нужно восстановить reward function) и GANы. Под капотом она больше про эквивалентность GAN и Energy-Based Models (EBM), но так как один из подходов к IRL - это MaxEnt IRL, частный случай EBM, то получаем связь. Из практических плюсов - сведение обучения IRL-модели к обучению GAN-ов, из теоретических - много интересных идей. Так как в ней много модных слов и вообще она про Inverse RL, про который как минимум на ШАДовском курсе не было, то, наверное, она не для первого раза, но мало ли, вдруг когда-нибудьпокажется интересной.