P
Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic
из нашего списка для разбора только что вышла работа Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning
https://arxiv.org/abs/1706.00387, в которой сравнивают несколько способов комбинирования лучшего от off-ppolicy и от on-policy алгоритмов. Кажется, что еще один день нужно будет посвятить этой теме.