AA
Только я не очень понял постановку вопроса в названии статьи, мне казалось вполне очевидно когда использовать offline когда cloning.
Offline RL направлен на то, чтоб получить оптимальную стратегию имея данные собранные стратегией которая может быть даже случайной. То есть для offline данные собраны какой-то не эффективной стратегией (или множеством стратегий), или когда мы не знаем насколько хорошая стратегия собрала эти данные. Behavour cloning насколько я знаю подразумевает что стратегия которая у нас сформировала данные является эталонной и нам надо ее выучить.
Говоря короче, offline используется когда данные собраны не оптимальной стратегией, а Behavour cloning когда оптимальной. Пока я не сел читать статью буду благодарен если дашь некоторые комментарии насчет этого, чтоб я лучше понял)