А про результаты исследования в ковид домене, ответ очень простой - датасет оказался очень разнородным, по сути его объединяли только ключевые слова , например death (которых полно в той же библии и которая соответственно тоже попала в ковид-датасет). Неоднородность плюс сильная локализованность переводов - вот обучение и мало что дало. У клиентов, для которых данные реально взяты из одного направления и их достаточно - кастомизация движков показывает стабильный прирост)