ну вот это было первое, что попробовали. Ну разве что вместо одного Dense слоя над cls был сначала глобал эвредж пулинг над эмбедингами всех токенов и дальше один Dense слой с relu. Результат на выходе был прям ужасен
хм, вот вы о чём тогда... просто не в интернете попадались только примеры, где замораживались веса. Наверное это будет глупый вопрос с моей стороны, но зачем нам тогда какие то предобученные модели? Почему бы сразу не учить с нуля, на своих текстах?
потому что информация в весах модели при дообучении не особо-то затухает и достоверно известно, что инициализация предобученнной моделью гораздо лучше случайной