Если не дообучать, то да. Если дообучить, то он зависит от всех других представлений на предыдущих слоях и "ддобучая" совместную модель "bert" + "klass_me" - то, что он "гавно" теряет смысл
Если не дообучать, то да. Если дообучить, то он зависит от всех других представлений на предыдущих слоях и "ддобучая" совместную модель "bert" + "klass_me" - то, что он "гавно" теряет смысл
Выжать из hidden всегда можно больше аналогичным файнтюнингом Ни на одной соревке [CLS] не используют и я слышал аналогичное про прод
Как это понять, достаточно посмотреть как туда складываются эмбеддинги из токенов фразы. Получается зачастую пуллинг стейтов лучше тк более сильный контекст
коллеги, встречались ли вам проекты, в которых нейронно генерируют текст математических формул или даже теорем?
Переносят стиль с соответствующей терминологией из одной области математики в другую, и генерят на базе 2-х стилей новые тексты?
http://www.ramanujanmachine.com/ Машина Рамануджана. Генерирует формулы-гипотезы, проверенные на миллионах случаях, которые потом можно доказывать. Пока вроде генерирует только арифметические формулы со знаменитыми константами.
Не могу понять как применили модель mT5 ( GPT и другие генеративные модели) для решения данной задачи https://russiansuperglue.com/tasks/task_info/RUSSE Может быть у кого есть опыт? Как необходимо сконвертировать инпут в такие типа модели для классификации?
Не могу понять как применили модель mT5 ( GPT и другие генеративные модели) для решения данной задачи https://russiansuperglue.com/tasks/task_info/RUSSE Может быть у кого есть опыт? Как необходимо сконвертировать инпут в такие типа модели для классификации?
Ну, теоретически как-то так должно быть в Т5:
input:
WiC sentence1: Бурые ковровые дорожки заглушали шаги. sentence2: Приятели решили выпить на дорожку в местном баре. word: дорожка