Телеграмм чат группы natural_language

ну не, это достоверно:
https://github.com/huggingface/transformers/blob/27d4639779d2d316a7c5f18d22f22d2565b84e5e/src/transformers/models/bert/modeling_bert.py#L1008

17:32пожаловаться #1

ну вот это было первое, что попробовали. Ну разве что вместо одного Dense слоя над cls был сначала глобал эвредж пулинг над эмбедингами всех токенов и дальше один Dense слой с relu. Результат на выходе был прям ужасен

17:33пожаловаться #2

так идея не в том, чтобы это взять как есть

17:33пожаловаться #3

а в том, чтобы всю модель доучить

17:33пожаловаться #4

dePuff in Natural Language Processing

Тут +100

17:33пожаловаться #5

не замораживать веса берта?

17:34пожаловаться #6

более того, BertForSequenceClassification ругнётся warning'ом при попытке использовать его без дооубчения

17:34пожаловаться #7

да

17:34пожаловаться #8

и отмазка "у нас нет gpu" не катит, colab есть у всех, и его для таких задач достаточно

17:35пожаловаться #9

dePuff in Natural Language Processing

Без дообучения он где-то на уровне шума был

С дообучением, я бы на готовые блокноты на каггле глянул, чтобы, например, космический lr не пробовать

17:35пожаловаться #10

хм, вот вы о чём тогда... просто не в интернете попадались только примеры, где замораживались веса.
Наверное это будет глупый вопрос с моей стороны, но зачем нам тогда какие то предобученные модели? Почему бы сразу не учить с нуля, на своих текстах?

17:37пожаловаться #11

потому что информация в весах модели при дообучении не особо-то затухает
и достоверно известно, что инициализация предобученнной моделью гораздо лучше случайной

17:38пожаловаться #12

ну это типа самый важный краеугольный камень CV и NLP за последние 10 лет

17:38пожаловаться #13

dePuff in Natural Language Processing

Понадобится очень много текстов и с месяц десятком видюх пожужжать

17:39пожаловаться #14