Size: a a a

Natural Language Processing

2021 December 07

IG

Ilya Gusev in Natural Language Processing
источник

В

Валентин👾 in Natural Language Processing
ну вот это было первое, что попробовали. Ну разве что вместо одного Dense слоя над cls был сначала глобал эвредж пулинг над эмбедингами всех токенов и дальше один Dense слой с relu. Результат на выходе был прям ужасен
источник

IG

Ilya Gusev in Natural Language Processing
так идея не в том, чтобы это взять как есть
источник

IG

Ilya Gusev in Natural Language Processing
а в том, чтобы всю модель доучить
источник

d

dePuff in Natural Language Processing
Тут +100
источник

В

Валентин👾 in Natural Language Processing
не замораживать веса берта?
источник

IG

Ilya Gusev in Natural Language Processing
более того, BertForSequenceClassification ругнётся warning'ом при попытке использовать его без дооубчения
источник

IG

Ilya Gusev in Natural Language Processing
да
источник

IG

Ilya Gusev in Natural Language Processing
и отмазка "у нас нет gpu" не катит, colab есть у всех, и его для таких задач достаточно
источник

d

dePuff in Natural Language Processing
Без дообучения он где-то на уровне шума был

С дообучением, я бы на готовые блокноты на каггле глянул, чтобы, например, космический lr не пробовать
источник

В

Валентин👾 in Natural Language Processing
хм, вот вы о чём тогда... просто не в интернете попадались только примеры, где замораживались веса.
Наверное это будет глупый вопрос с моей стороны, но зачем нам тогда какие то предобученные модели? Почему бы сразу не учить с нуля, на своих текстах?
источник

IG

Ilya Gusev in Natural Language Processing
потому что информация в весах модели при дообучении не особо-то затухает
и достоверно известно, что инициализация предобученнной моделью гораздо лучше случайной
источник

IG

Ilya Gusev in Natural Language Processing
ну это типа самый важный краеугольный камень CV и NLP за последние 10 лет
источник

d

dePuff in Natural Language Processing
Понадобится очень много текстов и с месяц десятком видюх пожужжать
источник

В

Валентин👾 in Natural Language Processing
понятно, спасибо большое.
источник

IG

Ilya Gusev in Natural Language Processing
Я кстати надеюсь, что в примерах из интернета используется hf transformers и их же Trainer?
источник

В

Валентин👾 in Natural Language Processing
transformers
источник

IG

Ilya Gusev in Natural Language Processing
тут скорее важна вторая часть вопроса
источник

В

Валентин👾 in Natural Language Processing
нет, трейнера не видел что то в примерах
источник

IG

Ilya Gusev in Natural Language Processing
лучше его использовать, никаких лишних зависимостей
вот пример: https://gist.github.com/IlyaGusev/b83faab859d9edb13dd048572b2fcf11
источник