Size: a a a

Natural Language Processing

2021 December 07

A

Andrey in Natural Language Processing
нет, не единственный. скормить уже полученные после берта векторы - базовый способ.

если у вас тексты, а не слова - векторизуйте лучше через sentence-transformers. с бертом можно брать или средние вектора на текст, или только токен cls, первый. +/- от задачи.

и вот когда у вас есть np_array.shape == (-1, 768) - им и обучайте новую сетку с Dense(768, ...)
источник

В

Валентин👾 in Natural Language Processing
да, я, брал уже cls, но хочу попробовать скормить cnn слою эмбидинги отдельных токенов текста, так как обучение на cls эмбединги показало не очень хороший результат.
источник

A

Andrey in Natural Language Processing
cls да. не фонтан, по моим задачам хуже среднего.

в свертки кормить не надо вектора. книжку щяс закину... не очень работает.

а вообще сама задача машинного обучения какая? классификация или что-то другое?
источник

A

Andrey in Natural Language Processing
источник

A

Andrey in Natural Language Processing
pdf
источник

В

Валентин👾 in Natural Language Processing
классификация. Сейчас решаем её через tf-idf+лог регрессия, но решили попробовать лингвистические модели, в частности бёрт, который вроде как сейчас state-of-the-art, вот только cls эмбединг показывает результаты гораздо хуже, чем tf-idf+лог регрессия, даже если берт дополнительно подобучить на наших текстах.

"в свертки кормить не надо вектора. книжку щяс закину..."
Почему не надо? Я тож в книги прочитал такой подход, правда в другой) И попробовал это на эмбедингах из наташи(навек). Результат был конечно похуже, чем tf-idf+лог регрессия, но всё равно лучше, чем cls эмбединг.  Поэтому и хочу попробовать так же запихнуть эмбединги берта отдельных токенов в свёртку
источник

В

Валентин👾 in Natural Language Processing
а нет, именно эту книгу я и читаю! И именно в ней я прочитал про использовании cnn при классификации текста)
источник

A

Andrey in Natural Language Processing
это только половина книги. читайте дальше =)
источник

A

Andrey in Natural Language Processing
я уже давно не парюсь. беру или толстую какую модель, а для начала пробую rubert-tiny с huggingface. вот сейчас ее и вторая версия подъехала.

а потом вектора уже _текстов_ заряжаю в кластеризаторы, классификаторы, да хоть регрессоры.
источник

A

Andrey in Natural Language Processing
tf idf над word2vec-векторами со свертками работают хуже скорее всего по следующим причинам:
1. navec - это худлит, а у вас свой домен, специфичный,
2. размерность tfidf выше
источник

A

Andrey in Natural Language Processing
сейчас трансформер под почти любой домен найти можно, ну по-крайней мере есть медицинский, научный... а так он и так на Википедии учёный, все знает
источник

В

Валентин👾 in Natural Language Processing
не, я не делаю tf-idf над w2v векторами, я их сразу передаю в свёртку. Понятно, что navec учился на текстах, далёких от наших, но речь о том, что cls эмбидинг берта, доученного на наших текстах, показала результат значительно хуже, чем w2v навека, обученного на худ лите и прогнаного через cnn
источник

A

Andrey in Natural Language Processing
там опечатка, не "над", а "с" :) зарапортовался. не суть.

cls токен не для этой задачи был введён. насколько помню, для задачи "является ли продолжение начала подходящим".
источник

IG

Ilya Gusev in Natural Language Processing
Зачем вообще подставлять эмбеды в какую-то другую модель, почему бы просто не файнтюнить берт?Эмбеды нужны, если есть несколько задач и несколько "голов", а тушку много раз гонять не хочется. Если задача одна - какой в этом смысл?
источник

В

Валентин👾 in Natural Language Processing
sentence-transformers генерят эмбединги для текста целиком? И они лучше cls для классификации?
источник

IG

Ilya Gusev in Natural Language Processing
CLS эмбед оригинального берта обучался предсказывать следующее предложение, ожидать от него хорошее качество без дообучения - странно
источник

A

Andrey in Natural Language Processing
да. значительно лучше
источник

В

Валентин👾 in Natural Language Processing
Выше писал. Если я правильно понимаю, при фаин тюненге берта в каждой эпохи эмбединги текста генеряться заново и это занимает много времени
источник

В

Валентин👾 in Natural Language Processing
окей, попробую её, спасибо
источник

A

Andrey in Natural Language Processing
ну при файнтюнинге морозят слои... но это все сложнее использования претренированных моделей
источник