Телеграмм чат группы natural_language_processing страница 1558

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3244 membersпожаловаться на группу

2021 December 07

A

Andrey in Natural Language Processing

нет, не единственный. скормить уже полученные после берта векторы - базовый способ.

если у вас тексты, а не слова - векторизуйте лучше через sentence-transformers. с бертом можно брать или средние вектора на текст, или только токен cls, первый. +/- от задачи.

и вот когда у вас есть np_array.shape == (-1, 768) - им и обучайте новую сетку с Dense(768, ...)

источник

16:23пожаловаться #1

В

Валентин👾 in Natural Language Processing

да, я, брал уже cls, но хочу попробовать скормить cnn слою эмбидинги отдельных токенов текста, так как обучение на cls эмбединги показало не очень хороший результат.

источник

16:25пожаловаться #2

A

Andrey in Natural Language Processing

cls да. не фонтан, по моим задачам хуже среднего.

в свертки кормить не надо вектора. книжку щяс закину... не очень работает.

а вообще сама задача машинного обучения какая? классификация или что-то другое?

источник

16:28пожаловаться #3

A

Andrey in Natural Language Processing

doc200813312_602797247(1)(1)

источник

16:31пожаловаться #4

A

Andrey in Natural Language Processing

pdf

источник

16:31пожаловаться #5

В

Валентин👾 in Natural Language Processing

классификация. Сейчас решаем её через tf-idf+лог регрессия, но решили попробовать лингвистические модели, в частности бёрт, который вроде как сейчас state-of-the-art, вот только cls эмбединг показывает результаты гораздо хуже, чем tf-idf+лог регрессия, даже если берт дополнительно подобучить на наших текстах.

"в свертки кормить не надо вектора. книжку щяс закину..."
Почему не надо? Я тож в книги прочитал такой подход, правда в другой) И попробовал это на эмбедингах из наташи(навек). Результат был конечно похуже, чем tf-idf+лог регрессия, но всё равно лучше, чем cls эмбединг. Поэтому и хочу попробовать так же запихнуть эмбединги берта отдельных токенов в свёртку

источник

16:35пожаловаться #6

В

Валентин👾 in Natural Language Processing

а нет, именно эту книгу я и читаю! И именно в ней я прочитал про использовании cnn при классификации текста)

источник

16:37пожаловаться #7

A

Andrey in Natural Language Processing

это только половина книги. читайте дальше =)

источник

16:38пожаловаться #8

A

Andrey in Natural Language Processing

я уже давно не парюсь. беру или толстую какую модель, а для начала пробую rubert-tiny с huggingface. вот сейчас ее и вторая версия подъехала.

а потом вектора уже _текстов_ заряжаю в кластеризаторы, классификаторы, да хоть регрессоры.

источник

16:40пожаловаться #9

A

Andrey in Natural Language Processing

tf idf над word2vec-векторами со свертками работают хуже скорее всего по следующим причинам:
1. navec - это худлит, а у вас свой домен, специфичный,
2. размерность tfidf выше

источник

16:42пожаловаться #10

A

Andrey in Natural Language Processing

сейчас трансформер под почти любой домен найти можно, ну по-крайней мере есть медицинский, научный... а так он и так на Википедии учёный, все знает

источник

16:44пожаловаться #11

В

Валентин👾 in Natural Language Processing

не, я не делаю tf-idf над w2v векторами, я их сразу передаю в свёртку. Понятно, что navec учился на текстах, далёких от наших, но речь о том, что cls эмбидинг берта, доученного на наших текстах, показала результат значительно хуже, чем w2v навека, обученного на худ лите и прогнаного через cnn

источник

16:45пожаловаться #12

A

Andrey in Natural Language Processing

там опечатка, не "над", а "с" :) зарапортовался. не суть.

cls токен не для этой задачи был введён. насколько помню, для задачи "является ли продолжение начала подходящим".

источник

16:47пожаловаться #13

IG

Ilya Gusev in Natural Language Processing

Зачем вообще подставлять эмбеды в какую-то другую модель, почему бы просто не файнтюнить берт?Эмбеды нужны, если есть несколько задач и несколько "голов", а тушку много раз гонять не хочется. Если задача одна - какой в этом смысл?

источник

16:49пожаловаться #14

В

Валентин👾 in Natural Language Processing

sentence-transformers генерят эмбединги для текста целиком? И они лучше cls для классификации?

источник

16:50пожаловаться #15

IG

Ilya Gusev in Natural Language Processing

CLS эмбед оригинального берта обучался предсказывать следующее предложение, ожидать от него хорошее качество без дообучения - странно

источник

16:50пожаловаться #16

A

Andrey in Natural Language Processing

да. значительно лучше

источник

16:50пожаловаться #17

В

Валентин👾 in Natural Language Processing

Выше писал. Если я правильно понимаю, при фаин тюненге берта в каждой эпохи эмбединги текста генеряться заново и это занимает много времени

источник

16:53пожаловаться #18

В

Валентин👾 in Natural Language Processing

окей, попробую её, спасибо

источник

16:53пожаловаться #19

A

Andrey in Natural Language Processing

ну при файнтюнинге морозят слои... но это все сложнее использования претренированных моделей

источник

16:53пожаловаться #20