Size: a a a

Natural Language Processing

2021 February 27

d

dePuff in Natural Language Processing
Я предположил, что человек не очень хочет разбираться и нереальность разобраться по предложенному коду )
источник

E

Elena in Natural Language Processing
да, Simpletransformers классные
источник

ИТ

Игорь Тарлинский... in Natural Language Processing
dePuff
По [CLS] классифицировать не надо, он говно
Если не дообучать, то да. Если дообучить, то он зависит от всех других представлений на предыдущих слоях и "ддобучая" совместную модель "bert" + "klass_me" - то, что он "гавно" теряет смысл
источник

d

dePuff in Natural Language Processing
Игорь Тарлинский
Если не дообучать, то да. Если дообучить, то он зависит от всех других представлений на предыдущих слоях и "ддобучая" совместную модель "bert" + "klass_me" - то, что он "гавно" теряет смысл
Выжать из hidden всегда можно больше аналогичным файнтюнингом
Ни на одной соревке [CLS] не используют и я слышал аналогичное про прод
источник

d

dePuff in Natural Language Processing
[CLS] всегда будет хуже при нуле бонусов
источник

SancheZz Мов in Natural Language Processing
dePuff
Выжать из hidden всегда можно больше аналогичным файнтюнингом
Ни на одной соревке [CLS] не используют и я слышал аналогичное про прод
Cls токен слабоконтекстный
источник

SancheZz Мов in Natural Language Processing
Как это понять, достаточно посмотреть как туда складываются эмбеддинги из токенов фразы. Получается зачастую пуллинг стейтов лучше тк более сильный контекст
источник

STM32F04 и анамнезис... in Natural Language Processing
коллеги, встречались ли вам проекты, в которых нейронно генерируют текст математических формул или даже теорем?

Переносят стиль с соответствующей терминологией из одной области математики в другую, и генерят на базе 2-х стилей новые тексты?
источник

AO

Alex Orgish in Natural Language Processing
STM32F04 и анамнезис
коллеги, встречались ли вам проекты, в которых нейронно генерируют текст математических формул или даже теорем?

Переносят стиль с соответствующей терминологией из одной области математики в другую, и генерят на базе 2-х стилей новые тексты?
http://www.ramanujanmachine.com/
Машина Рамануджана. Генерирует формулы-гипотезы, проверенные на миллионах случаях, которые потом можно доказывать. Пока вроде генерирует только арифметические формулы со знаменитыми константами.
источник

JM

Jaimin Mungalpara in Natural Language Processing
источник

A

Anton in Natural Language Processing
Не могу понять как применили модель mT5 ( GPT и другие генеративные модели) для решения данной задачи https://russiansuperglue.com/tasks/task_info/RUSSE
Может быть у кого есть опыт? Как необходимо сконвертировать инпут в такие типа модели для классификации?
источник

IS

I Sh in Natural Language Processing
Anton
Не могу понять как применили модель mT5 ( GPT и другие генеративные модели) для решения данной задачи https://russiansuperglue.com/tasks/task_info/RUSSE
Может быть у кого есть опыт? Как необходимо сконвертировать инпут в такие типа модели для классификации?
Ну, теоретически как-то так должно быть в Т5:

input:
WiC sentence1: Бурые ковровые дорожки заглушали шаги. sentence2: Приятели решили выпить на дорожку в местном баре. word: дорожка


output:
false
источник

IS

I Sh in Natural Language Processing
Ну, и закрывающий токен: </s>
источник

A

Anton in Natural Language Processing
WiC - это suffix задачи на которую его обучали? (аналог summarize: + <text>)
источник

IS

I Sh in Natural Language Processing
Anton
WiC - это suffix задачи на которую его обучали? (аналог summarize: + <text>)
Да. если вы обучаете одну модель для нескольких задач, то надо использовать приставку. Если только под одну эту задачу - можно и не указывать.
источник

A

Anton in Natural Language Processing
Да, понял. Где-то уже читал про это.

Судя по информации, модели mT5 не были обучены на эти дополнительные задачки (в отличие от Т5)
источник

A

Anton in Natural Language Processing
источник

A

Anton in Natural Language Processing
Нашёл ответ в оригинальной статье.
источник

A

Anton in Natural Language Processing
@blanchefort спасибо за ответ про WIC. Я гуглил про WSD
источник

МП

Михаил Притугин... in Natural Language Processing
Коллеги, кто-то видел датасет новостей поновее, чем Лента и Риа?
источник