Телеграмм чат группы natural_language

2021 February 27

d

dePuff in Natural Language Processing

Я предположил, что человек не очень хочет разбираться и нереальность разобраться по предложенному коду )

источник

00:25пожаловаться #1

E

Elena in Natural Language Processing

да, Simpletransformers классные

источник

00:25пожаловаться #2

ИТ

Игорь Тарлинский... in Natural Language Processing

dePuff

По [CLS] классифицировать не надо, он говно

Если не дообучать, то да. Если дообучить, то он зависит от всех других представлений на предыдущих слоях и "ддобучая" совместную модель "bert" + "klass_me" - то, что он "гавно" теряет смысл

источник

00:28пожаловаться #3

d

dePuff in Natural Language Processing

Игорь Тарлинский

Если не дообучать, то да. Если дообучить, то он зависит от всех других представлений на предыдущих слоях и "ддобучая" совместную модель "bert" + "klass_me" - то, что он "гавно" теряет смысл

Выжать из hidden всегда можно больше аналогичным файнтюнингом
Ни на одной соревке [CLS] не используют и я слышал аналогичное про прод

источник

00:30пожаловаться #4

d

dePuff in Natural Language Processing

[CLS] всегда будет хуже при нуле бонусов

источник

00:31пожаловаться #5

SМ

SancheZz Мов in Natural Language Processing

dePuff

Выжать из hidden всегда можно больше аналогичным файнтюнингом
Ни на одной соревке [CLS] не используют и я слышал аналогичное про прод

Cls токен слабоконтекстный

источник

00:35пожаловаться #6

SМ

SancheZz Мов in Natural Language Processing

Как это понять, достаточно посмотреть как туда складываются эмбеддинги из токенов фразы. Получается зачастую пуллинг стейтов лучше тк более сильный контекст

источник

00:36пожаловаться #7

Sи

STM32F04 и анамнезис... in Natural Language Processing

коллеги, встречались ли вам проекты, в которых нейронно генерируют текст математических формул или даже теорем?

Переносят стиль с соответствующей терминологией из одной области математики в другую, и генерят на базе 2-х стилей новые тексты?

источник

07:58пожаловаться #8

AO

Alex Orgish in Natural Language Processing

STM32F04 и анамнезис

коллеги, встречались ли вам проекты, в которых нейронно генерируют текст математических формул или даже теорем?

Переносят стиль с соответствующей терминологией из одной области математики в другую, и генерят на базе 2-х стилей новые тексты?

http://www.ramanujanmachine.com/
Машина Рамануджана. Генерирует формулы-гипотезы, проверенные на миллионах случаях, которые потом можно доказывать. Пока вроде генерирует только арифметические формулы со знаменитыми константами.

источник

09:03пожаловаться #9

JM

Jaimin Mungalpara in Natural Language Processing

https://medium.com/nerd-for-tech/what-is-attention-in-nlp-f67411426e64

Medium

What is Attention in NLP?

In this blog we will look on the pivotal research in the area of NLP which has changed the view of NLP for entire world that is called…

источник

10:19пожаловаться #10

A

Anton in Natural Language Processing

Не могу понять как применили модель mT5 ( GPT и другие генеративные модели) для решения данной задачи https://russiansuperglue.com/tasks/task_info/RUSSE
Может быть у кого есть опыт? Как необходимо сконвертировать инпут в такие типа модели для классификации?

источник

15:20пожаловаться #11

IS

I Sh in Natural Language Processing

Anton

Не могу понять как применили модель mT5 ( GPT и другие генеративные модели) для решения данной задачи https://russiansuperglue.com/tasks/task_info/RUSSE
Может быть у кого есть опыт? Как необходимо сконвертировать инпут в такие типа модели для классификации?

Ну, теоретически как-то так должно быть в Т5:

input:

WiC sentence1: Бурые ковровые дорожки заглушали шаги. sentence2: Приятели решили выпить на дорожку в местном баре. word: дорожка

output:

false

источник

16:07пожаловаться #12

IS

I Sh in Natural Language Processing

Ну, и закрывающий токен: </s>

источник

16:09пожаловаться #13

A

Anton in Natural Language Processing

WiC - это suffix задачи на которую его обучали? (аналог summarize: + <text>)

источник

16:12пожаловаться #14

IS

I Sh in Natural Language Processing

Anton

WiC - это suffix задачи на которую его обучали? (аналог summarize: + <text>)

Да. если вы обучаете одну модель для нескольких задач, то надо использовать приставку. Если только под одну эту задачу - можно и не указывать.

источник

16:13пожаловаться #15

A

Anton in Natural Language Processing

Да, понял. Где-то уже читал про это.

Судя по информации, модели mT5 не были обучены на эти дополнительные задачки (в отличие от Т5)

источник

16:20пожаловаться #16

A

Anton in Natural Language Processing

источник

16:26пожаловаться #17

A

Anton in Natural Language Processing

Нашёл ответ в оригинальной статье.

источник

17:02пожаловаться #18

A

Anton in Natural Language Processing

@blanchefort спасибо за ответ про WIC. Я гуглил про WSD

источник

17:06пожаловаться #19

МП

Михаил Притугин... in Natural Language Processing

Коллеги, кто-то видел датасет новостей поновее, чем Лента и Риа?

источник

17:28пожаловаться #20