Телеграмм чат группы natural_language

возможно, я не очень понимаю их терминологию, но я наоборот вижу, что на POS можно сразу использовать lowercase (и непонятно, помогает ли предсказание case),
а на NER мы получаем падение с 92.45 до 90.25 .

источник

15:08пожаловаться #8

Yuri Baburov in Natural Language Processing

слева NER, справа POS

источник

15:10пожаловаться #9

Andrew Ishutin in Natural Language Processing

да, я как раз хотел заскринить

источник

15:10пожаловаться #10

Andrew Ishutin in Natural Language Processing

Просто lowercase это в их табличке Uncased Test(U), т. е. 89.32 F1 score в NER

источник

15:11пожаловаться #11

Andrew Ishutin in Natural Language Processing

Метод, про который говорил я, как Вы и сказали - 90.25 F1 score на NER

источник

15:12пожаловаться #12

Yuri Baburov in Natural Language Processing

смотрите. 92.45 -> 90.25 (учить на truecase) примерно соответствует 92.45 -> 89.32 (учить на lowercase)
и там и там происходит потеря качества, т.е. предсказание кейса не помогает. хм, ну ок, чуть-чуть помогает, оказывается. на NER.
а на POS эти ±0.2% неразличимы.
ну и лучший (и достаточный) вариант обучения, получается, cased+uncased.

источник

15:14пожаловаться #13

Andrew Ishutin in Natural Language Processing

Yuri Baburov

этот вариант теряет столько же информации, сколько и вариант сразу учить модель в lowercase.

Я согласен, что можно сделать лучше, чем я предложил. Но это не отменяет того, что Ваше утверждение ложное

источник

15:16пожаловаться #14

Andrew Ishutin in Natural Language Processing

Плюс, то, что я предложил не нужно дообучать. Нужен только truecaser для русского и готовая модель

источник

15:17пожаловаться #15

Yuri Baburov in Natural Language Processing

Andrew Ishutin

Я согласен, что можно сделать лучше, чем я предложил. Но это не отменяет того, что Ваше утверждение ложное

в том смысле, что 90% лучше 89% (сравнивая относительно 92%)? ну, можно так считать, ок.

источник

15:17пожаловаться #16

Yuri Baburov in Natural Language Processing

спасибо большое за статью, надо взять метод на вооружение (а то одно дело свой опыт и свои бессистемные эксперименты, а другое дело чужие, более грамотные)

источник

15:17пожаловаться #17

Yuri Baburov in Natural Language Processing

эх, ещё бы syntax analysis где-нибудь так же потестили...

источник

15:22пожаловаться #18

Denis Kirjanov in Natural Language Processing

Yuri Baburov

эх, ещё бы syntax analysis где-нибудь так же потестили...

так это как?

источник

15:25пожаловаться #19