Size: a a a

Natural Language Processing

2021 November 02

N

Natalia in Natural Language Processing
ну тут увы, нет, потому что не для себя делалось (и то примерно половина датасета). но рассказываю как человек, который под эту задачу перерыл кучу источников и пытался понять, а что вообще существует
источник

VG

Vladimir Grigoryev in Natural Language Processing
например, textacy как дополнение к spacy https://textacy.readthedocs.io/en/stable/index.html
источник

LL

Leonid Leonidovich in Natural Language Processing
А сделать не интересно? В опенсорс выложим потом. Ну и заплатим.
источник

S

Sergey in Natural Language Processing
Всем привет. Подскажите, пожалуйста. Есть предложение, нужно каждое его слово представить эмбедингом. Вопрос в том, что, можно ли из берта как-то вытащить эмбеденги для каждого слова или так не выйдет и следует использовать w2v?
источник

IG

Ilya Gusev in Natural Language Processing
Для токенов (подслов) тривиально вытаскиваются эмбеддинги. Для именно слов можно получить их усреднением эмбеддингов токенов, например.
источник

ТИ

Танненберг Илья... in Natural Language Processing
В той же самой Natasha/navec есть эмбеддинги именно для слов. Позиционируется как аналог RusVectores, так же можно взять сами RusVectores, но надо парсить POS.
источник

Е

Егорка in Natural Language Processing
DeepPavlov: ner_rus_bert, mult_bert, ner_rus; Stanza ner; Pullenti и то, что уже писали
источник

AG

Alexander Gambashidz... in Natural Language Processing
а кто то сталкивался с тем, чтобы ранжировать текст по сложности концепций ? как думаете можно первое приближение получить ?  то есть вот к примеру чтобы хотя бы отличать интродакшн от не интродакшна, не имея никаких точных указателей на то, что это интродакшн)))
источник

S

Sergey in Natural Language Processing
Окей, спасибо за инфу.
источник

SS

Sergey Sikorskiy in Natural Language Processing
Если быть точнее, то в 49961 леммах из 432526 ударение не проставлено. Т.е. в больше чем 10%.
Правда, многие из них - имена и фамилии.
источник

SS

Sergey Sikorskiy in Natural Language Processing
Соврал. Ударения нет в 71933 леммах. ~17%.
источник

N

Natalia in Natural Language Processing
но при этом вы не можете посчитать те названия, которые вообще не попали в вики, так?
источник
2021 November 03

N

Natalia in Natural Language Processing
и да, в том-то и прикол, что имена и фамилии - это как раз заковыристые штуки в плане ударения, и хороших акцентуированных словарей до сих пор кот наплакал
источник

ВК

Владимир Кузовкин... in Natural Language Processing
коллеги,доброй ночи!
Я новичок в NLP, поэтому мне хотелось бы узнать побольше самой базовой информации.

Мне интересна автоматическая генерация вопросов к предложениям. Насколько я знаю существует несколько механизмов перестройки утвердительного предложения в вопрос.
Например,

Великая отечественная война началась 22 июня 1941 год.

В какой год началась великая отечественная война?
Ответ: 1941 год.

Вопрос мой звучит так: зачем тогда существует так называемые базы вопросов/ответов, на которых надо обучать предварительно модель?
источник

PG

Pavel Gulyaev in Natural Language Processing
Какую модель обучать?
источник

ВК

Владимир Кузовкин... in Natural Language Processing
Модель для составления вопросов/ответов на текст

Я,видимо, не очень корректно выразился
источник

PG

Pavel Gulyaev in Natural Language Processing
Потому что механизмы перестройки утвердительных предложений в вопрос работают 1)несовершенно и 2)не соответствуют естественному способу задавать вопросы
источник

PG

Pavel Gulyaev in Natural Language Processing
Например при составлении датасета SQuAD требовалось задать вопрос по абзацу. И в итоге часто разметчики просто копировали куски текста, минимально переформулируя утвердительные предложения в вопрос. Из-за этого со временем оказалось, что моделям относительно легко "обмануть" SQuAD: вместо понимания сути вопроса и сути возможных ответов можно находить ближайшую к вопросу подстроку текста и вокруг неё искать ответ, то есть фактически часто ответ заложен в вопросе. Это плохо, потому что достаточно незначительной переформулировки вопроса чтобы модель сломалась и не смогла найти ответ в индексе.
Соответственно хочется чтобы заданный вопрос и ответ были имели как можно меньше пересечений в тексте, а модель находила ответ, извлекая контекст из вопроса и ответа.
Так более новый датасет Natural Questions был собран по-другому: разметчику давался вопрос и предлагалось найти ответ в топ-5 выдачи поисковой системы. То есть более естественно по вопросу искать ответ, а не наоборот
источник

ВК

Владимир Кузовкин... in Natural Language Processing
Павел, спасибо за разъяснения!!!!
источник

ВК

Владимир Кузовкин... in Natural Language Processing
У меня тогда такой вопрос - я верно понимаю,что датасет вопросов и ответов составляется исключительно по новостям? Насколько их можно использовать, например, для генерации вопросов к тексту из учебника по физике?
источник