Size: a a a

Natural Language Processing

2021 March 11

d

dePuff in Natural Language Processing
Alex Surname
накидывает?
Влияет положительно на метрику
источник

AS

Alex Surname in Natural Language Processing
dePuff
Влияет положительно на метрику
чтоб определить перефраз в passive voice например, с помощью bag of words
источник

OS

Oleg Serikov in Natural Language Processing
вангую что в менее ресурсных чем русский языках  лемматизация ведёт себя адекватнее чем субтокены в принципе
источник

FF

Futorio Franklin in Natural Language Processing
topic modeling
источник

DD

David Dale in Natural Language Processing
Oleg Serikov
вангую что в менее ресурсных чем русский языках  лемматизация ведёт себя адекватнее чем субтокены в принципе
Кажется, сильно зависит от языка.
Если взять языки типа турецкого и немецкого, где слова бывают десятиэтажные, без сабтокенов, кажется, никак.
источник

OS

Oleg Serikov in Natural Language Processing
думая про них в эту сторону, я бы брал лемматизацию с глоссированием
источник

OS

Oleg Serikov in Natural Language Processing
ну и опять же, это большие
источник

OS

Oleg Serikov in Natural Language Processing
без морфологии никак, но сабтокены какие-то слишком статистические имхо
источник

AS

Alex Surname in Natural Language Processing
что такое сабтокен?
источник

OS

Oleg Serikov in Natural Language Processing
подстрока входной последовательности, которая получает свой эмбеддинг в контекстных моделях, как-то так..
источник

OS

Oleg Serikov in Natural Language Processing
часто это чуть меньше, чем одно слово
источник

DD

David Dale in Natural Language Processing
На практике это обычно wordpiece или BPE
источник

DD

David Dale in Natural Language Processing
Ну или старый добрый мешок n-грамм, как в fasttext)
источник

БД

Борис Добров... in Natural Language Processing
David Dale
Давай наши с тобой объединим и заопенсорсим)
Мне кажется, Вы изложили возможный путь, но не факт, что лучший.
Сама постановка вопроса о семантическом поиске мутна, так как есть огромное количе тво разновидностей задачи.
В любом случае, это подзадача стандртного информационного поиска, где опыт показывает важность простого совадения, размеров минимального окна, кворума и т.п.
При этом результаты синтаксического анализа не факт, что будут наиболее зна имчм фактором. Тем более, что синтаксис весьма ломок для многих типов текстов.

Недавно была статейка "Трансформеры в Поиске: как Яндекс применил тяжёлые нейросети для поиска по смыслу"а от Яндекса на хабре
источник

AS

Alex Surname in Natural Language Processing
Oleg Serikov
часто это чуть меньше, чем одно слово
можно ссылку?
источник

OP

Oleg Polivin in Natural Language Processing
привет! Разбираюсь сейчас с извлечением ключевых фраз/слов. Подскажите, пожалуйста, если кто-то с этим работал, то я правильно понимаю, что, если судить по метрикам (precision, recall), то ни DL ни классические методы не позволяют достичь и 50% по этим метрикам на европейских языках?

Тут надо сказать, что 1) ground truth ключевые фразы все равно субъективны и 2) зачастую при сравнении используется полное совпадение фраз после стемминга. То есть, “красная быстрая машина” в качестве извлеченной фразы и “красная машина” как верный ответ дадут 0 по метрикам.
источник

БД

Борис Добров... in Natural Language Processing
Как и многие задачи NLP  "ключевые слова" - плохоопределенная задача. Точнее под такой формулировкой есть несколько задач.
Классическая - аннотирование ключевыми словами - делается для " человека", то есть выбирается 5-7 слов, причем слова выбираются "ортогонально".
Тут еще есть дискуссия про слова или словосочетания, единственное или множественное число.
Красиво, но не очень удобно для машинной обработки, так как в каждой размерности приходится выбирать только наиболее яркое.

Подвид такой задачи - сводить к фиксированному множеству слов, что становится задачей классификации.

Но на практике часто ключевые слова нужны для обслуживаеия поиска, поэтому могут присваивать их много, больше чем есть в документе. Такое характерно для самоописания авторами собственных фотографий в стоках.

То есть сначала надо определиться, зачем нужны " ключевые слова"
источник

OS

Oleg Serikov in Natural Language Processing
простте, что оффтоп, но не знаете ли вы сопоставимого чатика по CV ?
источник

OP

Oleg Polivin in Natural Language Processing
Да, скорее для обслуживания поиска. Например, для использования в рекомендательной системе.

Я посмотрел разные алгоритмы: TfIdf, TopicRank, YAKE и другие (без учителя) и CopyRNN (DL), их качество часто оценивается против некоторого “золотого” множества слов. Бывает так, что слова из “золотого” множества есть в исходном тексте, бывает так, что нет. И даже если используют ключевые слова только из исходного текста, то все равно precision, recall < 40%.
источник

БД

Борис Добров... in Natural Language Processing
Так, собственно, из-за нечеткости постановки трудно сформулировать условия "академического" эксперимента.
Если очень хочется, то надо определяться с критериями, потом разметка и метрики.
источник