Телеграмм чат группы natural_language

Мне кажется, Вы изложили возможный путь, но не факт, что лучший.
Сама постановка вопроса о семантическом поиске мутна, так как есть огромное количе тво разновидностей задачи.
В любом случае, это подзадача стандртного информационного поиска, где опыт показывает важность простого совадения, размеров минимального окна, кворума и т.п.
При этом результаты синтаксического анализа не факт, что будут наиболее зна имчм фактором. Тем более, что синтаксис весьма ломок для многих типов текстов.

Недавно была статейка "Трансформеры в Поиске: как Яндекс применил тяжёлые нейросети для поиска по смыслу"а от Яндекса на хабре

источник

14:42пожаловаться #14

Alex Surname in Natural Language Processing

Oleg Serikov

часто это чуть меньше, чем одно слово

можно ссылку?

источник

14:49пожаловаться #15

Oleg Polivin in Natural Language Processing

привет! Разбираюсь сейчас с извлечением ключевых фраз/слов. Подскажите, пожалуйста, если кто-то с этим работал, то я правильно понимаю, что, если судить по метрикам (precision, recall), то ни DL ни классические методы не позволяют достичь и 50% по этим метрикам на европейских языках?

Тут надо сказать, что 1) ground truth ключевые фразы все равно субъективны и 2) зачастую при сравнении используется полное совпадение фраз после стемминга. То есть, “красная быстрая машина” в качестве извлеченной фразы и “красная машина” как верный ответ дадут 0 по метрикам.

источник

15:09пожаловаться #16

БД

Борис Добров... in Natural Language Processing

Как и многие задачи NLP "ключевые слова" - плохоопределенная задача. Точнее под такой формулировкой есть несколько задач.
Классическая - аннотирование ключевыми словами - делается для " человека", то есть выбирается 5-7 слов, причем слова выбираются "ортогонально".
Тут еще есть дискуссия про слова или словосочетания, единственное или множественное число.
Красиво, но не очень удобно для машинной обработки, так как в каждой размерности приходится выбирать только наиболее яркое.

Подвид такой задачи - сводить к фиксированному множеству слов, что становится задачей классификации.

Но на практике часто ключевые слова нужны для обслуживаеия поиска, поэтому могут присваивать их много, больше чем есть в документе. Такое характерно для самоописания авторами собственных фотографий в стоках.

То есть сначала надо определиться, зачем нужны " ключевые слова"

источник

16:16пожаловаться #17

Oleg Serikov in Natural Language Processing

простте, что оффтоп, но не знаете ли вы сопоставимого чатика по CV ?

источник

16:25пожаловаться #18

Oleg Polivin in Natural Language Processing

Да, скорее для обслуживания поиска. Например, для использования в рекомендательной системе.

Я посмотрел разные алгоритмы: TfIdf, TopicRank, YAKE и другие (без учителя) и CopyRNN (DL), их качество часто оценивается против некоторого “золотого” множества слов. Бывает так, что слова из “золотого” множества есть в исходном тексте, бывает так, что нет. И даже если используют ключевые слова только из исходного текста, то все равно precision, recall < 40%.

источник

16:26пожаловаться #19

БД

Борис Добров... in Natural Language Processing

Так, собственно, из-за нечеткости постановки трудно сформулировать условия "академического" эксперимента.
Если очень хочется, то надо определяться с критериями, потом разметка и метрики.

источник

16:36пожаловаться #20