Size: a a a

Natural Language Processing

2020 March 09

VR

Vladimir R in Natural Language Processing
можно через spacy
источник

VR

Vladimir R in Natural Language Processing
мы недавно выпустили новую версию 2.2, там интегрированы вектора gensim
источник

VR

Vladimir R in Natural Language Processing
качество классификации очень возросло, а использовать платформу стало еще проще
источник

VR

Vladimir R in Natural Language Processing
там есть ноутбуки с примерами классификации заголовков новостей (лента) по топикам
источник

VR

Vladimir R in Natural Language Processing
но так же можно делать классификацию предложений на вопросы
источник

И

Илюша in Natural Language Processing
ru2 модель вроде ещё не поддерживает spacy 2.2?
источник

OS

Oleg Serikov in Natural Language Processing
Vic
Ребята, если есть некий текст скажем статьи и в нем факты изложены и мне надо сгенерировать вопросы, чтобы эти факты были ответами, как это сделать?
Пример: "Самсунг выпустил ИИ людей неонов, они умеют делать то-то"
Мне надо автоматом кучку вопросов типа: Кто выпустил неонов? Что умеют делать неоны? Что выпустил самсунг? ну короче разные типы вопросов
Звучит так, будто в дереве синт разбора ты заменяеш узел на икс и задаель вопрос про икс
источник

SP

Sebastian Pereira in Natural Language Processing
Vladimir R
там есть ноутбуки с примерами классификации заголовков новостей (лента) по топикам
Это где?
источник

VR

Vladimir R in Natural Language Processing
источник

VR

Vladimir R in Natural Language Processing
Sebastian Pereira
Это где?
источник

VR

Vladimir R in Natural Language Processing
источник

SP

Sebastian Pereira in Natural Language Processing
Огонь, спасибо!
источник

YB

Yuri Baburov in Natural Language Processing
Илюша
ru2 модель вроде ещё не поддерживает spacy 2.2?
да, пока только классификацию обновили для 2.2 , модели там есть, но без векторов.
более качественные POS, DEP и NER чуть попозже будут, видимо, через неделю.
источник

YB

Yuri Baburov in Natural Language Processing
Vic
Ребята, если есть некий текст скажем статьи и в нем факты изложены и мне надо сгенерировать вопросы, чтобы эти факты были ответами, как это сделать?
Пример: "Самсунг выпустил ИИ людей неонов, они умеют делать то-то"
Мне надо автоматом кучку вопросов типа: Кто выпустил неонов? Что умеют делать неоны? Что выпустил самсунг? ну короче разные типы вопросов
Я бы находил главные ключевые слова в тексте, для них строил дерево синтаксиса, и заменял ключевое слово на соответствующее ему вопросительное (nsubj -> "кто", obj -> "кто" или "что" в правильном падеже, в зависимости от одушевленности и т.д.). При этом можно обрезать часть предложения, не относящуюся к данной ветке. Может этот подход и не такой модный, как трансформеры, но качество должно быть хорошим для данной задачи. Сложности -- правильная обрезка, ошибки синтаксиса. А для правильного обнаружения ключевых слов -- надо делать textrank, или его упрощение, просто считать частоты (частоты лемм).
источник

AF

Alexander Fedorenko in Natural Language Processing
ИМХО можно и на простую штучку посмотреть https://pypi.org/project/rake-nltk/
Rapid Automatic Keyword Extraction algorithm using NLTK
источник

VR

Vladimir R in Natural Language Processing
Alexander Fedorenko
ИМХО можно и на простую штучку посмотреть https://pypi.org/project/rake-nltk/
Rapid Automatic Keyword Extraction algorithm using NLTK
здесь тоже самое, но качество будет выше за счет учета морфологии и синтаксиса, обученных на других задачах
источник

VR

Vladimir R in Natural Language Processing
SpaCy универсальный фреймворк, который позволяет тренировать сложные модели End-to-End пробрасывая вектора между каждым слоем. т.е. он берет на себя много работы по разработке пайплайна (чтобы не ломать голову как вместе с эмбедингом правильно передавать морфологию и лемму слова, зависимости слов одно от другого и т.д.)
источник

VR

Vladimir R in Natural Language Processing
в него без проблем можно воткнуть gensim или transformer и наблюдать как вырастет качество
источник

MV

Maxim Vasilev in Natural Language Processing
Всем привет, а есть ещё какие-нибудь русские датасеты с фактами кроме вот этого (https://github.com/dialogue-evaluation/factRuEval-2016/tree/master/devset)?
источник

VR

Vladimir R in Natural Language Processing
он настолько универсален, что даже русская модель хорошо справляется с IMDB сантиментами и показывает довольно хороший результат
источник