Просто изначально беру все, что Наташа нашла с типом "PER" и уже оттуда пытаюсь извлечь фамилию и имя. К примеру, с именем "Анатолий Стахиев" - все хорошо, а вот с "Стахиев Анатолий" как-то не очень. Как вообще это пофиксить можно?
А slovnet оказался (естественно, берт же) case sensitive. ФИО и названия организаций с нижнего регистра не узнаёт. К STT не прикрутишь такое, к сожалению. Придётся и дальше страдать с pymorphy2. Если дойдут руки, нужно будет форкнуть ваш успех для lowercased.
А slovnet оказался (естественно, берт же) case sensitive. ФИО и названия организаций с нижнего регистра не узнаёт. К STT не прикрутишь такое, к сожалению. Придётся и дальше страдать с pymorphy2. Если дойдут руки, нужно будет форкнуть ваш успех для lowercased.
угу, нужно обучать другую модель. Сейчас только для новостей
А slovnet оказался (естественно, берт же) case sensitive. ФИО и названия организаций с нижнего регистра не узнаёт. К STT не прикрутишь такое, к сожалению. Придётся и дальше страдать с pymorphy2. Если дойдут руки, нужно будет форкнуть ваш успех для lowercased.
угу, нужно обучать другую модель. Сейчас только для новостей
Вообще, то, что сделано сейчас, работает очень классно по скорости (в моей практике). Этот ваш "дистиллят" в crf вдохновил. Спасибо! Если вы эту идею пильнёте вообще инвариантно регистру, мне кажется, это будет очень сильный инструмент.
Если кому интересно - у нас тут случился относительный успех в применении грамматики Link Grammar для генерации грамматически правильных предложений по словам (по ходу научились загружать полноценный Link Grammar Dictinary в Java) https://github.com/aigents/aigents-java/issues/22 - следующая задача - поддержка русского, для чего нужно решить проблему с корректной загрузкой и обработкой морфологии. Если есть интересующиеся студены-дипломники или аспиранты или NLP-энтузиасты - пишите в личку.
Если кому интересно - у нас тут случился относительный успех в применении грамматики Link Grammar для генерации грамматически правильных предложений по словам (по ходу научились загружать полноценный Link Grammar Dictinary в Java) https://github.com/aigents/aigents-java/issues/22 - следующая задача - поддержка русского, для чего нужно решить проблему с корректной загрузкой и обработкой морфологии. Если есть интересующиеся студены-дипломники или аспиранты или NLP-энтузиасты - пишите в личку.
Кто-нибудь знает инструмент для выделения морфологического корня слова русского языка? Внимание, стеммер (Портера, например) выделяет основу слова, а не морфологический корень.
Кто-нибудь знает инструмент для выделения морфологического корня слова русского языка? Внимание, стеммер (Портера, например) выделяет основу слова, а не морфологический корень.
Я как-то гуглил в инете сервисы для школьников: корень там выделяют, окончание...
Я так понимаю, что ничего готового на Python нет? Самому брать словарь и писать? Подозреваю, что при наивном подходе долго искать будет нужный корень при запросе? Нужно будет делать что-то вроде Trie как в pymorphy2 ?
Кто-нибудь знает инструмент для выделения морфологического корня слова русского языка? Внимание, стеммер (Портера, например) выделяет основу слова, а не морфологический корень.
День добрый! Вопрос новичка. Мне нужно связать варианты запросов ну например "лопата Самсунг" с конкретными категориями товаров и их атрибутами (телефон Самсунг, широкий экран). Собственно вопрос - есть ли гайды для именно такого применения nlp (находил только для анализа больших текстов), и какой инструмент сможет этоттфункционал шустро крутить на сервере?
День добрый! Вопрос новичка. Мне нужно связать варианты запросов ну например "лопата Самсунг" с конкретными категориями товаров и их атрибутами (телефон Самсунг, широкий экран). Собственно вопрос - есть ли гайды для именно такого применения nlp (находил только для анализа больших текстов), и какой инструмент сможет этоттфункционал шустро крутить на сервере?
День добрый! Вопрос новичка. Мне нужно связать варианты запросов ну например "лопата Самсунг" с конкретными категориями товаров и их атрибутами (телефон Самсунг, широкий экран). Собственно вопрос - есть ли гайды для именно такого применения nlp (находил только для анализа больших текстов), и какой инструмент сможет этоттфункционал шустро крутить на сервере?
Как вариант: Тренируем FastText в доменной области. По косинусному расстоянию определяем категорию