Size: a a a

Natural Language Processing

2017 January 30

DV

Dima Veselov in Natural Language Processing
Если что, сделать это можно так:
pip install git+https://github.com/bureaucratic-labs/yargy.git
pip install git+https://github.com/bureaucratic-labs/natasha.git
источник
2017 January 31

NT

Nick Turusin in Natural Language Processing
Таким образом смог поставиться yargy. Natasha падала с ошибкой:
Command "python setup.py egg_info" failed with error code 1 in /private/var/folders/3m/6d7qbb1j2sqd9tnm3flm87fm0000gn/T/pip-5OPpa6-build/


Склонировал и поставил из мастера в virtualenv’e
python setup.py install
, поставилось
источник

NT

Nick Turusin in Natural Language Processing
но отрабатывает также
источник

NT

Nick Turusin in Natural Language Processing
Файл test.py
#coding=utf-8
from natasha import Combinator
from natasha.grammars import Person


text = "Иван иванович иванов меняет..."
print text

combinator = Combinator([Person])

matches = combinator.extract(text)

for grammar, tokens in combinator.resolve_matches(matches):
  print(grammar, tokens)
`
источник

DV

Dima Veselov in Natural Language Processing
Второй питон, да?
источник

NT

Nick Turusin in Natural Language Processing
(generalvenv)  nturusin@nturusin: python test.py
Иван иванович иванов меняет...
(generalvenv)  nturusin@nturusin:
источник

NT

Nick Turusin in Natural Language Processing
Да
источник

DV

Dima Veselov in Natural Language Processing
# coding: utf-8
from __future__ import unicode_literals
источник

NT

Nick Turusin in Natural Language Processing
Работает.
источник

NT

Nick Turusin in Natural Language Processing
:)))
источник

DV

Dima Veselov in Natural Language Processing
в начало файла, или передавай все строки как юникод (с u перед кавычками)
источник

NT

Nick Turusin in Natural Language Processing
Понятно, спасибо, Дима.
источник

NT

Nick Turusin in Natural Language Processing
Поюзал. Очень круто! Единственный момент очень заинтересовал, не понимаю как это работает natasha/grammars/dictionaries/. Тут DAWG файлы лежат, а что в них зажато не совсем ясно. Я так понимаю именно по ним предиктится score атрибут
источник

DV

Dima Veselov in Natural Language Processing
Там хранятся сериализованные статьи газеттира (natasha/grammars/pipelines.py), score возвращает pymorphy2, мы его не меняем.
источник

NT

Nick Turusin in Natural Language Processing
Dima Veselov
Там хранятся сериализованные статьи газеттира (natasha/grammars/pipelines.py), score возвращает pymorphy2, мы его не меняем.
Ок, класс. А score pymorphy отдаёт на основании каких атрибутов? Просто поискал внутри репозитория пиморфи “score” - не нашел ничего.
источник

DV

Dima Veselov in Natural Language Processing
источник

NT

Nick Turusin in Natural Language Processing
👍. Меня немного удивляет правда почему extract() в yarg’e находит совпадения в строке не в порядке слева направо. Если я указываю несколько валидных имён, которые он гарантировано находит в простом случае, вместе в одной строке, то получаю их в “произвольном” порядке.
источник

DV

Dima Veselov in Natural Language Processing
Можно пример?
источник

DV

Dima Veselov in Natural Language Processing
(звучит как баг)
источник

NT

Nick Turusin in Natural Language Processing
Да без проблем
источник