Телеграмм чат группы natural_language

Если что, сделать это можно так:

pip install git+https://github.com/bureaucratic-labs/yargy.git
pip install git+https://github.com/bureaucratic-labs/natasha.git

23:39пожаловаться #1

2017 January 31

Таким образом смог поставиться yargy. Natasha падала с ошибкой:

Command "python setup.py egg_info" failed with error code 1 in /private/var/folders/3m/6d7qbb1j2sqd9tnm3flm87fm0000gn/T/pip-5OPpa6-build/

Склонировал и поставил из мастера в virtualenv’e

python setup.py install

, поставилось

11:47пожаловаться #2

но отрабатывает также

11:47пожаловаться #3

Файл test.py

#coding=utf-8
from natasha import Combinator
from natasha.grammars import Person


text = "Иван иванович иванов меняет..."
print text

combinator = Combinator([Person])

matches = combinator.extract(text)

for grammar, tokens in combinator.resolve_matches(matches):
   print(grammar, tokens)

11:48пожаловаться #4

Второй питон, да?

11:48пожаловаться #5

(generalvenv) nturusin@nturusin: python test.py
Иван иванович иванов меняет...
(generalvenv) nturusin@nturusin:

11:48пожаловаться #6

Да

11:48пожаловаться #7

# coding: utf-8
from __future__ import unicode_literals

11:49пожаловаться #8

Работает.

11:49пожаловаться #9

:)))

11:49пожаловаться #10

в начало файла, или передавай все строки как юникод (с u перед кавычками)

11:49пожаловаться #11

Понятно, спасибо, Дима.

11:50пожаловаться #12

Поюзал. Очень круто! Единственный момент очень заинтересовал, не понимаю как это работает natasha/grammars/dictionaries/. Тут DAWG файлы лежат, а что в них зажато не совсем ясно. Я так понимаю именно по ним предиктится score атрибут

14:44пожаловаться #13

Там хранятся сериализованные статьи газеттира (natasha/grammars/pipelines.py), score возвращает pymorphy2, мы его не меняем.

14:48пожаловаться #14

Dima Veselov

Там хранятся сериализованные статьи газеттира (natasha/grammars/pipelines.py), score возвращает pymorphy2, мы его не меняем.

Ок, класс. А score pymorphy отдаёт на основании каких атрибутов? Просто поискал внутри репозитория пиморфи “score” - не нашел ничего.

14:59пожаловаться #15

https://pymorphy2.readthedocs.io/en/latest/user/guide.html#select-correct

15:07пожаловаться #16

👍. Меня немного удивляет правда почему extract() в yarg’e находит совпадения в строке не в порядке слева направо. Если я указываю несколько валидных имён, которые он гарантировано находит в простом случае, вместе в одной строке, то получаю их в “произвольном” порядке.

16:59пожаловаться #17

Можно пример?

17:02пожаловаться #18

(звучит как баг)

17:02пожаловаться #19

Да без проблем