Телеграмм чат группы natural_language

07:07пожаловаться #6

Привет.
Можно написать свои грамматики, например: http://natasha.readthedocs.io/ru/latest/grammars/#id4 (немного неактуальный пример, т.к. грамматики для адресов уже есть, но суть в общем-то такая же)
Если есть примеры данных - скидывай, будем разбираться (:

09:04пожаловаться #7

2017 March 01

18:54пожаловаться #8

Если кто-то не следит за развитием natasha - появилось разрешение кореференции для персон, топонимов и организаций, с более-менее приемлемым качеством

18:54пожаловаться #9

violet = ABBYY Compreno, pink = PullEnti, результат на второй дорожке factRuEval-2016

Alexander Kukushkin in Natural Language Processing

18:54пожаловаться #10

Видел www.pullenti.ru/DownloadFile.aspx?file=FactRuEval.pdf ? Там написано, что Aquamarine это Promt http://www.promt.ru/press/news/57586/ , тоже какой-то комерческий продукт, можно добавить в сравнение

23:29пожаловаться #11

2017 March 03

Видел, c promt получается так:

06:03пожаловаться #12

06:04пожаловаться #13

2017 March 19

Привет! Я по поводу yargy. Мне нужно извлекать номер телефона как именную сущность, и я пытаюсь задавать словарь, содержащий числа. Но числа из грамматики не определяются в строке (а буквы при этом определяются!). Можешь подсказать, что делаю не так?

Задаю правило таким образом:

NUMBER_GRAMMAR_1 = {
'labels': [
dictionary({'7', '8', 'h'}),
],
}

tel_number = Grammar('Tel_Number', [
NUMBER_GRAMMAR_1,
])

08:11пожаловаться #14

Привет. Номера телефонов умеет разбирать токенизатор:

>>> from yargy import Parser, Grammar
>>> from yargy.labels import gram
>>> 
>>> text = 'звонить по +7(883)-332-32-42'
>>> grammar = Grammar(None, [
...     {
...         'labels': [
...             gram('PHONE'),
...         ]
...     }
... ])
>>> 
>>> parser = Parser([grammar])
>>> matches = parser.extract(text)
>>> grammar, tokens = next(matches)
>>> tokens[0].value
'+7(883)-332-32-42'

Цифры в тексте переводятся в int / range (в зависимости от ситуации), поэтому dictionary не отрабатывает, но можно делать так:

from yargy.labels import in_

PHONE_COUNTRY_PREFIX = {
    'labels': [
        in_([7, 8]),
    ],
}

...

Alexander Kukushkin in Natural Language Processing

11:40пожаловаться #15

Для телефонов ещё есть https://github.com/daviddrysdale/python-phonenumbers , смотри PhoneNumberMatcher

GitHub

daviddrysdale/python-phonenumbers

Python port of Google's libphonenumber. Contribute to daviddrysdale/python-phonenumbers development by creating an account on GitHub.

13:50пожаловаться #16

2017 March 20

Dima Veselov

Привет. Номера телефонов умеет разбирать токенизатор:

>>> from yargy import Parser, Grammar
>>> from yargy.labels import gram
>>> 
>>> text = 'звонить по +7(883)-332-32-42'
>>> grammar = Grammar(None, [
...     {
...         'labels': [
...             gram('PHONE'),
...         ]
...     }
... ])
>>> 
>>> parser = Parser([grammar])
>>> matches = parser.extract(text)
>>> grammar, tokens = next(matches)
>>> tokens[0].value
'+7(883)-332-32-42'

from yargy.labels import in_

PHONE_COUNTRY_PREFIX = {
    'labels': [
        in_([7, 8]),
    ],
}

...

Здорово, не знал про токенизатор, спасибо большое!

09:24пожаловаться #17

Python port of Google's libphonenumber. Contribute to daviddrysdale/python-phonenumbers development by creating an account on GitHub.

Alexander Kukushkin

Для телефонов ещё есть https://github.com/daviddrysdale/python-phonenumbers , смотри PhoneNumberMatcher

GitHub

daviddrysdale/python-phonenumbers

Спасибо за ссылку! Правда, у меня гораздо более простая задача — определить, есть ли в тексте номер телефона — и тянуть отдельную либу ради этого не хочется :)

Vlad Pastushenko in Natural Language Processing

09:26пожаловаться #18

|||||

Тогда можно и регекспом обойтись

13:23пожаловаться #19

2017 March 23

Привет. Ещё вопрос: что нужно сделать, чтобы не выводилось сообщение Total grammars count?