Телеграмм чат группы natural_language

Паттерн я понимаю так: N - X, где X > sys.maxsize

23:50пожаловаться #1

print sys.maxsize
9223372036854775807

23:50пожаловаться #2

Да, баг, спасибо) В третьем питоне всё ок, кстати:

Python 2.7.12+ (default, Sep 17 2016, 12:08:02) 
>>> xrange(int('1433'), int('40817810505751201174'))
OverflowError: Python int too large to convert to C long

Python 3.5.2+ (default, Sep 22 2016, 12:18:14) 
>>> range(int('1433'), int('40817810505751201174'))
range(1433, 40817810505751201174)

23:56пожаловаться #3

а там maxsize такой же?

23:57пожаловаться #4

ага

23:58пожаловаться #5

2017 February 07

Дима, а какая предположительно временная сложность у yargy extract()?

13:43пожаловаться #6

не очень понимаю в кишках, но ведь это и есть реализация glr парсера, так ведь?

13:43пожаловаться #7

в худшем случае О(n^3)

23:10пожаловаться #8

Спасибо

23:11пожаловаться #9

2017 February 19

Привет, ребята. Есть такой вопрос: что вы хотели бы увидеть в официальном туторе natasha?
Например, как проводить нормализацию, или ещё там что-нибудь.

04:05пожаловаться #10

Egor V. in Natural Language Processing

Привет. Да, было бы неплохо сделать несколько примеров с увеличением, а затем на них пояснить процесс обработки текста. В примерах можно добавить информацию о том, как можно расширить грамматику.

05:31пожаловаться #11

Egor V. in Natural Language Processing

*С увеличением сложности

Alexander Kukushkin in Natural Language Processing

05:31пожаловаться #12

2017 February 20

Можно сделать по аналогии с какой-нибудь хорошей документацией. Например, http://pymorphy2.readthedocs.io/en/latest/user/guide.html . Там хорошо, что рассматриваются конкретные примеры , например, morph.parse('стали') и вывод библиотеки.

Мне было бы интересно увидеть пояснения, может быть, не самых базовых вещей:
1. Что означает gnc_match(0, solve_disambiguation=True). Отдельно что значит gnc_match(0) — согласование слова с самим собой? И отдельно что такое solve_disambiguation
2. Зачем в 'labels': [
gram('ADJF'),
dictionary(FEDERAL_DISTRICT_DICTIONARY),
],
gram('ADJF')? В FEDERAL_DISTRICT_DICTIONARY всё равно только одни прилагательные.
3. Откуда берутся всякие gram(‘Geox’), gram('Abbr'), gram('Orgn')? Я так понимаю из pymorphy?
4. Подробнее про рекурсивные грамматики. Они существуют? Почему, например, разбор адресов сделан без них.
Вместо
AdjShortReversedWithHn = AdjShortReversed + OPTIONAL_COMMA_GRAMMAR + HOUSE_NUMBER_GRAMMAR
AdjNounFullWithHn = AdjNounFull + OPTIONAL_COMMA_GRAMMAR + HOUSE_NUMBER_GRAMMAR
AdjNounShortWithHn = AdjNounShort + OPTIONAL_COMMA_GRAMMAR + HOUSE_NUMBER_GRAMMAR

Могло бы быть что-то вроде

Address = …
AddressWithHn = Address + OPTIONAL_COMMA_GRAMMAR + HOUSE_NUMBER_GRAMMAR

21:08пожаловаться #13

2017 February 21