Доброго времени суток Столкнулся с проблемой при запуске примеров из документации: >'ascii' codec can't decode byte 0xbb in position 0: ordinal not in range(128) При добавлении u перед анализируемым текстом ошибок нет, но часть текста в консоли не декодируется нормально
Привет. Это проблемы python второй версии - можно начать использовать третью версию или искать что-нибудь вроде python unicode console output. А строки с префиксом u - это юникод и парсер понимает только его.
Прошу посмотреть патч для адресов https://github.com/bureaucratic-labs/natasha/pull/14 . Поддержка не идеальная, но для моих практических задач вроде бы достаточная. Чтобы разбирать адреса пришлось кое как решить проблему с OR https://github.com/bureaucratic-labs/yargy/pull/15 . По-моему с текущим парсером не получится полностью нормально поддержать OR и рекурсивные грамматики в целом. В прочем, как сделать правильно я тоже не знаю.
@alexkuk Спасибо! По поводу парсера: скорее всего я буду менять его на какой-нибудь CYK, как у ребят из hurmining, т.к. он гораздо проще для понимания.