Size: a a a

Natural Language Processing

2017 February 03

NT

Nick Turusin in Natural Language Processing
не хотелось бы*
источник

NT

Nick Turusin in Natural Language Processing
:))
источник

DV

Dima Veselov in Natural Language Processing
кстати, если хочется ускорить всё это - можешь попробовать pypy, оно раз в 5-10 быстрее работает)
источник

DV

Dima Veselov in Natural Language Processing
например, у меня на этих данных (https://github.com/bureaucratic-labs/natasha/issues/9#issuecomment-276799414) с полным набором грамматик скорость около 900 КБ/м
источник

DV

Dima Veselov in Natural Language Processing
источник

DV

Dima Veselov in Natural Language Processing
обновил онлайн демку (если кто-то вообще ею пользуется :), теперь это выглядит так
источник
2017 February 04

AK

Alexander Kukushkin in Natural Language Processing
А 900 КБ/м — это много или мало? Не известно как это соотносится с участниками factRuEval и Томитой?
источник

DV

Dima Veselov in Natural Language Processing
В статьях про томиту говорят про 80 МБ/час (например, https://habrahabr.ru/company/yandex/blog/219311/#comment_7496031), комментарием ниже скорость примерно 22 МБ/м
источник

DV

Dima Veselov in Natural Language Processing
Про других участников не знаю.
источник

DV

Dima Veselov in Natural Language Processing
Вообще, всё это дело параллелится же на раз-два, т.ч. это не самая большая проблема (как мне кажется)
источник

DV

Dima Veselov in Natural Language Processing
Я как-то считал: можно распарсить условный дамп википедии (100 GB) параллельно, используя API на AWS Lambda, с ограничением в 1 MB загружаемого текста (чтобы уложится в 128 МБ оперативки) и всё это обойдется примерно в $2.
источник

DV

Dima Veselov in Natural Language Processing
(распарсить полным набором грамматик наташи)
источник

AK

Alexander Kukushkin in Natural Language Processing
Кстати, кому-то может быть удобно использовать Наташу через HTTP, чтобы на бекэнде всё уже было распараллено и на pypy
источник

DV

Dima Veselov in Natural Language Processing
Ну да, когда-нибудь сделаю.
источник

DV

Dima Veselov in Natural Language Processing
Сейчас, если хочется попробовать, можно делать запросы к https://github.com/bureaucratic-labs/playground
источник
2017 February 06

NT

Nick Turusin in Natural Language Processing
Возвращаюсь сюда со строкой-киллером, как и обещал
источник

NT

Nick Turusin in Natural Language Processing
:))
источник

NT

Nick Turusin in Natural Language Processing
Код:
combinator = Combinator([Person, Organisation, Brand, Date, Location, Money])
       matches = combinator.extract(text)

       for grammar, match in combinator.resolve_matches(matches):
источник

NT

Nick Turusin in Natural Language Processing
и строка ‘1433 - 40817810505751201174’
источник

NT

Nick Turusin in Natural Language Processing
Ошибка: OverflowError: Python int too large to convert to C long
источник