Телеграмм чат группы natural_language

17:21пожаловаться #4

21:55пожаловаться #5

обновил онлайн демку (если кто-то вообще ею пользуется :), теперь это выглядит так

Alexander Kukushkin in Natural Language Processing

21:55пожаловаться #6

2017 February 04

А 900 КБ/м — это много или мало? Не известно как это соотносится с участниками factRuEval и Томитой?

00:28пожаловаться #7

Что такое Томита-парсер, как Яндекс с его помощью понимает естественный язык, и как вы с его помощью сможете извлекать факты из текстов

В статьях про томиту говорят про 80 МБ/час (например, https://habrahabr.ru/company/yandex/blog/219311/#comment_7496031), комментарием ниже скорость примерно 22 МБ/м

habrahabr.ru

Мечта о том, чтобы машина понимала человеческий язык, завладела умами еще когда компьютеры были большими, а их производительность – маленькой. Главная проблема...

00:33пожаловаться #8

Про других участников не знаю.

00:34пожаловаться #9

Вообще, всё это дело параллелится же на раз-два, т.ч. это не самая большая проблема (как мне кажется)

00:35пожаловаться #10

Я как-то считал: можно распарсить условный дамп википедии (100 GB) параллельно, используя API на AWS Lambda, с ограничением в 1 MB загружаемого текста (чтобы уложится в 128 МБ оперативки) и всё это обойдется примерно в $2.

00:37пожаловаться #11

(распарсить полным набором грамматик наташи)

Alexander Kukushkin in Natural Language Processing

00:38пожаловаться #12

Кстати, кому-то может быть удобно использовать Наташу через HTTP, чтобы на бекэнде всё уже было распараллено и на pypy

00:40пожаловаться #13

Ну да, когда-нибудь сделаю.

00:43пожаловаться #14

HTTP API that powers Natasha playground

Сейчас, если хочется попробовать, можно делать запросы к https://github.com/bureaucratic-labs/playground

GitHub

bureaucratic-labs/playground

00:43пожаловаться #15

2017 February 06

Возвращаюсь сюда со строкой-киллером, как и обещал

23:45пожаловаться #16

:))

23:45пожаловаться #17

Код:

combinator = Combinator([Person, Organisation, Brand, Date, Location, Money])
        matches = combinator.extract(text)

        for grammar, match in combinator.resolve_matches(matches):

23:46пожаловаться #18

и строка ‘1433 - 40817810505751201174’

23:46пожаловаться #19

Ошибка: OverflowError: Python int too large to convert to C long