Size: a a a

Natural Language Processing

2017 October 20

dr

darya rodionova in Natural Language Processing
TreeTagger*
источник
2017 October 26

AB

Artur Bekerov in Natural Language Processing
Привет. мне кажется немного странным что не распознаются тыс и млн руб в MoneyExtractor

Насколько сложно будет реализовать подобное (чтобы не только распознавал сущность, но и модифицировал на лету)?
источник

AB

Artur Bekerov in Natural Language Processing
например, 100 млн руб и на выходе Money(amount=100000000, currency='руб')
источник
2017 November 01

EI

Eugene Istomin in Natural Language Processing
Доброе )
Посмотрел Наташу,  классно сделали!
источник

EI

Eugene Istomin in Natural Language Processing
Eugene Istomin
Доброе )
Посмотрел Наташу,  классно сделали!
UPD:
Ещё есть пара вопросов:
1) Я прогоняю ner-ом Наташи книгу, страниц на 300-500. Хотелось бы, чтобы в match.facts была строка вхождения и возможность "цеплять" объекты книжной  разметки - главы, номера страниц.

Сделал всё, кроме глав - тут нужно парсер писать: {'fact_class': 'organisation',  'page': 11, 'line': 985, 'position': 31, 'fact_name': 'Пензенская научная школа'}


2) LocationExtractor - работает очень специфично )) много ложных срабатываний
3) Есть желание сделать удобный экспорт в Elastic? Я бы помог
источник

AB

Artur Bekerov in Natural Language Processing
не проще предварительно разбить на разделы?
источник

EI

Eugene Istomin in Natural Language Processing
Artur Bekerov
не проще предварительно разбить на разделы?
Что ты имеешь в виду под "разделами"?
источник

AB

Artur Bekerov in Natural Language Processing
главы, номера страниц.
источник

EI

Eugene Istomin in Natural Language Processing
Artur Bekerov
главы, номера страниц.
проще, конечно. Знаешь инструменты?
Я всё перепробовал (от gs и calibre до pdf2text и мелкотни) - не нашел пока баланса между маркдауном и размером.
pdf2htmlex делает хороший маркдаун, с содержанием - а html-код весь на div-ах, чтобы текст не поехал
источник

AB

Artur Bekerov in Natural Language Processing
а что за формат книги?
в ворде, fb2 ?
источник

EI

Eugene Istomin in Natural Language Processing
Artur Bekerov
а что за формат книги?
в ворде, fb2 ?
форматы читалок и pdf, там TOC и разметка базовая есть всегда
источник

EI

Eugene Istomin in Natural Language Processing
Делаем "клуб читателей книг" в формате генерализации смыслов книг.
источник

AB

Artur Bekerov in Natural Language Processing
а страница зависит не от разрешения читалки разве ?
и если ты делаешь меньше/больше то меняется текущая страница и кол-во страниц
источник

EI

Eugene Istomin in Natural Language Processing
Artur Bekerov
а страница зависит не от разрешения читалки разве ?
и если ты делаешь меньше/больше то меняется текущая страница и кол-во страниц
да, это так. Поэтому за стандарт что-нибудь возмём - думаю, A5-размерное
источник

EI

Eugene Istomin in Natural Language Processing
Поэтому про механику конвертеров я пока не говорю здесь - интересно просто ner для книжек сделать - там могут быть элементы "главы" и "подглавы"
источник

EI

Eugene Istomin in Natural Language Processing
Ребята, я за пару дней общения в чате продвинулся к одной из наших задумок - помогать людям читать книги. Спасибо за это! )
http://telegra.ph/Generalizaciya-dannyh---chast-01-11-01
Так как воодушевляющих чата было три (Elixir, ES, NLP) - то просто поделюсь во все три )
источник

АМ

Александр Мамаев in Natural Language Processing
Но ты же только сегодня присоединился
источник

EI

Eugene Istomin in Natural Language Processing
Александр Мамаев
Но ты же только сегодня присоединился
Неделю до этого искал, пробовал, сюда пришел уже когда "устал костыли заколачивать" )
Чат внимательно читал, кстати, с начала. И понял всё, что недопонял о Natasha. Вот это действительно оказалось ценно!
источник
2017 November 06

EI

Eugene Istomin in Natural Language Processing
Сделал тест-кейс, на котором буду проверять точность ner
Код - https://github.com/ConTextMe/contextme_batchprocessor/blob/master/ner/pdf_ner.py
источник

EI

Eugene Istomin in Natural Language Processing
Eugene Istomin
Сделал тест-кейс, на котором буду проверять точность ner
Код - https://github.com/ConTextMe/contextme_batchprocessor/blob/master/ner/pdf_ner.py
выложу результат бенчмарка:
- исходный pdf "Malinovsky_history.pdf" - 7.2 MB, 384 страницы
- 3 словаря  - имена, даты, организации

Распознавание по 3 словарям + экспорт координат аннотации:
~ 5 минут 50 секунд (~ 0.9 секунды на страницу)
источник