Телеграмм чат группы natural_language

20:13пожаловаться #1

2017 October 26

AB

Привет. мне кажется немного странным что не распознаются тыс и млн руб в MoneyExtractor

Насколько сложно будет реализовать подобное (чтобы не только распознавал сущность, но и модифицировал на лету)?

11:04пожаловаться #2

AB

например, 100 млн руб и на выходе Money(amount=100000000, currency='руб')

11:04пожаловаться #3

2017 November 01

EI

Доброе )
Посмотрел Наташу, классно сделали!

06:14пожаловаться #4

EI

Eugene Istomin

Доброе )
Посмотрел Наташу, классно сделали!

UPD:
Ещё есть пара вопросов:
1) Я прогоняю ner-ом Наташи книгу, страниц на 300-500. Хотелось бы, чтобы в match.facts была строка вхождения и возможность "цеплять" объекты книжной разметки - главы, номера страниц.

Сделал всё, кроме глав - тут нужно парсер писать: {'fact_class': 'organisation', 'page': 11, 'line': 985, 'position': 31, 'fact_name': 'Пензенская научная школа'}

2) LocationExtractor - работает очень специфично )) много ложных срабатываний
3) Есть желание сделать удобный экспорт в Elastic? Я бы помог

07:34пожаловаться #5

AB

не проще предварительно разбить на разделы?

10:53пожаловаться #6

EI

не проще предварительно разбить на разделы?

Что ты имеешь в виду под "разделами"?

11:18пожаловаться #7

AB

главы, номера страниц.

11:19пожаловаться #8

EI

главы, номера страниц.

проще, конечно. Знаешь инструменты?
Я всё перепробовал (от gs и calibre до pdf2text и мелкотни) - не нашел пока баланса между маркдауном и размером.
pdf2htmlex делает хороший маркдаун, с содержанием - а html-код весь на div-ах, чтобы текст не поехал

11:21пожаловаться #9

AB

а что за формат книги?
в ворде, fb2 ?

11:22пожаловаться #10

EI

а что за формат книги?
в ворде, fb2 ?

форматы читалок и pdf, там TOC и разметка базовая есть всегда

11:22пожаловаться #11

EI

Делаем "клуб читателей книг" в формате генерализации смыслов книг.

11:23пожаловаться #12

AB

а страница зависит не от разрешения читалки разве ?
и если ты делаешь меньше/больше то меняется текущая страница и кол-во страниц

11:24пожаловаться #13

EI

а страница зависит не от разрешения читалки разве ?
и если ты делаешь меньше/больше то меняется текущая страница и кол-во страниц

да, это так. Поэтому за стандарт что-нибудь возмём - думаю, A5-размерное

11:25пожаловаться #14

EI

Поэтому про механику конвертеров я пока не говорю здесь - интересно просто ner для книжек сделать - там могут быть элементы "главы" и "подглавы"

11:27пожаловаться #15

EI

Генерализация данных - часть 0.1

Ребята, я за пару дней общения в чате продвинулся к одной из наших задумок - помогать людям читать книги. Спасибо за это! )
http://telegra.ph/Generalizaciya-dannyh---chast-01-11-01
Так как воодушевляющих чата было три (Elixir, ES, NLP) - то просто поделюсь во все три )

Telegraph

Берем книгу Б.Н. Малиновского "История вычислительной техники в лицах". Понимаем, что уже 4-ый раз перечитываем - но контекст ооочень туго входит - история "разлома" десятков проектов рассказана очень ярко, но вот даты-люди-события - .... каша, в общем, в голове ) Но тут встречаем Наталию (интересная история, да? Как оказалось, у меня сейчас в технологической проработке Elixir-Telegram-бот Надя и семантический обработчик Наташа).Аккуратно её просим нам помочь - и вуаля :) Первое - простое. Эта книга про 1950…

Александр Мамаев in Natural Language Processing

15:09пожаловаться #16

АМ

Но ты же только сегодня присоединился

15:13пожаловаться #17

EI

Александр Мамаев

Но ты же только сегодня присоединился

Неделю до этого искал, пробовал, сюда пришел уже когда "устал костыли заколачивать" )
Чат внимательно читал, кстати, с начала. И понял всё, что недопонял о Natasha. Вот это действительно оказалось ценно!

15:17пожаловаться #18

2017 November 06

EI

Генерализация данных - часть 0.1

Eugene Istomin

Ребята, я за пару дней общения в чате продвинулся к одной из наших задумок - помогать людям читать книги. Спасибо за это! )
http://telegra.ph/Generalizaciya-dannyh---chast-01-11-01
Так как воодушевляющих чата было три (Elixir, ES, NLP) - то просто поделюсь во все три )

Telegraph

Берем книгу Б.Н. Малиновского "История вычислительной техники в лицах". Понимаем, что уже 4-ый раз перечитываем - но контекст ооочень туго входит - история "разлома" десятков проектов рассказана очень ярко, но вот даты-люди-события - .... каша, в общем, в голове ) Но тут встречаем Наталию (интересная история, да? Как оказалось, у меня сейчас в технологической проработке Elixir-Telegram-бот Надя и семантический обработчик Наташа).Аккуратно её просим нам помочь - и вуаля :) Первое - простое. Эта книга про 1950…

Malinovsky2.pdf

(287.05 Кб)

Сделал тест-кейс, на котором буду проверять точность ner
Код - https://github.com/ConTextMe/contextme_batchprocessor/blob/master/ner/pdf_ner.py

05:23пожаловаться #19

EI

Eugene Istomin

Malinovsky2.pdf

(287.05 Кб)

Сделал тест-кейс, на котором буду проверять точность ner
Код - https://github.com/ConTextMe/contextme_batchprocessor/blob/master/ner/pdf_ner.py

выложу результат бенчмарка:
- исходный pdf "Malinovsky_history.pdf" - 7.2 MB, 384 страницы
- 3 словаря - имена, даты, организации

Распознавание по 3 словарям + экспорт координат аннотации:
~ 5 минут 50 секунд (~ 0.9 секунды на страницу)