Size: a a a

Natural Language Processing

2020 January 30

V

Vlad in Natural Language Processing
Лично я использую pymorphy2, т.к. он полностью открытый. Знаю ещё про http://morpher.ru/, но там нет python библиотеки, однако php разработчики знаю, что покупают и пользуются им)

А Яндексовский MyStem конечно хороший, но это не опенсорс решение и в прод его не засунешь, хоть Яндекс это как бы и не запрещает, если ты не делаешь поисковик и не конкурируешь ему
источник

А

Александр in Natural Language Processing
Vlad
Лично я использую pymorphy2, т.к. он полностью открытый. Знаю ещё про http://morpher.ru/, но там нет python библиотеки, однако php разработчики знаю, что покупают и пользуются им)

А Яндексовский MyStem конечно хороший, но это не опенсорс решение и в прод его не засунешь, хоть Яндекс это как бы и не запрещает, если ты не делаешь поисковик и не конкурируешь ему
Немного дополню про mystem. Там дословно в лицензии в ограничениях следующее:
использование Программы для создания сервисов или программ или в составе сервисов или программ, предлагающих услуги или функциональность, аналогичную программам и сервисам Правообладателя.
Ну т.е. в любой момент могут прикрыть доступ, посчитав, что функциональность аналогичная
источник

КЧ

Квадрат Чёрный in Natural Language Processing
Aleksandr Mester
Добрый день. Есть задача распарсить дерево заголовков и подзаголовков в пдф документах. При этом шрифты, формат и форма в документах может быть разная. Может кто-нибудь работал с подобными задами и подсказать решение подобного рода задач? Стоит ли пытаться определять заголовки методами НЛП? Или есть мысль пытаться распознавать, что это заголовок по изображению. Спасибо
Надо смотреть разношерстость пдфов. Там сложности что у пдфа несколько форматов-стандартов. Одинаковый внешне текст может иметь разную структуру в пдф разметке. Все парсеры пдфа пару лет назад работали ограниченно и иногда вносили доп сложности. Это если методами нлп и анализом структуры документа.

распознаванием с картинки не занимался. Если сделаете то у такого подхода есть преимущество так как некоторые пдфы невозможно анализировать без распознавания картинок (там бывают картинки текста вместо разметки, это когда пдф из скана делают)
источник

AM

Aleksandr Mester in Natural Language Processing
Квадрат Чёрный
Надо смотреть разношерстость пдфов. Там сложности что у пдфа несколько форматов-стандартов. Одинаковый внешне текст может иметь разную структуру в пдф разметке. Все парсеры пдфа пару лет назад работали ограниченно и иногда вносили доп сложности. Это если методами нлп и анализом структуры документа.

распознаванием с картинки не занимался. Если сделаете то у такого подхода есть преимущество так как некоторые пдфы невозможно анализировать без распознавания картинок (там бывают картинки текста вместо разметки, это когда пдф из скана делают)
спасибо
источник

GA

George A in Natural Language Processing
Ребята, подскажите плиз норм модели по нахождению адресов улиц, локаций, райнов, названий станций метро? Всё по москве, если что

P.S. наташа не зашла
источник

VI

Vitaly Ivanin in Natural Language Processing
Мы тут в рамках конференции "Диалог" проводим соревнование, разрешите порекламироваться:

Приглашаем всех принять участие в соревновании RuREBus на конференции "Диалог 2020".

Соревнование включает в себя 3 задачи:
1. NER
2. Relation extraction с уже размеченными сущностями
3. End-to-end relation extraction на plain тексте.

Особенность дорожки в том, что в дополнение к train части будет выдана большая коллекция неразмеченных текстов из того же домена. Также датасет проектировался как приближенный к реальной бизнес-задаче, поэтому типов сущностей и отношений довольно много и они нестандартны.

Подробности можно прочитать в  репозитории:
https://github.com/dialogue-evaluation/RuREBus

Официальная страничка на "Диалоге":
http://www.dialog-21.ru/evaluation/

Тг чатик соревнования:
https://t.me/joinchat/GH1hLBH6dv8tTviF-dBFLA
источник
2020 January 31

SP

Sebastian Pereira in Natural Language Processing
Коллеги, привет! Мы тут решаем задачу распознавания дат написанных естественным языком, и начинаем с нуля, ищем способ вычленять даты из текста с большей аккуратностью чем Spacy и Flair.  Решение на английском языке, может кто-то решал подобную задачу? Пока идея дообучить существующие модели, но в данном конкретном случае сложно придумать корпус для «дообучения».
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Коллеги, привет! Мы тут решаем задачу распознавания дат написанных естественным языком, и начинаем с нуля, ищем способ вычленять даты из текста с большей аккуратностью чем Spacy и Flair.  Решение на английском языке, может кто-то решал подобную задачу? Пока идея дообучить существующие модели, но в данном конкретном случае сложно придумать корпус для «дообучения».
а разве так много вариантов написания?
насчёт датасета:
1) ищите регулярками с избытком (например "ago", "at", "year", "\b{4}\b", ...), а потом размечайте, где ошибка, а где нет.
2) spacy-en научена на ontonotes.
3) https://www.kaggle.com/google-nlu/text-normalization (лицензия non-commercial) , там есть текстовые написания, но вроде бы там лишь три формата <year> , <month><year> и <date><month><year>, написанные текстом
4) делать transfer learning с BERT.
источник

SP

Sebastian Pereira in Natural Language Processing
А можно побольше про transfer learning ? Откуда лучше начать копать?
источник

SP

Sebastian Pereira in Natural Language Processing
И да, внезапно вариативность дат в человеческом языке выше чем кажется.
источник

SP

Sebastian Pereira in Natural Language Processing
Мы сами немного были раздосадованы.
источник

YB

Yuri Baburov in Natural Language Processing
5) есть ещё "распознавалки дат". если сначала сделать detection с помощью regexp, то такая распознавалка скажет, дата это или нет и какая именно. они на правилах обычно, но большую часть случаев покрывают (да почти все). могут быть false positives, конечно.
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
И да, внезапно вариативность дат в человеческом языке выше чем кажется.
да, конечно, выше, но всё же...
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
А можно побольше про transfer learning ? Откуда лучше начать копать?
http://docs.deeppavlov.ai/en/master/features/models/ner.html#multilingual-bert-zero-shot-transfer
для pytorch то же самое на huggingface можно сделать.
чтобы даты с избытком повыделялись, можно class detection threshold установить не на уровне 0.5, а, скажем, 0.001
источник

VI

Vitaly Ivanin in Natural Language Processing
Sebastian Pereira
И да, внезапно вариативность дат в человеческом языке выше чем кажется.
А у вас только точное указание дат или относительное тоже интересует (через "неделю после начала февраля")? Может из-за этого такая вариативность или можете примеры привести? (интересно)
источник

SP

Sebastian Pereira in Natural Language Processing
Да относительные даты тоже
источник

SP

Sebastian Pereira in Natural Language Processing
Next week
источник

SP

Sebastian Pereira in Natural Language Processing
Next Monday
источник

SP

Sebastian Pereira in Natural Language Processing
Five years ago
источник

VI

Vitaly Ivanin in Natural Language Processing
ну тут везде есть слова специфичные, по идее регулярка хорошая такое будет ловить
источник