Телеграмм чат группы natural_language_processing страница 583

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1350 membersпожаловаться на группу

2020 January 30

V

Vlad in Natural Language Processing

Лично я использую pymorphy2, т.к. он полностью открытый. Знаю ещё про http://morpher.ru/, но там нет python библиотеки, однако php разработчики знаю, что покупают и пользуются им)

А Яндексовский MyStem конечно хороший, но это не опенсорс решение и в прод его не засунешь, хоть Яндекс это как бы и не запрещает, если ты не делаешь поисковик и не конкурируешь ему

Морфер – программа склонения по падежам

Программа склонения слов и словосочетаний, в том числе фамилий, имен и отчеств, на русском и украинском языках.
Реализована в виде библиотеки (компоненты, DLL) для различных языков программирования:
.NET, Delphi, 1С, Excel и в виде веб-сервиса.
Статьи по русской морфологии и автоматической обработке текстов.
Автор Сергей Слепов.

источник

12:37пожаловаться #1

А

Александр in Natural Language Processing

Лично я использую pymorphy2, т.к. он полностью открытый. Знаю ещё про http://morpher.ru/, но там нет python библиотеки, однако php разработчики знаю, что покупают и пользуются им)

А Яндексовский MyStem конечно хороший, но это не опенсорс решение и в прод его не засунешь, хоть Яндекс это как бы и не запрещает, если ты не делаешь поисковик и не конкурируешь ему

Морфер – программа склонения по падежам

Программа склонения слов и словосочетаний, в том числе фамилий, имен и отчеств, на русском и украинском языках.
Реализована в виде библиотеки (компоненты, DLL) для различных языков программирования:
.NET, Delphi, 1С, Excel и в виде веб-сервиса.
Статьи по русской морфологии и автоматической обработке текстов.
Автор Сергей Слепов.

Немного дополню про mystem. Там дословно в лицензии в ограничениях следующее:
использование Программы для создания сервисов или программ или в составе сервисов или программ, предлагающих услуги или функциональность, аналогичную программам и сервисам Правообладателя.
Ну т.е. в любой момент могут прикрыть доступ, посчитав, что функциональность аналогичная

источник

13:20пожаловаться #2

КЧ

Квадрат Чёрный in Natural Language Processing

Aleksandr Mester

Добрый день. Есть задача распарсить дерево заголовков и подзаголовков в пдф документах. При этом шрифты, формат и форма в документах может быть разная. Может кто-нибудь работал с подобными задами и подсказать решение подобного рода задач? Стоит ли пытаться определять заголовки методами НЛП? Или есть мысль пытаться распознавать, что это заголовок по изображению. Спасибо

Надо смотреть разношерстость пдфов. Там сложности что у пдфа несколько форматов-стандартов. Одинаковый внешне текст может иметь разную структуру в пдф разметке. Все парсеры пдфа пару лет назад работали ограниченно и иногда вносили доп сложности. Это если методами нлп и анализом структуры документа.

распознаванием с картинки не занимался. Если сделаете то у такого подхода есть преимущество так как некоторые пдфы невозможно анализировать без распознавания картинок (там бывают картинки текста вместо разметки, это когда пдф из скана делают)

источник

13:21пожаловаться #3

AM

Aleksandr Mester in Natural Language Processing

Квадрат Чёрный

Надо смотреть разношерстость пдфов. Там сложности что у пдфа несколько форматов-стандартов. Одинаковый внешне текст может иметь разную структуру в пдф разметке. Все парсеры пдфа пару лет назад работали ограниченно и иногда вносили доп сложности. Это если методами нлп и анализом структуры документа.

распознаванием с картинки не занимался. Если сделаете то у такого подхода есть преимущество так как некоторые пдфы невозможно анализировать без распознавания картинок (там бывают картинки текста вместо разметки, это когда пдф из скана делают)

спасибо

источник

13:22пожаловаться #4

GA

George A in Natural Language Processing

Ребята, подскажите плиз норм модели по нахождению адресов улиц, локаций, райнов, названий станций метро? Всё по москве, если что

P.S. наташа не зашла

источник

20:14пожаловаться #5

VI

Vitaly Ivanin in Natural Language Processing

Мы тут в рамках конференции "Диалог" проводим соревнование, разрешите порекламироваться:

Приглашаем всех принять участие в соревновании RuREBus на конференции "Диалог 2020".

Соревнование включает в себя 3 задачи:
1. NER
2. Relation extraction с уже размеченными сущностями
3. End-to-end relation extraction на plain тексте.

Особенность дорожки в том, что в дополнение к train части будет выдана большая коллекция неразмеченных текстов из того же домена. Также датасет проектировался как приближенный к реальной бизнес-задаче, поэтому типов сущностей и отношений довольно много и они нестандартны.

Подробности можно прочитать в репозитории:
https://github.com/dialogue-evaluation/RuREBus

Официальная страничка на "Диалоге":
http://www.dialog-21.ru/evaluation/

Тг чатик соревнования:
https://t.me/joinchat/GH1hLBH6dv8tTviF-dBFLA

dialogue-evaluation/RuREBus

RuREBus shared task repo. Contribute to dialogue-evaluation/RuREBus development by creating an account on GitHub.

источник

22:49пожаловаться #6

2020 January 31

SP

Sebastian Pereira in Natural Language Processing

Коллеги, привет! Мы тут решаем задачу распознавания дат написанных естественным языком, и начинаем с нуля, ищем способ вычленять даты из текста с большей аккуратностью чем Spacy и Flair. Решение на английском языке, может кто-то решал подобную задачу? Пока идея дообучить существующие модели, но в данном конкретном случае сложно придумать корпус для «дообучения».

источник

16:35пожаловаться #7

YB

Yuri Baburov in Natural Language Processing

Sebastian Pereira

Коллеги, привет! Мы тут решаем задачу распознавания дат написанных естественным языком, и начинаем с нуля, ищем способ вычленять даты из текста с большей аккуратностью чем Spacy и Flair. Решение на английском языке, может кто-то решал подобную задачу? Пока идея дообучить существующие модели, но в данном конкретном случае сложно придумать корпус для «дообучения».

а разве так много вариантов написания?
насчёт датасета:
1) ищите регулярками с избытком (например "ago", "at", "year", "\b{4}\b", ...), а потом размечайте, где ошибка, а где нет.
2) spacy-en научена на ontonotes.
3) https://www.kaggle.com/google-nlu/text-normalization (лицензия non-commercial) , там есть текстовые написания, но вроде бы там лишь три формата <year> , <month><year> и <date><month><year>, написанные текстом
4) делать transfer learning с BERT.

Google Text Normalization Challenge

Text-to-speech synthesis text normalization data, from Sproat & Jaitly 2016

источник

16:44пожаловаться #8

SP

Sebastian Pereira in Natural Language Processing

А можно побольше про transfer learning ? Откуда лучше начать копать?

источник

16:52пожаловаться #9

SP

Sebastian Pereira in Natural Language Processing

И да, внезапно вариативность дат в человеческом языке выше чем кажется.

источник

16:53пожаловаться #10

SP

Sebastian Pereira in Natural Language Processing

Мы сами немного были раздосадованы.

источник

16:53пожаловаться #11

YB

Yuri Baburov in Natural Language Processing

5) есть ещё "распознавалки дат". если сначала сделать detection с помощью regexp, то такая распознавалка скажет, дата это или нет и какая именно. они на правилах обычно, но большую часть случаев покрывают (да почти все). могут быть false positives, конечно.

источник

16:53пожаловаться #12

YB

Yuri Baburov in Natural Language Processing

Sebastian Pereira

И да, внезапно вариативность дат в человеческом языке выше чем кажется.

да, конечно, выше, но всё же...

источник

16:53пожаловаться #13

YB

Yuri Baburov in Natural Language Processing

Sebastian Pereira

А можно побольше про transfer learning ? Откуда лучше начать копать?

http://docs.deeppavlov.ai/en/master/features/models/ner.html#multilingual-bert-zero-shot-transfer
для pytorch то же самое на huggingface можно сделать.
чтобы даты с избытком повыделялись, можно class detection threshold установить не на уровне 0.5, а, скажем, 0.001

источник

16:56пожаловаться #14

VI

Vitaly Ivanin in Natural Language Processing

Sebastian Pereira

И да, внезапно вариативность дат в человеческом языке выше чем кажется.

А у вас только точное указание дат или относительное тоже интересует (через "неделю после начала февраля")? Может из-за этого такая вариативность или можете примеры привести? (интересно)

источник

16:59пожаловаться #15

SP

Sebastian Pereira in Natural Language Processing

Да относительные даты тоже

источник

16:59пожаловаться #16

SP

Sebastian Pereira in Natural Language Processing

Next week

источник

17:00пожаловаться #17

SP

Sebastian Pereira in Natural Language Processing

Next Monday

источник

17:00пожаловаться #18

SP

Sebastian Pereira in Natural Language Processing

Five years ago

источник

17:00пожаловаться #19

VI

Vitaly Ivanin in Natural Language Processing

ну тут везде есть слова специфичные, по идее регулярка хорошая такое будет ловить

источник

17:01пожаловаться #20