Size: a a a

Natural Language Processing

2020 March 02

МД

Много Дел in Natural Language Processing
Всем привет! Долгое время бьюсь над одной задачей для своего проекта и может быть тут смогут подсказать направление примерное, куда копать.

Суть в том, чтобы извлекать из текста объявления о каком-нибудь мероприятии (лекция, концерт, мастер-класс) такие сущности: дата, время, стоимость, место. Тексты на русском языке.

Это вроде как типовая named entity extraction задача. Для русского языка существует yargy parser знаю. Но может подскажите ещё какие-нибудь подходы?


Размеченного корпуса как такового нет. Есть наскрэпленные тексты с метаданными со всяких афиш-сайтов, но там не всегда в самом тексте есть указание даты и места.
источник
2020 March 03

D

Dmitry in Natural Language Processing
Много Дел
Всем привет! Долгое время бьюсь над одной задачей для своего проекта и может быть тут смогут подсказать направление примерное, куда копать.

Суть в том, чтобы извлекать из текста объявления о каком-нибудь мероприятии (лекция, концерт, мастер-класс) такие сущности: дата, время, стоимость, место. Тексты на русском языке.

Это вроде как типовая named entity extraction задача. Для русского языка существует yargy parser знаю. Но может подскажите ещё какие-нибудь подходы?


Размеченного корпуса как такового нет. Есть наскрэпленные тексты с метаданными со всяких афиш-сайтов, но там не всегда в самом тексте есть указание даты и места.
Pullenti
источник

D

Dmitry in Natural Language Processing
rudatetimeparser
источник

МД

Много Дел in Natural Language Processing
Dmitry
Pullenti
О, спасибо большое, буду пробовать
источник

NJ

N J in Natural Language Processing
Hello guys, I've some cool articles about natural language processing and the future of it. Would love it if you guys could tell me any opinions
источник

NJ

N J in Natural Language Processing
источник

NJ

N J in Natural Language Processing
источник

N

Nikita in Natural Language Processing
Ребят, привет! Нужно оценить качество распознавания речи разными системами, не подскажите какими инструментами я могу это сделать? Или куда гуглить? :)
Спасибо!
источник

V

Vlad in Natural Language Processing
Привет, гуглить WER и SER, это основные метрики. Тесты пишутся за пару часов, самое главное - нужен проверочный датасет из вашей предметной области и в ваших условиях, иначе тесты будут не совсем справедливыми и результаты будут отличаться от того, что получите на практике)

Ну и такие вопросы лучше задавать в соседнем чате - https://t.me/speech_recognition_ru
источник

OS

Oleg Serikov in Natural Language Processing
у вас есть любимые регулярки?
источник

A

Aragaer in Natural Language Processing
\s+
источник

V

Vlad in Natural Language Processing
[^a-zA-Zа-яА-Я0-9!\?,\.:-]+
источник

MF

M F in Natural Language Processing
Oleg Serikov
у вас есть любимые регулярки?
.* 😜
источник

YB

Yuri Baburov in Natural Language Processing
Vlad
[^a-zA-Zа-яА-Я0-9!\?,\.:-]+
а у меня похожая, но с Ё
[^a-zA-Zа-яёА-ЯЁ0-9]
источник

V

Vlad in Natural Language Processing
точно, про ё забыл)
источник
2020 March 04

DV

Dima Veselov in Natural Language Processing
Перевёл статью из MIT, рассказывающую о разработке ПО TextFooler, способную обманывать NLP- системы.  Может, кому перевод интересен будет: https://t.me/cadr_space/9
Telegram
CADR SPACE
В Массачусском технологическом университете  (MIT) разработали программу TextFooler, которая призвана обманывать системы обработки естесственного текста (NLP) и заставлять их делать неправильные выводы о смысле текста.  Для справки: NLP-системы используются, к примеру, голосовыми помощниками вроде Алисы (Yandex), Alexa (Amazon) или Siri (Apple) для разбора и обработки запросов пользователей.

"Если данные инструменты уязвимы для целенаправленных атак, то последствия могут быть катастрофическими," -- говорит Di Jin, аспирант MIT и главный автор статьи по теме TextFooler, -- "Эти инструменты должны иметь эффективные методы самозащиты, и для разработки подобных методов мы должны сначала понять методы атак."

TextFooler состоит из двух частей: первая часть изменяет исходный текст, вторая часть использует изменённый текст для проверки, могут ли изменения обмануть два разных метода распознавания естественного языка.

Система находит наиболее важные для понимания смысла текста слова, которые повлияют на конечную модель…
источник

NJ

N J in Natural Language Processing
источник

NJ

N J in Natural Language Processing
Check this out guys, it's about privacy in NLP. Let me know your views :)
источник

K

Kamil in Natural Language Processing
Всем привет 🖐
А все библиотеки по распознованию языков используют Google API?
источник

NK

Nikolay Karelin in Natural Language Processing
Kamil
Всем привет 🖐
А все библиотеки по распознованию языков используют Google API?
Конечно нет. Есть куча открытых решений.
источник