Size: a a a

Natural Language Processing

2021 November 23

DD

David Dale in Natural Language Processing
Смотря насколько качественно ты его сможешь испортить.

Идеальное решение, как мне кажется - взять качественный параллельный speech корпус (типа аудиокниг), аугментировать аудио-часть разными шумами и т.п., прогнать её через ASR, и получить грязные тексты. И по ним предсказывать тексты оригинальные. То есть полностью воссоздать тот шум, который вносит ASR модель. Но, увы, если ASR дорогой, то и всё решение дорогое.

(Но, если что, я не настоящий сварщик, и речью никогда всерьёз не занимался)
источник

cu

custom username in Natural Language Processing
#yargy #pymorphy

Добрый день!
Кто-нибудь сталкивался с тем, что последняя версия yargy (0.15.0) (pymorphy2==0.9) не вывозит порядковые числительные (не распознаются как числа)?
Грамматику для числа брал из Word-to-Number-Russian и с yargy 0.11.0 и pymorphy2==0.8) всё прекрасно распознаётся.

Как с этим можно бороться? проблема в пайморфи как я понимаю
источник

ИК

Иван Каилов... in Natural Language Processing
Добрый день.
Может кто написать анализатор входящей почты по IMAP по жестким фильтрам.
Язык программирования не важно какой.
За разумную цену разумеется)
За подробностями в ЛС напишите, плиз)
источник

I

Igor in Natural Language Processing
Всем привет, подскажите, пожалуйста, есть ли решения для разбиения текста на абзацы?
источник

SP

Sebastian Pereira in Natural Language Processing
По смыслу или табуляции? По второму варианту решается регулярками. Ищете как тут https://stackoverflow.com/questions/18568105/how-to-match-a-paragraph-using-regex
источник

SP

Sebastian Pereira in Natural Language Processing
По контексту, если какой-то OCR или мусор в данных - сложнее, nltk или spacy для вычленения предложений и потом кластеризовать.
источник

I

Igor in Natural Language Processing
по смыслу. При формировании стенограммы совещания получается длинная реплика говорящего, которая с увеличением размера становится все менее читаема
источник

SP

Sebastian Pereira in Natural Language Processing
О добро пожаловать в джунгли!
источник

SP

Sebastian Pereira in Natural Language Processing
Такую же задачу решаем.
источник

SP

Sebastian Pereira in Natural Language Processing
Topic modeling , unsupervised clustering и все что есть в копилку.
источник

SP

Sebastian Pereira in Natural Language Processing
Вера в существование основных мыслей в совещании ничем пока экспериментально не подтверждена)
источник

D

Dmitry in Natural Language Processing
Аналогично, такую же задачу решаем)
источник

IG

Ilya Gusev in Natural Language Processing
возможно вам будет полезно: https://www.aclweb.org/portal/content/first-shared-task-automatic-minuting-interspeech-2021
Это соревнование по суммаризации стенограмм. Но там уже всё разбито на реплики
источник

DD

David Dale in Natural Language Processing
Я эту задачу не решал никогда, но если решал бы, попробовал бы решить в supervised режиме:
1) набрать где-то структурированных текстов: статьи, книги, хорошо отформатированные стенограммы
2) испортить их, склеив все параграфы в большую колбасу
3) обучить модель после каждого слова предсказывать, должен ли там заканчиваться абзац
С обычной пунктуацией это работает неплохо; наверное, должно и с абзацами зайти.
источник

FF

Futorio Franklin in Natural Language Processing
На уровне слов нужно тогда хранить большой контекст для абзацев
источник

FF

Futorio Franklin in Natural Language Processing
Может лучше как-то проверять, входит ли предыдущее предложение в абзац
источник

N

Natalia in Natural Language Processing
вы так говорите, как будто абзацы вообще задача с единственным решением... :(
источник

FF

Futorio Franklin in Natural Language Processing
Собственно тоже не решал эту задачу никогда
источник

N

Natalia in Natural Language Processing
я к тому, что это, конечно, сложно
источник

KS

Konstantin Shitkov in Natural Language Processing
Решал похожее. Учил на Википедии - склеивал статью и проставлял 1 на концевых предложениях. Потом лстм над эмбеддингами. Можно ещё Бертом идти окном и сравнивать связность наборов токенов правой и левой частей окна.
источник