Телеграмм чат группы natural_language_processing страница 1528

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 November 23

DD

David Dale in Natural Language Processing

Смотря насколько качественно ты его сможешь испортить.

Идеальное решение, как мне кажется - взять качественный параллельный speech корпус (типа аудиокниг), аугментировать аудио-часть разными шумами и т.п., прогнать её через ASR, и получить грязные тексты. И по ним предсказывать тексты оригинальные. То есть полностью воссоздать тот шум, который вносит ASR модель. Но, увы, если ASR дорогой, то и всё решение дорогое.

(Но, если что, я не настоящий сварщик, и речью никогда всерьёз не занимался)

источник

01:04пожаловаться #1

cu

custom username in Natural Language Processing

#yargy #pymorphy

Добрый день!
Кто-нибудь сталкивался с тем, что последняя версия yargy (0.15.0) (pymorphy2==0.9) не вывозит порядковые числительные (не распознаются как числа)?
Грамматику для числа брал из Word-to-Number-Russian и с yargy 0.11.0 и pymorphy2==0.8) всё прекрасно распознаётся.

Как с этим можно бороться? проблема в пайморфи как я понимаю

источник

13:12пожаловаться #2

ИК

Иван Каилов... in Natural Language Processing

Добрый день.
Может кто написать анализатор входящей почты по IMAP по жестким фильтрам.
Язык программирования не важно какой.
За разумную цену разумеется)
За подробностями в ЛС напишите, плиз)

источник

14:42пожаловаться #3

I

Igor in Natural Language Processing

Всем привет, подскажите, пожалуйста, есть ли решения для разбиения текста на абзацы?

источник

14:44пожаловаться #4

SP

Sebastian Pereira in Natural Language Processing

По смыслу или табуляции? По второму варианту решается регулярками. Ищете как тут https://stackoverflow.com/questions/18568105/how-to-match-a-paragraph-using-regex

How to match a paragraph using regex

I have been struggling with python regex for a while trying to match paragraphs within a text, but I haven't been successful. I need to obtain the start and end positions of the paragraphs.

An exa...

источник

14:55пожаловаться #5

SP

Sebastian Pereira in Natural Language Processing

По контексту, если какой-то OCR или мусор в данных - сложнее, nltk или spacy для вычленения предложений и потом кластеризовать.

источник

14:56пожаловаться #6

I

Igor in Natural Language Processing

по смыслу. При формировании стенограммы совещания получается длинная реплика говорящего, которая с увеличением размера становится все менее читаема

источник

14:56пожаловаться #7

SP

Sebastian Pereira in Natural Language Processing

О добро пожаловать в джунгли!

источник

14:57пожаловаться #8

SP

Sebastian Pereira in Natural Language Processing

Такую же задачу решаем.

источник

14:57пожаловаться #9

SP

Sebastian Pereira in Natural Language Processing

Topic modeling , unsupervised clustering и все что есть в копилку.

источник

14:57пожаловаться #10

SP

Sebastian Pereira in Natural Language Processing

Вера в существование основных мыслей в совещании ничем пока экспериментально не подтверждена)

источник

14:58пожаловаться #11

D

Dmitry in Natural Language Processing

Аналогично, такую же задачу решаем)

источник

15:02пожаловаться #12

IG

Ilya Gusev in Natural Language Processing

возможно вам будет полезно: https://www.aclweb.org/portal/content/first-shared-task-automatic-minuting-interspeech-2021
Это соревнование по суммаризации стенограмм. Но там уже всё разбито на реплики

источник

15:04пожаловаться #13

DD

David Dale in Natural Language Processing

Я эту задачу не решал никогда, но если решал бы, попробовал бы решить в supervised режиме:
1) набрать где-то структурированных текстов: статьи, книги, хорошо отформатированные стенограммы
2) испортить их, склеив все параграфы в большую колбасу
3) обучить модель после каждого слова предсказывать, должен ли там заканчиваться абзац
С обычной пунктуацией это работает неплохо; наверное, должно и с абзацами зайти.

источник

15:05пожаловаться #14

FF

Futorio Franklin in Natural Language Processing

На уровне слов нужно тогда хранить большой контекст для абзацев

источник

15:07пожаловаться #15

FF

Futorio Franklin in Natural Language Processing

Может лучше как-то проверять, входит ли предыдущее предложение в абзац

источник

15:08пожаловаться #16

N

Natalia in Natural Language Processing

вы так говорите, как будто абзацы вообще задача с единственным решением... :(

источник

15:08пожаловаться #17

FF

Futorio Franklin in Natural Language Processing

Собственно тоже не решал эту задачу никогда

источник

15:08пожаловаться #18

N

Natalia in Natural Language Processing

я к тому, что это, конечно, сложно

источник

15:09пожаловаться #19

KS

Konstantin Shitkov in Natural Language Processing

Решал похожее. Учил на Википедии - склеивал статью и проставлял 1 на концевых предложениях. Потом лстм над эмбеддингами. Можно ещё Бертом идти окном и сравнивать связность наборов токенов правой и левой частей окна.

источник

15:13пожаловаться #20