Size: a a a

Natural Language Processing

2020 January 23

VB

Vladimir Bougay in Natural Language Processing
Sebastian Pereira
Построчно тоже не вариант, к сожалению.
В смысле по предложениям?
источник

VB

Vladimir Bougay in Natural Language Processing
Для кучи задач текст внутри однофигственно на предложения будет разбит неявно
источник

SM

SAP ML FAN in Natural Language Processing
Dear Everyone,
On First February SAP inside Track bangalore 2020 is going to happen at SAP labs, there was very limited seat and all got booked. But team came up with youtube live streaming channel. Please subscribe the youtube channel, need 1000 subscriber to make live streaming. below is the link
https://www.youtube.com/channel/UC3LksusqzEE8CiBSL8UmwvA
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Коллеги, у меня огромный текстовый файл, который (не спрашивайте почему) нельзя поделить на части. Spacy виснет на стадии парсера  nlp(doc) может есть какой-то ленивый способ этого избежать?
нету такого способа, там же последовательный процессинг идёт по длине текста.
но вы можете в одном потоке сделать парсер, в другом NER — они независимы, общий только токенизатор, а вектора каждый раз заново просто загрузятся.
но вы можете поделить по абзацам, или просто по N токенов, тогда потери будут минимальны, и тем меньше, чем больше это N.
источник

SP

Sebastian Pereira in Natural Language Processing
Yuri Baburov
нету такого способа, там же последовательный процессинг идёт по длине текста.
но вы можете в одном потоке сделать парсер, в другом NER — они независимы, общий только токенизатор, а вектора каждый раз заново просто загрузятся.
но вы можете поделить по абзацам, или просто по N токенов, тогда потери будут минимальны, и тем меньше, чем больше это N.
там хаотичный транскрибированный текст, и разбивка по абзацам, и по пробелам дает кучу ошибок, для того я spacy matcher и мучаю.
источник

SP

Sebastian Pereira in Natural Language Processing
будем резать по живому, что делать
источник

D

Dmitry in Natural Language Processing
Sebastian Pereira
там хаотичный транскрибированный текст, и разбивка по абзацам, и по пробелам дает кучу ошибок, для того я spacy matcher и мучаю.
может вам натравить нейронку которая знаки препинания расставляет?
источник

D

Dmitry in Natural Language Processing
а потом уже делить
источник

V

Vlad in Natural Language Processing
Sebastian Pereira
Коллеги, у меня огромный текстовый файл, который (не спрашивайте почему) нельзя поделить на части. Spacy виснет на стадии парсера  nlp(doc) может есть какой-то ленивый способ этого избежать?
А вы уверены, что он именно виснет, а не просто очень долго парсит?
У меня похоже было с английским spaCy и файлом на 300мб
источник

V

Vlad in Natural Language Processing
Он несколько минут жрал оперативу и грузил проц, но потом его отпустило и всё ок)
источник

DZ

Dana Zlochevskaya in Natural Language Processing
Dmitry
может вам натравить нейронку которая знаки препинания расставляет?
Может знаете что-нибудь уже обученное под русский язык для этой задачи? :)
источник

D

Dmitry in Natural Language Processing
Dana Zlochevskaya
Может знаете что-нибудь уже обученное под русский язык для этой задачи? :)
Под русский язык?
Думаю задача общая, а датасетов написано уже немало.
источник

D

Dmitry in Natural Language Processing
Толстым например, несколько томов, да и вообще русская литература))
источник

D

Dmitry in Natural Language Processing
А так то да, есть punctuator например, еще несколько моделек
источник

D

Dmitry in Natural Language Processing
Вот например одна из них https://github.com/vackosar/keras-punctuator
источник

D

Dmitry in Natural Language Processing
источник

DZ

Dana Zlochevskaya in Natural Language Processing
Как обучать понятно (жаль пока транскрибации до Толстого далеко) ;) я имела в виду готовые модели для русского языка в целом или транскрибации в частности, в свое время не нашла. Все любом случае спасибо за помощь)
источник

D

Dmitry in Natural Language Processing
Да, увы до транскрибации далеко, но в принципе если анализировать речь каждого диктора по отдельности, а не сплошным речевым потоком, то можно расставить знаки нормально.
источник

SS

Sergey Shulga in Natural Language Processing
Смущает, что они очень древние. При этом по метрикам не сказать чтобы сота. Я тут думаю свою собрать, задача не кажется сложной
источник
2020 January 24

D

Dmitry in Natural Language Processing
Sergey Shulga
Смущает, что они очень древние. При этом по метрикам не сказать чтобы сота. Я тут думаю свою собрать, задача не кажется сложной
Да, задача не сложная
источник