Телеграмм чат группы natural_language

Построчно тоже не вариант, к сожалению.

В смысле по предложениям?

Vladimir Bougay in Natural Language Processing

15:13пожаловаться #1

VB

Для кучи задач текст внутри однофигственно на предложения будет разбит неявно

SAP ML FAN in Natural Language Processing

15:14пожаловаться #2

SM

Dear Everyone,
On First February SAP inside Track bangalore 2020 is going to happen at SAP labs, there was very limited seat and all got booked. But team came up with youtube live streaming channel. Please subscribe the youtube channel, need 1000 subscriber to make live streaming. below is the link
https://www.youtube.com/channel/UC3LksusqzEE8CiBSL8UmwvA

YouTube

SAP Inside Track Bangalore

SAP Inside Track Bangalore will take place on 1st February 2020. We will make live streaming from this youtube channel. Please do subscribe so that people wh...

Yuri Baburov in Natural Language Processing

15:28пожаловаться #3

YB

Коллеги, у меня огромный текстовый файл, который (не спрашивайте почему) нельзя поделить на части. Spacy виснет на стадии парсера nlp(doc) может есть какой-то ленивый способ этого избежать?

нету такого способа, там же последовательный процессинг идёт по длине текста.
но вы можете в одном потоке сделать парсер, в другом NER — они независимы, общий только токенизатор, а вектора каждый раз заново просто загрузятся.
но вы можете поделить по абзацам, или просто по N токенов, тогда потери будут минимальны, и тем меньше, чем больше это N.

Sebastian Pereira in Natural Language Processing

15:37пожаловаться #4

SP

Yuri Baburov

нету такого способа, там же последовательный процессинг идёт по длине текста.
но вы можете в одном потоке сделать парсер, в другом NER — они независимы, общий только токенизатор, а вектора каждый раз заново просто загрузятся.
но вы можете поделить по абзацам, или просто по N токенов, тогда потери будут минимальны, и тем меньше, чем больше это N.

там хаотичный транскрибированный текст, и разбивка по абзацам, и по пробелам дает кучу ошибок, для того я spacy matcher и мучаю.

Sebastian Pereira in Natural Language Processing

15:43пожаловаться #5

SP

будем резать по живому, что делать

15:43пожаловаться #6

D

там хаотичный транскрибированный текст, и разбивка по абзацам, и по пробелам дает кучу ошибок, для того я spacy matcher и мучаю.

может вам натравить нейронку которая знаки препинания расставляет?

15:43пожаловаться #7

D

а потом уже делить

15:44пожаловаться #8

V

Vlad in Natural Language Processing

Коллеги, у меня огромный текстовый файл, который (не спрашивайте почему) нельзя поделить на части. Spacy виснет на стадии парсера nlp(doc) может есть какой-то ленивый способ этого избежать?

А вы уверены, что он именно виснет, а не просто очень долго парсит?
У меня похоже было с английским spaCy и файлом на 300мб

15:48пожаловаться #9

V

Vlad in Natural Language Processing

Он несколько минут жрал оперативу и грузил проц, но потом его отпустило и всё ок)

Dana Zlochevskaya in Natural Language Processing

15:49пожаловаться #10

DZ

Dmitry

может вам натравить нейронку которая знаки препинания расставляет?

Может знаете что-нибудь уже обученное под русский язык для этой задачи? :)

15:51пожаловаться #11

D

Dana Zlochevskaya

Может знаете что-нибудь уже обученное под русский язык для этой задачи? :)

Под русский язык?
Думаю задача общая, а датасетов написано уже немало.

15:55пожаловаться #12

D

Толстым например, несколько томов, да и вообще русская литература))

15:55пожаловаться #13

D

А так то да, есть punctuator например, еще несколько моделек

15:55пожаловаться #14

D

Experimental project to punctuate text using a embedding layer, single convolutional layer and output softmax layer written in Keras. - vackosar/keras-punctuator

Вот например одна из них https://github.com/vackosar/keras-punctuator

GitHub

vackosar/keras-punctuator

15:56пожаловаться #15

D

https://github.com/ottokart/punctuator2

GitHub

ottokart/punctuator2

A bidirectional recurrent neural network model with attention mechanism for restoring missing punctuation in unsegmented text - ottokart/punctuator2

Dana Zlochevskaya in Natural Language Processing

15:57пожаловаться #16

DZ

Как обучать понятно (жаль пока транскрибации до Толстого далеко) ;) я имела в виду готовые модели для русского языка в целом или транскрибации в частности, в свое время не нашла. Все любом случае спасибо за помощь)

16:20пожаловаться #17

D

Да, увы до транскрибации далеко, но в принципе если анализировать речь каждого диктора по отдельности, а не сплошным речевым потоком, то можно расставить знаки нормально.

Sergey Shulga in Natural Language Processing

16:27пожаловаться #18

SS

Dmitry

https://github.com/ottokart/punctuator2

GitHub

ottokart/punctuator2

A bidirectional recurrent neural network model with attention mechanism for restoring missing punctuation in unsegmented text - ottokart/punctuator2

Смущает, что они очень древние. При этом по метрикам не сказать чтобы сота. Я тут думаю свою собрать, задача не кажется сложной