Телеграмм чат группы natural_language

2020 April 07

ES

Eugene Solomatin in Natural Language Processing

Konstantin Smith

Извиняюсь, чат был приватным. Исправил: https://t.me/Pullenti

Пока пустой..

источник

20:30пожаловаться #1

A

Alexander in Natural Language Processing

Всем привет! Кто подскажет, где взять датасеты диалогов на русском? Может быть есть датасеты книг и фильмов, Тоже на родном. Я пока нашёл только диалоги на яндекс.толоки, и то в необычном формате.

источник

21:18пожаловаться #2

YB

Yuri Baburov in Natural Language Processing

Alexander

Всем привет! Кто подскажет, где взять датасеты диалогов на русском? Может быть есть датасеты книг и фильмов, Тоже на родном. Я пока нашёл только диалоги на яндекс.толоки, и то в необычном формате.

1) субтитры к фильмам opensub
3) https://kelijah.livejournal.com/252208.html ( и https://kelijah.livejournal.com/239618.html заодно )

Livejournal

Новая версия датасета с русскоязычными диалогами (130 Мб)

Выложил в репозиторий архивчик с текстовым файлом - 130 Мб русскоязычных диалогов, извлеченных из большого корпуса (художественная литература всех жанров, документалистика и еще всякое): - Андрюха! Да чего же теперь будет? - Что надо, Арбузик, то и будет! - Мне бы Шиповника... - Какого еще…

источник

21:22пожаловаться #3

A

Alexander in Natural Language Processing

Спасибо)

источник

21:25пожаловаться #4

V

Vlad in Natural Language Processing

Alexander

Всем привет! Кто подскажет, где взять датасеты диалогов на русском? Может быть есть датасеты книг и фильмов, Тоже на родном. Я пока нашёл только диалоги на яндекс.толоки, и то в необычном формате.

Есть ещё вот такой: https://tatianashavrina.github.io/taiga_site/
Там есть субтитры от сериалов на разных языках, в том числе и на русском. После очистки от мусора у меня вышло около 300Мб субтитров

Taiga Сorpus

Taiga is a corpus, where text sources and their meta-information are collected according to popular ML tasks.

An open-source corpus for machine learning.

источник

22:30пожаловаться #5

A

Alexander in Natural Language Processing

+ 😉

источник

22:32пожаловаться #6

YB

Yuri Baburov in Natural Language Processing

Vlad

Есть ещё вот такой: https://tatianashavrina.github.io/taiga_site/
Там есть субтитры от сериалов на разных языках, в том числе и на русском. После очистки от мусора у меня вышло около 300Мб субтитров

Taiga Сorpus

Taiga is a corpus, where text sources and their meta-information are collected according to popular ML tasks.

An open-source corpus for machine learning.

300 мб русских?

источник

23:11пожаловаться #7

V

Vlad in Natural Language Processing

Да, вот можете сами посмотреть, давно правда репо делал, но данные никуда не делись)
https://github.com/Desklop/Russian_subtitles_dataset

GitHub

Desklop/Russian_subtitles_dataset

Preprocessing of the dataset of 347 subtitles for the TV series (thanks to Taiga Corpus) to build a word2vec model, JamSpell model, neural network training, chat bot training or in any other NLP ta...

источник

23:20пожаловаться #8

V

Vlad in Natural Language Processing

Вот сам .txt файлик https://github.com/Desklop/Russian_subtitles_dataset/blob/master/data/subtitles_ru.txt.zip

После разархивации будет 306.3Мб

GitHub

Desklop/Russian_subtitles_dataset

Preprocessing of the dataset of 347 subtitles for the TV series (thanks to Taiga Corpus) to build a word2vec model, JamSpell model, neural network training, chat bot training or in any other NLP ta...

источник

23:20пожаловаться #9

V

Vlad in Natural Language Processing

Использовал для экспериментов с seq2seq end2end чат ботами, когда писал диплом. С тех пор правда больше эти данные и навыки особо не пригодились) Один раз обучал правда word2vec на них, получилось вполне неплохо, но после наткнулся на rusvectories и надобность отпала

источник

23:22пожаловаться #10

D(

David (ddale) Dale in Natural Language Processing

Vlad

Да, вот можете сами посмотреть, давно правда репо делал, но данные никуда не делись)
https://github.com/Desklop/Russian_subtitles_dataset

GitHub

Desklop/Russian_subtitles_dataset

Preprocessing of the dataset of 347 subtitles for the TV series (thanks to Taiga Corpus) to build a word2vec model, JamSpell model, neural network training, chat bot training or in any other NLP ta...

❤️

источник

23:24пожаловаться #11

2020 April 08

S

Stan in Natural Language Processing

Привет всем! Сформировал из новостного текста семантический граф концептов. Хочу выделить кластерные группы либо через CONCOR, Newman, Louvain или сродни им. На ваш опыт, для семантики какой алгоритм с теоретической точки зрения лучше? У меня пока лучше разбивает текст CONCOR, но хвостом чую, что теоретически такой выбор подкрепить не просто... Понимая, что вершины неживые
[вопрос коллеги — пытаюсь понять, как лучше прояснить]

источник

13:46пожаловаться #12

М

Михаил in Natural Language Processing

Всем привет! Мы ищем python (nlp) программистов для стартапа. Приветствуется опыт работы с question answering моделями. Если кого-нибудь заинтересует возможность присоединиться к стартапу или просто поделать интересные модельки за сдельную оплату - пишите в личку.

источник

23:19пожаловаться #13

2020 April 10

GA

George A in Natural Language Processing

Ребята, подскажите хорошие ресурсы по обработке юридических документов на русском?
Чтобы умела искать в pdf-документах инфу по содержанию, атрибутам. Например, сроки, стороны договора и т.д.

источник

12:32пожаловаться #14

SP

Sebastian Pereira in Natural Language Processing

George A

Ребята, подскажите хорошие ресурсы по обработке юридических документов на русском?
Чтобы умела искать в pdf-документах инфу по содержанию, атрибутам. Например, сроки, стороны договора и т.д.

для какого языка?

источник

12:35пожаловаться #15

GA

George A in Natural Language Processing

Русский

источник

12:36пожаловаться #16

YS

Yehor Smoliakov in Natural Language Processing

George A

Ребята, подскажите хорошие ресурсы по обработке юридических документов на русском?
Чтобы умела искать в pdf-документах инфу по содержанию, атрибутам. Например, сроки, стороны договора и т.д.

NER

источник

14:18пожаловаться #17

M

Mary in Natural Language Processing

George A

Ребята, подскажите хорошие ресурсы по обработке юридических документов на русском?
Чтобы умела искать в pdf-документах инфу по содержанию, атрибутам. Например, сроки, стороны договора и т.д.

End-to-end решения для такой задачи пока нет, а хотят многие. Может быть, есть наколеночные.
Нужны:
- качественный OCR для структурированных текстов (где данные для такого?): конвертация картинки в текст;
- доменный NER: выделение сущностей в тексте;
- и сверху регулярочки для выделения контекста сущностей.
Пример: "Стороны пришли к соглашению 10.09.2019". NER выделит дату "10.09.2019", регулярочки находит, что в эту дату было событие "пришли к соглашению".
Задачу можно разбивать и на компоненты, отличные от NER+регулярка, зависит от целевого атрибута.

источник

14:35пожаловаться #18

KS

Konstantin Smith in Natural Language Processing

В SDK Pullenti есть обработчик InstrumentAnalyzer, который для договора, помимо стандартных сущностей, может выделить стороны договора с их полными реквизитами, восстановить структуру договора (разбить на главы-пункты-приложения-подписи).

источник

14:51пожаловаться #19

YS

Yehor Smoliakov in Natural Language Processing

Konstantin Smith

В SDK Pullenti есть обработчик InstrumentAnalyzer, который для договора, помимо стандартных сущностей, может выделить стороны договора с их полными реквизитами, восстановить структуру договора (разбить на главы-пункты-приложения-подписи).

Поддерживаю. В свое время смотрел на него и мне он понравился. Есть еще Natasha, DeepPavlov.

источник

15:06пожаловаться #20