Size: a a a

Natural Language Processing

2020 April 07

ES

Eugene Solomatin in Natural Language Processing
Konstantin Smith
Извиняюсь, чат был приватным. Исправил: https://t.me/Pullenti
Пока пустой..
источник

A

Alexander in Natural Language Processing
Всем привет! Кто подскажет, где взять датасеты диалогов на русском? Может быть есть датасеты книг и фильмов, Тоже на родном. Я пока нашёл только диалоги на яндекс.толоки, и то в необычном формате.
источник

YB

Yuri Baburov in Natural Language Processing
Alexander
Всем привет! Кто подскажет, где взять датасеты диалогов на русском? Может быть есть датасеты книг и фильмов, Тоже на родном. Я пока нашёл только диалоги на яндекс.толоки, и то в необычном формате.
1) субтитры к фильмам opensub
3) https://kelijah.livejournal.com/252208.html ( и https://kelijah.livejournal.com/239618.html заодно )
источник

A

Alexander in Natural Language Processing
Спасибо)
источник

V

Vlad in Natural Language Processing
Alexander
Всем привет! Кто подскажет, где взять датасеты диалогов на русском? Может быть есть датасеты книг и фильмов, Тоже на родном. Я пока нашёл только диалоги на яндекс.толоки, и то в необычном формате.
Есть ещё вот такой: https://tatianashavrina.github.io/taiga_site/
Там есть субтитры от сериалов на разных языках, в том числе и на русском. После очистки от мусора у меня вышло около 300Мб субтитров
источник

A

Alexander in Natural Language Processing
+ 😉
источник

YB

Yuri Baburov in Natural Language Processing
Vlad
Есть ещё вот такой: https://tatianashavrina.github.io/taiga_site/
Там есть субтитры от сериалов на разных языках, в том числе и на русском. После очистки от мусора у меня вышло около 300Мб субтитров
300 мб русских?
источник

V

Vlad in Natural Language Processing
Да, вот можете сами посмотреть, давно правда репо делал, но данные никуда не делись)
https://github.com/Desklop/Russian_subtitles_dataset
источник

V

Vlad in Natural Language Processing
Вот сам .txt файлик https://github.com/Desklop/Russian_subtitles_dataset/blob/master/data/subtitles_ru.txt.zip

После разархивации будет 306.3Мб
источник

V

Vlad in Natural Language Processing
Использовал для экспериментов с seq2seq end2end чат ботами, когда писал диплом. С тех пор правда больше эти данные и навыки особо не пригодились) Один раз обучал правда word2vec на них, получилось вполне неплохо, но после наткнулся на rusvectories и надобность отпала
источник

D(

David (ddale) Dale in Natural Language Processing
❤️
источник
2020 April 08

S

Stan in Natural Language Processing
Привет всем! Сформировал из новостного текста семантический граф концептов. Хочу выделить кластерные группы либо через CONCOR, Newman, Louvain или сродни им. На ваш опыт, для семантики какой алгоритм с теоретической точки зрения лучше? У меня пока лучше разбивает текст CONCOR, но хвостом чую, что теоретически такой выбор подкрепить не просто... Понимая, что вершины неживые
[вопрос коллеги — пытаюсь понять, как лучше прояснить]
источник

М

Михаил in Natural Language Processing
Всем привет! Мы ищем python (nlp) программистов для стартапа. Приветствуется опыт работы с question answering моделями. Если кого-нибудь заинтересует возможность присоединиться к стартапу или просто поделать интересные модельки за сдельную оплату - пишите в личку.
источник
2020 April 10

GA

George A in Natural Language Processing
Ребята, подскажите хорошие ресурсы по обработке юридических документов на русском?
Чтобы умела искать в pdf-документах инфу по содержанию, атрибутам. Например, сроки, стороны договора и т.д.
источник

SP

Sebastian Pereira in Natural Language Processing
George A
Ребята, подскажите хорошие ресурсы по обработке юридических документов на русском?
Чтобы умела искать в pdf-документах инфу по содержанию, атрибутам. Например, сроки, стороны договора и т.д.
для какого языка?
источник

GA

George A in Natural Language Processing
Русский
источник

YS

Yehor Smoliakov in Natural Language Processing
George A
Ребята, подскажите хорошие ресурсы по обработке юридических документов на русском?
Чтобы умела искать в pdf-документах инфу по содержанию, атрибутам. Например, сроки, стороны договора и т.д.
NER
источник

M

Mary in Natural Language Processing
George A
Ребята, подскажите хорошие ресурсы по обработке юридических документов на русском?
Чтобы умела искать в pdf-документах инфу по содержанию, атрибутам. Например, сроки, стороны договора и т.д.
End-to-end решения для такой задачи пока нет, а хотят многие. Может быть, есть наколеночные.
Нужны:
- качественный OCR для структурированных текстов (где данные для такого?): конвертация  картинки в текст;
- доменный NER: выделение сущностей в тексте;
- и сверху регулярочки для выделения контекста сущностей.
Пример: "Стороны пришли к соглашению 10.09.2019". NER выделит дату "10.09.2019", регулярочки находит, что в эту дату было событие "пришли к соглашению".
Задачу можно разбивать и на компоненты, отличные от NER+регулярка, зависит от целевого атрибута.
источник

KS

Konstantin Smith in Natural Language Processing
В SDK Pullenti есть обработчик InstrumentAnalyzer, который для договора, помимо стандартных сущностей, может выделить стороны договора с их полными реквизитами, восстановить структуру договора (разбить на главы-пункты-приложения-подписи).
источник

YS

Yehor Smoliakov in Natural Language Processing
Konstantin Smith
В SDK Pullenti есть обработчик InstrumentAnalyzer, который для договора, помимо стандартных сущностей, может выделить стороны договора с их полными реквизитами, восстановить структуру договора (разбить на главы-пункты-приложения-подписи).
Поддерживаю. В свое время смотрел на него и мне он понравился. Есть еще Natasha, DeepPavlov.
источник