Size: a a a

NLP_RU - Natural Language Processing & Text Mining

2021 February 24

D•

Dan • Captain in NLP_RU - Natural Language Processing & Text Mining
@vgrebenyuk для вакансий по теме есть канал @datasciencejobs
источник

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining
Alexander Gansior
Если данные правильно подготовлены, word2vec на вектор 500 , считается 1.5 часа на ноутбуке 2 ядра, 2.7 гц, память 8 гб, теста 10гб.
Спасибо
источник
2021 March 11

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
Привет, пожалуйста подскажите, какими либами(python)/api можно провести синтаксический разбор предложения? Нужно к примеру выделить подлежащее и сказуемое
источник

N

Natalia in NLP_RU - Natural Language Processing & Text Mining
udpipe, stanza, natasha/deeppavlov, даже spacy теперь
источник

N

Natalia in NLP_RU - Natural Language Processing & Text Mining
но всё в формате UD вроде
источник

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
спасибо!!
источник
2021 March 12

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
Все же не знаю как решить задачу: есть наим. продукции, типа "Смеси щебеночно-песчаные габбро", как с этого предложения извлечь слово "смеси", или например "Каркасы и сетки арматурные плоские, собранные и сваренные", слово которое нужно извлечь - "каркасы и/или сетки", пробовал через spicy(чекал .dep_ каждого слова на предмет ROOT), не вышло, может кто решал похожую задачу?
источник
2021 March 15

К

Катя in NLP_RU - Natural Language Processing & Text Mining
Всем доброе утро!
Подскажите, пожалуйста, знаком ли кто-нибудь с практиками суммаризации больших текстов?
Все практики, которые нашла связаны с небольшими последовательностями - короткими новостями.
источник

AZ

Alexandra Zh in NLP_RU - Natural Language Processing & Text Mining
Катя
Всем доброе утро!
Подскажите, пожалуйста, знаком ли кто-нибудь с практиками суммаризации больших текстов?
Все практики, которые нашла связаны с небольшими последовательностями - короткими новостями.
о, подключаюсь к вопросу
источник

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining
Катя
Всем доброе утро!
Подскажите, пожалуйста, знаком ли кто-нибудь с практиками суммаризации больших текстов?
Все практики, которые нашла связаны с небольшими последовательностями - короткими новостями.
Для начала надо определиться, что такое "суммаризация" и что такое " большой текст".
Разные задачи, разные методы.
Структурный реферат, продающий анонс, тематическая, акторная или эмоциональная аннотация.
источник

IS

I Sh in NLP_RU - Natural Language Processing & Text Mining
Катя
Всем доброе утро!
Подскажите, пожалуйста, знаком ли кто-нибудь с практиками суммаризации больших текстов?
Все практики, которые нашла связаны с небольшими последовательностями - короткими новостями.
Тут можно посмотреть подходы: https://paperswithcode.com/task/text-summarization

И на Архиве ещё были публикации суммаризации больших статей - на датасете научных статей о ковиде.
источник

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining
Да, можно реферировать научные статьи, или "Войну и мир"?
Интервью, федеральный закон, постановление суда.
Жанр текста, и цель реферирования?
источник

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining
Цель более важна. Отразить содержание или отличие от других.
источник

К

Катя in NLP_RU - Natural Language Processing & Text Mining
Борис Добров
Для начала надо определиться, что такое "суммаризация" и что такое " большой текст".
Разные задачи, разные методы.
Структурный реферат, продающий анонс, тематическая, акторная или эмоциональная аннотация.
Большой текст - многостраничный текст, в среднем 5-7 страниц печатного текста, более 1000 слов

Это документ, в котором есть действующие лица, есть описание действий, которые они совершали

нужно коротко, без воды сделать «пересказ», что-то вроде topic sentence + пара пояснительных предложений на каждое действие, совершенное лицами

Текст не художественный и не научный, формальный, ближе к юридическим текстам с отсылками на законы, указанием действующих лиц и прочим
источник

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining
У Экслера был хороший пример про "Однажды в Америке" - история про еврейскую мафию в Нью-Йорке оибо история про дружбу, любовь и предательство
источник

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining
Катя
Большой текст - многостраничный текст, в среднем 5-7 страниц печатного текста, более 1000 слов

Это документ, в котором есть действующие лица, есть описание действий, которые они совершали

нужно коротко, без воды сделать «пересказ», что-то вроде topic sentence + пара пояснительных предложений на каждое действие, совершенное лицами

Текст не художественный и не научный, формальный, ближе к юридическим текстам с отсылками на законы, указанием действующих лиц и прочим
Обычно есть структура, характерная для предмптной области.
Разбивается на структурные элементы, внутри классика.

Все сидит в конце концов на двух вещах: ограниченности размера кратковременной памяти (7+-2) и макроконцептах/ темах.
источник

К

Катя in NLP_RU - Natural Language Processing & Text Mining
I Sh
Тут можно посмотреть подходы: https://paperswithcode.com/task/text-summarization

И на Архиве ещё были публикации суммаризации больших статей - на датасете научных статей о ковиде.
Спасибо, часть из них видела уже
Конкретно рассматривала PEGASUS от гугла, но на русских текстах (видела одну попытку воспроизведения), вывод крайне не связный
И тренировка исходной модели была тоже на статьях новостей, которые малых размеров
источник

К

Катя in NLP_RU - Natural Language Processing & Text Mining
Борис Добров
Обычно есть структура, характерная для предмптной области.
Разбивается на структурные элементы, внутри классика.

Все сидит в конце концов на двух вещах: ограниченности размера кратковременной памяти (7+-2) и макроконцептах/ темах.
Внутри классика - это что Вы имеете в виду? Суммаризация аналогичная новостным статьям?
источник

К

Катя in NLP_RU - Natural Language Processing & Text Mining
Борис Добров
Обычно есть структура, характерная для предмптной области.
Разбивается на структурные элементы, внутри классика.

Все сидит в конце концов на двух вещах: ограниченности размера кратковременной памяти (7+-2) и макроконцептах/ темах.
Структура не выдержана во всех документах, в части можно разделить на функциональные блоки, в части - нет

Есть запрос на подачу всего текста на вход и получения выжимки, как аннотации к научным статьям, для таких случаев, когда выделить блоки нет возможности
источник

К

Катя in NLP_RU - Natural Language Processing & Text Mining
Катя
Структура не выдержана во всех документах, в части можно разделить на функциональные блоки, в части - нет

Есть запрос на подачу всего текста на вход и получения выжимки, как аннотации к научным статьям, для таких случаев, когда выделить блоки нет возможности
То есть более общее описание происходящего, не настолько детальное, как в текстах с возможностью выделения блоков
источник