Телеграмм чат группы nlp

2021 February 24

D•

Dan • Captain in NLP_RU - Natural Language Processing & Text Mining

@vgrebenyuk для вакансий по теме есть канал @datasciencejobs

источник

10:13пожаловаться #1

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining

Alexander Gansior

Если данные правильно подготовлены, word2vec на вектор 500 , считается 1.5 часа на ноутбуке 2 ядра, 2.7 гц, память 8 гб, теста 10гб.

Спасибо

источник

10:32пожаловаться #2

2021 March 11

М

Михаил in NLP_RU - Natural Language Processing & Text Mining

Привет, пожалуйста подскажите, какими либами(python)/api можно провести синтаксический разбор предложения? Нужно к примеру выделить подлежащее и сказуемое

источник

21:46пожаловаться #3

N

Natalia in NLP_RU - Natural Language Processing & Text Mining

udpipe, stanza, natasha/deeppavlov, даже spacy теперь

источник

21:52пожаловаться #4

N

Natalia in NLP_RU - Natural Language Processing & Text Mining

но всё в формате UD вроде

источник

21:52пожаловаться #5

М

Михаил in NLP_RU - Natural Language Processing & Text Mining

спасибо!!

источник

21:52пожаловаться #6

2021 March 12

М

Михаил in NLP_RU - Natural Language Processing & Text Mining

Все же не знаю как решить задачу: есть наим. продукции, типа "Смеси щебеночно-песчаные габбро", как с этого предложения извлечь слово "смеси", или например "Каркасы и сетки арматурные плоские, собранные и сваренные", слово которое нужно извлечь - "каркасы и/или сетки", пробовал через spicy(чекал .dep_ каждого слова на предмет ROOT), не вышло, может кто решал похожую задачу?

источник

21:30пожаловаться #7

2021 March 15

К

Катя in NLP_RU - Natural Language Processing & Text Mining

Всем доброе утро!
Подскажите, пожалуйста, знаком ли кто-нибудь с практиками суммаризации больших текстов?
Все практики, которые нашла связаны с небольшими последовательностями - короткими новостями.

источник

08:51пожаловаться #8

AZ

Alexandra Zh in NLP_RU - Natural Language Processing & Text Mining

Катя

Всем доброе утро!
Подскажите, пожалуйста, знаком ли кто-нибудь с практиками суммаризации больших текстов?
Все практики, которые нашла связаны с небольшими последовательностями - короткими новостями.

о, подключаюсь к вопросу

источник

09:30пожаловаться #9

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining

Катя

Всем доброе утро!
Подскажите, пожалуйста, знаком ли кто-нибудь с практиками суммаризации больших текстов?
Все практики, которые нашла связаны с небольшими последовательностями - короткими новостями.

Для начала надо определиться, что такое "суммаризация" и что такое " большой текст".
Разные задачи, разные методы.
Структурный реферат, продающий анонс, тематическая, акторная или эмоциональная аннотация.

источник

09:40пожаловаться #10

IS

I Sh in NLP_RU - Natural Language Processing & Text Mining

Катя

Всем доброе утро!
Подскажите, пожалуйста, знаком ли кто-нибудь с практиками суммаризации больших текстов?
Все практики, которые нашла связаны с небольшими последовательностями - короткими новостями.

Тут можно посмотреть подходы: https://paperswithcode.com/task/text-summarization

И на Архиве ещё были публикации суммаризации больших статей - на датасете научных статей о ковиде.

Paperswithcode

Papers with Code - Text Summarization

Shortening a set of data computationally, to create a summary that represents the most important or relevant information within the original content (Source: Wikipedia).

источник

09:48пожаловаться #11

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining

Да, можно реферировать научные статьи, или "Войну и мир"?
Интервью, федеральный закон, постановление суда.
Жанр текста, и цель реферирования?

источник

09:52пожаловаться #12

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining

Цель более важна. Отразить содержание или отличие от других.

источник

09:54пожаловаться #13

К

Катя in NLP_RU - Natural Language Processing & Text Mining

Борис Добров

Для начала надо определиться, что такое "суммаризация" и что такое " большой текст".
Разные задачи, разные методы.
Структурный реферат, продающий анонс, тематическая, акторная или эмоциональная аннотация.

Большой текст - многостраничный текст, в среднем 5-7 страниц печатного текста, более 1000 слов

Это документ, в котором есть действующие лица, есть описание действий, которые они совершали

нужно коротко, без воды сделать «пересказ», что-то вроде topic sentence + пара пояснительных предложений на каждое действие, совершенное лицами

Текст не художественный и не научный, формальный, ближе к юридическим текстам с отсылками на законы, указанием действующих лиц и прочим

источник

09:56пожаловаться #14

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining

У Экслера был хороший пример про "Однажды в Америке" - история про еврейскую мафию в Нью-Йорке оибо история про дружбу, любовь и предательство

источник

09:57пожаловаться #15

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining

Катя

Большой текст - многостраничный текст, в среднем 5-7 страниц печатного текста, более 1000 слов

Это документ, в котором есть действующие лица, есть описание действий, которые они совершали

нужно коротко, без воды сделать «пересказ», что-то вроде topic sentence + пара пояснительных предложений на каждое действие, совершенное лицами

Текст не художественный и не научный, формальный, ближе к юридическим текстам с отсылками на законы, указанием действующих лиц и прочим

Обычно есть структура, характерная для предмптной области.
Разбивается на структурные элементы, внутри классика.

Все сидит в конце концов на двух вещах: ограниченности размера кратковременной памяти (7+-2) и макроконцептах/ темах.

источник

10:01пожаловаться #16

К

Катя in NLP_RU - Natural Language Processing & Text Mining

I Sh

Тут можно посмотреть подходы: https://paperswithcode.com/task/text-summarization

И на Архиве ещё были публикации суммаризации больших статей - на датасете научных статей о ковиде.

Paperswithcode

Papers with Code - Text Summarization

Shortening a set of data computationally, to create a summary that represents the most important or relevant information within the original content (Source: Wikipedia).

Спасибо, часть из них видела уже
Конкретно рассматривала PEGASUS от гугла, но на русских текстах (видела одну попытку воспроизведения), вывод крайне не связный
И тренировка исходной модели была тоже на статьях новостей, которые малых размеров

источник

10:02пожаловаться #17

К

Катя in NLP_RU - Natural Language Processing & Text Mining

Борис Добров

Обычно есть структура, характерная для предмптной области.
Разбивается на структурные элементы, внутри классика.

Все сидит в конце концов на двух вещах: ограниченности размера кратковременной памяти (7+-2) и макроконцептах/ темах.

Внутри классика - это что Вы имеете в виду? Суммаризация аналогичная новостным статьям?

источник

10:04пожаловаться #18

К

Катя in NLP_RU - Natural Language Processing & Text Mining

Борис Добров

Обычно есть структура, характерная для предмптной области.
Разбивается на структурные элементы, внутри классика.

Все сидит в конце концов на двух вещах: ограниченности размера кратковременной памяти (7+-2) и макроконцептах/ темах.

Структура не выдержана во всех документах, в части можно разделить на функциональные блоки, в части - нет

Есть запрос на подачу всего текста на вход и получения выжимки, как аннотации к научным статьям, для таких случаев, когда выделить блоки нет возможности

источник

10:06пожаловаться #19

К

Катя in NLP_RU - Natural Language Processing & Text Mining

Катя

Структура не выдержана во всех документах, в части можно разделить на функциональные блоки, в части - нет

Есть запрос на подачу всего текста на вход и получения выжимки, как аннотации к научным статьям, для таких случаев, когда выделить блоки нет возможности

То есть более общее описание происходящего, не настолько детальное, как в текстах с возможностью выделения блоков

источник

10:07пожаловаться #20