Телеграмм чат группы natural_language_processing страница 1532

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 November 24

Н

Никита in Natural Language Processing

Добрый день! Подскажите, пожалуйста, какое может быть решение для задачи: есть набор английских или русских слов, их необходимо разбить на группы по близости и классифицировать. У примеру: кошка, собака, быстро, медленно, отлично - [животные, животные, описание, описание, описание] ?

источник

20:41пожаловаться #1

SS

Sergey Sikorskiy in Natural Language Processing

1) Определить часть речи. быстро, медленно, отлично - наречия.
2) Использовать онтологию. У @cointegrated есть питоновский итерфейс к оной.

источник

20:45пожаловаться #2

Е

Егорка in Natural Language Processing

Возьмите русский word2vec

источник

20:55пожаловаться #3

Е

Егорка in Natural Language Processing

А, не увидел, что там ещё английские слова

источник

20:57пожаловаться #4

DD

David Dale in Natural Language Processing

Думаю, речь идёт про https://github.com/avidale/python-ruwordnet.
Там нет наречий, к сожалению. Зато для "кошки" и "собаки" есть более конкретные общие гиперонимы, чем просто "животное": "млекопитающее" и "домашнее животное".
Ну и плюс "описание" - это какая-то очень абстрактная категория, её можно заменить на более конкретное "описание качества".

источник

20:57пожаловаться #5

DD

David Dale in Natural Language Processing

А для английского можно взять wordnet из nltk, я недавно на stackoverflow показывал как https://stackoverflow.com/questions/70026324.

Looking for a "word-web" library, preferably python

I am looking for a utility (library) that will take in a collection of keywords (maybe 20: for instance, from the results of an LDA run on a text corpus) and return a few (2-5) word description of ...

источник

20:58пожаловаться #6

SS

Sergey Sikorskiy in Natural Language Processing

"описание" - это прилагательное, причастие, наречие, деепричастие. Зависит от того, как точно надо классифицировать.

источник

21:00пожаловаться #7

DD

David Dale in Natural Language Processing

Если русский с английским вперемешку, можно попробовать скачать векторы слов, выровненные между языками: https://fasttext.cc/docs/en/aligned-vectors.html. Правда, их качество я не тестировал.

источник

21:01пожаловаться #8

AL

Anton Lozhkov in Natural Language Processing

У них есть особенность: расстояние до ближайших векторов на другом языке всегда примерно <=0.5, поэтому соседей лучше искать среди слов каждого языка отдельно

источник

21:35пожаловаться #9

AV

Artem Vishnya in Natural Language Processing

Подскажите, пожалуйста, по такой штуке.

Есть некоторый subject в виде текста. Есть спонтанный текст (protocol) после ASR спикера произвольной (возможно, большой) длины. Для адекватной оценки того, что спикер говорил по теме заданного subject какие методы порекомендуете использовать? Первым на ум приходит велосипед из лемматизации subject и protocol, отбросом союзов и прочего (по стоп-словарику) с последующей левенштайн-подобной (скорее всего долгой) обработкой. Может быть прикрутка ещё синонимов к короткому subject, чтобы пошире проверить.

В какую сторону покопать порекомендуете?

источник

23:18пожаловаться #10

DD

David Dale in Natural Language Processing

Если есть данные, можно попробовать какую-нибудь ModelForQuestionAnswering из transformers дообучить на эту задачу, т.к. subject+protocol похожи на вопрос плюс параграф, в котором содержится ответ.

источник

23:21пожаловаться #11

AV

Artem Vishnya in Natural Language Processing

Спасибо, а если с данными (по сути, готовыми protocol) не густо? Что-то в духе https://huggingface.co/AlexKay/xlm-roberta-large-qa-multilingual-finedtuned-ru стоит попробовать?

AlexKay/xlm-roberta-large-qa-multilingual-finedtuned-ru · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

источник

23:34пожаловаться #12

DD

David Dale in Natural Language Processing

Не уверен, что совсем без файнтюнинга оно что-то осмысленное выдаст, но попробовать небесполезно.
А я бы порекомендовал хотя сотню примеров разметить руками и эту же готовую модельку на них чуть-чуть пофайнтюнить; у меня в подобных случаях качество резко росло с примерно нуля до чего-то годного.

источник

23:36пожаловаться #13

2021 November 25

BZ

Below Zero in Natural Language Processing

Собирал subject'ы из двух частей: сначала NERом выделил именованные сущности, потом с помощью TFIDF выделял ключевые слова, миксовал это разными способами и таким образом получил датасет для STS. Потом по метрикам лучше всего зашла RoBERTa

источник

00:00пожаловаться #14

Н

Никита in Natural Language Processing

Всем спасибо большое за идеи! Понял, буду пытаться реализовать!)

источник

00:05пожаловаться #15

GT

Gleb Tumanov in Natural Language Processing

Посмотрите zero shot classifications на hugging face. Там и для русского языка есть. Работают вроде неплохо. Подаешь контекст, список классов в виде слов, а на выходе получаешь скор для каждого слова

источник

08:02пожаловаться #16

МЕ

Максим Ермаков... in Natural Language Processing

Коллеги, доброе утро! В случае, когда мы классифицируем tfidf+sigmoid тексты, у которых имеются классоспецифичная лексика (по сути название класса содержится в тексте), нормально ли получить 1.0 качества (по тесту и hold-out)? У меня два предположения: 1) баг; 2) задача слишком проста для мл, можно было решить правилами. Что более вероятно?

источник

08:59пожаловаться #17

AF

Alexander Fedorenko in Natural Language Processing

Константин, посмотрите еще и Dash Plotly
Мы как-то тоже делали выбор для UI в проекте обработки текстов белорусских сми (был такой проект волонтерский) и при сравнении streamlit и dash plotly, мы выбрали dash ploltly в силу его больше свободы по сравнению с streamlit (именно из-за того аспекта, о котором говорит Николай)
Правда, мы и до этого выбора активно использовали plotly, может поэтому нам было очень легко с Dash plotly

источник

09:11пожаловаться #18

AF

Alexander Fedorenko in Natural Language Processing

Раз наблюдается такая зависимость

 (по сути название класса содержится в тексте)

, то ИМХО ваше второе предположение - верно. И можно ожидать, что решение через поиск ключевых слов будет работать

источник

09:56пожаловаться #19

RR

Rufina Rafikova in Natural Language Processing

Ссылка на запись вебинара: https://youtu.be/K3xbr28O3Yg

Полупараметрические методы извлечения и представления знаний из текста

Спикер: Юрий Землянский, Южно-Калифорнийский университет, Лос-Анджелес, Калифорния, США.

Некоторые задачи обработки естественного языка требуют использования информации из разрозненных мест в тексте. Современные методы на основе модели Transformer могут одновременно обрабатывать ввод только ограниченного размера. Это затрудняет их использование в задачах с большим объемом ввода, такие как ответы на вопросы по книгам или Википедии. Мы решаем эту проблему с помощью полупараметрического метода извлечения и представления информации из текста. Наш метод представляет знания с помощью «Таблицы Упоминаний», которая содержит многомерную кодировку для каждого упоминания именованной сущности в тексте. Мы интегрируем таблицу упоминаний в Transformer модель, что позволяет нам комбинировать и использовать информация из по множества разрозненных источников в тексте. Мы применяем нашу модель на задачах с вопросами по целым книгам (https://aclanthology.org/2021.naacl-main.408) или с вопросами по всей Википедии (https://arxi…

источник

10:10пожаловаться #20