Size: a a a

Natural Language Processing

2021 November 24

Н

Никита in Natural Language Processing
Добрый день! Подскажите, пожалуйста, какое может быть решение для задачи: есть набор английских или русских слов, их необходимо разбить на группы по близости и классифицировать. У примеру: кошка, собака, быстро, медленно, отлично - [животные, животные, описание, описание, описание] ?
источник

SS

Sergey Sikorskiy in Natural Language Processing
1) Определить часть речи. быстро, медленно, отлично - наречия.
2) Использовать онтологию. У @cointegrated есть питоновский итерфейс к оной.
источник

Е

Егорка in Natural Language Processing
Возьмите русский word2vec
источник

Е

Егорка in Natural Language Processing
А, не увидел, что там ещё английские слова
источник

DD

David Dale in Natural Language Processing
Думаю, речь идёт про https://github.com/avidale/python-ruwordnet.
Там нет наречий, к сожалению. Зато для "кошки" и "собаки" есть более конкретные общие гиперонимы, чем просто "животное": "млекопитающее" и "домашнее животное".
Ну и плюс "описание" - это какая-то очень абстрактная категория, её можно заменить на более конкретное "описание качества".
источник

DD

David Dale in Natural Language Processing
А для английского можно взять wordnet из nltk, я недавно на stackoverflow показывал как https://stackoverflow.com/questions/70026324.
источник

SS

Sergey Sikorskiy in Natural Language Processing
"описание" - это прилагательное, причастие, наречие, деепричастие. Зависит от того, как точно надо классифицировать.
источник

DD

David Dale in Natural Language Processing
Если русский с английским вперемешку, можно попробовать скачать векторы слов, выровненные между языками: https://fasttext.cc/docs/en/aligned-vectors.html. Правда, их качество я не тестировал.
источник

AL

Anton Lozhkov in Natural Language Processing
У них есть особенность: расстояние до ближайших векторов на другом языке всегда примерно <=0.5, поэтому соседей лучше искать среди слов каждого языка отдельно
источник

AV

Artem Vishnya in Natural Language Processing
Подскажите, пожалуйста, по такой штуке.

Есть некоторый subject в виде текста. Есть спонтанный текст (protocol) после ASR спикера произвольной (возможно, большой) длины. Для адекватной оценки того, что спикер говорил по теме заданного subject какие методы порекомендуете использовать? Первым на ум приходит велосипед из лемматизации subject и protocol, отбросом союзов и прочего (по стоп-словарику) с последующей левенштайн-подобной (скорее всего долгой) обработкой. Может быть прикрутка ещё синонимов к короткому subject, чтобы пошире проверить.

В какую сторону покопать порекомендуете?
источник

DD

David Dale in Natural Language Processing
Если есть данные, можно попробовать какую-нибудь ModelForQuestionAnswering из transformers дообучить на эту задачу, т.к. subject+protocol  похожи на вопрос плюс параграф, в котором содержится ответ.
источник

AV

Artem Vishnya in Natural Language Processing
Спасибо, а если с данными (по сути, готовыми protocol) не густо? Что-то в духе https://huggingface.co/AlexKay/xlm-roberta-large-qa-multilingual-finedtuned-ru стоит попробовать?
источник

DD

David Dale in Natural Language Processing
Не уверен, что совсем без файнтюнинга оно что-то осмысленное выдаст, но попробовать небесполезно.
А я бы порекомендовал хотя сотню примеров разметить руками и эту же готовую модельку на них чуть-чуть пофайнтюнить; у меня в подобных случаях качество резко росло с примерно нуля до чего-то годного.
источник
2021 November 25

BZ

Below Zero in Natural Language Processing
Собирал subject'ы из двух частей: сначала NERом выделил именованные сущности, потом с помощью TFIDF выделял ключевые слова, миксовал это разными способами и таким образом получил датасет для STS. Потом по метрикам лучше всего зашла RoBERTa
источник

Н

Никита in Natural Language Processing
Всем спасибо большое за идеи! Понял, буду пытаться реализовать!)
источник

GT

Gleb Tumanov in Natural Language Processing
Посмотрите zero shot classifications на hugging face. Там и для русского языка есть. Работают вроде неплохо. Подаешь контекст, список классов в виде слов, а на выходе получаешь скор для каждого слова
источник

МЕ

Максим Ермаков... in Natural Language Processing
Коллеги, доброе утро! В случае, когда мы классифицируем tfidf+sigmoid тексты, у которых имеются классоспецифичная лексика (по сути название класса содержится в тексте), нормально ли получить 1.0 качества (по тесту и hold-out)? У меня два предположения: 1) баг; 2) задача слишком проста для мл, можно было решить правилами. Что более вероятно?
источник

AF

Alexander Fedorenko in Natural Language Processing
Константин, посмотрите еще и Dash Plotly
Мы как-то тоже делали выбор для  UI в проекте обработки текстов белорусских сми (был такой проект волонтерский) и при сравнении streamlit и dash plotly, мы выбрали dash ploltly  в силу его больше свободы по сравнению с streamlit (именно из-за того аспекта, о котором говорит Николай)
Правда, мы и до этого выбора активно использовали plotly, может поэтому нам было очень легко с Dash plotly
источник

AF

Alexander Fedorenko in Natural Language Processing
Раз наблюдается такая зависимость
 (по сути название класса содержится в тексте)
, то ИМХО ваше второе предположение - верно. И можно ожидать, что решение через поиск ключевых слов будет работать
источник

RR

Rufina Rafikova in Natural Language Processing
Ссылка на запись вебинара: https://youtu.be/K3xbr28O3Yg
YouTube
Полупараметрические методы извлечения и представления знаний из текста
Спикер: Юрий Землянский, Южно-Калифорнийский университет, Лос-Анджелес, Калифорния, США.

Некоторые задачи обработки естественного языка требуют использования информации из разрозненных мест в тексте. Современные методы на основе модели Transformer могут одновременно обрабатывать ввод только ограниченного размера. Это затрудняет их использование в задачах с большим объемом ввода, такие как ответы на вопросы по книгам или Википедии. Мы решаем эту проблему с помощью полупараметрического метода извлечения и представления информации из текста. Наш метод представляет знания с помощью «Таблицы Упоминаний», которая содержит многомерную кодировку для каждого упоминания именованной сущности в тексте. Мы интегрируем таблицу упоминаний в Transformer модель, что позволяет нам комбинировать и использовать информация из по множества разрозненных источников в тексте. Мы применяем нашу модель на задачах с вопросами по целым книгам (https://aclanthology.org/2021.naacl-main.408) или с вопросами по всей Википедии (https://arxi…
источник