Добрый день! Подскажите, пожалуйста, какое может быть решение для задачи: есть набор английских или русских слов, их необходимо разбить на группы по близости и классифицировать. У примеру: кошка, собака, быстро, медленно, отлично - [животные, животные, описание, описание, описание] ?
Думаю, речь идёт про https://github.com/avidale/python-ruwordnet. Там нет наречий, к сожалению. Зато для "кошки" и "собаки" есть более конкретные общие гиперонимы, чем просто "животное": "млекопитающее" и "домашнее животное". Ну и плюс "описание" - это какая-то очень абстрактная категория, её можно заменить на более конкретное "описание качества".
У них есть особенность: расстояние до ближайших векторов на другом языке всегда примерно <=0.5, поэтому соседей лучше искать среди слов каждого языка отдельно
Есть некоторый subject в виде текста. Есть спонтанный текст (protocol) после ASR спикера произвольной (возможно, большой) длины. Для адекватной оценки того, что спикер говорил по теме заданного subject какие методы порекомендуете использовать? Первым на ум приходит велосипед из лемматизации subject и protocol, отбросом союзов и прочего (по стоп-словарику) с последующей левенштайн-подобной (скорее всего долгой) обработкой. Может быть прикрутка ещё синонимов к короткому subject, чтобы пошире проверить.
Если есть данные, можно попробовать какую-нибудь ModelForQuestionAnswering из transformers дообучить на эту задачу, т.к. subject+protocol похожи на вопрос плюс параграф, в котором содержится ответ.
Не уверен, что совсем без файнтюнинга оно что-то осмысленное выдаст, но попробовать небесполезно. А я бы порекомендовал хотя сотню примеров разметить руками и эту же готовую модельку на них чуть-чуть пофайнтюнить; у меня в подобных случаях качество резко росло с примерно нуля до чего-то годного.
Собирал subject'ы из двух частей: сначала NERом выделил именованные сущности, потом с помощью TFIDF выделял ключевые слова, миксовал это разными способами и таким образом получил датасет для STS. Потом по метрикам лучше всего зашла RoBERTa
Посмотрите zero shot classifications на hugging face. Там и для русского языка есть. Работают вроде неплохо. Подаешь контекст, список классов в виде слов, а на выходе получаешь скор для каждого слова
Коллеги, доброе утро! В случае, когда мы классифицируем tfidf+sigmoid тексты, у которых имеются классоспецифичная лексика (по сути название класса содержится в тексте), нормально ли получить 1.0 качества (по тесту и hold-out)? У меня два предположения: 1) баг; 2) задача слишком проста для мл, можно было решить правилами. Что более вероятно?
Константин, посмотрите еще и Dash Plotly Мы как-то тоже делали выбор для UI в проекте обработки текстов белорусских сми (был такой проект волонтерский) и при сравнении streamlit и dash plotly, мы выбрали dash ploltly в силу его больше свободы по сравнению с streamlit (именно из-за того аспекта, о котором говорит Николай) Правда, мы и до этого выбора активно использовали plotly, может поэтому нам было очень легко с Dash plotly