Size: a a a

Natural Language Processing

2021 November 30

МЕ

Максим Ермаков... in Natural Language Processing
Коллеги, доброго дня! Подскажите, насколько хорошо у вас работал kNN на TF-IDF для классификации документов по сравнению с LogReg ?
источник

МЕ

Максим Ермаков... in Natural Language Processing
Адекватно ли вообще ожидать косинусную близость для документов, векторизованных через TF-IDF ?
источник

Р

Родион in Natural Language Processing
На своем проекте использовал word2vex и tf-idf векторизацию и затем считал косинусное расстояние. Только я использовал Hierarchical Clustering, так как не известно было количество этих самых кластеров.

Близость определяло хорошо, по tfidf искались предложения синтаксически похожие, а с word2vec семантически.(значение расстояния задавал >0.8)

Наверное стоит попробовать по разному векторизировать, как через словесные нграммы так и через символьные. В общем, как я сказал, в моем случае косинусное расстояние показывало хорошие результаты
источник

МЕ

Максим Ермаков... in Natural Language Processing
У меня tfidf на логреге работает отлично, но хочу применить kNN, потому и возник вопрос. Спасибо за ответ!
источник

МЕ

Максим Ермаков... in Natural Language Processing
А кто что думает про решение задачи классификации документов через Faiss + TfIdf ? Хочу попробовать, так как видится, что это может дать инкрементальное обучение + возможность менять количество классов в рантайме. TfIdf тоже инкрементально может работать.
источник

A

Andrey in Natural Language Processing
1. knn неплох, если данные кучкуются/кластеризуются, в противном случае мимо,
2. faiss не умеет в косинус, вектора надо нормализовывать.

пробуйте... документы будут норм кучковаться для tf idf, если классы сильно отличаются. условно, биология и какие-нибудь детские сказки
источник

МЕ

Максим Ермаков... in Natural Language Processing
Благодарю за ответ! Спасибо, что напомнили про нормализацию :)
источник

RR

Rufina Rafikova in Natural Language Processing
Подключайтесь на вебинар, мы начинаем через 10 минут💥
источник

D

Darina in Natural Language Processing
Всем привет. Ворвусь в ваш чат с небольшой просьбой.
Мы (ЦСП "Платформа" и Аналитический центр при Правительстве РФ) делаем исследование об удовлетворенности специалистов ИИ условиями работы в России. И будем признательны, если вы уделите около 12 минут и пройдете опрос: http://ai-survey.ru/
Ваша оценка текущих условий и мер господдержки поможет разработать эффективные инструменты для создания благоприятных условий работы ИИ-сообщества в России. В целом если есть какие-то пожелания, но при прохождении опроса вам почему-то не удастся их высказать, можете написать мне в личку и я постараюсь все учесть при написании аналитики. И да, данные будут в обобщенным виде, публичны и мы сможем поделиться итоговым продуктом (запрос на него тоже можно написать в личку). Спасибо
источник
2021 December 01

T

The_Inspirational_Jo... in Natural Language Processing
Hello guys.....
I have 2 columns as input one column is continuous and the other one is categorical....and the output is a classification problem...it had 96 categories in it....and in the input categorical column i have more than 3000 categories....can u tell me which kind of algorithm will work better here because we have to convert categorical data to numerical also....so let me know
источник

ПЧ

Призрачный Человек... in Natural Language Processing
Подскажите пожалуйста, во время дообучения берта лосс падает в течении N эпох, но после какой то эпохи он внезапно подскакивает в 1000 раз и больше не уменьшается. Это нормальная ситуация или так вообще не должно быть?
источник

DD

David Dale in Natural Language Processing
Нет, что-то сломалось, и, скорее всего, модель сейчас предсказывает константу, через которую уже градиенты не проходят. У меня такое было несколько раз.
Реальных причин таких поломок я не знаю, но в качестве профилактики от них помогает уменьшение learning rate и ограничение величины градиента.
источник

ПЧ

Призрачный Человек... in Natural Language Processing
спасибо, лёрнинг рейт вроде и так не большой поставил 1e-4
источник

MB

Mark Baushenko in Natural Language Processing
думаю стоит от 1e-5 ставить и меньше
источник

ПЧ

Призрачный Человек... in Natural Language Processing
окей, попробую
источник

OP

Oleg Polivin in Natural Language Processing
привет! занимаюсь извлечением ключевых слов и фраз из всяких текстов на русском языке. В принципе все получается неплохо, но довольно часто встречаются ошибки такого плана: слова берутся из одного предложения (что правильно), но из двух разных смысловых частей, и получается довольно бессмысленная фраза. Например: “В ходе ежегодного визита президент Дональд Трамп отметил… ” -> извлекается “визита президент Дональд Трамп“.

Вот если бы просто “президент Дональд Трамп“, было бы неплохо. Но вот это “визита” портит.

Вы не знаете, как можно с этим побороться?
Вот что мне приходит в голову:
- ограничить количество слов во фразе (не очень работает)
- прикрутить какую-нибудь DL модель, которая будет говорить, насколько такая фраза “правильна“, может встретиться в русском языке.
- каким-то образом разбивать предложение дальше на смысловые куски (но как это сделать? можно было бы по запятой, но это не очень часто встречающийся случай. В примере выше запятой нет.).
Пока что все, честно говоря.

Сейчас алгоритм довольно простой, без DL. В наличии есть леммы, POS, разбиение текста на предложения, разбиение предложений на токены. С помощью NLTK текст парсится и определяются NP-фразы (с существительными), подходящими под какой-то паттерн (типа: “прилагательное + существительное” или “существительное+существительное+прилагательное)“.
источник

DD

David Dale in Natural Language Processing
Можно с помощью natasha или spacy строить синтаксические деревья для предложений, и брать только те фразы, которым соответствует связное поддерево.
источник

OP

Oleg Polivin in Natural Language Processing
мне казалось, но, похоже, что я ошибаюсь, что nltk. parser, которым я пользуюсь, делал это. Мое понимание было таким: он принимает на вход POS-тэги, и формирует дерево для предложения. Я смотрел на поддеревья и брал поддерево, если его метка была noun phrase (NP).

А natasha только для русского? я думал потом на другие языки расширить.
источник

DD

David Dale in Natural Language Processing
Да, natasha только для русского, а вот в spacy десятки языков с одинаковым интерфейсом, так что для мультиязычного проекта spacy - подходящее решение. Или udpipe.
источник

OP

Oleg Polivin in Natural Language Processing
спасибо большое!! завтра буду смотреть!
источник