Size: a a a

Natural Language Processing

2020 January 26

STM32F04 и анамнезис in Natural Language Processing
2-е слова, типа "дисковый" путают её
источник

YB

Yuri Baburov in Natural Language Processing
STM32F04 и анамнезис
примеров 24 тысячи
ну это может быть маловато, хотя на каждый класс вроде бы достаточно. у меня на 24 тысячах и 100 классах была точность 80-85%, но там метки были смещены относительно текстов и разделение не оптимальное.
источник

YB

Yuri Baburov in Natural Language Processing
STM32F04 и анамнезис
2-е слова, типа "дисковый" путают её
ну, чтобы не путало, надо, чтобы по остальным словам уверенно опознавалось.
источник
2020 January 27

YB

Yuri Baburov in Natural Language Processing
она ж не зря берёт слово "дисковый" и смотрит наиболее популярную категорию с этим словом — так ей проще
источник

STM32F04 и анамнезис in Natural Language Processing
80-85 по-лучше, чем мои 75%, идеи разбить на кластеры и задать character-level фичи мне нравятся, буду копать туда. Тут еще плохо, что текст маленький: 1-2 слово и огроменные наборы букв/цифр всяких. Я очистил от знаков '&*, качество улучшилось, но не критично
источник

YB

Yuri Baburov in Natural Language Processing
1) ну если однотипные наборы букв/цифр — классифицирующий признак, то это хорошо, можно сделать "частичную нормализацию" и может даже этого будет достаточно
2) а что, нет биграмм? нож_дисковый — это отличная биграмма!
источник

STM32F04 и анамнезис in Natural Language Processing
слушайте, раз уж вы помочь решили, буду нескромным и еще вопросим задам: задачка мучает уже неделю: есть набор данных, но кол-во классов равно кол-ву примеров, задача по новому примеру определить его класс
источник

STM32F04 и анамнезис in Natural Language Processing
решаю методом 1 ближайшего соседа
источник

YB

Yuri Baburov in Natural Language Processing
STM32F04 и анамнезис
слушайте, раз уж вы помочь решили, буду нескромным и еще вопросим задам: задачка мучает уже неделю: есть набор данных, но кол-во классов равно кол-ву примеров, задача по новому примеру определить его класс
KNN-like. то есть, смотрим дистанцию до всех примеров, да.
чем лучше функция дистанции — тем лучше будет работать
источник

STM32F04 и анамнезис in Natural Language Processing
но точность совсем плохая 20% максимум, перепробовал вообще все методы
источник

YB

Yuri Baburov in Natural Language Processing
STM32F04 и анамнезис
но точность совсем плохая 20% максимум, перепробовал вообще все методы
улучшать функцию дистанции надоть
источник

YB

Yuri Baburov in Natural Language Processing
фичи там получше найти для дистанции... или популярные-слова выкинуть...  или взвесить по TF-IDF
источник

STM32F04 и анамнезис in Natural Language Processing
метрика? брал разную, от эвклидовой и косинуса до Махаланобиса. А это уже не про слова, там разреженные данные и 500 мерное пространство признаков
источник

STM32F04 и анамнезис in Natural Language Processing
или функция дистанции - про что-то другое?
источник

CT

Cookie Thief in Natural Language Processing
Если данные сильно разрежены, может стоит попробовать размерность сжать?
источник

STM32F04 и анамнезис in Natural Language Processing
пробовал, куда уж без этого, там на 100 мерности дисперсия понижается, сжимал до 150
источник

STM32F04 и анамнезис in Natural Language Processing
при том разными методами понижал
источник

STM32F04 и анамнезис in Natural Language Processing
вот график
источник

STM32F04 и анамнезис in Natural Language Processing
источник

YB

Yuri Baburov in Natural Language Processing
STM32F04 и анамнезис
метрика? брал разную, от эвклидовой и косинуса до Махаланобиса. А это уже не про слова, там разреженные данные и 500 мерное пространство признаков
Ну, если не про слова, то может быть уже что угодно не так. Для слов типичные параметры пайплайна более-менее подобрали. У вас же с каждым элементом пайплайна можно играться и дебагать ошибки. Какой смысл их просто перебирать, не понимая, что происходит?
источник