Телеграмм чат группы natural_language

23:57пожаловаться #1

примеров 24 тысячи

ну это может быть маловато, хотя на каждый класс вроде бы достаточно. у меня на 24 тысячах и 100 классах была точность 80-85%, но там метки были смещены относительно текстов и разделение не оптимальное.

23:58пожаловаться #2

2-е слова, типа "дисковый" путают её

ну, чтобы не путало, надо, чтобы по остальным словам уверенно опознавалось.

23:59пожаловаться #3

2020 January 27

она ж не зря берёт слово "дисковый" и смотрит наиболее популярную категорию с этим словом — так ей проще

STM32F04 и анамнезис in Natural Language Processing

00:00пожаловаться #4

Sи

80-85 по-лучше, чем мои 75%, идеи разбить на кластеры и задать character-level фичи мне нравятся, буду копать туда. Тут еще плохо, что текст маленький: 1-2 слово и огроменные наборы букв/цифр всяких. Я очистил от знаков '&*, качество улучшилось, но не критично

00:01пожаловаться #5

1) ну если однотипные наборы букв/цифр — классифицирующий признак, то это хорошо, можно сделать "частичную нормализацию" и может даже этого будет достаточно
2) а что, нет биграмм? нож_дисковый — это отличная биграмма!

STM32F04 и анамнезис in Natural Language Processing

00:02пожаловаться #6

Sи

слушайте, раз уж вы помочь решили, буду нескромным и еще вопросим задам: задачка мучает уже неделю: есть набор данных, но кол-во классов равно кол-ву примеров, задача по новому примеру определить его класс

STM32F04 и анамнезис in Natural Language Processing

00:03пожаловаться #7

Sи

решаю методом 1 ближайшего соседа

00:03пожаловаться #8

KNN-like. то есть, смотрим дистанцию до всех примеров, да.
чем лучше функция дистанции — тем лучше будет работать

STM32F04 и анамнезис in Natural Language Processing

00:04пожаловаться #9

Sи

но точность совсем плохая 20% максимум, перепробовал вообще все методы

00:04пожаловаться #10

но точность совсем плохая 20% максимум, перепробовал вообще все методы

улучшать функцию дистанции надоть

00:04пожаловаться #11

фичи там получше найти для дистанции... или популярные-слова выкинуть... или взвесить по TF-IDF

STM32F04 и анамнезис in Natural Language Processing

00:04пожаловаться #12

Sи

метрика? брал разную, от эвклидовой и косинуса до Махаланобиса. А это уже не про слова, там разреженные данные и 500 мерное пространство признаков

STM32F04 и анамнезис in Natural Language Processing

00:06пожаловаться #13

Sи

или функция дистанции - про что-то другое?

Cookie Thief in Natural Language Processing

00:07пожаловаться #14

Если данные сильно разрежены, может стоит попробовать размерность сжать?

STM32F04 и анамнезис in Natural Language Processing

00:08пожаловаться #15

Sи

пробовал, куда уж без этого, там на 100 мерности дисперсия понижается, сжимал до 150

STM32F04 и анамнезис in Natural Language Processing

00:09пожаловаться #16

Sи

при том разными методами понижал

STM32F04 и анамнезис in Natural Language Processing

00:09пожаловаться #17

Sи

вот график

STM32F04 и анамнезис in Natural Language Processing

00:09пожаловаться #18

Sи

00:10пожаловаться #19

Ну, если не про слова, то может быть уже что угодно не так. Для слов типичные параметры пайплайна более-менее подобрали. У вас же с каждым элементом пайплайна можно играться и дебагать ошибки. Какой смысл их просто перебирать, не понимая, что происходит?