Привет, коллеги. Дайте совет пожалуйста. Нужно с кем-то обсудить, а не с кем.
Есть задача классификации текстов. Около 250 классов.
Тексты - звонки в колл центр.
Пробовал тюненный Elmo, Bert. Качество около 90%, но на древнем ЦПУ работают слишком медленно.
Качество возможно даже выше, так как у классов иерархическая структура и отличия в подклассах влияют на метрику, но на практике не сильно важны.
Но иерархический классификатор не вариант - медленно.
Важна скорость работы. Для примера Elmo выдает 1 ответ в секунду, а нужно 5-10 в секунду.
Сейчас рабочий вариант - FastText + логистическая регрессия. Около 85% accuracy. Приемлемо но маловато.
Использовал изначально FT так как текстов было мало. Сейчас спустя год, предположив что "видели всё", а датасет подрос с 100тыс до 2 млн примеров - можно заменить FT на TF-IDF. И тфидф, естественно, даёт точность лучше.
Но в данных много всяких адресов, телефонных номеров и прочего подобного - в словарь это записывать нет смысла.
Есть идея заменить эти токнны на теги NER. Но каким-то супербыстрым NERом.
А может вместо TF-IDF натренить FT на этом корпусе?
Или давить на "дальше только Elmo, Bert и т.п.,давайте раскошеливаться на ГПУ, или выдумывать кластера, очереди и прочее чтобы ускорить работу"?
Конечно нужно пробовать разные варианты. Но пока выдался день вдали от компьютера - можно планировать эксперимент.
Что думаете? Куда ещё посмотреть?