Ну, если не про слова, то может быть уже что угодно не так. Для слов типичные параметры пайплайна более-менее подобрали. У вас же с каждым элементом пайплайна можно играться и дебагать ошибки. Какой смысл их просто перебирать, не понимая, что происходит?
так я и игрался, очищал данные от выбросов/ошибок, сжимал размерность, гиперпараметры подстраивал, вот и ищу какой-нибудь хитрый метрический алгоритм, но более сложный, чем обычный ближайший сосед
так я и игрался, очищал данные от выбросов/ошибок, сжимал размерность, гиперпараметры подстраивал, вот и ищу какой-нибудь хитрый метрический алгоритм, но более сложный, чем обычный ближайший сосед
а пробовал tf-idf по биграммам и триграммам, но не слов а символов?
это уже не про текст, я про другую задачу писал, извините, что запутал и свалил все в кучу)
По триграммы символов интересно, но не уверен, что поможет, там весьма хаотичные наборы букв/цифр
помогает даже по геному, а уж тут.. ИМХО это для тебя хотичные буквы и цифры. Это скорее всего код/шифр товара(продукции) по какому-нить каталогизатору. Они же (числа и буквы) не радомно брались и добавлялись в наименование
Привет, нигде не могу найти правило, объединяющее несколько range в список пример (1-4, 7, 9-11 нед.) (2, 5, 6 нед.) (5-15 нед.) (14, 16 нед.) что хотелось бы доставать {1,2,3,4,7,9,10,11} {2,6,5} {5,6,7,8,9,10,11,12,13,14,15} {14,16}
Да, изображения испорчены вертикальными полосами, поэтому OCR такой получился. Пытался через cv как-то исправить, но там все плохо. А мб знаете способ/библиотеку для исправления ошибок в тексте, что бы impride ise стал imprudence?
Всем привет! Подскажите пожалуйста - знаете ли хорошие датасеты диалогов на русском / датасеты на русском расшифровок звонков в колл-центры оператор-клиент / датасеты или дампы телеграм каналов или slack чатов? Или может знаете конкурсы/чемпионаты, на которых были такие датасеты? Может быть где-то видели какой-то большой справочник таких материалов?
Всем привет! Подскажите пожалуйста - знаете ли хорошие датасеты диалогов на русском / датасеты на русском расшифровок звонков в колл-центры оператор-клиент / датасеты или дампы телеграм каналов или slack чатов? Или может знаете конкурсы/чемпионаты, на которых были такие датасеты? Может быть где-то видели какой-то большой справочник таких материалов?
и для себя (разобраться c dialogpt, сделать какой-то pet project for fun), и для работы (тут пригодится указание лицензии и/или как связаться с создателями датасета)