Ребят, привет, такой вопрос - есть огромный массив данных - миллиарды записей, нужно каким-то образом просмотреть все эти записи и проставить им маркер: хорошо или плохо
Человек в принципе не может просмотреть такой огромный массив данных, но каким-то образом нужно отобрать хорошие и плохие образцы
Каким образом можно решить эту задачу?
Грубо это массив векторов в 80-мерном пространстве, где некоторые измерения = категорийные(фикс. Набор Значений 1,2,3,5,10)
Не майтесь.
Пройдите первые 2 курса этой специализации, разметьте в том же экселе случайный (!) набор из пары тысяч элементов (или хотя бы приблизьтесь к этому числу, пока совсем не устанете размечать), потом примените SVM какой-нибудь по всем правилам с отложенной выборкой, проанализируйте ошибки, дальше уже думать, хватит вам такой точности ответа или нет.
На кластеризацию и ручные правила, как вы выше написали, боюсь, уйдет тоже времени немало, а результат далеко не гарантирован. Хоть процесс может получиться и увлекательным. :)