Ээээ... датасаес и как часть его мл на деле огромной величины процесс
Мы как близкие к коду в качестве пруф оф ворк ждём рабочий пок и его применение, ради примера хотя бы в простейшем случае
На деле же сейчас сотни алгоритмов для классчиского мл, и миллионы их различных сочетаний в разных системах. Все что нужно зачастую - ставь керас, склёрн, тензор - корми данные. Какие-то алгоритмы отработают точно, какие-то чуть хуже, сайнтист выберет лучший и подтюнит модель, это все так
По факту в реальности самая сложная задача в правильной сборке данных, над которыми будет вестись работа.
Для того чтобы этот последний шаг с алгоритмами и библиотеками отработал нужно собрать НУЖНОЕ КОЛИЧЕСТВО ДАННЫХ В НУЖНОМ ВИДЕ. Лишние данные в датасете не позволят алгоритму себя проявить с хорошей стороны. Кроме того из нужно скормить в правильном виде (буквы в цифры, хеши или что-то, благодаря чему размерность может сузиться).
Правильный датасет - сложная долгая работа и это гарантия того алгоритм отработает и выделит правильные фичи в данных