Ну и еще одна нерешенная проблема — нормальное представление данных на вход, когда мы говорим об изначально цифровых данных, типа естественных данных, то тут все просто, а вот когда говорим о данных искусственных, например языковых конструкциях, то там подходов — пиздец, начиная с простого TF-IDF и заканчивая какими-то ебейшими морфемными токенайзерами