Привет. С помощью spacy векторизовал (token.vector) датасет (корпус с русскоязычными предложениями с метками [0,1]), для каждого токена получился вектор размерностью 96. Предложение - список векторов. Есть многослойный перцептрон. Как правильно использовать это для задачи классификации? Вычислять выходной слой для каждого токена(вектора), суммируя\умножая результат (что-бы получить результат для целого предложения), или как-то по другому?
Перед тем, как подаёшь на вход full-connected слоям, нужно получить один вектор/тезор фиксированного размера. Можно сложить/усреднить вложения токенов. Можно склеить все вложения токенов в один вектор, но тогда нужно добивать/обрезать до фиксированного размера. Можно после векторизации слов добавить слой RNN/LSTM/CNN, а результат уже подавать на полносвязанные слои.