Здравствуйте. Есть ли способы подавать в sklearn tfidf не массив текстов, а массив из массивов предложений? Конечная цель - чтобы в н-граммы не попадали слова подряд из разных предложений
В качестве хака можно отделить предложения друг от друга (n-1) специальными токенами, тогда в n-грамы токены из двух соседних предложений попасть не смогут. Это можно закодить как отдельный препроцессор текста.
Ну или можно сделать только 1 специальный токен, и потом словарь tfidf'а пофильтровать, выкинув все n-граммы, в которых этот токен не в начале/конце.