Хм. Слова или предложения.... Если у нас изначально есть предложения, то мы можем раздробить их на слова и найти сходство (расстояние) между каждым словом из набора и каждым словом из предложения. Затем усреднить эти показатели.
Я кажется понял в чем проблема. Задача нахождения сходства между текстом и текстом решается через нахождение сходства между словом и текстом.
Как ты,
@ex_sales, сказал, нужно понять, как эти "куски" лучше всего использовать. Но я думаю, усреднять -- неплохой вариант.