Более правильный вариант - не сравнивать, а перемножать. И не абсолютные частоты, а доли (т.е. деленные на общее число слов в корпусе), возможно, как-нибудь сглаженные.
Почему это полезно: фраза, в которой все слова умеренно-частые, будет предпочтена фразе, где есть одно суперчастое слово, и одно несуществующ ее.
Почему это логично: получая вероятность фразы как произведение вероятностей слов, ты получаешь настоящую языковую модель - наивную (слова полагаются независимыми друг от друга), но таки обладающую всеми хорошими свойствами вероятностных моделей.
Послушал тебя :) Сейчас закину "Полная парадигма. Морфология. Частотный словарь. Совмещенный словарь. Автор М. Хаген." Словарь содержит 4 815 058 словоформ для 173 076 лемм. Словарь составлен на основе известного файла "Полная акцентуированная парадигма по Зализняку" и существенно расширен за счет таких словарей в электронном виде, как "Лопатин В.В. Полный орфографический словарь русского языка", "Словарь иностранных слов, Москва: Русский язык, 1988", "Новый толково-словообразовательный словарь русского языка. Автор Т. Ф. Ефремова. 2000 г.", "Толковый словарь под ред. C. И. Ожегова и Н.Ю.Шведовой, М., Азъ, 1992 г." и некоторых онлайн-словарей и энциклопедий. Может кому нужно будет
http://www.speakrus.ru/dict/hagen-morph.rar