либо какие-то очень специальные математические вычисления, либо какое-нибудь секвенирование генома, для которого лучше готовые пакеты использовать )
Проще, корпус на 300,000 текстов, лексикон 60к, считаю матрицу со-появлений. Эта функция есть в dev версии TextAnalysis (у меня стоит stable), но мне захотелось руками попробовать оценить производительность решения "в лоб". Как минимум в половину время можно сократить если считать только нижнюю треугольную матрицу, а не целиком, как сейчас :)