VR
1. Семантический поиск (поиск фразы/словосочетаний по смыслу внутри некого текста или набора текстов) - интересует момент не кодирования предложения целиком, а именно поиск "подсмысла" (как поиск подстроки в тексте)
2. Тематического моделирования (для задач FAQ - если он, скажем, содержит больше 10000 страниц) - т.е. что-то вроде древовидной структуры или диаграммы зависимостей
3. Выделения терминов и условий (суть задачи №2 из этого списка) и отображение терминов в предметной области (визуализация, что-то еще)
4. Построение модели предметной области (т.е. парсинг запросов к предметной области как условий поискового запроса, выделение таких условий)
5. Моделирование диалогов (понимать, как развивается дерево общения в данной ситуации относительно предметной области, скажем перемещение внимания с одной части корпуса текстов на другое, определение темы в настоящий момент и определение переключения темы)
6. Какие-то более продвинутые методики и люди, которые этим умеют заниматься (в личку)