Мы давно не рассказывали вам об исследованиях, которые в качестве инструментов используют модели RusVectōrēs. Сегодня мы возобновим эту славную традицию и познакомим вас со статьей Полины Паничевой и Татьяны Литвиновой "
Semantic Coherence in Schizophrenia in Russian Written Texts". Это исследование использует методы
author profiling по отношению к текстам людей, страдающих шизофренией. Главный вопрос исследования - можно ли отличить тексты людей, больных шизофренией, от текстов здоровых людей? Основной признак, по которому сравниваются данные -
semantic coherence (семантическая связность).
Семантическая связность определяется как средний коэффициент косинусной близости двух векторов слов, подсчитанный для определенных n-грамм. Например, в предложении "
Снесла курочка яичко, да не простое, а золотое" коэффициент семантической связности для триграммы "
Снесла курочка яичко" (окно размера 3) подсчитывается как средний коэффициент косинусной близости между векторами слов "
снесла" и "
курочка", "
курочка" и "
яичко". Каждый текст характеризуется последовательностью таких коэффициентов для всех n-грамм (в нашем примере выше мы использовали триграммы). Авторы выделяют несколько метрик, с помощью которых можно сравнивать тексты: минимальное и максимальное значения коэффициента семантической связности, среднее значение коэффициента, стандартное отклонение и др. Для вычисления косинусной близости между векторами слов в тексте авторы используют модель RusVectōrēs с идентификатором
ruwikiruscorpora_upos_skipgram_300_2_2018.
Исследование показало, что между текстами людей, больных шизофренией, и текстами здоровых людей имеются существенные различия. Авторы добились точности от
0.72 до
0.88 при автоматическом опредлении принадлежности текста к той или иной группе данных. В то же время, анализ результатов для русского языка противоречит исследованиям, проведенным для английского языка. Например, минимальный коэффициент семантической связности оказывается ниже для текстов здоровых людей, в то время как в английском языке прослеживалась обратная тенденция.
В целом, нам кажется, что это интересное исследование демонстрирует, как разнообразны сферы NLP, в которых применимы модели векторной семантики. Успехов авторам, а мы надеемся прочесть ещё множество замечательных статей, где в качестве инструментов используются модели RusVectōrēs!