можно нанять специалистов для разметки
Я как-раз собираюсь делать штуку для полуавтоматической разметки данных. Пока что получается так: в систему загружается plain text, он автоматически разбивается на предложения и токены, потом делается POS-теггинг. Дальше всё это становится доступным по API, к которому можно подключать всякие программные штуки (та же наташа, например) или асессоров - перекрестные результаты (с учетом некоторого кворума, наверное) можно считать правильными и выгружать для обучения. Если я правильно помню, такую же штуку пилят организаторы FactRuEval-2016, только у них как-то глухо там.
Если есть какие-нибудь хотелки (например, возможность помечать документы / предложения, помимо токенов) - смело пишите ;)