Вместо того, чтобы писать кучу сложной логики, в планах сделать тупо транслейт моих текстов в русский и Наташей проходиться)) ну или любой другой готовый инструмент для русского языка юзать.
если конечная цель — нер, то возможно, что 90% именованных сущностей — это просто заимстования из русского и их можно выцепить регулярками?)
ну + имена/геотеги нечётко на основе бд