В тексте не исключено появление таких чисел.
Также в тексте будет производиться поиск ФИО и Адресов, поэтому хотелось бы использовать один инструмент (Yargy).
Пока, помимо выделения попадающих в диапазон (хотя бы годов) значений дальше не продвинулся:
DATE_IN_SINGLE_INT = and_(
type('INT'),
gte(19000000),
lte(21000000)
)
Поскольку разбить на данном этапе токен на меньшие не выйдет (с Yargy познакомился недавно, поэтому могу ошибаться), то ищу другие способы решения вопроса.
мне одному кажется, что в этой постановке задача не решается без контекстной информации?
типо : "20051231 рублей" или "дата - 20051231"
я к тому, что токен - бейзд парсером это вроде не решается ( не знаю, что умеет yargy )