Коллеги, привет! Мы тут решаем задачу распознавания дат написанных естественным языком, и начинаем с нуля, ищем способ вычленять даты из текста с большей аккуратностью чем Spacy и Flair. Решение на английском языке, может кто-то решал подобную задачу? Пока идея дообучить существующие модели, но в данном конкретном случае сложно придумать корпус для «дообучения».
а разве так много вариантов написания?
насчёт датасета:
1) ищите регулярками с избытком (например "ago", "at", "year", "\b{4}\b", ...), а потом размечайте, где ошибка, а где нет.
2) spacy-en научена на ontonotes.
3)
https://www.kaggle.com/google-nlu/text-normalization (лицензия non-commercial) , там есть текстовые написания, но вроде бы там лишь три формата <year> , <month><year> и <date><month><year>, написанные текстом
4) делать transfer learning с BERT.