МД
Суть в том, чтобы извлекать из текста объявления о каком-нибудь мероприятии (лекция, концерт, мастер-класс) такие сущности: дата, время, стоимость, место. Тексты на русском языке.
Это вроде как типовая named entity extraction задача. Для русского языка существует yargy parser знаю. Но может подскажите ещё какие-нибудь подходы?
Размеченного корпуса как такового нет. Есть наскрэпленные тексты с метаданными со всяких афиш-сайтов, но там не всегда в самом тексте есть указание даты и места.