Всем привет!
А знает кто-нибудь, есть ли корпуса с most common именами/фамилиями?
Типа размеченных списков, например, из википедии
https://en.wikipedia.org/wiki/List_of_most_popular_given_nameshttps://en.wikipedia.org/wiki/Lists_of_most_common_surnamesПроблема вот в чём, все существующие name entity recogniter-ы классифицируют имена-фамилии как PERSON и не разбивают на givenname/surname. А мне надо разделять givenname и surname. Для этого я думал взять такой вот корпус размеченных имён и фамилий и обучить на них классификатор NER с тегами GIVENNAME SURNAME, а не просто PERSON. Соответственно, pipeline был бы такой:
text -> general ner tagger -> person ner tagger -> givenname/surname list
Но что-то я не нашёл подобных корпусов.
А имена у меня примерно такие:
Alexander Friedrich Kuscher
Katie Leah Roberts-Hoffman
Ну и всякие китайские тоже есть.