Size: a a a

2018 August 12

SM

Serge Matveenko in PyData SPb
23 августа в офисе DataArt сообщество SPb Python представляет огненный доклад  — Rafael Marañón — "Trends in Auto Tech"

meetu.ps/e/FCVTf/5nHxd/f

#spbpython #talk @rafaelmaranon
источник
2018 August 16

E

Eugene in PyData SPb
Всем привет!
А знает кто-нибудь, есть ли корпуса с most common именами/фамилиями?

Типа размеченных списков, например, из википедии
https://en.wikipedia.org/wiki/List_of_most_popular_given_names
https://en.wikipedia.org/wiki/Lists_of_most_common_surnames

Проблема вот в чём, все существующие name entity recogniter-ы классифицируют имена-фамилии как PERSON и не разбивают на givenname/surname. А мне надо разделять givenname и surname. Для этого я думал взять такой вот корпус размеченных имён и фамилий  и обучить на них классификатор NER с тегами GIVENNAME SURNAME, а не просто PERSON. Соответственно, pipeline был бы такой:
text -> general ner tagger -> person ner tagger -> givenname/surname list

Но что-то я не нашёл подобных корпусов.
А имена у меня примерно такие:
Alexander Friedrich Kuscher
Katie Leah Roberts-Hoffman

Ну и всякие китайские тоже есть.
источник

AZ

Alex Zveryansky in PyData SPb
Eugene
Всем привет!
А знает кто-нибудь, есть ли корпуса с most common именами/фамилиями?

Типа размеченных списков, например, из википедии
https://en.wikipedia.org/wiki/List_of_most_popular_given_names
https://en.wikipedia.org/wiki/Lists_of_most_common_surnames

Проблема вот в чём, все существующие name entity recogniter-ы классифицируют имена-фамилии как PERSON и не разбивают на givenname/surname. А мне надо разделять givenname и surname. Для этого я думал взять такой вот корпус размеченных имён и фамилий  и обучить на них классификатор NER с тегами GIVENNAME SURNAME, а не просто PERSON. Соответственно, pipeline был бы такой:
text -> general ner tagger -> person ner tagger -> givenname/surname list

Но что-то я не нашёл подобных корпусов.
А имена у меня примерно такие:
Alexander Friedrich Kuscher
Katie Leah Roberts-Hoffman

Ну и всякие китайские тоже есть.
Точно есть, я находил, уверен, что нагуглишь, но учти это зависит от страны сильно.
источник

E

Eugene in PyData SPb
Да, я понимаю, что зависит от стран и даже регионов, но хоть какой-то. Погуглю, спасибо.
источник

'o

' or 1=1 -- `ǤŘΔΜ` σяsιηιυм official (っ◔◡◔)っ in PyData SPb
Есть знаменитый список топ имен детей от правительства США:
https://catalog.data.gov/dataset/baby-names-from-social-security-card-applications-national-level-data
Там только first name.
источник

'o

' or 1=1 -- `ǤŘΔΜ` σяsιηιυм official (っ◔◡◔)っ in PyData SPb
источник

'o

' or 1=1 -- `ǤŘΔΜ` σяsιηιυм official (っ◔◡◔)っ in PyData SPb
Фёкла, Элеонора, Самуил и другие всем привычные имена
источник

SS

Sergey Sokolov in PyData SPb
Ну тогда еще можно в mimesis посмотреть: https://github.com/lk-geimfari/mimesis/blob/master/mimesis/data/en/person.json#L5149, там же и фамилии есть, и по полу разделено, и на разных языках
источник

E

Eugene in PyData SPb
Там имена не фейковые? Мне реальные нужны :)
источник

E

Eugene in PyData SPb
' or 1=1 -- `ǤŘΔΜ` σяsιηιυм official (っ◔◡◔)っ
Есть знаменитый список топ имен детей от правительства США:
https://catalog.data.gov/dataset/baby-names-from-social-security-card-applications-national-level-data
Там только first name.
меня не пускает, попробую через vpn. first name тоже хорошо!
источник

'o

' or 1=1 -- `ǤŘΔΜ` σяsιηιυм official (っ◔◡◔)っ in PyData SPb
Eugene
меня не пускает, попробую через vpn. first name тоже хорошо!
На kaggle есть копия этого списка. Ну и много где ещё. Погугли usa gov baby names dataset
источник

E

Eugene in PyData SPb
Список большой и те, что я посмотрел вроде как настоящие. Спасибо. :)
источник
2018 August 22

E

Eugene in PyData SPb
Сделал себе датасет из 3247942 уникальных пар FirstName/LastName реальных людей - изобретателей, которые подавали патентные заявки на американские патенты. Если кому-то надо, пишите, отдам бесплатно и без смс. :)
источник

N

Nikolai in PyData SPb
Eugene
Сделал себе датасет из 3247942 уникальных пар FirstName/LastName реальных людей - изобретателей, которые подавали патентные заявки на американские патенты. Если кому-то надо, пишите, отдам бесплатно и без смс. :)
кейлоггер в подарок?)
источник

E

Eugene in PyData SPb
Nikolai
кейлоггер в подарок?)
к сожалению, в csv файл его не встроить :( 😛
источник

S

Stan in PyData SPb
Eugene
к сожалению, в csv файл его не встроить :( 😛
Если очень захотеть... http://georgemauer.net/2017/10/07/csv-injection.html
источник

ES

Elena Savelieva in PyData SPb
Stan
Если очень захотеть... http://georgemauer.net/2017/10/07/csv-injection.html
Ого.
источник

E

Eugene in PyData SPb
Stan
Если очень захотеть... http://georgemauer.net/2017/10/07/csv-injection.html
Классно! :)
источник

'o

' or 1=1 -- `ǤŘΔΜ` σяsιηιυм official (っ◔◡◔)っ in PyData SPb
Stan
Если очень захотеть... http://georgemauer.net/2017/10/07/csv-injection.html
Хых, класс, утащил в канал
https://t.me/itgram_channel/239
источник
2018 August 23

E

Eugene in PyData SPb
Почему они называют эпоху итерацией?
https://spacy.io/usage/training#annotations

Especially if you only have few examples, you'll want to train for a number of iterations. At each iteration, the training data is shuffled to ensure the model doesn't make any generalisations based on the order of examples.
источник