Size: a a a

Natural Language Processing

2020 May 21

YB

Yuri Baburov in Natural Language Processing
Sergey Shulga
А Наташа разве выделяет элементы? Мне казалось, дергает только ФИО в целом.
pullenti точно умеет разделять на Ф И О.
источник

YB

Yuri Baburov in Natural Language Processing
Сергей Устьянцев
да, тоже думал про словарь, но он вряд ли полноту обеспечит
нужна более-менее полнота среди И и О, тогда Ф методом исключения определяется
источник

SS

Sergey Shulga in Natural Language Processing
Yuri Baburov
pullenti точно умеет разделять на Ф И О.
пойду смотреть
источник

СУ

Сергей Устьянцев... in Natural Language Processing
тогда можно даже не CRF на выход, а просто на правилах
источник

СУ

Сергей Устьянцев... in Natural Language Processing
вряд ли же данные будут в формате ФОИ или ИФО
источник

YB

Yuri Baburov in Natural Language Processing
словарь на 1 млн имён где-то был, -вич, -вна, -оглы — все отчества.
источник

SS

Sergey Shulga in Natural Language Processing
Yuri Baburov
словарь на 1 млн имён где-то был, -вич, -вна, -оглы — все отчества.
хорошая тема, пойду искать
источник

YB

Yuri Baburov in Natural Language Processing
Сергей Устьянцев
вряд ли же данные будут в формате ФОИ или ИФО
зависит от конкретной задачи.
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
словарь на 1 млн имён где-то был, -вич, -вна, -оглы — все отчества.
редкие исключения — фамилии типа "александрович", "иванович", и так же бывают имена с фамилиями одинаковые.
источник

СУ

Сергей Устьянцев... in Natural Language Processing
есть словарь фамилий примерно 300к штук, могу закинуть
источник

YB

Yuri Baburov in Natural Language Processing
в общем, три детектора надо, а потом по максимальным их вероятностям определять, где какая компонента.
источник

YB

Yuri Baburov in Natural Language Processing
Сергей Устьянцев
есть словарь фамилий примерно 300к штук, могу закинуть
кидай прям сюда, если не жалко
источник

SS

Sergey Shulga in Natural Language Processing
меня тут больше болгары волнуют ))  Они там любят всякие Александр Павел
источник

SS

Sergey Shulga in Natural Language Processing
Yuri Baburov
кидай прям сюда, если не жалко
+1
источник

MF

M F in Natural Language Processing
Sergey Shulga
контекста нет, чистый стринг, в котором находится ФИО, при этом это ФИО иногда бывает не в именительном падеже (встречается дательный и родительный)
похожую задачу когда-то решали с  https://github.com/erikrose/parsimonious - удобно свои какие угодно правила писать, если как раз строка короткая и вся должна быть распаршена
источник

СУ

Сергей Устьянцев... in Natural Language Processing
источник

YB

Yuri Baburov in Natural Language Processing
Sergey Shulga
меня тут больше болгары волнуют ))  Они там любят всякие Александр Павел
тут только порядком тогда решить можно. т.е. если два детектора вернули 1 (или не сильно различаются по вероятности), то первое — имя, второе — фамилия.
но прикол что в русской системе записи чаще пишут ФИО, а в английской ИОФ (или просто ИФ).
источник

СУ

Сергей Устьянцев... in Natural Language Processing
но мне кажется, словарь немного грязноват
источник

СУ

Сергей Устьянцев... in Natural Language Processing
кинул как есть
источник

V

Viktor in Natural Language Processing
Yuri Baburov
словарь на 1 млн имён где-то был, -вич, -вна, -оглы — все отчества.
петрович вроде такое умеет делать
источник