Size: a a a

Natural Language Processing

2020 February 04

YP

Yaroslav Pikaliov in Natural Language Processing
добрый день, какой оптимальный размер словаря для bpe-токенизации русского корпуса (для английского нашел 16-32 тыс. оптимальный ращмер)?
источник

T

Teemoor in Natural Language Processing
Yaroslav Pikaliov
добрый день, какой оптимальный размер словаря для bpe-токенизации русского корпуса (для английского нашел 16-32 тыс. оптимальный ращмер)?
а есть возможность поэкспериментировать? вдруг получится сделать оптимальнее
источник

D(

David (ddale) Dale in Natural Language Processing
Yaroslav Pikaliov
добрый день, какой оптимальный размер словаря для bpe-токенизации русского корпуса (для английского нашел 16-32 тыс. оптимальный ращмер)?
Сильно зависит от датасета. Мне кажется, удобнее смотреть даже не на размер словаря, а на частотность самых редких токенов в словаре.
Кажется, что токенами, которые в корпусе встречаются единицы раз, точно не жалко жертвовать) А токенами, которые встречаются сотни раз, уже жалко.
источник

YP

Yaroslav Pikaliov in Natural Language Processing
ну пока пробовал 100 тыс. и 30 тыс., на 100 тыс. плохо делит на составные части, на 30 тыс. вроде нормальный рез-т
источник

YP

Yaroslav Pikaliov in Natural Language Processing
David (ddale) Dale
Сильно зависит от датасета. Мне кажется, удобнее смотреть даже не на размер словаря, а на частотность самых редких токенов в словаре.
Кажется, что токенами, которые в корпусе встречаются единицы раз, точно не жалко жертвовать) А токенами, которые встречаются сотни раз, уже жалко.
это справедливо для ванильной токенизации, я про bpe-токенизацию
источник

D(

David (ddale) Dale in Natural Language Processing
Yaroslav Pikaliov
это справедливо для ванильной токенизации, я про bpe-токенизацию
Для bpe должно быть справедливо примерно то же самое, но в более мягкой форме, т.к. "исключённые" токены не заменяются на UNK, а разбиваются на более короткие токены.
То есть график зависимости качества от размера словаря должен быть в случае bpe более пологим, чем для ванильной токенизации, но примерно той же формы.
источник

YP

Yaroslav Pikaliov in Natural Language Processing
David (ddale) Dale
Для bpe должно быть справедливо примерно то же самое, но в более мягкой форме, т.к. "исключённые" токены не заменяются на UNK, а разбиваются на более короткие токены.
То есть график зависимости качества от размера словаря должен быть в случае bpe более пологим, чем для ванильной токенизации, но примерно той же формы.
спасибо, попробую
источник

V

Viktor in Natural Language Processing
Yaroslav Pikaliov
добрый день, какой оптимальный размер словаря для bpe-токенизации русского корпуса (для английского нашел 16-32 тыс. оптимальный ращмер)?
вот тут обсуждали как-то уже https://opendatascience.slack.com/archives/C04N3UMSL/p1572716322285000
источник

K

Kir in Natural Language Processing
ребята, у кого-то было такое, что AddressExtractor Наташин выдает пустой match, как красиво и идеально ни были бы написаны адреса
источник

V

Vlad in Natural Language Processing
У меня было, окозалось у неё в правилах не было таких названий городов/улиц
источник

V

Vlad in Natural Language Processing
Если я правильно понимаю, то все возможные названия перечислены тут https://github.com/natasha/natasha/blob/master/natasha/grammars/address.py

Я пробовал раньше добавлять туда новые значения (просто модифицировать файл) - ничего не менялось
источник
2020 February 05

AA

Aleksandr Aksarin in Natural Language Processing
Бывает, у меня с именем такая же тема. Щас pullenti пробую вместо Наташи
источник

V

Vlad in Natural Language Processing
С именами кстати проблема легко решилась добавлением новых знаний в словари имён и фамилий. А вот с адресами такое не прокатывает
источник

V

Vlad in Natural Language Processing
https://mydata.biz/ru/catalog/databases/names_db

Я вот эту использовал)
Просто добавить значения из этой бд в файлы уже установленной Наташи
источник

Г

Георгий in Natural Language Processing
Aleksandr Aksarin
Бывает, у меня с именем такая же тема. Щас pullenti пробую вместо Наташи
У pullenti, согласно лицензии,  только некоммерческое бесплатное использование.
источник

AA

Aleksandr Aksarin in Natural Language Processing
Георгий
У pullenti, согласно лицензии,  только некоммерческое бесплатное использование.
ну или купить поди можно
источник

R

Rodion in Natural Language Processing
А кто-то подскажет, для англоязычных адресов есть аналоги наташи?
источник

V

Vlad in Natural Language Processing
spaCy вроде умеет находить их, но конечно не в таком виде, как Наташа - просто токенами помечает
источник

R

Rodion in Natural Language Processing
Vlad
spaCy вроде умеет находить их, но конечно не в таком виде, как Наташа - просто токенами помечает
спасибо
источник

NK

Nikolay Karelin in Natural Language Processing
Rodion
А кто-то подскажет, для англоязычных адресов есть аналоги наташи?
Вот это пробовали: https://github.com/openvenues/pypostal
Неплохо работает
источник