Телеграмм чат группы natural_language

2020 February 04

YP

Yaroslav Pikaliov in Natural Language Processing

добрый день, какой оптимальный размер словаря для bpe-токенизации русского корпуса (для английского нашел 16-32 тыс. оптимальный ращмер)?

источник

12:25пожаловаться #1

T

Teemoor in Natural Language Processing

Yaroslav Pikaliov

добрый день, какой оптимальный размер словаря для bpe-токенизации русского корпуса (для английского нашел 16-32 тыс. оптимальный ращмер)?

а есть возможность поэкспериментировать? вдруг получится сделать оптимальнее

источник

12:31пожаловаться #2

D(

David (ddale) Dale in Natural Language Processing

Yaroslav Pikaliov

добрый день, какой оптимальный размер словаря для bpe-токенизации русского корпуса (для английского нашел 16-32 тыс. оптимальный ращмер)?

Сильно зависит от датасета. Мне кажется, удобнее смотреть даже не на размер словаря, а на частотность самых редких токенов в словаре.
Кажется, что токенами, которые в корпусе встречаются единицы раз, точно не жалко жертвовать) А токенами, которые встречаются сотни раз, уже жалко.

источник

12:34пожаловаться #3

YP

Yaroslav Pikaliov in Natural Language Processing

ну пока пробовал 100 тыс. и 30 тыс., на 100 тыс. плохо делит на составные части, на 30 тыс. вроде нормальный рез-т

источник

12:34пожаловаться #4

YP

Yaroslav Pikaliov in Natural Language Processing

David (ddale) Dale

Сильно зависит от датасета. Мне кажется, удобнее смотреть даже не на размер словаря, а на частотность самых редких токенов в словаре.
Кажется, что токенами, которые в корпусе встречаются единицы раз, точно не жалко жертвовать) А токенами, которые встречаются сотни раз, уже жалко.

это справедливо для ванильной токенизации, я про bpe-токенизацию

источник

12:51пожаловаться #5

D(

David (ddale) Dale in Natural Language Processing

Yaroslav Pikaliov

это справедливо для ванильной токенизации, я про bpe-токенизацию

Для bpe должно быть справедливо примерно то же самое, но в более мягкой форме, т.к. "исключённые" токены не заменяются на UNK, а разбиваются на более короткие токены.
То есть график зависимости качества от размера словаря должен быть в случае bpe более пологим, чем для ванильной токенизации, но примерно той же формы.

источник

12:53пожаловаться #6

YP

Yaroslav Pikaliov in Natural Language Processing

David (ddale) Dale

Для bpe должно быть справедливо примерно то же самое, но в более мягкой форме, т.к. "исключённые" токены не заменяются на UNK, а разбиваются на более короткие токены.
То есть график зависимости качества от размера словаря должен быть в случае bpe более пологим, чем для ванильной токенизации, но примерно той же формы.

спасибо, попробую

источник

13:08пожаловаться #7

V

Viktor in Natural Language Processing

Yaroslav Pikaliov

добрый день, какой оптимальный размер словаря для bpe-токенизации русского корпуса (для английского нашел 16-32 тыс. оптимальный ращмер)?

вот тут обсуждали как-то уже https://opendatascience.slack.com/archives/C04N3UMSL/p1572716322285000

источник

13:53пожаловаться #8

K

Kir in Natural Language Processing

ребята, у кого-то было такое, что AddressExtractor Наташин выдает пустой match, как красиво и идеально ни были бы написаны адреса

источник

22:57пожаловаться #9

V

Vlad in Natural Language Processing

У меня было, окозалось у неё в правилах не было таких названий городов/улиц

источник

23:42пожаловаться #10

V

Vlad in Natural Language Processing

Если я правильно понимаю, то все возможные названия перечислены тут https://github.com/natasha/natasha/blob/master/natasha/grammars/address.py

Я пробовал раньше добавлять туда новые значения (просто модифицировать файл) - ничего не менялось

GitHub

natasha/natasha

Rule-based named entity recognition library for russian language - natasha/natasha