Yaroslav Pikaliov
добрый день, какой оптимальный размер словаря для bpe-токенизации русского корпуса (для английского нашел 16-32 тыс. оптимальный ращмер)?
Сильно зависит от датасета. Мне кажется, удобнее смотреть даже не на размер словаря, а на частотность самых редких токенов в словаре.
Кажется, что токенами, которые в корпусе встречаются единицы раз, точно не жалко жертвовать) А токенами, которые встречаются сотни раз, уже жалко.