Size: a a a

Natural Language Processing

2021 March 16

R

Renat in Natural Language Processing
Она берет, но внутри себя все равно режет
источник

D

Danila Milovanov in Natural Language Processing
Понял, вкусно.
источник

R

Renat in Natural Language Processing
Просто попробуй циклом добавлять слова и сравнить эмбеддинги
источник

CT

Cookie Thief in Natural Language Processing
Как вариант, можно порезать текст на пересекающиеся чанки и усреднить эмбеддинг
источник

D

Danila Milovanov in Natural Language Processing
Но если текст больше 100 токенов, то все равно же он возьмёт просто первых 100 токенов? Просто у меня вся суть в основном в начале(первые 100 токенов)
источник

D

Danila Milovanov in Natural Language Processing
Но это все равно порежет качество конечно
источник

R

Renat in Natural Language Processing
Danila Milovanov
Но если текст больше 100 токенов, то все равно же он возьмёт просто первых 100 токенов? Просто у меня вся суть в основном в начале(первые 100 токенов)
Ага
источник

D

Danila Milovanov in Natural Language Processing
Cookie Thief
Как вариант, можно порезать текст на пересекающиеся чанки и усреднить эмбеддинг
А насколько хорош получается усреднённый эмбеддинг? Просто не работал ещё с этим
источник

CT

Cookie Thief in Natural Language Processing
it depends
источник

CT

Cookie Thief in Natural Language Processing
Проще просто взять и протестить)
источник

D

Danila Milovanov in Natural Language Processing
Согласен, спасибо
источник

CT

Cookie Thief in Natural Language Processing
Но по опыту так получается чутка лучше, чем просто резать на непересекающиеся чанки и усреднять
источник

D

Danila Milovanov in Natural Language Processing
Cookie Thief
Но по опыту так получается чутка лучше, чем просто резать на непересекающиеся чанки и усреднять
А не подскажите где можно почить про пересекающиеся чанки? Гугл пока что не помог
источник

CT

Cookie Thief in Natural Language Processing
[Мама мыла раму] -> [мама мыла], [мыла раму]
источник

D

Danila Milovanov in Natural Language Processing
А, я понял, спасибо большое!
источник

D

Danila Milovanov in Natural Language Processing
В USE Large же датасет больше чем в USE Small?
источник

D

Danila Milovanov in Natural Language Processing
Или в чём их отличия?
источник

CT

Cookie Thief in Natural Language Processing
Danila Milovanov
В USE Large же датасет больше чем в USE Small?
Различия только в размере модели
источник

CT

Cookie Thief in Natural Language Processing
Ну и в архитектуре моделек
источник

SL

Shelest Listjev in Natural Language Processing
Гайз, пробую файнтюнить руберт для нер, тексты до 300 токенов, выдает следующую ошибку:

RuntimeError('The size of tensor a (541) must match the size of tensor b (512) at non-singleton dimension 1')

В чем может быть проблема?
источник