Size: a a a

NLP_RU - Natural Language Processing & Text Mining

2021 June 08

TN

Timofey Naumenko in NLP_RU - Natural Language Processing & Text Mining
Повторю вопрос тут, наверное, тут это более релевантно.

В статье Attention is all you need, где были предложены Transformer'ы, авторы используют совмещенный BPE словарь (токены из частей слов) для английского и немецкого языков. Зачем это делается, если это не просто так? Как это обосновать можно?
источник

K

Ksenia in NLP_RU - Natural Language Processing & Text Mining
Языки очень похожие, и есть экономия на размере словаря
источник

K

Ksenia in NLP_RU - Natural Language Processing & Text Mining
Плюс multilingual shared embeddings берут информацию друг от друга (один язык от другого) — опять же если они достаточно близки
источник

K

Ksenia in NLP_RU - Natural Language Processing & Text Mining
В стастье про XLM про это хорошо и четко написано, если я не ошибаюсь, Conneau and Lample
источник

TN

Timofey Naumenko in NLP_RU - Natural Language Processing & Text Mining
Это сомнительный аргумент, так как в реальном применении рядом будет модель Transformer на 200М.
источник

TN

Timofey Naumenko in NLP_RU - Natural Language Processing & Text Mining
А вот про это я забыл. Спасибо, это то, что надо было!
источник

K

Ksenia in NLP_RU - Natural Language Processing & Text Mining
Вовсе не сомнительный, если вы посчитаете, какой процент от весов трансформера занимает embedding matrix
источник

K

Ksenia in NLP_RU - Natural Language Processing & Text Mining
Для любопытства посчитайте
источник

TN

Timofey Naumenko in NLP_RU - Natural Language Processing & Text Mining
Ох...)
источник

TN

Timofey Naumenko in NLP_RU - Natural Language Processing & Text Mining
78 метров)
источник

TN

Timofey Naumenko in NLP_RU - Natural Language Processing & Text Mining
Весьма много, вопрос отпал
источник

TN

Timofey Naumenko in NLP_RU - Natural Language Processing & Text Mining
Я думал в первую очередь про словарь токенизации, который в 1Мб можно поместить где-то
источник

K

Ksenia in NLP_RU - Natural Language Processing & Text Mining
У меня в bart-base 140M весов, а embedding matrix где-то 100M
источник

K

Ksenia in NLP_RU - Natural Language Processing & Text Mining
Это все-таки не совсем то
источник

TN

Timofey Naumenko in NLP_RU - Natural Language Processing & Text Mining
Уже понял. Выше посчитал, 78М на один словарь
источник

K

Ksenia in NLP_RU - Natural Language Processing & Text Mining
В смысле обе (энкодер / декодер )
источник

TN

Timofey Naumenko in NLP_RU - Natural Language Processing & Text Mining
Я подумал, что выше опечатка, и там должен был быть bert, поэтому наличие декодера меня удивило. Прочитал, оказывается, есть и bart...
источник

K

Ksenia in NLP_RU - Natural Language Processing & Text Mining
Да, барт лучше в некоторых задачах :)
источник
2021 June 09

ЕТ

Евгений Томилов... in NLP_RU - Natural Language Processing & Text Mining
Ролан
источник

ЕТ

Евгений Томилов... in NLP_RU - Natural Language Processing & Text Mining
Простите. #мимо
источник