Size: a a a

Natural Language Processing

2020 February 18

A

Aragaer in Natural Language Processing
именно. Соответственно я предполагал, чтобы посадить flair->bert->полезная информация
источник

A

Aragaer in Natural Language Processing
catbugisback
Ну почитай про bpe словарь, как пример
по каким ключевым словам искать?
источник

c

catbugisback in Natural Language Processing
Aragaer
по каким ключевым словам искать?
Bpe vocabulary, собственно
источник

A

Aragaer in Natural Language Processing
ок, я вбил dictionary и получил тыкву
источник

A

Aragaer in Natural Language Processing
просто у меня все время в голове картинка из какой-то статьи, где word embeddings получаются из отдельных символов - делается convolution по 3, 4 и 5 символов и потом max pooling по ним и все склеивается вместе
источник

A

Aragaer in Natural Language Processing
источник

CT

Cookie Thief in Natural Language Processing
Имхо, бпе использовать намного лучше, чем чар левел эмбеддинги
источник

A

Aragaer in Natural Language Processing
ок, буду думать, спасибо
источник

YB

Yuri Baburov in Natural Language Processing
Aragaer
просто у меня все время в голове картинка из какой-то статьи, где word embeddings получаются из отдельных символов - делается convolution по 3, 4 и 5 символов и потом max pooling по ним и все склеивается вместе
ну вот то ты берёшь 5 символов и делаешь по ним эмбеддинг в CNN, а то ты берёшь BPE-код, соответствующий этим же 5 символам, и делаешь по нему эмбеддинг в трансформере...
источник

NS

Nikolay Shmyrev in Natural Language Processing
Aragaer
вот я смотрю на BERT и он же ведь всегда везде word-level, да?
У Берта нет словаря, там tokenizer на символы.
источник

YB

Yuri Baburov in Natural Language Processing
Nikolay Shmyrev
У Берта нет словаря, там tokenizer на символы.
он BPE-словарь имеет в виду
источник

NS

Nikolay Shmyrev in Natural Language Processing
Denis
И как оно резюмирует? Достаёт предложения целиком или додумывает само?
Додумывать тоже может
источник

NS

Nikolay Shmyrev in Natural Language Processing
источник

A

Aragaer in Natural Language Processing
Yuri Baburov
ну вот то ты берёшь 5 символов и делаешь по ним эмбеддинг в CNN, а то ты берёшь BPE-код, соответствующий этим же 5 символам, и делаешь по нему эмбеддинг в трансформере...
если у меня отдельные символы, словарь символов может иметь очень низкую размерность, потому что символов в принципе мало
источник

A

Aragaer in Natural Language Processing
собственно это и есть причина, почему я не хочу word-level словари. Они большие
источник

YB

Yuri Baburov in Natural Language Processing
Aragaer
если у меня отдельные символы, словарь символов может иметь очень низкую размерность, потому что символов в принципе мало
какая разница? где-то на каком-то слое размерность в эмбеддинге у тебя должна будет быть большой, или качество упадёт сильно на более редких словах.
источник

A

Aragaer in Natural Language Processing
в том случае, на который я смотрю, мне не очень важны редкие слова, потому что мне надо вычленить "команду" - она будет из не-редких слов - а остальное взять "as is" обычно
источник

YB

Yuri Baburov in Natural Language Processing
Aragaer
в том случае, на который я смотрю, мне не очень важны редкие слова, потому что мне надо вычленить "команду" - она будет из не-редких слов - а остальное взять "as is" обычно
тогда ты просто можешь игнорировать все ненужные слова и в word-level словаре для них держать unknown, или использовать char-ngrams embeddings по схеме fasttext, или hash-embeddings по схеме spacy.
источник

A

Aragaer in Natural Language Processing
какого размера словарь для этого?
источник

A

Aragaer in Natural Language Processing
кроме того, я не знаю заранее какие слова нужные, а какие нет. Скорее всего есть редкие и не редкие. Я готов допустить, что редкие превратятся в unknown, но не хочу заранее привязываться к этому
источник