Телеграмм чат группы natural_language

просто у меня все время в голове картинка из какой-то статьи, где word embeddings получаются из отдельных символов - делается convolution по 3, 4 и 5 символов и потом max pooling по ним и все склеивается вместе

источник

21:11пожаловаться #5

A

Aragaer in Natural Language Processing

https://arxiv.org/pdf/1508.06615.pdf - вот эта

источник

21:13пожаловаться #6

CT

Cookie Thief in Natural Language Processing

Имхо, бпе использовать намного лучше, чем чар левел эмбеддинги

источник

21:15пожаловаться #7

A

Aragaer in Natural Language Processing

ок, буду думать, спасибо

источник

21:16пожаловаться #8

YB

Yuri Baburov in Natural Language Processing

Aragaer

просто у меня все время в голове картинка из какой-то статьи, где word embeddings получаются из отдельных символов - делается convolution по 3, 4 и 5 символов и потом max pooling по ним и все склеивается вместе

ну вот то ты берёшь 5 символов и делаешь по ним эмбеддинг в CNN, а то ты берёшь BPE-код, соответствующий этим же 5 символам, и делаешь по нему эмбеддинг в трансформере...

источник

21:25пожаловаться #9

NS

Nikolay Shmyrev in Natural Language Processing

Aragaer

вот я смотрю на BERT и он же ведь всегда везде word-level, да?

У Берта нет словаря, там tokenizer на символы.

источник

21:26пожаловаться #10

YB

Yuri Baburov in Natural Language Processing

Nikolay Shmyrev

У Берта нет словаря, там tokenizer на символы.

он BPE-словарь имеет в виду

источник

21:27пожаловаться #11

NS

Nikolay Shmyrev in Natural Language Processing

Denis

И как оно резюмирует? Достаёт предложения целиком или додумывает само?

Додумывать тоже может

источник

21:28пожаловаться #12

NS

Nikolay Shmyrev in Natural Language Processing

https://github.com/santhoshkolloju/Abstractive-Summarization-With-Transfer-Learning

GitHub

santhoshkolloju/Abstractive-Summarization-With-Transfer-Learning

Abstractive summarisation using Bert as encoder and Transformer Decoder - santhoshkolloju/Abstractive-Summarization-With-Transfer-Learning

источник

21:30пожаловаться #13

A

Aragaer in Natural Language Processing

Yuri Baburov

ну вот то ты берёшь 5 символов и делаешь по ним эмбеддинг в CNN, а то ты берёшь BPE-код, соответствующий этим же 5 символам, и делаешь по нему эмбеддинг в трансформере...

если у меня отдельные символы, словарь символов может иметь очень низкую размерность, потому что символов в принципе мало

источник

22:09пожаловаться #14

A

Aragaer in Natural Language Processing

собственно это и есть причина, почему я не хочу word-level словари. Они большие

источник

22:10пожаловаться #15

YB

Yuri Baburov in Natural Language Processing

Aragaer

если у меня отдельные символы, словарь символов может иметь очень низкую размерность, потому что символов в принципе мало

какая разница? где-то на каком-то слое размерность в эмбеддинге у тебя должна будет быть большой, или качество упадёт сильно на более редких словах.

источник

22:12пожаловаться #16

A

Aragaer in Natural Language Processing

в том случае, на который я смотрю, мне не очень важны редкие слова, потому что мне надо вычленить "команду" - она будет из не-редких слов - а остальное взять "as is" обычно

источник

22:13пожаловаться #17

YB

Yuri Baburov in Natural Language Processing

Aragaer

в том случае, на который я смотрю, мне не очень важны редкие слова, потому что мне надо вычленить "команду" - она будет из не-редких слов - а остальное взять "as is" обычно

тогда ты просто можешь игнорировать все ненужные слова и в word-level словаре для них держать unknown, или использовать char-ngrams embeddings по схеме fasttext, или hash-embeddings по схеме spacy.

источник

22:15пожаловаться #18

A

Aragaer in Natural Language Processing

какого размера словарь для этого?

источник

22:16пожаловаться #19

A

Aragaer in Natural Language Processing

кроме того, я не знаю заранее какие слова нужные, а какие нет. Скорее всего есть редкие и не редкие. Я готов допустить, что редкие превратятся в unknown, но не хочу заранее привязываться к этому

источник

22:17пожаловаться #20