Телеграмм чат группы natural_language

GPT в чистом виде не умеет в долговременную память, там тупо последние k токенов текста в модель подаются и все. Для задачи language modelling этого достаточно, если k большое достаточно. Если тебе нужны longer range dependencies, GPT не подойдет, нужно гуглить другие подходы.

источник

21:52пожаловаться #14

D(

David (ddale) Dale in Natural Language Processing

Хотя в качестве костыля можно предыдущий большой текст через суммаризатор какой-то прогонять, и в gpt это подавать.

источник

21:53пожаловаться #15

AS

Alex Surname in Natural Language Processing

David (ddale) Dale

GPT в чистом виде не умеет в долговременную память, там тупо последние k токенов текста в модель подаются и все. Для задачи language modelling этого достаточно, если k большое достаточно. Если тебе нужны longer range dependencies, GPT не подойдет, нужно гуглить другие подходы.

while True:
raw_text = input("Model prompt >>> ")
while not raw_text:
print('Prompt should not be empty!')
raw_text = input("Model prompt >>> ")
context_tokens = enc.encode(raw_text)
generated = 0
for _ in range(nsamples // batch_size):
out = sess.run(output, feed_dict={
context: [context_tokens for _ in range(batch_size)]
})[:, len(context_tokens):]

в чем проблема подать больше k? или ты про обучение?

источник

21:54пожаловаться #16

D(

David (ddale) Dale in Natural Language Processing

Alex Surname

while True:
raw_text = input("Model prompt >>> ")
while not raw_text:
print('Prompt should not be empty!')
raw_text = input("Model prompt >>> ")
context_tokens = enc.encode(raw_text)
generated = 0
for _ in range(nsamples // batch_size):
out = sess.run(output, feed_dict={
context: [context_tokens for _ in range(batch_size)]
})[:, len(context_tokens):]

в чем проблема подать больше k? или ты про обучение?

Если я правильно помню, ты не можешь подать на применении большее k чем было на обучении, т.к. для дальних токенов position embeddings не выучены.

источник

21:55пожаловаться #17

AS

Alex Surname in Natural Language Processing

а они разве не считаются просто? там есть длина окна, для модели 117M она равна 1024 токенам

источник

21:56пожаловаться #18

D

Den in Natural Language Processing

если опять надо менять модель то я хз

источник

22:14пожаловаться #19

D

Den in Natural Language Processing

надо как-то примотать возможность долговременной памяти

источник

22:14пожаловаться #20