Телеграмм чат группы bigdata

Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

4343 membersпожаловаться на группу

2020 July 24

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

я не теоретик и знакомых профессоров не имею

источник

15:04пожаловаться #1

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Cookie Thief

блять ну нет такого токенайзера, ру гпт обучена с помощью yttm, потому что так решил автор. И никто тебе за бесплатно подгонять его под твои нужды не будет

ну класс, чего уж, чекпоинтов, наверное, тоже нет

источник

15:06пожаловаться #2

Cookie Thief in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

причем тут чекпоинты вообще

источник

15:06пожаловаться #3

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

а как я иначе должен исправить это досадное недоразумение?

источник

15:07пожаловаться #4

Cookie Thief in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

ну берешь токенайзер от ру гпт, вытаскиваешь словарь и подгоняешь под формат токенайзера из трансформерс. Точнее ответить не могу, потому что сам этого не делал. На вскидку, не совсем очевидно как генерить merges.txt, но думаю можно разобраться, если воспользоваться методом пристального взгляда

источник

15:10пожаловаться #5

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

ты подразумеваешь что я понимаю как это делать, пожалуйста объясни это так, будто я впервые открыл colab.

источник

15:11пожаловаться #6

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

merges и vocab gpt-2 large выглядят так:
https://cdn.huggingface.co/gpt2-large-merges.txt
https://cdn.huggingface.co/gpt2-large-vocab.json

источник

15:15пожаловаться #7

Cookie Thief in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

ну посмотри для начала что такое yttm, как там хранится словарь и как его оттуда вытащить, потом посмотри в каком формате слварь хранится в токенайзере гпт из трансформерс и сопоставь. Как минимум сорцы всего открыты и лежат на гитхабе, словари тоже, тут не нужно быть семь пядей во лбу датасаентистом чтобы осознать, как всё это работает и что куда нужно передавать

источник

15:15пожаловаться #8

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

ещё помимо этого мне надо подкрутить количество слоёв чтобы пододвинуть её поближе к уровню gpt-3

источник

15:17пожаловаться #9

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Den

ещё помимо этого мне надо подкрутить количество слоёв чтобы пододвинуть её поближе к уровню gpt-3

Кек

источник

15:18пожаловаться #10

Cookie Thief in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

земля пухом, чо

источник

15:18пожаловаться #11

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

классное объяснение этого момента, это вызвало у меня внезапное озарение (нет)

источник

15:19пожаловаться #12

Cookie Thief in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

ну ты можешь открыть статью и посмотреть, сколько параметров в разных версиях гпт-3, какой там размер контекста используется и на каком кол-ве данных модели учились

источник

15:21пожаловаться #13

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

ну, во-первых
https://media.discordapp.net/attachments/717016478066409533/732724485463212092/83222642-ca2dc000-a146-11ea-934d-58001e955941.png