Size: a a a

Data Science Kazakhstan (DS/ML kz)

2020 June 04

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
Рахмет за ссылку.  И кажется логично, что embedding layer подключается для инита.
источник

I

Iv in Data Science Kazakhstan (DS/ML kz)
Почему рандомно? Веса инициализируются же известными методами Ксавье или Кайминь по умолчанию.
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
То есть bias самплится откуда-то ? Код - это хорошо видеть, но в целом картина
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
какое распределение ?
источник

I

Iv in Data Science Kazakhstan (DS/ML kz)
Bias можно инициализировать консатной вроде, если без изысков
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
Откуда люди знают значения и отлично ли оно самое от модели к модели
источник

RA

Renat Alimbekov in Data Science Kazakhstan (DS/ML kz)
Iv
Почему рандомно? Веса инициализируются же известными методами Ксавье или Кайминь по умолчанию.
Ксавье ж это слуайно выбранное из норм распределения нет?
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
Сходства и различия
источник

RA

Renat Alimbekov in Data Science Kazakhstan (DS/ML kz)
из равномернго
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
То есть все начальные константы либо из равномерного или из нормального
источник

RA

Renat Alimbekov in Data Science Kazakhstan (DS/ML kz)
Ксавье из равномерного
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
init_weights = uniformly distributed bias + embedding
источник

I

Iv in Data Science Kazakhstan (DS/ML kz)
Rauan Akylzhanov
То есть все начальные константы либо из равномерного или из нормального
Да, почти всегда так инициализируют биас
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
Если я возьму времена на pre-trainigs, t1 t2 t3
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
ti-tj = 1e+n ?
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
n = ?
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
Разный номер для разной модели
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
Iv
Да, почти всегда так инициализируют биас
Спасибо
источник

TA

Taskynov Anuar in Data Science Kazakhstan (DS/ML kz)
Есть такая прикольная статья про инициализацию:
papers.nips.cc/paper/9427-metainit-initializing-learning-by-learning-to-initialize
источник

TA

Taskynov Anuar in Data Science Kazakhstan (DS/ML kz)
Но она для CV.) было бы прикольно попробовать для NLP Transformers.
источник