Size: a a a

Data Science Kazakhstan (DS/ML kz)

2020 June 04

AS

Aha Sumekenov in Data Science Kazakhstan (DS/ML kz)
берете over9000 оптимайзер и инициализация не нужна!
источник

AS

Aha Sumekenov in Data Science Kazakhstan (DS/ML kz)
(ну это отчасти шутка но он правда крутой)
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
Aha Sumekenov
берете over9000 оптимайзер и инициализация не нужна!
Время и ресурсы это увеличивает ? Насколько ?
источник

AS

Aha Sumekenov in Data Science Kazakhstan (DS/ML kz)
Rauan Akylzhanov
Время и ресурсы это увеличивает ? Насколько ?
сложный вопрос) надо статьи ковырять
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
Aha Sumekenov
сложный вопрос) надо статьи ковырять
Понятно, думал если кто читал
источник

AS

Aha Sumekenov in Data Science Kazakhstan (DS/ML kz)
это не статья по over9000, там комбинация из нескольких, а по ним уже статьи
источник

I

Iv in Data Science Kazakhstan (DS/ML kz)
Rauan Akylzhanov
Время и ресурсы это увеличивает ? Насколько ?
Если BERT тренить по-любому ресурсов должно быть достаточно, а там 10 часов больше, 10 часов меньше - не играет большого значения))
источник

TA

Taskynov Anuar in Data Science Kazakhstan (DS/ML kz)
И вообще:
1) stack more layers в любой непонятной ситуации.
2) качество не очень? Добавь еще слоёв.
Всегда помогает - вон Openai помог такой совет с GPT3.
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
Я из соображений даже если есть железо, зачем ждать больше для одинакового эффекта
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
Taskynov Anuar
И вообще:
1) stack more layers в любой непонятной ситуации.
2) качество не очень? Добавь еще слоёв.
Всегда помогает - вон Openai помог такой совет с GPT3.
Это общий тренд. И какой подход тогда востребованный? Всегда так поступают.
источник

I

Iv in Data Science Kazakhstan (DS/ML kz)
Но инициализировать лучше оптимально)
источник

I

Iv in Data Science Kazakhstan (DS/ML kz)
Все таки, иначе может никогда не сойтись, застрянет в локальном минимуме
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
Я понимаю, что вопросы типа из 250 миллионов весов рандомно загасим кусок и модель рабочая все еще. Или как тренить быстрее не акутальны?
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
Iv
Но инициализировать лучше оптимально)
А есть описанные случаи когда такая бяка случаласть gradient stuck on a plato?
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
Iv
Но инициализировать лучше оптимально)
Что значит оптимально ?
источник

TA

Taskynov Anuar in Data Science Kazakhstan (DS/ML kz)
По поводу это статьи: всё равно пользуются стандартными инициализаторами.
В статье вкратце теория о том, что более благоприятная инициализация та, из-за которой в самом начале GD будет не сильно шататься.
Также показывают, что стандартные инициализаторы довольно неплохи.
Так что He, Glorot. Тут уже неважно. Для BN: gamma=1, beta=0.
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
Taskynov Anuar
По поводу это статьи: всё равно пользуются стандартными инициализаторами.
В статье вкратце теория о том, что более благоприятная инициализация та, из-за которой в самом начале GD будет не сильно шататься.
Также показывают, что стандартные инициализаторы довольно неплохи.
Так что He, Glorot. Тут уже неважно. Для BN: gamma=1, beta=0.
Это значит, что градиент почти всегда не застрявает или не взрывается ? Закономерность ?
источник

I

Iv in Data Science Kazakhstan (DS/ML kz)
Rauan Akylzhanov
А есть описанные случаи когда такая бяка случаласть gradient stuck on a plato?
Почитай классические статьи Ксавье Глоро и Хе Кайминя
источник

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)
Я не много знаю, так что если говорю глупость не обижайтесб
источник

I

Iv in Data Science Kazakhstan (DS/ML kz)
Rauan Akylzhanov
Это значит, что градиент почти всегда не застрявает или не взрывается ? Закономерность ?
Это значит что веса нужно инициализировать по Кайминю или по Ксавье
источник