Телеграмм чат группы ds

И вообще:
1) stack more layers в любой непонятной ситуации.
2) качество не очень? Добавь еще слоёв.
Всегда помогает - вон Openai помог такой совет с GPT3.

источник

19:52пожаловаться #8

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)

Я из соображений даже если есть железо, зачем ждать больше для одинакового эффекта

источник

19:52пожаловаться #9

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)

Taskynov Anuar

И вообще:
1) stack more layers в любой непонятной ситуации.
2) качество не очень? Добавь еще слоёв.
Всегда помогает - вон Openai помог такой совет с GPT3.

Это общий тренд. И какой подход тогда востребованный? Всегда так поступают.

источник

19:54пожаловаться #10

I

Iv in Data Science Kazakhstan (DS/ML kz)

Но инициализировать лучше оптимально)

источник

19:54пожаловаться #11

I

Iv in Data Science Kazakhstan (DS/ML kz)

Все таки, иначе может никогда не сойтись, застрянет в локальном минимуме

источник

19:55пожаловаться #12

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)

Я понимаю, что вопросы типа из 250 миллионов весов рандомно загасим кусок и модель рабочая все еще. Или как тренить быстрее не акутальны?

источник

19:55пожаловаться #13

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)

Iv

Но инициализировать лучше оптимально)

А есть описанные случаи когда такая бяка случаласть gradient stuck on a plato?

источник

19:56пожаловаться #14

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)

Iv

Но инициализировать лучше оптимально)

Что значит оптимально ?

источник

19:56пожаловаться #15

TA

Taskynov Anuar in Data Science Kazakhstan (DS/ML kz)

Taskynov Anuar

Есть такая прикольная статья про инициализацию:
papers.nips.cc/paper/9427-metainit-initializing-learning-by-learning-to-initialize

papers.nips.cc

MetaInit: Initializing learning by learning to initialize

Electronic Proceedings of Neural Information Processing Systems

По поводу это статьи: всё равно пользуются стандартными инициализаторами.
В статье вкратце теория о том, что более благоприятная инициализация та, из-за которой в самом начале GD будет не сильно шататься.
Также показывают, что стандартные инициализаторы довольно неплохи.
Так что He, Glorot. Тут уже неважно. Для BN: gamma=1, beta=0.

источник

19:56пожаловаться #16

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)

Taskynov Anuar

По поводу это статьи: всё равно пользуются стандартными инициализаторами.
В статье вкратце теория о том, что более благоприятная инициализация та, из-за которой в самом начале GD будет не сильно шататься.
Также показывают, что стандартные инициализаторы довольно неплохи.
Так что He, Glorot. Тут уже неважно. Для BN: gamma=1, beta=0.

Это значит, что градиент почти всегда не застрявает или не взрывается ? Закономерность ?

источник

19:57пожаловаться #17

I

Iv in Data Science Kazakhstan (DS/ML kz)

Rauan Akylzhanov

А есть описанные случаи когда такая бяка случаласть gradient stuck on a plato?

Почитай классические статьи Ксавье Глоро и Хе Кайминя

источник

19:57пожаловаться #18

RA

Rauan Akylzhanov in Data Science Kazakhstan (DS/ML kz)