Телеграмм чат группы scalability

ДОКЛАД NVIDIA "Fast training with AMP/TF32 using TensorCores on NVIDIA GPU" на Data Fest + СЕССИЯ Q&A

Денис Тимонин, AI Solutions Architect в NVIDIA, расскажет об одном из самых эффективных методов ускорения обучения и инференса нейросетей - применении смешанной точности. В своем докладе Денис разберет статью “Mixed Precision Training” от NVIDIA и Baidu Research и расскажет о деталях работы с точностью формата TensorFloat32. Также мы обсудим алгоритмы, которые применяются при обучении с помощью смешанной точности и поговорим об аппаратных решениях, которые обеспечивают высокую скорость работы для форматов данных в нейросетях.
В первой части доклада мы разберем числа с плавающей точкой, мотивацию за обучением в смешанной точности, тензорные ядра, а также обучим сложную нейросеть StarGAN V2 (CVPR 2020) в режиме Automatic Mixed precision (AMP).
Во второй части погрузимся в оптимизацию работы с тензорными ядрами: разберем трюки для быстрого обучения в высокоуровневых фреймворках, C++ API, а так же научимся подбирать правильные размеры данных и слоев в нейросети для наибыстрейшего обучения.

Доклад записан на английском языке.

Доклад уже доступен на Youtube канале ODS: https://bit.ly/3kPAvPA

Сессия Q&A состоится в субботу, 26 сентября с 12 до 14 тут: https://spatial.chat/s/ods Пароль для входа можно получить тут: https://bit.ly/2GbDB1j

YouTube

Optimization Track. Denis Timonin: Fast training with AMP/TF32 using TensorCores on NVIDIA GPU

Increasing the size of a neural network typically improves accuracy but also increases the memory and compute requirements for training the model. At the same time amount of data is constantly growing (exponentially in the last years). So we will talk about one of the most powerful methodologies to speed-up Training and Inference at the current time.
In my presentation, we will dive into details of the research paper “Mixed Precision Training” by NVIDIA and Baidu Research and into detail of TensorFloat32 precision format. We will discuss algorithms that are used in Mixed Precision training and also we will talk about hardware that can provide high speed for that data formats in Neural Networks.
I will try to simplify all of this information.

источник

13:28пожаловаться #7

AB

Aleksandr Borgardt in Scalability Camp — чат про распределенные системы (и про HPC)

ZO

Zlata Obukhovskaya in Scalability Camp — чат про распределенные системы (и про HPC)

Aleksandr Borgardt

sticker.webp

(58.99 Кб)

Это больше про DL и GPU, все, как мы любим

источник

14:08пожаловаться #9

N

Nikolay in Scalability Camp — чат про распределенные системы (и про HPC)

А скалабилити это про gpu?

источник

14:58пожаловаться #10

AB

Aleksandr Borgardt in Scalability Camp — чат про распределенные системы (и про HPC)

не только

источник

14:58пожаловаться #11

N

Nikolay in Scalability Camp — чат про распределенные системы (и про HPC)

А про что чат ?что тут обсуждать и спрашивать можно

источник

15:01пожаловаться #12

ZO

Zlata Obukhovskaya in Scalability Camp — чат про распределенные системы (и про HPC)

Nikolay

А про что чат ?что тут обсуждать и спрашивать можно

Про распределенные системы и hpc. Можно все, пока не забанили

источник

15:31пожаловаться #13

2020 September 26

N

Nikolay in Scalability Camp — чат про распределенные системы (и про HPC)

Подскажите какие есть пределв у poll подхода? Вот если есть гипотетическое приложение , которое каждые 3 секунды опрашивает сервер на наличие изменений. В какое ограничение физически оно упрется,если количество таких клиентов начнет расти

источник

12:19пожаловаться #14

MA

Mark Andreev in Scalability Camp — чат про распределенные системы (и про HPC)

Nikolay

Подскажите какие есть пределв у poll подхода? Вот если есть гипотетическое приложение , которое каждые 3 секунды опрашивает сервер на наличие изменений. В какое ограничение физически оно упрется,если количество таких клиентов начнет расти

В пропускную способность load balancer перед репликами application серверов.

Я думаю, что нужно уточнить задачу. То есть рассказать про окружение (мб у вас cloud) и требования к состоянию (на сколько его много и на сколько оно должно быть консистентным)?

ps: я про pull (pull vs push) architecture

источник

12:46пожаловаться #15

A

Alexander in Scalability Camp — чат про распределенные системы (и про HPC)

Ну или производительность ядра CPU, на котором epoll_wait блокирует цикл треда OS, выполняющегося на данном ядре
Хотя лучше бы уточнить в чём должен заключаться предел

источник

13:07пожаловаться #16

N

Nikolay in Scalability Camp — чат про распределенные системы (и про HPC)

Alexander

Ну или производительность ядра CPU, на котором epoll_wait блокирует цикл треда OS, выполняющегося на данном ядре
Хотя лучше бы уточнить в чём должен заключаться предел

Но это ведь треад блокируется и будет разбужен он как только произойдет одно из событий , которое ждём. Сам cpu ведь производства этом свободен. Будет допустим много тредов , каждый из который слушает события на своей тысячи сокетов через epoll_wait. Предел например в количестве таких активных именно соединений в секунду . Сколько запросов на обработку можно в секунду для того подхода обеспечить.

источник

15:27пожаловаться #17

RS

Rinat Shigapov in Scalability Camp — чат про распределенные системы (и про HPC)

Mark Andreev

В пропускную способность load balancer перед репликами application серверов.

Я думаю, что нужно уточнить задачу. То есть рассказать про окружение (мб у вас cloud) и требования к состоянию (на сколько его много и на сколько оно должно быть консистентным)?

ps: я про pull (pull vs push) architecture

Load balancer может быть сетевым и пропускать большие объемы

источник

15:33пожаловаться #18

MA

Mark Andreev in Scalability Camp — чат про распределенные системы (и про HPC)

Rinat Shigapov

Load balancer может быть сетевым и пропускать большие объемы

После этого вопросы к хранилищу состояния. Без конкретики об этом говорить очень сложно: от s3 like store до бд с обязательным синхронным коммитом.

источник

16:49пожаловаться #19

N

Nikolay in Scalability Camp — чат про распределенные системы (и про HPC)

Nikolay

Подскажите какие есть пределв у poll подхода? Вот если есть гипотетическое приложение , которое каждые 3 секунды опрашивает сервер на наличие изменений. В какое ограничение физически оно упрется,если количество таких клиентов начнет расти

Не устаю рекомендовать вот это видео https://youtu.be/bEYY3M0d-w8

YouTube

"A Practical Look at Performance Theory" by Kavya Joshi

How does your system perform under load? What are the bottlenecks, and how does it fail at its limits? How do you stay ahead as your system evolves and its workload grows?

Performance theory offers a rigorous and practical (-- yes!) approach to performance tuning and capacity planning. In this talk, we’ll dive into elegant results like Little’s Law and the Universal Scalability Law. We’ll explore the use of performance theory in real systems at companies like Facebook, and discuss how we can leverage it too, to prepare our systems for flux and scale.

Speaker: Kavya Joshi

источник

16:54пожаловаться #20