Size: a a a

DevOps — русскоговорящее сообщество

2020 June 26

GG

George Gaál in DevOps — русскоговорящее сообщество
так точно
источник

GG

George Gaál in DevOps — русскоговорящее сообщество
у тебя нет лимитов
источник

ST

Sergey Trapeznikov in DevOps — русскоговорящее сообщество
лимитов где
источник

GG

George Gaál in DevOps — русскоговорящее сообщество
и если у тебя приложение запущено на гпу и второе не влезает, то ты получаешь просто no memory
источник

*

*sm1Ly in DevOps — русскоговорящее сообщество
Sergey Trapeznikov
и откуда им собирать данные? сам nvidia драйвер и интерфейс это не дает
блин, я тебя ненавижу.
источник

ST

Sergey Trapeznikov in DevOps — русскоговорящее сообщество
George Gaál
и если у тебя приложение запущено на гпу и второе не влезает, то ты получаешь просто no memory
+++
источник

GG

George Gaál in DevOps — русскоговорящее сообщество
и ограничить нельзя первое, скажем, по границе 1ГБ
источник

ST

Sergey Trapeznikov in DevOps — русскоговорящее сообщество
*sm1Ly
блин, я тебя ненавижу.
источник

*

*sm1Ly in DevOps — русскоговорящее сообщество
я теперь думаю как это сделать
источник

*

*sm1Ly in DevOps — русскоговорящее сообщество
мне будто своего секса мало
источник

ST

Sergey Trapeznikov in DevOps — русскоговорящее сообщество
мне надо знать потреблялку за под
а DCGM собирает инфу только с карты
источник

GG

George Gaál in DevOps — русскоговорящее сообщество
Sergey Trapeznikov
мне надо знать потреблялку за под
а DCGM собирает инфу только с карты
страдай
источник

GG

George Gaál in DevOps — русскоговорящее сообщество
нет готового решения
источник

GG

George Gaál in DevOps — русскоговорящее сообщество
точка
источник

GG

George Gaál in DevOps — русскоговорящее сообщество
идеально - по видяхе на тенанта
источник

GG

George Gaál in DevOps — русскоговорящее сообщество
в текущей ситуации
источник

GG

George Gaál in DevOps — русскоговорящее сообщество
Sergey Trapeznikov
есть костыльный способ, но он работает только для контейнеров на композе, например привязывать один контейнер на одну карту, так можно мониторить сколько именно этот контейнер сьел памяти в целом от карты и ее утилизацию. По факту в данном случае нагрузка на карту = нагрузка выделяемая приложением

с кубером когда у тебя несколько подов на нескольких картах, например 18\6, ты не можешь точно знать сколько какое приложение сьело данных
вот как тут ты и сказал - привязывать одно устройство через —gpus или CUDA_VISIBLE_DEVICES
источник

АА

Алексей Артамонов... in DevOps — русскоговорящее сообщество
George Gaál
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      8669      C   /opt/conda/bin/python                      30881MiB |
|    1      8670      C   /opt/conda/bin/python                      29283MiB |
|    2      8671      C   /opt/conda/bin/python                      30261MiB |
|    3      8672      C   /opt/conda/bin/python                      31729MiB |
+-----------------------------------------------------------------------------+
++++++
источник

АА

Алексей Артамонов... in DevOps — русскоговорящее сообщество
George Gaál
вот как тут ты и сказал - привязывать одно устройство через —gpus или CUDA_VISIBLE_DEVICES
так и делаем)
источник

АА

Алексей Артамонов... in DevOps — русскоговорящее сообщество
@vizdrag больше мониторинга, вам надо больше мониторинга. Потом когда сделаешь идеальный мониторинг, не забудь его тоже надо мониторить.
источник