Size: a a a

DevOps — русскоговорящее сообщество

2020 June 26

*

*sm1Ly in DevOps — русскоговорящее сообщество
Sergey Trapeznikov
кто нибудь пробовал снимать потребление GPU ресурсов приложениями для nvidia? я чет посмотрел по офф докам, можно только снимать статистику видеокарты через nvidia-интерфейс, и как с /proc потребление ресурсов не снять. есть какие то способы?
я сейчас бяку предложу, но может под моно/вином запустить что-то вроде msi afterburner ?
источник

ST

Sergey Trapeznikov in DevOps — русскоговорящее сообщество
George Gaál
netdata ?
netdata собирает данные с nvidia system management interface (NVML), это именно та ограниченная инфа о которой я говорю, толку от этих данных немного
источник

ST

Sergey Trapeznikov in DevOps — русскоговорящее сообщество
это тупо утилизация карты
источник

ST

Sergey Trapeznikov in DevOps — русскоговорящее сообщество
а не потребления приложением
источник

*

*sm1Ly in DevOps — русскоговорящее сообщество
Sergey Trapeznikov
а не потребления приложением
аааа, так пни кодеров, пусть прикрутят
источник

GG

George Gaál in DevOps — русскоговорящее сообщество
*sm1Ly
аааа, так пни кодеров, пусть прикрутят
точно
источник

GG

George Gaál in DevOps — русскоговорящее сообщество
Sergey Trapeznikov
а не потребления приложением
nvidia-smi показывает разбивку ?
источник

*

*sm1Ly in DevOps — русскоговорящее сообщество
George Gaál
точно
ну счётчики явно бизнесу нужны)
источник

O

OleBel in DevOps — русскоговорящее сообщество
Имею практический опыт укладывания стека в кластере k8s/apps/efk посчитанного и минимизированного впритык без учёта логов. После переполнения томов в эластике и очистки старых индексов поток логов с fluentd грузил эластик так что ноды где ранились поды эластика становились NotReady. LA ~70 перед пересозданием нод и цепная реакция по всему стеку. Решили уводом эастика на выделенную группу нод.
источник

ST

Sergey Trapeznikov in DevOps — русскоговорящее сообщество
George Gaál
nvidia-smi и парсить
есть костыльный способ, но он работает только для контейнеров на композе, например привязывать один контейнер на одну карту, так можно мониторить сколько именно этот контейнер сьел памяти в целом от карты и ее утилизацию. По факту в данном случае нагрузка на карту = нагрузка выделяемая приложением

с кубером когда у тебя несколько подов на нескольких картах, например 18\6, ты не можешь точно знать сколько какое приложение сьело данных
источник

GG

George Gaál in DevOps — русскоговорящее сообщество
Sergey Trapeznikov
есть костыльный способ, но он работает только для контейнеров на композе, например привязывать один контейнер на одну карту, так можно мониторить сколько именно этот контейнер сьел памяти в целом от карты и ее утилизацию. По факту в данном случае нагрузка на карту = нагрузка выделяемая приложением

с кубером когда у тебя несколько подов на нескольких картах, например 18\6, ты не можешь точно знать сколько какое приложение сьело данных
чувак, я знаю
источник

ST

Sergey Trapeznikov in DevOps — русскоговорящее сообщество
*sm1Ly
аааа, так пни кодеров, пусть прикрутят
и откуда им собирать данные? сам nvidia драйвер и интерфейс это не дает
источник

ST

Sergey Trapeznikov in DevOps — русскоговорящее сообщество
я даже охуел
20 лет сука продают железо и не умеют в мониторинг по приложениям я ебал
источник

ST

Sergey Trapeznikov in DevOps — русскоговорящее сообщество
20!
источник

ST

Sergey Trapeznikov in DevOps — русскоговорящее сообщество
или 40 я уже не знаю
источник

GG

George Gaál in DevOps — русскоговорящее сообщество
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      8669      C   /opt/conda/bin/python                      30881MiB |
|    1      8670      C   /opt/conda/bin/python                      29283MiB |
|    2      8671      C   /opt/conda/bin/python                      30261MiB |
|    3      8672      C   /opt/conda/bin/python                      31729MiB |
+-----------------------------------------------------------------------------+
источник

GG

George Gaál in DevOps — русскоговорящее сообщество
Sergey Trapeznikov
я даже охуел
20 лет сука продают железо и не умеют в мониторинг по приложениям я ебал
потому что это нахер не надо
источник

ST

Sergey Trapeznikov in DevOps — русскоговорящее сообщество
George Gaál
потому что это нахер не надо
а разработка как тогда идет
источник

GG

George Gaál in DevOps — русскоговорящее сообщество
Sergey Trapeznikov
а разработка как тогда идет
у тебя лимитов нет все равно
источник

ST

Sergey Trapeznikov in DevOps — русскоговорящее сообщество
George Gaál
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      8669      C   /opt/conda/bin/python                      30881MiB |
|    1      8670      C   /opt/conda/bin/python                      29283MiB |
|    2      8671      C   /opt/conda/bin/python                      30261MiB |
|    3      8672      C   /opt/conda/bin/python                      31729MiB |
+-----------------------------------------------------------------------------+
это smi?
источник