Size: a a a

2020 June 11

DK

Dmitriy K in DevOps
ipmi доступ есть?
источник

I

Igor in DevOps
В данный момент - нет
источник

A

Alexander in DevOps
Igor
что помимо паников можно поискать?
Могут быть ещё проблемы с железом. Например, если БП сбоит.
источник

VS

Vladimir Smirnov in DevOps
Igor
возможно, но когда техподдержка проводила нагрузочное тестирование всю ночь, неисправностей не было выявлено
иногда проблеым вылезают под специфической нагрузкой, которая тестированием не покрывается или там баг в фриваре какой-нибудь из-за которого шанс на падение возрастает с каждым днем
источник

DS

Dmitry Sergeev in DevOps
Igor
упоминаний про panic независимо от регистра нет во всей папке /var/log
Прям перед перезагрузкой логи стоит посмотреть journalctl --boot=-1 -n 100
источник

MT

M T in DevOps
в расход его
источник

b

bama^boy in DevOps
Igor
Всем привет! Есть один нубский вопрос, но ответа в гугле я пока на него не нашел. Как узнать, какой процесс инициировал перезагрузку сервера? Через last/lastb смотрим и видим, что там никто не залогинен был. Но сервак периодически ребутается.
Может быть автоматическая установка обновлений
источник

I

Igor in DevOps
Да до этого как-то год работало без обновлений
источник

DS

Dmitry Sergeev in DevOps
Igor
Да до этого как-то год работало без обновлений
а что за хостинг?
источник

I

Igor in DevOps
Селектел
источник

I

Igor in DevOps
С другими машинами таких проблем нет
источник

DS

Dmitry Sergeev in DevOps
Igor
Селектел
а там нельзя попросить полностью сменить железо как в hetzner? Когда возникают рандомные проблемы, есть вероятность что в железе дело. Некоторые предлагают вариант подключить твои диски к другому серверу с такой-же конфигурацией.
источник

I

Igor in DevOps
Вроде можно, но хотелось бы научиться диагностировать, почему ребутаются серваки
источник

I

Igor in DevOps
Видно, что причин может быть огромное множество
источник

A

Alexander in DevOps
Igor
Вроде можно, но хотелось бы научиться диагностировать, почему ребутаются серваки
Если дело в бп (и он при этом не зарезервирован) или даже в цепях питания платы, то это довольно сложно диагностировать. Можешь попробовать посмотреть на показания датчиков питания в сервере, но это не обязательно поможет.
Ещё проблема, кстати, может быть в памяти, потому проверь счётчики ошибок у контроллеров памяти в sysfs.
источник

I

Igor in DevOps
Хорошо, попробую
источник

DS

Dmitry Sergeev in DevOps
Igor
Хорошо, попробую
Да мне кажется себе дороже на это время тратить. Железо же не твое, ты его арендуешь. Мы в таких случаях, если хостинг не идет на встречу, тупо покупаем новый сервак, а старый дропаем с пометкой что какие-то проблемы с железом.
источник

DS

Dmitry Sergeev in DevOps
Ну кроме дисков. Диски можно отдельно менять. Ну еще стоит наверное мониторить температуру проца, были случаи, охлаждение ломалось, его тоже быстро чинят.
источник

DS

Dmitry Sergeev in DevOps
А всякие проблемы с БП, это же звездец, для кейсов с арендованным железом. Легче отказаться от такого сервака
источник
2020 June 12

AA

Andrey A in DevOps
привет, есть такой плохой контейнер:
docker top moira-notifier
UID                 PID                 PPID                C                   STIME               TTY                 TIME                CMD
root                16056               16013               99                  May24               ?                   19-03:22:52         [notifier] <defunct>

ни стопнуть, ни килльнуть я его не могу (просто висит команда бесконечно долго). ОС jessie, докер 17.06 - не торопитесь обсирать, что ОС старая и версия докера тоже. Судя по гитхабу - https://github.com/moby/moby/pull/40749 - это проблему вроде совсем недавно решили (и то я пока не понял в какой версии докера это пофикшено). Попытался кильнуть parent PID:
ps uax | grep 16013
root     16013  0.0  0.0 288556  1192 ?        Sl   май24   0:00 docker-containerd-shim 296315a17220256e7014769436 /var/run/docker/libcontainerd/296315a17220256e7014769436 docker-runc

но теперь стало:
ps -ef | grep defunct
root     16056     1 99 май24 ?     19-04:53:59 [notifier] <defunct>
источник