Size: a a a

2020 May 25

VS

Vladimir Smirnov in DevOps
но надо по хорошему знать что конкретное облако делает чтобы понять что не так пошло и где
источник

KP

Kirill Ponomarev in DevOps
Pavel Gassan
Hairpin NAT
я видел в гугле, но чет не прочел, а зря, видимо
источник

A

Alexander in DevOps
Vladimir Smirnov
некоторые провайдеры скрывают инфраструктуру свою) особенно если там что-то сложное, чтоб людей не беспокоить. Поэтому бывает совсем весело в виде абсолютно пустых трейсраутов
Там один хоп, а значит сайт на defgw висит. Что там по L2 наверчено в промежутке, уже неважно.
источник

A

Alexander in DevOps
У тебя там nginx-крутится или ты DNAT сделал?
источник

KP

Kirill Ponomarev in DevOps
Alexander
У тебя там nginx-крутится или ты DNAT сделал?
тут уже был днат
источник

KP

Kirill Ponomarev in DevOps
мне отдали проект такой
источник

KP

Kirill Ponomarev in DevOps
сейчас поищу, что сделать можно с Hairpin
источник

A

Alexander in DevOps
Kirill Ponomarev
тут уже был днат
Проверь правила файрвола и удостоверься, что DNAT настроен на работу также изнутри, а не только для трафика, приходящего снаружи.
источник

KP

Kirill Ponomarev in DevOps
ок, спасибо
источник

KP

Kirill Ponomarev in DevOps
всем спасибо)
источник

VS

Vladimir Smirnov in DevOps
Alexander
Там один хоп, а значит сайт на defgw висит. Что там по L2 наверчено в промежутке, уже неважно.
в зависимости от хостера может быть и не так
источник

VS

Vladimir Smirnov in DevOps
но если был nat, то смотреть действительно на нем правильно
источник

KP

Kirill Ponomarev in DevOps
кажется заработало, сейчас погляжу еще
источник

KP

Kirill Ponomarev in DevOps
да, божечки, да. Оно заработало
источник

KP

Kirill Ponomarev in DevOps
спасибо большое я вас люблю. Пусть у вас всех все будет хорошо
источник

KP

Kirill Ponomarev in DevOps
источник

O

O in DevOps
Aragaer
не вижу варианта "всегда светлая"
Вопрос конечно так себе, но светлая тема в солнечный единственный верный шаг хоть что то увидеть
источник

AA

Andrey A in DevOps
Привет всем! Здесь ведь можно будет задать вопрос не совсем про девопс? (замечал, что здесь могут обсуждать просто вопросы ОС и железа)
Если ближе к делу: есть железный сервер с ОС debian jessie 8.2
uname -a
Linux 3.16.0-4-amd64 #1 SMP Debian 3.16.7-ckt20-1+deb8u1 (2015-12-14) x86_64 GNU/Linux
На сервере запущено довольно много сервисов (Elasticsearch, впн, докер (storage driver - aufs) контейнеры с сервисами). Сервер жил не тужил до недавнего времени. Периодически (за 2 недели это второе падение) он стопается наглухо. Есть скриншот call trace при первом падении .
Начал разбираться, при втором падении были следующая ситуация:
- в 22:20 сервер упал (отрапортовала система мониторинга + плюс отсутствие метрик с этого периода)
- по логам сервера (syslog, kern.log) сервер еще жил до 22:32 (писались логи докера, типа kernel: docker0: port 15(veth63b10e9) entered disabled state)
- в atop последние данные только за 22:20
- по метрикам никаких аномалий нету (метрики хоста, контейнеров, эластика). Сервер выполняет чисто служебные роли (на sata-диски конечно идет высокая нагрузка на запись из-за эластика, но так уже живем несколько лет (это только при мне, а так мб и дольше))

У нас как-то относительно была похожая ситуация с другим сервером (но там вроде в консоли были другие ошибки). Обновились до stretch и уже больше месяца, тьфу-тьфу, проблем нет. Чем руководствовались, что обновление может помочь? На сервере стоял докер c aufs, хотели посмотреть что будет когда станет overlay2))
Память на том другом сервере тестили только из под ОС (но старались в момент тестов все сервисы тушить, чтобы проверить максимальное кол-во памяти) - всё было OK.

Также все сервера в md-рэйде (1), смарты дисков конечно проверяли.

Следовательно есть несколько вопросов:
- как бы далее пытались понять, что с сервером мб не так? (снять дамп ядра - у меня не хватит навыков его прочитать и понять).
Обновить-то обновим, проблема может быть уйдет, но причина так и останется неясной. Сервер длительное время работал без проблем.
- ниже есть скриншот консоли в момент ошибки. Для меня малоинформативно. Есть подозрение, что когда смотрим в консоль через ipmi, мы просто не видим части информации (экран и так маленький, и всю важная инфа вполне могла быть просто промотана). Возможно ли вывод экрана физической консоли перенаправлять куда-либо? Погуглил обзорно, но что-то ничего не нашел. Если бы было это возможно, вполне вероятно, ошибка была до этого call trace с более ясным описанием.
источник

AA

Andrey A in DevOps
сам скрин ошибки в консоли:
источник

VS

Vladimir Smirnov in DevOps
Andrey A
сам скрин ошибки в консоли:
включите netconsole модуль, он по UDP может слать логи на другую машину и обычно умирает последним (есть шанс что информация о панике дойдет до другой машины). Про ошибку на скриншоте - важно пара моментов - то что выше (примерно строк строк 20 сверху от показанного на экране) и то повторяется ли в панике трейс или он каждый раз разный
источник