Size: a a a

2019 August 20

ZO

Zon Orti in gcp_ru
Для начала стоит проверить как ему там, по самой настройке не помню
источник

AS

Andrey SlashMan in gcp_ru
Это какие то отдельные поды в kube-system?
источник

AS

Andrey SlashMan in gcp_ru
Просто судя по графику потребления цпу на нодах в целом ничего не скачет выше 15%
источник

ZO

Zon Orti in gcp_ru
У них могут быть лимиты зажаты. Kube-dns имя деплоймента, насколько я помню
источник

AS

Andrey SlashMan in gcp_ru
То есть вероятно происходит такая тема, что он загибается и оом его убивает?
источник

ZO

Zon Orti in gcp_ru
Возможно. Может и CPU trottling. Смотреть на метрики нужно
источник

AS

Andrey SlashMan in gcp_ru
Понял, спасибо большое, до компа доберусь посмотрю системные поды, у нас графики только на наш неймспейс
источник

AS

Andrey SlashMan in gcp_ru
@zon_orti Посмотрел, вроде как с днсом все ровно, в Events пусто, то есть никаких инцидентов судя по всему
источник

AS

Andrey SlashMan in gcp_ru
источник

AS

Andrey SlashMan in gcp_ru
источник

ZO

Zon Orti in gcp_ru
На 7 дней короткие скачки будет плохо видно. Но может это и не в днс проблема. Но я бы посмотрел на то время, когда были проблемы более детально.
источник

AS

Andrey SlashMan in gcp_ru
Да я их увеличивал тоже прицельно, никаких отклонений
источник

A

Andor in gcp_ru
Метрики из приложения есть?
источник

A

Andor in gcp_ru
Хотя ответ очевиден
источник

AS

Andrey SlashMan in gcp_ru
Да есть, но по ним ничего не понятно, просто респонс тайм подскакивает и все, тк все запросы  из аппки повисают в ожидании к сервисам
источник

AS

Andrey SlashMan in gcp_ru
То есть понятно, что что то сетевое скорее всего, но в чем конкретно проблема - не понятно,. почему эта проблема самоустраняется оч быстро - тоже не понятно
источник

MK

Max Kovgan in gcp_ru
Andrey SlashMan
Привет всем! Бывали ли у кого то в GKE аналогичные проблемы: запустили в работу и наблюдаем на 30 rps к сервису периодические залипы по сети раз в 1-2 суток (резко возрастает латенси, были рандомные отказы при взаимодействии сервисов, к примеру ошибка no such host, которая сама потом потом проходила), кто-нибудь может подсказать, куда копать?
а какие уже шаги предприняли чтобы понять?
источник

MK

Max Kovgan in gcp_ru
Andrey SlashMan
То есть понятно, что что то сетевое скорее всего, но в чем конкретно проблема - не понятно,. почему эта проблема самоустраняется оч быстро - тоже не понятно
вы мониторите свое приложение изнутри?
источник

MK

Max Kovgan in gcp_ru
т.е. какие-то метрики нагрузки экспортируете куда нибудь...?
источник

AS

Andrey SlashMan in gcp_ru
ну вот посмотрел по загрузке нод, конкретных подов, все окей, выше посоветовали обратить внимание так же на системные поды, с ними тоже все в порядке, посмотрели логи - увидели что ошибка разовая, не было такого что на всей ноде поды начали сыпаться
источник