Коллеги, столкнулись тут с одной хренью, может кто-то уже решал.
Есть приложение в 16 кубике, приложенеи стейтлесс из 24 подов (это SPA фронт, с SSR, если кому интересно будет). Хрень проявляется во время деплоя новой версии: пока идет деплой, пользуны регулярно получают всяие 500, Плохие ворота, таймауты и прочий треш. Покопались, по всему получается, что когда под из старого релиза начинает убиваться, то он не сразу вылетает из сервиса, и ингресс какое-то время еще пихает ему запросы, хотя внутри уже шатдаун во всю и запросы эти новые никто не обрабатывает.
Что можно с этим сделать?
Да, это норм поведение, добавь в lifecycle sleep на секунд 15, pod точно за это время будет выкинут из апстримов, ну и graceful shutdown все равно нужен, текущие запросы надо корректно обработать.
Тут два момента:
1) pod не моментально выкидывается из endpoints сервиса
2) после того как он выкинут из endpoints сервиса, он не моментально пропадает из апстримов ingress