Size: a a a

OpenShift - русскоязычное сообщество

2020 November 30

VR

Vadim Rutkovsky in OpenShift - русскоязычное сообщество
Roman Kravtsov
таймауты есть, как раз тот самый took toolong, о котом упоминалось выше

2020-11-30 11:17:53.183159 W | etcdserver: read-only range request "key:\"/kubernetes.io/secrets/openshift-apiserver/encryption-config-0\" " with result "error:etcdserver: request timed out" took too long (8.277214446s) to execute
сторадж заснул :/
источник

RK

Roman Kravtsov in OpenShift - русскоязычное сообщество
must-gather почти собрался, немного не хватило ))

[must-gather-nnxh5] OUT gather output not downloaded: etcdserver: leader changed
источник

RK

Roman Kravtsov in OpenShift - русскоязычное сообщество
Vadim Rutkovsky
сторадж заснул :/
в смысле схд может быть перегружен?
источник

VR

Vadim Rutkovsky in OpenShift - русскоязычное сообщество
Roman Kravtsov
в смысле схд может быть перегружен?
ага - 8 секунд на чтение из базы
источник

VR

Vadim Rutkovsky in OpenShift - русскоязычное сообщество
и он будет каждые пару минут менять лидера пытаясь найти быстрого (конец немного предсказуем)
источник

RK

Roman Kravtsov in OpenShift - русскоязычное сообщество
Vadim Rutkovsky
и он будет каждые пару минут менять лидера пытаясь найти быстрого (конец немного предсказуем)
да уж
источник

RK

Roman Kravtsov in OpenShift - русскоязычное сообщество
Vadim Rutkovsky
и он будет каждые пару минут менять лидера пытаясь найти быстрого (конец немного предсказуем)
я сейчас посмотрел логи etcd на двух других кластерах, везде присутствуют сообщения took too long, но не с такими страшными значениями в несколько секунд, как здесь

2020-11-30 11:00:15.732419 W | etcdserver: read-only range request "key:\"/kubernetes.io/services/specs/openshift-kube-scheduler/scheduler\" " with result "range_response_count:1 size:1285" took too long (271.910318ms) to execute

это нормально?
источник

VR

Vadim Rutkovsky in OpenShift - русскоязычное сообщество
Roman Kravtsov
я сейчас посмотрел логи etcd на двух других кластерах, везде присутствуют сообщения took too long, но не с такими страшными значениями в несколько секунд, как здесь

2020-11-30 11:00:15.732419 W | etcdserver: read-only range request "key:\"/kubernetes.io/services/specs/openshift-kube-scheduler/scheduler\" " with result "range_response_count:1 size:1285" took too long (271.910318ms) to execute

это нормально?
в пределах 500ms терпимо. Если он не успеет roundtrip за 100мс (или 250мс?) то будет менять лидера и тогда все коннекты рвутся
источник

RK

Roman Kravtsov in OpenShift - русскоязычное сообщество
100

etcdserver: failed to send out heartbeat on time (exceeded the 100ms timeout for 526.366664ms, to 4a21cacfb01ac9d)
источник

VR

Vadim Rutkovsky in OpenShift - русскоязычное сообщество
https://github.com/openshift/cluster-etcd-operator/issues/221
хех, баг автозакрылся из-за неактивности :/
источник

ES

Empty Space in OpenShift - русскоязычное сообщество
Если утерян доступ к CoreOS и не отвечает 22 порт, что могло нарушить его работу? Единственное что я делал, через правку grub я докинул новый authorized_keys
источник

ES

Empty Space in OpenShift - русскоязычное сообщество
Через /bin/sh
источник

RK

Roman Kravtsov in OpenShift - русскоязычное сообщество
Я так понимаю, что и возможности изменить heartbeat и election таймауты сейчас нет?
источник

VR

Vadim Rutkovsky in OpenShift - русскоязычное сообщество
Roman Kravtsov
Я так понимаю, что и возможности изменить heartbeat и election таймауты сейчас нет?
пока нет
источник

VR

Vadim Rutkovsky in OpenShift - русскоязычное сообщество
Empty Space
Если утерян доступ к CoreOS и не отвечает 22 порт, что могло нарушить его работу? Единственное что я делал, через правку grub я докинул новый authorized_keys
источник

RK

Roman Kravtsov in OpenShift - русскоязычное сообщество
Vadim Rutkovsky
пока нет
я смотрю там новый баг завели https://github.com/openshift/cluster-etcd-operator/issues/499
источник

ES

Empty Space in OpenShift - русскоязычное сообщество
Авторизация тоже отъехала в кластере 😅
источник

RK

Roman Kravtsov in OpenShift - русскоязычное сообщество
Vadim Rutkovsky
сторадж заснул :/
Действительно, в данный момент были проблемы с FC на гипервизорах, отсюда и такой  большой request timed out.
Lost access to volume 5faa542d-12288506-53bf-7cd30aef77c8 due to connectivity issues. Recovery attempt is in progress and outcome will be reported shortly.


А вот с проблемой апгрейда 4.5 до 4.6 мало понятного, пока ничего не нашел, что могло стать причиной недоступности внутреннего DNS сервера.
источник

VR

Vadim Rutkovsky in OpenShift - русскоязычное сообщество
Roman Kravtsov
Действительно, в данный момент были проблемы с FC на гипервизорах, отсюда и такой  большой request timed out.
Lost access to volume 5faa542d-12288506-53bf-7cd30aef77c8 due to connectivity issues. Recovery attempt is in progress and outcome will be reported shortly.


А вот с проблемой апгрейда 4.5 до 4.6 мало понятного, пока ничего не нашел, что могло стать причиной недоступности внутреннего DNS сервера.
>А вот с проблемой апгрейда 4.5 до 4.6 мало понятного

я думаю что-то сетевое. По симптомам в багзилле видел несколько похожих проблем, но пока ничего не понятно
источник
2020 December 01

EI

Edouard Ispravnikov in OpenShift - русскоязычное сообщество
Привет.

Не получается увидеть свежеустановленный ( 5 дн назад ) кластер в access.redhat.com/mgmt/systems

При этом, он есть в cloud.redhat.com/openshift/details ..

openshift 4.5.6
источник