Телеграмм чат группы ru_openshift страница 1077

Roman Kravtsov in OpenShift - русскоязычное сообщество

14:20пожаловаться #1

RK

must-gather почти собрался, немного не хватило ))

[must-gather-nnxh5] OUT gather output not downloaded: etcdserver: leader changed

Roman Kravtsov in OpenShift - русскоязычное сообщество

14:21пожаловаться #2

RK

сторадж заснул :/

в смысле схд может быть перегружен?

Vadim Rutkovsky in OpenShift - русскоязычное сообщество

14:21пожаловаться #3

VR

в смысле схд может быть перегружен?

ага - 8 секунд на чтение из базы

Vadim Rutkovsky in OpenShift - русскоязычное сообщество

14:22пожаловаться #4

VR

и он будет каждые пару минут менять лидера пытаясь найти быстрого (конец немного предсказуем)

Roman Kravtsov in OpenShift - русскоязычное сообщество

14:22пожаловаться #5

RK

и он будет каждые пару минут менять лидера пытаясь найти быстрого (конец немного предсказуем)

да уж

Roman Kravtsov in OpenShift - русскоязычное сообщество

14:22пожаловаться #6

RK

и он будет каждые пару минут менять лидера пытаясь найти быстрого (конец немного предсказуем)

я сейчас посмотрел логи etcd на двух других кластерах, везде присутствуют сообщения took too long, но не с такими страшными значениями в несколько секунд, как здесь

2020-11-30 11:00:15.732419 W | etcdserver: read-only range request "key:\"/kubernetes.io/services/specs/openshift-kube-scheduler/scheduler\" " with result "range_response_count:1 size:1285" took too long (271.910318ms) to execute

это нормально?

Vadim Rutkovsky in OpenShift - русскоязычное сообщество

14:33пожаловаться #7

VR

я сейчас посмотрел логи etcd на двух других кластерах, везде присутствуют сообщения took too long, но не с такими страшными значениями в несколько секунд, как здесь

2020-11-30 11:00:15.732419 W | etcdserver: read-only range request "key:\"/kubernetes.io/services/specs/openshift-kube-scheduler/scheduler\" " with result "range_response_count:1 size:1285" took too long (271.910318ms) to execute

это нормально?

в пределах 500ms терпимо. Если он не успеет roundtrip за 100мс (или 250мс?) то будет менять лидера и тогда все коннекты рвутся

Roman Kravtsov in OpenShift - русскоязычное сообщество

14:34пожаловаться #8

RK

100

etcdserver: failed to send out heartbeat on time (exceeded the 100ms timeout for 526.366664ms, to 4a21cacfb01ac9d)

Vadim Rutkovsky in OpenShift - русскоязычное сообщество

15:06пожаловаться #9

VR

https://github.com/openshift/cluster-etcd-operator/issues/221
хех, баг автозакрылся из-за неактивности :/

autotune I/O defaults · Issue #221 · openshift/cluster-etcd-operator

since we can now/soon observe metrics with the operator the next step is to tune defaults that will allow the cluster to operate in adverse conditions. For example if we observe alertable fsync num...

Empty Space in OpenShift - русскоязычное сообщество

15:10пожаловаться #10

ES

Если утерян доступ к CoreOS и не отвечает 22 порт, что могло нарушить его работу? Единственное что я делал, через правку grub я докинул новый authorized_keys

Empty Space in OpenShift - русскоязычное сообщество

15:12пожаловаться #11

ES

Через /bin/sh

Roman Kravtsov in OpenShift - русскоязычное сообщество

15:12пожаловаться #12

RK

https://github.com/openshift/cluster-etcd-operator/issues/221
хех, баг автозакрылся из-за неактивности :/

autotune I/O defaults · Issue #221 · openshift/cluster-etcd-operator

since we can now/soon observe metrics with the operator the next step is to tune defaults that will allow the cluster to operate in adverse conditions. For example if we observe alertable fsync num...

Я так понимаю, что и возможности изменить heartbeat и election таймауты сейчас нет?

Vadim Rutkovsky in OpenShift - русскоязычное сообщество

15:16пожаловаться #13

VR

Я так понимаю, что и возможности изменить heartbeat и election таймауты сейчас нет?

пока нет

Vadim Rutkovsky in OpenShift - русскоязычное сообщество

15:23пожаловаться #14

VR

Empty Space

Если утерян доступ к CoreOS и не отвечает 22 порт, что могло нарушить его работу? Единственное что я делал, через правку grub я докинул новый authorized_keys

https://docs.okd.io/latest/post_installation_configuration/machine-configuration-tasks.html#machine-config-overviewpost-install-machine-configuration-tasks
https://github.com/coreos/ignition/blob/master/docs/configuration-v3_1.md

First boot installer and configuration tool. Contribute to coreos/ignition development by creating an account on GitHub.

coreos/ignition

Roman Kravtsov in OpenShift - русскоязычное сообщество

15:27пожаловаться #15

RK

пока нет

я смотрю там новый баг завели https://github.com/openshift/cluster-etcd-operator/issues/499

Allow configuration of heartbeat and election timeouts · Issue #499 · openshift/cluster-etcd-operator

Current Situation: Currently the heartbeat and election timeouts are hard coded and can not be changed depending on the environment. ETCD_HEARTBEAT_INTERVAL is set to 100 and ETCD_ELECTION_TIMEOUT ...

Empty Space in OpenShift - русскоязычное сообщество

15:32пожаловаться #16

ES

https://docs.okd.io/latest/post_installation_configuration/machine-configuration-tasks.html#machine-config-overviewpost-install-machine-configuration-tasks
https://github.com/coreos/ignition/blob/master/docs/configuration-v3_1.md

First boot installer and configuration tool. Contribute to coreos/ignition development by creating an account on GitHub.

coreos/ignition

Авторизация тоже отъехала в кластере 😅

Roman Kravtsov in OpenShift - русскоязычное сообщество

15:39пожаловаться #17

RK

сторадж заснул :/

Действительно, в данный момент были проблемы с FC на гипервизорах, отсюда и такой большой request timed out.

Lost access to volume 5faa542d-12288506-53bf-7cd30aef77c8 due to connectivity issues. Recovery attempt is in progress and outcome will be reported shortly.

А вот с проблемой апгрейда 4.5 до 4.6 мало понятного, пока ничего не нашел, что могло стать причиной недоступности внутреннего DNS сервера.

Vadim Rutkovsky in OpenShift - русскоязычное сообщество

18:14пожаловаться #18

VR

Действительно, в данный момент были проблемы с FC на гипервизорах, отсюда и такой большой request timed out.

Lost access to volume 5faa542d-12288506-53bf-7cd30aef77c8 due to connectivity issues. Recovery attempt is in progress and outcome will be reported shortly.

А вот с проблемой апгрейда 4.5 до 4.6 мало понятного, пока ничего не нашел, что могло стать причиной недоступности внутреннего DNS сервера.

>А вот с проблемой апгрейда 4.5 до 4.6 мало понятного

я думаю что-то сетевое. По симптомам в багзилле видел несколько похожих проблем, но пока ничего не понятно

Edouard Ispravnikov in OpenShift - русскоязычное сообщество

18:46пожаловаться #19

2020 December 01

EI

Привет.

Не получается увидеть свежеустановленный ( 5 дн назад ) кластер в access.redhat.com/mgmt/systems

При этом, он есть в cloud.redhat.com/openshift/details ..

openshift 4.5.6