Size: a a a

KVM (PVE/oVirt etc)

2019 August 07

R

Radik in KVM (PVE/oVirt etc)
Igor P.
это чтобы не риплаить)
да понял
удобно
что-то совсем не обращал внимания на такую фичу
источник

DF

Denis Fedyunin in KVM (PVE/oVirt etc)
kvaps
Так, у вас две ноды jupiter и mars, на них задеплоенно два тома в drbd8, оба из них UpToDate, но у первого (ovirt) почему-то отвалилось соединение

Второй ресурс (storage) - полагаю что с ним всё в порядке, верно?
не могу определить в порядке или нет
источник

k

kvaps in KVM (PVE/oVirt etc)
Denis Fedyunin
[root@jupiter drbd.d]# drbdsetup status ovirt  --verbose --statistics
ovirt role:Primary suspended:no
   write-ordering:flush
 volume:0 minor:0 disk:UpToDate
     size:15728124 read:899193 written:4178427 al-writes:254 bm-writes:0 upper-pending:0
     lower-pending:0 al-suspended:no blocked:no
 peer connection:Connecting role:Unknown congested:no
   volume:0 replication:Off peer-disk:DUnknown resync-suspended:no
       received:0 sent:0 out-of-sync:6559196 pending:0 unacked:0

[root@jupiter drbd.d]# ssh 192.168.3.204

[root@mars ~]# drbdsetup status ovirt --verbose --statistics
ovirt role:Secondary suspended:no
   write-ordering:flush
 volume:0 minor:0 disk:UpToDate
     size:15728124 read:455132 written:46421 al-writes:87 bm-writes:0 upper-pending:0
     lower-pending:0 al-suspended:no blocked:no
Ситуация очень похожа на spit-brain в этом
случае на одной из нод будут сообщения в dmesg, аля split-brain detected, что-бы исправить нужно пересинхронизировать данные с jupiter на mars

Для этого на mars выполнить:

drbdadm disconnect ovirt
drbdadm connect ovirt --discard-my-data
на ноде jupiter выполнить:
drbdadm disconnect ovirt
drbdadm connect ovirt
источник

DF

Denis Fedyunin in KVM (PVE/oVirt etc)
я ссу
источник

PK

Pavel Kolobaev in KVM (PVE/oVirt etc)
не ссы. я так 100 раз делал
источник

k

kvaps in KVM (PVE/oVirt etc)
Denis Fedyunin
[root@jupiter drbd.d]# cat /proc/drbd
version: 8.4.10-1 (api:1/proto:86-101)
GIT-hash: a4d5de01fffd7e4cde48a080e2c686f9e8cebf4c build by mockbuild@, 2017-09-15 14:23:22
0: cs:WFConnection ro:Primary/Unknown ds:UpToDate/DUnknown C r-----
   ns:0 nr:0 dw:4212231 dr:899193 al:255 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:6559196
1: cs:StandAlone ro:Secondary/Unknown ds:UpToDate/DUnknown   r-----
   ns:0 nr:0 dw:0 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:27539988
Не углядел, второй ресурс тоже в StandAlone перешёл
источник

AG

Alex Gluck in KVM (PVE/oVirt etc)
kvaps
Ситуация очень похожа на spit-brain в этом
случае на одной из нод будут сообщения в dmesg, аля split-brain detected, что-бы исправить нужно пересинхронизировать данные с jupiter на mars

Для этого на mars выполнить:

drbdadm disconnect ovirt
drbdadm connect ovirt --discard-my-data
на ноде jupiter выполнить:
drbdadm disconnect ovirt
drbdadm connect ovirt
Может у него дуал праймари, или с Марса на юпитер надо. Ты щас посоветуешь, потом никто не восстановит
источник

DF

Denis Fedyunin in KVM (PVE/oVirt etc)
ovirt надо с юпитера на марс
источник

DF

Denis Fedyunin in KVM (PVE/oVirt etc)
storage наоборот
источник

k

kvaps in KVM (PVE/oVirt etc)
А произошло это скорее всего из-за того что у вас остуствуют политики для автоматического разрешения split-brain, см. опции after-sb-0pri, after-sb-1pri, after-sb-2pri
источник

DF

Denis Fedyunin in KVM (PVE/oVirt etc)
потому что на  юпитер storag битый
источник

k

kvaps in KVM (PVE/oVirt etc)
Alex Gluck
Может у него дуал праймари, или с Марса на юпитер надо. Ты щас посоветуешь, потом никто не восстановит
Какая разница, у него прямо сейчас ovirt примари на jupiter, а storage примари на mars
источник

I

Ivan in KVM (PVE/oVirt etc)
Denis Fedyunin
потому что на  юпитер storag битый
дык для этого drbd и есть, чтоб эта проблема решалась, а не усогублялась 😃
источник

s

smokerock in KVM (PVE/oVirt etc)
Access Forbidden
лохи в ынтырпрайзе используют
Шо за энтерпрайз?)
источник

k

kvaps in KVM (PVE/oVirt etc)
Denis Fedyunin
потому что на  юпитер storag битый
делай --discard-my-data на mars. что бы пометить этот ресурс как протухший, тогда он попытается отсинкать данные с jupiter
источник

DF

Denis Fedyunin in KVM (PVE/oVirt etc)
resource ovirt {
     protocol C;
     startup { wfc-timeout 10; degr-wfc-timeout 60; }
     net {
       max-epoch-size 10000;
       max-buffers 20000;
       sndbuf-size 2000000;
       unplug-watermark 2000;
       after-sb-0pri disconnect;
       after-sb-1pri disconnect;
       after-sb-2pri disconnect;
       rr-conflict disconnect;
     }
источник

k

kvaps in KVM (PVE/oVirt etc)
Denis Fedyunin
resource ovirt {
     protocol C;
     startup { wfc-timeout 10; degr-wfc-timeout 60; }
     net {
       max-epoch-size 10000;
       max-buffers 20000;
       sndbuf-size 2000000;
       unplug-watermark 2000;
       after-sb-0pri disconnect;
       after-sb-1pri disconnect;
       after-sb-2pri disconnect;
       rr-conflict disconnect;
     }
стоит diconnect везде, ровно то что сейчас и произошло
источник

k

kvaps in KVM (PVE/oVirt etc)
короче, когда drbd детектит split-brain, он автоматически блочит подключения, а ресурс переходит в StandAlone, чтобы этот split-brain разрешить нужно:

на ноде с устаревшими данными сделать:
drbdadm disconnect 
drbdadm connect --discard-my-data

тогда ресурс будет помечен как устаревший и начнёт пытаться стянуть данные с другой ноды

на ноде доноре (текущий Primary) нужно выполнить
drbdadm disconnect
drbdadm connect

что бы разблокировать и разрешить установить соединение, которое заблочилось в тот момент когда drbd задетектил split-brain
источник

AG

Alex Gluck in KVM (PVE/oVirt etc)
Пусть тс успокоится, у него нервишки от ситуации. Ща ещё бахнет чего от наших советов
источник

DF

Denis Fedyunin in KVM (PVE/oVirt etc)
не не
источник