Size: a a a

KVM (PVE/oVirt etc)

2020 June 26

NC

Nik Ch in KVM (PVE/oVirt etc)
Hi!
Кластер овирт из 4х нод+гластер в качестве хранилища. Один из хостов в кластере oVirt после отключения/включения на нем сетевого интерфейса отвечающего за gluster перешёл в статус "NonOperational".
По логам видно что не стартует служба  "oVirt Hosted Engine High Availability Monitoring Agent".
oVirt Hosted Engine High Availability Monitoring Agent "ругается" что не может датастор найти, но этот датастор смонтирован и работает.  

MainThread::INFO::2020-06-22 11:12:45,825::storage_server::356::ovirt_hosted_engine_ha.lib.storage_server.StorageServer::(connect_storage_server) Connecting storage server
MainThread::INFO::2020-06-22 11:12:45,841::storage_server::413::ovirt_hosted_engine_ha.lib.storage_server.StorageServer::(connect_storage_server) Refreshing the storage domain
MainThread::WARNING::2020-06-22 11:12:46,122::storage_broker::97::ovirt_hosted_engine_ha.broker.storage_broker.StorageBroker::(__init__) Can't connect vdsm storage: Command StorageDomain.getInfo with args {'storagedomainID': '927801cc-f7fc-40bb-9bb9-92b2b19a5087'} failed:
(code=350, message=Error in storage domain action: (u'sdUUID=927801cc-f7fc-40bb-9bb9-92b2b19a5087',))

927801cc-f7fc-40bb-9bb9-92b2b19a5087-это UUID датастора который использует hosted engine

Нашел что на проблемной ноде в папке  /var/run/vdsm/ нет папки storage, которая есть на других нодах.
Пробовал скопировать эту папку с живой ноды на проблемную, но не помогло.
Как можно пофиксить эту ошибку?

OS Version:
RHEL - 7 - 7.1908.0.el7.centos
OS Description:
CentOS Linux 7 (Core)
Kernel Version:
3.10.0 - 1127.8.2.el7.x86_64
KVM Version:
2.12.0 - 44.1.el7_8.1
LIBVIRT Version:
libvirt-4.5.0-33.el7_8.1
VDSM Version:
vdsm-4.30.46-1.el7
SPICE Version:
0.14.0 - 9.el7
GlusterFS Version:
glusterfs-7.5-1.el7
CEPH Version:
librbd1-10.2.5-4.el7
Open vSwitch Version:
openvswitch-2.11.0-4.el7
Kernel Features:
PTI: 1, IBRS: 0, RETP: 1, SSBD: 3
Пробовал удалить ноду из кластера и заново добавить, но не дает "Cannot remove Host. Server having Gluster volume."
Пробовал "reinstall" из интерфейса ноды c "UNDEPLOY/DEPLOY" hosted engin-a, но тоже не помогло.
источник

ПЛ

Патрик Ломакин... in KVM (PVE/oVirt etc)
Nik Ch
Hi!
Кластер овирт из 4х нод+гластер в качестве хранилища. Один из хостов в кластере oVirt после отключения/включения на нем сетевого интерфейса отвечающего за gluster перешёл в статус "NonOperational".
По логам видно что не стартует служба  "oVirt Hosted Engine High Availability Monitoring Agent".
oVirt Hosted Engine High Availability Monitoring Agent "ругается" что не может датастор найти, но этот датастор смонтирован и работает.  

MainThread::INFO::2020-06-22 11:12:45,825::storage_server::356::ovirt_hosted_engine_ha.lib.storage_server.StorageServer::(connect_storage_server) Connecting storage server
MainThread::INFO::2020-06-22 11:12:45,841::storage_server::413::ovirt_hosted_engine_ha.lib.storage_server.StorageServer::(connect_storage_server) Refreshing the storage domain
MainThread::WARNING::2020-06-22 11:12:46,122::storage_broker::97::ovirt_hosted_engine_ha.broker.storage_broker.StorageBroker::(__init__) Can't connect vdsm storage: Command StorageDomain.getInfo with args {'storagedomainID': '927801cc-f7fc-40bb-9bb9-92b2b19a5087'} failed:
(code=350, message=Error in storage domain action: (u'sdUUID=927801cc-f7fc-40bb-9bb9-92b2b19a5087',))

927801cc-f7fc-40bb-9bb9-92b2b19a5087-это UUID датастора который использует hosted engine

Нашел что на проблемной ноде в папке  /var/run/vdsm/ нет папки storage, которая есть на других нодах.
Пробовал скопировать эту папку с живой ноды на проблемную, но не помогло.
Как можно пофиксить эту ошибку?

OS Version:
RHEL - 7 - 7.1908.0.el7.centos
OS Description:
CentOS Linux 7 (Core)
Kernel Version:
3.10.0 - 1127.8.2.el7.x86_64
KVM Version:
2.12.0 - 44.1.el7_8.1
LIBVIRT Version:
libvirt-4.5.0-33.el7_8.1
VDSM Version:
vdsm-4.30.46-1.el7
SPICE Version:
0.14.0 - 9.el7
GlusterFS Version:
glusterfs-7.5-1.el7
CEPH Version:
librbd1-10.2.5-4.el7
Open vSwitch Version:
openvswitch-2.11.0-4.el7
Kernel Features:
PTI: 1, IBRS: 0, RETP: 1, SSBD: 3
Пробовал удалить ноду из кластера и заново добавить, но не дает "Cannot remove Host. Server having Gluster volume."
Пробовал "reinstall" из интерфейса ноды c "UNDEPLOY/DEPLOY" hosted engin-a, но тоже не помогло.
Попробуй на хосте с ошибкой написать vdsm-tool    configure --force
источник

ГП

Григорий Прадедов... in KVM (PVE/oVirt etc)
Aleksandr baltazor
на debian 9 все корректно:
ls -lh /sys/block/
total 0
lrwxrwxrwx 1 root root 0 Jun 26 09:45 nvme0n1 -> ../devices/pci0000:00/0000:00:03.0/0000:04:00.0/nvme/nvme0/nvme0n1
lrwxrwxrwx 1 root root 0 Jun 26 09:45 sda -> ../devices/pci0000:00/0000:00:02.2/0000:02:00.0/host0/target0:0:0/0:0:0:0/block/sda
lrwxrwxrwx 1 root root 0 Jun 26 09:45 sdb -> ../devices/pci0000:00/0000:00:1a.0/usb1/1-1/1-1.3/1-1.3:1.0/host7/target7:0:0/7:0:0:0/block/sdb
Потому что дебиан 9 старый 🙂 Что бы попытаться ответить на ваш вопрос, нужно знать модель nvme-накопителя и платформы. Могу только предположить что накопитель имеет сложную внутренюю логику, которую красиво понимает новое ядро дебиан 10.
источник

A

Aleksandr baltazor in KVM (PVE/oVirt etc)
Григорий Прадедов
Потому что дебиан 9 старый 🙂 Что бы попытаться ответить на ваш вопрос, нужно знать модель nvme-накопителя и платформы. Могу только предположить что накопитель имеет сложную внутренюю логику, которую красиво понимает новое ядро дебиан 10.
SAMSUNG MZPLL3T2HAJQ-00005 это нвме, платформа supermicro но точно не подскажу какая модель материнки
источник

k

kvaps in KVM (PVE/oVirt etc)
Baka mate
btrfs несколько раз крашилась вместе со всей системой, хррь птфу.
Давно это было?
источник

Bm

Baka mate in KVM (PVE/oVirt etc)
kvaps
Давно это было?
Давно, 2015 вроде
источник

NC

Nik Ch in KVM (PVE/oVirt etc)
Патрик Ломакин
Попробуй на хосте с ошибкой написать vdsm-tool    configure --force
Отработало без ошибок, но не помогло.
srv~]# vdsm-tool configure --force

Checking configuration status...

abrt is already configured for vdsm
Managed volume database is already configured
lvm is configured for vdsm
libvirt is already configured for vdsm
SUCCESS: ssl configured to true. No conflicts
Current revision of multipath.conf detected, preserving

Running configure...
Reconfiguration of abrt is done.
Reconfiguration of passwd is done.
Reconfiguration of libvirt is done.

Done configuring modules to VDSM.
источник

ПЛ

Патрик Ломакин... in KVM (PVE/oVirt etc)
Nik Ch
Отработало без ошибок, но не помогло.
srv~]# vdsm-tool configure --force

Checking configuration status...

abrt is already configured for vdsm
Managed volume database is already configured
lvm is configured for vdsm
libvirt is already configured for vdsm
SUCCESS: ssl configured to true. No conflicts
Current revision of multipath.conf detected, preserving

Running configure...
Reconfiguration of abrt is done.
Reconfiguration of passwd is done.
Reconfiguration of libvirt is done.

Done configuring modules to VDSM.
что пишет systemctl status vdsm
источник

NC

Nik Ch in KVM (PVE/oVirt etc)
Патрик Ломакин
что пишет systemctl status vdsm
[root@node1 ~]# systemctl status vdsmd -l
● vdsmd.service - Virtual Desktop Server Manager
  Loaded: loaded (/usr/lib/systemd/system/vdsmd.service; enabled; vendor preset: enabled)
  Active: active (running) since Fri 2020-06-26 17:19:25 +05; 56min ago
 Process: 11059 ExecStartPre=/usr/libexec/vdsm/vdsmd_init_common.sh --pre-start (code=exited, status=0/SUCCESS)
Main PID: 11131 (vdsmd)
   Tasks: 73
  CGroup: /system.slice/vdsmd.service
          ├─11131 /usr/bin/python2 /usr/share/vdsm/vdsmd
          ├─11266 /usr/libexec/ioprocess --read-pipe-fd 43 --write-pipe-fd 42 --max-threads 10 --max-queued-requests 10
          ├─11273 /usr/libexec/ioprocess --read-pipe-fd 49 --write-pipe-fd 48 --max-threads 10 --max-queued-requests 10
          ├─13862 /usr/libexec/ioprocess --read-pipe-fd 73 --write-pipe-fd 72 --max-threads 10 --max-queued-requests 10
          ├─13979 /usr/libexec/ioprocess --read-pipe-fd 77 --write-pipe-fd 76 --max-threads 10 --max-queued-requests 10
          └─14166 /usr/libexec/ioprocess --read-pipe-fd 82 --write-pipe-fd 81 --max-threads 10 --max-queued-requests 10

Jun 26 18:15:03 node1 vdsm[11131]: ERROR failed to retrieve Hosted Engine HA score '[Errno 2] No such file or directory'Is the Hosted Engine setup finished?
Jun 26 18:15:04 node1 vdsm[11131]: ERROR failed to retrieve Hosted Engine HA score '[Errno 2] No such file or directory'Is the Hosted Engine setup finished?
Jun 26 18:15:17 node1 vdsm[11131]: ERROR failed to retrieve Hosted Engine HA score '[Errno 2] No such file or directory'Is the Hosted Engine setup finished?
Jun 26 18:15:18 node1 vdsm[11131]: ERROR failed to retrieve Hosted Engine HA score '[Errno 2] No such file or directory'Is the Hosted Engine setup finished?
Jun 26 18:15:32 node1 vdsm[11131]: ERROR failed to retrieve Hosted Engine HA score '[Errno 2] No such file or directory'Is the Hosted Engine setup finished?
Jun 26 18:15:33 node1 vdsm[11131]: ERROR failed to retrieve Hosted Engine HA score '[Errno 2] No such file or directory'Is the Hosted Engine setup finished?
Jun 26 18:15:47 node1 vdsm[11131]: ERROR failed to retrieve Hosted Engine HA score '[Errno 2] No such file or directory'Is the Hosted Engine setup finished?
Jun 26 18:15:48 node1 vdsm[11131]: ERROR failed to retrieve Hosted Engine HA score '[Errno 2] No such file or directory'Is the Hosted Engine setup finished?
Jun 26 18:16:02 node1 vdsm[11131]: ERROR failed to retrieve Hosted Engine HA score '[Errno 2] No such file or directory'Is the Hosted Engine setup finished?
Jun 26 18:16:03 node1 vdsm[11131]: ERROR failed to retrieve Hosted Engine HA score '[Errno 2] No such file or directory'Is the Hosted Engine setup finished?
источник

ПЛ

Патрик Ломакин... in KVM (PVE/oVirt etc)
Nik Ch
Hi!
Кластер овирт из 4х нод+гластер в качестве хранилища. Один из хостов в кластере oVirt после отключения/включения на нем сетевого интерфейса отвечающего за gluster перешёл в статус "NonOperational".
По логам видно что не стартует служба  "oVirt Hosted Engine High Availability Monitoring Agent".
oVirt Hosted Engine High Availability Monitoring Agent "ругается" что не может датастор найти, но этот датастор смонтирован и работает.  

MainThread::INFO::2020-06-22 11:12:45,825::storage_server::356::ovirt_hosted_engine_ha.lib.storage_server.StorageServer::(connect_storage_server) Connecting storage server
MainThread::INFO::2020-06-22 11:12:45,841::storage_server::413::ovirt_hosted_engine_ha.lib.storage_server.StorageServer::(connect_storage_server) Refreshing the storage domain
MainThread::WARNING::2020-06-22 11:12:46,122::storage_broker::97::ovirt_hosted_engine_ha.broker.storage_broker.StorageBroker::(__init__) Can't connect vdsm storage: Command StorageDomain.getInfo with args {'storagedomainID': '927801cc-f7fc-40bb-9bb9-92b2b19a5087'} failed:
(code=350, message=Error in storage domain action: (u'sdUUID=927801cc-f7fc-40bb-9bb9-92b2b19a5087',))

927801cc-f7fc-40bb-9bb9-92b2b19a5087-это UUID датастора который использует hosted engine

Нашел что на проблемной ноде в папке  /var/run/vdsm/ нет папки storage, которая есть на других нодах.
Пробовал скопировать эту папку с живой ноды на проблемную, но не помогло.
Как можно пофиксить эту ошибку?

OS Version:
RHEL - 7 - 7.1908.0.el7.centos
OS Description:
CentOS Linux 7 (Core)
Kernel Version:
3.10.0 - 1127.8.2.el7.x86_64
KVM Version:
2.12.0 - 44.1.el7_8.1
LIBVIRT Version:
libvirt-4.5.0-33.el7_8.1
VDSM Version:
vdsm-4.30.46-1.el7
SPICE Version:
0.14.0 - 9.el7
GlusterFS Version:
glusterfs-7.5-1.el7
CEPH Version:
librbd1-10.2.5-4.el7
Open vSwitch Version:
openvswitch-2.11.0-4.el7
Kernel Features:
PTI: 1, IBRS: 0, RETP: 1, SSBD: 3
Пробовал удалить ноду из кластера и заново добавить, но не дает "Cannot remove Host. Server having Gluster volume."
Пробовал "reinstall" из интерфейса ноды c "UNDEPLOY/DEPLOY" hosted engin-a, но тоже не помогло.
А после копирования права выставлял такие же?
источник

NC

Nik Ch in KVM (PVE/oVirt etc)
Патрик Ломакин
А после копирования права выставлял такие же?
на папку /var/run/vdsm/storage ?
да vdsm:kvm
источник

ПЛ

Патрик Ломакин... in KVM (PVE/oVirt etc)
А на все что внутри?
источник

ПЛ

Патрик Ломакин... in KVM (PVE/oVirt etc)
Эта папка одинаковая на всех хостах?
источник

NC

Nik Ch in KVM (PVE/oVirt etc)
Патрик Ломакин
А на все что внутри?
да, копировал с сохранением прав на файлы.
источник

NC

Nik Ch in KVM (PVE/oVirt etc)
Патрик Ломакин
Эта папка одинаковая на всех хостах?
отличается. Для первой ноды брал файлы со 2ой.

2я нода
[root@node2 ~]# ll /var/run/vdsm/storage/
total 0
drwxr-xr-x. 2 vdsm kvm 140 Jun 21 17:20 927801cc-f7fc-40bb-9bb9-92b2b19a5087
drwxr-xr-x. 2 vdsm kvm 200 Jun 23 11:46 ad76221e-7c61-4294-9e75-ed50444bd813

3я нода
[root@node3 ~]# ll /var/run/vdsm/storage/
total 0
drwxr-xr-x. 2 vdsm kvm 140 Jun 26 03:48 927801cc-f7fc-40bb-9bb9-92b2b19a5087
drwxr-xr-x. 2 vdsm kvm  40 Jun 19 23:13 a29707f1-8c8e-400a-848a-6d24794b8bac
drwxr-xr-x. 2 vdsm kvm 120 Jun 23 17:01 ad76221e-7c61-4294-9e75-ed50444bd813

4я нода
[root@node4 ~]# ll /var/run/vdsm/storage/
total 0
drwxr-xr-x. 2 vdsm kvm 160 Jun 21 16:49 927801cc-f7fc-40bb-9bb9-92b2b19a5087
drwxr-xr-x. 2 vdsm kvm 120 Jun 23 16:04 ad76221e-7c61-4294-9e75-ed50444bd813
источник

NC

Nik Ch in KVM (PVE/oVirt etc)
на 3й ноде папка /var/run/vdsm/storage/a29707f1-8c8e-400a-848a-6d24794b8bac/ пустая. И датастора с таким id нет
источник

ПЛ

Патрик Ломакин... in KVM (PVE/oVirt etc)
А какую ошибку показывает  HA?
источник

NC

Nik Ch in KVM (PVE/oVirt etc)
Патрик Ломакин
А какую ошибку показывает  HA?
В web интерфейсе ошибки:
552 Host node1 cannot access the Storage Domain(s) <UNKNOWN> attached to the Data Center Default. Setting Host state to Non-Operational.
995 Failed to connect Host node1 to Storage Pool Default

Лог /var/log/ovirt-hosted-engine-ha/broker.log на первой ноде:
MainThread::INFO::2020-06-26 19:18:33,821::monitor::49::ovirt_hosted_engine_ha.broker.monitor.Monitor::(_discover_submonitors) Loaded submonitor engine-health
MainThread::INFO::2020-06-26 19:18:33,821::monitor::49::ovirt_hosted_engine_ha.broker.monitor.Monitor::(_discover_submonitors) Loaded submonitor mem-free
MainThread::INFO::2020-06-26 19:18:33,821::monitor::49::ovirt_hosted_engine_ha.broker.monitor.Monitor::(_discover_submonitors) Loaded submonitor mgmt-bridge
MainThread::INFO::2020-06-26 19:18:33,821::monitor::49::ovirt_hosted_engine_ha.broker.monitor.Monitor::(_discover_submonitors) Loaded submonitor network
MainThread::INFO::2020-06-26 19:18:33,822::monitor::49::ovirt_hosted_engine_ha.broker.monitor.Monitor::(_discover_submonitors) Loaded submonitor storage-domain
MainThread::INFO::2020-06-26 19:18:33,822::monitor::50::ovirt_hosted_engine_ha.broker.monitor.Monitor::(_discover_submonitors) Finished loading submonitors
MainThread::INFO::2020-06-26 19:18:33,878::storage_backends::373::ovirt_hosted_engine_ha.lib.storage_backends::(connect) Connecting the storage
MainThread::INFO::2020-06-26 19:18:33,878::storage_server::349::ovirt_hosted_engine_ha.lib.storage_server.StorageServer::(connect_storage_server) Connecting storage server
MainThread::INFO::2020-06-26 19:18:33,898::storage_server::356::ovirt_hosted_engine_ha.lib.storage_server.StorageServer::(connect_storage_server) Connecting storage server
MainThread::INFO::2020-06-26 19:18:33,913::storage_server::413::ovirt_hosted_engine_ha.lib.storage_server.StorageServer::(connect_storage_server) Refreshing the storage domain
MainThread::WARNING::2020-06-26 19:18:34,201::storage_broker::97::ovirt_hosted_engine_ha.broker.storage_broker.StorageBroker::(__init__) Can't connect vdsm storage: Command StorageDomain.getInfo with args {'storagedomainID': '927801cc-f7fc-40bb-9bb9-92b2b19a5087'} failed:
(code=350, message=Error in storage domain action: (u'sdUUID=927801cc-f7fc-40bb-9bb9-92b2b19a5087',))
источник
2020 June 27

k

kvaps in KVM (PVE/oVirt etc)
Тут только что доклад классный доклад был про DeepLearning и виртуализацию GPU
https://www.youtube.com/watch?v=_YHvbbXFKKc&list=PLGlZ_ld11os8QYBOSM8KU3INh244iFXKK&index=10
источник

TF

Terry Filch in KVM (PVE/oVirt etc)
ее тяжело слушать
источник