Size: a a a

OpenNebula - русскоговорящее сообщество

2020 May 25

ВН

Виталий На Заборе... in OpenNebula - русскоговорящее сообщество
S G
День добрый сообществу!
А можна поприставать новичку с глупыми вопросами? ;)

Мы тут решили соорудить кластер небулы, пока на 3 нодах...HA sql и веб-морды настроили...первую виртуалку подняли...следующим этапом было это все повторить на хранилке ceph (есть тестовый кластер)...и тут полезли проблемы...

1. при деплое матюкается на VNC port used (с костылями можно обойти)...но это ИМХО ненормально....приходится перед деплоем копировать cluster_vnc_bitmap, деплоить, и после ошибки писать в базу скопированное значение, дальше проскаивает и виртуалка запускается...

2. при деплое матюкается на место в SYSTEM_DS (с костылями можно обойти), после  Recover->success виртуалка запускается

3. при миграции с хоста на хост в кластере валит ошибку, после которой virsh виртуалку не показывает ни на одном хосте в кластере, а в вебморде по логам она ушла в циклический ребут...но по факту она работает.... ssh-сессия не отвалилась...доступ по ssh между хостами кластера есть, доступ к "цефу" на всех хостах кластера есть...

выдержка из лога:
Mon May 25 16:06:09 2020 [Z0][VMM][E]: Could not migrate one-11 to ONE-3
Mon May 25 16:06:09 2020 [Z0][VMM][I]: ExitCode: 1
Mon May 25 16:06:09 2020 [Z0][VMM][I]: Successfully execute transfer manager driver operation: tm_failmigrate.
Mon May 25 16:06:09 2020 [Z0][VMM][I]: Failed to execute virtualization driver operation: migrate.
Mon May 25 16:06:09 2020 [Z0][VMM][E]: Error live migrating VM: Could not migrate one-11 to ONE-3
Mon May 25 16:06:09 2020 [Z0][LCM][E]: deploy_failure_action, VM in a wrong state
Mon May 25 16:07:27 2020 [Z0][LCM][I]: VM running but monitor state is POWEROFF
Mon May 25 16:07:27 2020 [Z0][VM][I]: New LCM state is SHUTDOWN_POWEROFF
Mon May 25 16:07:27 2020 [Z0][VM][I]: New state is POWEROFF
Mon May 25 16:07:27 2020 [Z0][VM][I]: New LCM state is LCM_INIT
Mon May 25 16:08:49 2020 [Z0][VMM][I]: VM found again by the drivers
Mon May 25 16:08:49 2020 [Z0][VM][I]: New state is ACTIVE
Mon May 25 16:08:49 2020 [Z0][VM][I]: New LCM state is RUNNING
Mon May 25 16:09:27 2020 [Z0][LCM][I]: VM running but monitor state is POWEROFF
Mon May 25 16:09:27 2020 [Z0][VM][I]: New LCM state is SHUTDOWN_POWEROFF
Mon May 25 16:09:27 2020 [Z0][VM][I]: New state is POWEROFF

Хочется уточнить, небула с цефом работает или не парить себе мозг и забить?
Если работает, подскажите где почитать (желательно на русском) как оно должно работать? Т.к. настривал все согласно офф. доке, а "лыжи не едут"...

ЗЫ: решение без "цефа" не рассматривается по определенным причинам...
разве что про 2. я возможно могу подсказать - там есть параметр типа игнорировать доступное место в сторе (т.к. с цефом он его ни считать нормально не умеет, ни проверять, да и проверка смысла мало имеет т.к. всё тонкое)
источник

ВН

Виталий На Заборе... in OpenNebula - русскоговорящее сообщество
DATASTORE_CAPACITY_CHECK=NO
источник

ВН

Виталий На Заборе... in OpenNebula - русскоговорящее сообщество
S G
День добрый сообществу!
А можна поприставать новичку с глупыми вопросами? ;)

Мы тут решили соорудить кластер небулы, пока на 3 нодах...HA sql и веб-морды настроили...первую виртуалку подняли...следующим этапом было это все повторить на хранилке ceph (есть тестовый кластер)...и тут полезли проблемы...

1. при деплое матюкается на VNC port used (с костылями можно обойти)...но это ИМХО ненормально....приходится перед деплоем копировать cluster_vnc_bitmap, деплоить, и после ошибки писать в базу скопированное значение, дальше проскаивает и виртуалка запускается...

2. при деплое матюкается на место в SYSTEM_DS (с костылями можно обойти), после  Recover->success виртуалка запускается

3. при миграции с хоста на хост в кластере валит ошибку, после которой virsh виртуалку не показывает ни на одном хосте в кластере, а в вебморде по логам она ушла в циклический ребут...но по факту она работает.... ssh-сессия не отвалилась...доступ по ssh между хостами кластера есть, доступ к "цефу" на всех хостах кластера есть...

выдержка из лога:
Mon May 25 16:06:09 2020 [Z0][VMM][E]: Could not migrate one-11 to ONE-3
Mon May 25 16:06:09 2020 [Z0][VMM][I]: ExitCode: 1
Mon May 25 16:06:09 2020 [Z0][VMM][I]: Successfully execute transfer manager driver operation: tm_failmigrate.
Mon May 25 16:06:09 2020 [Z0][VMM][I]: Failed to execute virtualization driver operation: migrate.
Mon May 25 16:06:09 2020 [Z0][VMM][E]: Error live migrating VM: Could not migrate one-11 to ONE-3
Mon May 25 16:06:09 2020 [Z0][LCM][E]: deploy_failure_action, VM in a wrong state
Mon May 25 16:07:27 2020 [Z0][LCM][I]: VM running but monitor state is POWEROFF
Mon May 25 16:07:27 2020 [Z0][VM][I]: New LCM state is SHUTDOWN_POWEROFF
Mon May 25 16:07:27 2020 [Z0][VM][I]: New state is POWEROFF
Mon May 25 16:07:27 2020 [Z0][VM][I]: New LCM state is LCM_INIT
Mon May 25 16:08:49 2020 [Z0][VMM][I]: VM found again by the drivers
Mon May 25 16:08:49 2020 [Z0][VM][I]: New state is ACTIVE
Mon May 25 16:08:49 2020 [Z0][VM][I]: New LCM state is RUNNING
Mon May 25 16:09:27 2020 [Z0][LCM][I]: VM running but monitor state is POWEROFF
Mon May 25 16:09:27 2020 [Z0][VM][I]: New LCM state is SHUTDOWN_POWEROFF
Mon May 25 16:09:27 2020 [Z0][VM][I]: New state is POWEROFF

Хочется уточнить, небула с цефом работает или не парить себе мозг и забить?
Если работает, подскажите где почитать (желательно на русском) как оно должно работать? Т.к. настривал все согласно офф. доке, а "лыжи не едут"...

ЗЫ: решение без "цефа" не рассматривается по определенным причинам...
в 3. посмотри что в логе ещё чуть повыше
источник

ВН

Виталий На Заборе... in OpenNebula - русскоговорящее сообщество
там в целом вся небула это какое-то сборище говноскриптов и из-за этого мне например пришлось все хосты прописать везде в /etc/hosts т.к. они не в DNS, хотя сами хосты в небуле заведены по IP
источник

ВН

Виталий На Заборе... in OpenNebula - русскоговорящее сообщество
при миграции ВМ он почему-то лезет по имени хоста
источник

ВН

Виталий На Заборе... in OpenNebula - русскоговорящее сообщество
есть у этого приятный побочный эффект - я прописал туда IP из выделенной 10г сети и миграция таки ходит по 10г
источник

ВН

Виталий На Заборе... in OpenNebula - русскоговорящее сообщество
но само по себе - оно конечно криво
источник

ВН

Виталий На Заборе... in OpenNebula - русскоговорящее сообщество
Виталий На Заборе
при миграции ВМ он почему-то лезет по имени хоста
ну и ключи ssh надо чтобы были между всеми нодами разложены, чтобы они друг на друга могли ходить из-под oneadmin
источник

SG

S G in OpenNebula - русскоговорящее сообщество
Виталий На Заборе
разве что про 2. я возможно могу подсказать - там есть параметр типа игнорировать доступное место в сторе (т.к. с цефом он его ни считать нормально не умеет, ни проверять, да и проверка смысла мало имеет т.к. всё тонкое)
где-то попадалось это...а ща немогу найти где это...
источник

SG

S G in OpenNebula - русскоговорящее сообщество
Виталий На Заборе
в 3. посмотри что в логе ещё чуть повыше
Mon May 25 16:06:08 2020 [Z0][VMM][I]: Successfully execute transfer manager driver operation: tm_premigrate.
Mon May 25 16:06:08 2020 [Z0][VMM][I]: pre: Executed "sudo ip link add name br0 type bridge ".
Mon May 25 16:06:08 2020 [Z0][VMM][I]: pre: Executed "sudo ip link set br0 up".
Mon May 25 16:06:08 2020 [Z0][VMM][I]: pre: Executed "sudo ip link add link bond0 name bond0.601 mtu 1500 type vlan id 601 ".
Mon May 25 16:06:08 2020 [Z0][VMM][I]: pre: Executed "sudo ip link set bond0.601 up".
Mon May 25 16:06:08 2020 [Z0][VMM][I]: pre: Executed "sudo ip link set bond0.601 master br0".
Mon May 25 16:06:08 2020 [Z0][VMM][I]: ExitCode: 0
Mon May 25 16:06:08 2020 [Z0][VMM][I]: Successfully execute network driver operation: pre.
Mon May 25 16:06:09 2020 [Z0][VMM][I]: Command execution fail: cat << EOT | /var/tmp/one/vmm/kvm/migrate 'one-11' 'ONE-3' 'ONE-1' 11 ONE-1
Mon May 25 16:06:09 2020 [Z0][VMM][E]: migrate: Command "virsh --connect qemu:///system migrate --live one-11 qemu+ssh://ONE-3/system" failed: error: Cannot access storage file '/var/lib/one//datastores/0/11/disk.1': No such file or directory
источник

SG

S G in OpenNebula - русскоговорящее сообщество
Виталий На Заборе
есть у этого приятный побочный эффект - я прописал туда IP из выделенной 10г сети и миграция таки ходит по 10г
это я сделал
источник

SG

S G in OpenNebula - русскоговорящее сообщество
Виталий На Заборе
ну и ключи ssh надо чтобы были между всеми нодами разложены, чтобы они друг на друга могли ходить из-под oneadmin
это есть
источник

ВН

Виталий На Заборе... in OpenNebula - русскоговорящее сообщество
> migrate: Command "virsh --connect qemu:///system migrate --live one-11 qemu+ssh://ONE-3/system" failed: error: Cannot access storage file '/var/lib/one//datastores/0/11/disk.1': No such file or directory

вот в этом явно вся соль, но хз что это значит (кроме того, что баш-говноскрипты наебнулись)
источник

ВН

Виталий На Заборе... in OpenNebula - русскоговорящее сообщество
S G
где-то попадалось это...а ща немогу найти где это...
в параметры датастора просто добавь, хоть через интерфейс
источник

SG

S G in OpenNebula - русскоговорящее сообщество
ок!
попробую
источник

SG

S G in OpenNebula - русскоговорящее сообщество
Виталий На Заборе
> migrate: Command "virsh --connect qemu:///system migrate --live one-11 qemu+ssh://ONE-3/system" failed: error: Cannot access storage file '/var/lib/one//datastores/0/11/disk.1': No such file or directory

вот в этом явно вся соль, но хз что это значит (кроме того, что баш-говноскрипты наебнулись)
мммм-дя 😄
источник

SG

S G in OpenNebula - русскоговорящее сообщество
по идее оно должно было перед миграцией стянуть с цефа, но, видимо, что-то пошло не так...
источник

ВН

Виталий На Заборе... in OpenNebula - русскоговорящее сообщество
S G
по идее оно должно было перед миграцией стянуть с цефа, но, видимо, что-то пошло не так...
не, по идее не должно
источник

ВН

Виталий На Заборе... in OpenNebula - русскоговорящее сообщество
зачем ему диск тянуть с цефа на локальную фс
источник

SG

S G in OpenNebula - русскоговорящее сообщество
дык....тянет...
я читал в доке что оно создает ссылку, которая места не занимает....а по факту:
источник