Коллеги, всем привет. Возможно моя информация, кому нибудь сэкономит время, сейчас или в будущем кто поиском найдет.
Zabbix мониторит виртуальные машины, развернутые на Hyper-V (в основном Windows Server и немного CentOS и Ubuntu). В шаблоны Windows были предустановлены zabbix-агенты 4.0.0 версии. Агенты - активные, при создании ВМ, она сама подключается на мониторинг, и начинает передавать данные, согласно своего шаблона на сервере.
Со временем, в самом начале когда все это запускалось, заметил что по чуть-чуть, появляется очередь данных на сервере (прокси не было еще), манипуляции с количеством процессов на сервере не помогали. При том, очередь росла постепенно и плавно, сначала определенные ВМ задерживали данные на 30 сек, потом на 1 минуту, 2 минуты, 2,30 и т.д. Грешил на расхождение по времени, но часы синхронизированны на всех ВМ, и показывают одно время (в пределах 10 сек точно).
Проблема всплыла более остро, после того, как некоторые ВМ пришлось блокировать, методом "Save" (Сохранить состояние). После разблокировки время на ВМ синхронизировалось, и сразу после включения показывалось корректное, а для zabbix агента оно почему то оставалось таким же, как до блокировки, и после разблокировки, продолжало идти без обновления до текущего времени. Данные приходили на сервер, но отображались соответственно с задержкой на время блокировки ВМ (час или день к примеру). Если процесс агента перезапустить, или перезагрузить ВМ, то данные начинали идти корректно, по текущему времени. Методом проб и тестов, выяснил что проблема именно из за этой версии агента 4.0.0. Устанавливал 3.4.8 и последнюю 4.4.3, они отрабатывают корректно, и по старым ВМ на которых стояли агенты 3.4.6 и 3.4.8 проблем с очередью как выяснилось не было.
Так что у кого стоят агенты 4.0.0, имейте ввиду о такой проблеме со временем для агента. 😔😔😔
Поиск проблемы занял почти год (неспешно и переодически по мере свободного времени), пока в последние дни не воспользовался блокировкой, и не выяснил истинные причины этого.