Гайды

Мониторинг серверов: Zabbix и Nagios

Модель Zabbix и Nagios/Icinga, SNMP и агенты, выбор стека и общие практики алертинга; связка с Prometheus в k8s.

~9 мин чтения

Мониторинг серверов: Zabbix и Nagios

Zabbix и Nagios (и форк Icinga) — классика мониторинга серверов и сети: агенты или SNMP/checks по HTTP, алерты, дашборды. Zabbix — всё в одном (БД, UI, триггеры, автообнаружение). Nagios — легковесный движок проверок + плагины NRPE/NCPA, UI часто через Thruk или Icinga Web. Современный стек метрик — Prometheus; для k8s см. Мониторинг Kubernetes: Prometheus Operator.


1. Zabbix: модель

  • Hosts — узлы с IP/DNS.
  • Items — метрика (CPU, диск, proc.num).
  • Triggers — выражение на item (например, {host:item.last()}>90).
  • Actions — уведомления (email, Telegram, webhook).

Zabbix Agent 2 — push/pull; Proxy для филиалов.


2. Nagios: модель

  • Host + service checks (плагин возвращает OK/WARN/CRIT/UNKNOWN).
  • NRPE на удалённой машине для локальных проверок.
  • Конфиги классически flat files; Icinga2 — объектный DSL.

3. Когда что выбирать

ZabbixNagios-стиль
Богатый UI, карты, SLAМинимализм, огромное число плагинов
Больше ресурсов на серверПроще «вручную»

Для облачных нативных метрик часто дополняют cloud monitoring + экспортеры в Prometheus.

SNMP — мониторинг сетевого железа и «чёрных ящиков» без агента; в Zabbix есть SNMP items, в Nagios — тысячи готовых плагинов. Учитывайте community strings, SNMPv3 с auth/priv и изоляцию management VLAN.


4. Общие практики

  • Alert fatigue — пороги, группировка, зависимости «родитель-ребёнок».
  • Runbook ссылка в уведомлении.
  • Тестирование алертов (synthetic failure в staging).

5. Zabbix: шаблоны и обнаружение

Templates группируют items/triggers/graphs для типовых ОС и приложений (MySQL, Nginx). LLD (Low-level discovery) создаёт items для дисков, сетевых интерфейсов, томов — без ручного копирования. Maintenance под окна работ останавливает ложные «всё горит» при плановых рестартах.


6. Nagios/Icinga: производительность

Интервал проверок и parallelization check workers; тяжёлые плагины выносите в passive checks или отдельную очередь. Freshness — детект «агент молчит», а не только CRIT от плагина.


7. Чек-лист

  • Время NTP на всех агентах и сервере мониторинга.
  • Ретеншн БД Zabbix под контролем (housekeeper tuning).
  • Не светить Zabbix UI в интернет без VPN/SSO.
  • Карта зависимостей триггеров (upstream/downstream) для шумных цепочек.
  • Ротация учёток API и токенов для webhook-уведомлений.

Дальше: тег «Мониторинг»