Гайды
Мониторинг серверов: Zabbix и Nagios
Модель Zabbix и Nagios/Icinga, SNMP и агенты, выбор стека и общие практики алертинга; связка с Prometheus в k8s.
~9 мин чтения
Мониторинг серверов: Zabbix и Nagios
Zabbix и Nagios (и форк Icinga) — классика мониторинга серверов и сети: агенты или SNMP/checks по HTTP, алерты, дашборды. Zabbix — всё в одном (БД, UI, триггеры, автообнаружение). Nagios — легковесный движок проверок + плагины NRPE/NCPA, UI часто через Thruk или Icinga Web. Современный стек метрик — Prometheus; для k8s см. Мониторинг Kubernetes: Prometheus Operator.
1. Zabbix: модель
- Hosts — узлы с IP/DNS.
- Items — метрика (CPU, диск,
proc.num). - Triggers — выражение на item (например,
{host:item.last()}>90). - Actions — уведомления (email, Telegram, webhook).
Zabbix Agent 2 — push/pull; Proxy для филиалов.
2. Nagios: модель
- Host + service checks (плагин возвращает OK/WARN/CRIT/UNKNOWN).
- NRPE на удалённой машине для локальных проверок.
- Конфиги классически flat files; Icinga2 — объектный DSL.
3. Когда что выбирать
| Zabbix | Nagios-стиль |
|---|---|
| Богатый UI, карты, SLA | Минимализм, огромное число плагинов |
| Больше ресурсов на сервер | Проще «вручную» |
Для облачных нативных метрик часто дополняют cloud monitoring + экспортеры в Prometheus.
SNMP — мониторинг сетевого железа и «чёрных ящиков» без агента; в Zabbix есть SNMP items, в Nagios — тысячи готовых плагинов. Учитывайте community strings, SNMPv3 с auth/priv и изоляцию management VLAN.
4. Общие практики
- Alert fatigue — пороги, группировка, зависимости «родитель-ребёнок».
- Runbook ссылка в уведомлении.
- Тестирование алертов (synthetic failure в staging).
5. Zabbix: шаблоны и обнаружение
Templates группируют items/triggers/graphs для типовых ОС и приложений (MySQL, Nginx). LLD (Low-level discovery) создаёт items для дисков, сетевых интерфейсов, томов — без ручного копирования. Maintenance под окна работ останавливает ложные «всё горит» при плановых рестартах.
6. Nagios/Icinga: производительность
Интервал проверок и parallelization check workers; тяжёлые плагины выносите в passive checks или отдельную очередь. Freshness — детект «агент молчит», а не только CRIT от плагина.
7. Чек-лист
- Время NTP на всех агентах и сервере мониторинга.
- Ретеншн БД Zabbix под контролем (housekeeper tuning).
- Не светить Zabbix UI в интернет без VPN/SSO.
- Карта зависимостей триггеров (upstream/downstream) для шумных цепочек.
- Ротация учёток API и токенов для webhook-уведомлений.
Дальше: тег «Мониторинг»