Целевая архитектура мониторинга: источники → сбор → ядро → обработка → каналы → реакция → инцидент → улучшения
Сквозной поток данных в архитектуре мониторинга
Схема показывает движение метрик и событий от источников через Zabbix Proxy, Zabbix Server, PostgreSQL, обработку событий, каналы уведомления, Service Desk, runbooks и postmortem.
ИСТОЧНИКИ
СБОР
ЯДРО
ОБРАБОТКА
КАНАЛЫ
РЕАКЦИЯ
ИНЦИДЕНТ
HARDWARE
IPMI / iDRAC / iLO
UPS, PDU, RAID
NETWORK
Cisco / Eltex / UserGate
SNMP v2c/v3, traps
OS / AGENTS
Windows / Linux
CPU, RAM, disk, proc
APPLICATIONS
1C, Exchange, MSSQL, PG
ODBC, WMI, user parameters
SYNTHETIC
HTTP tests, сценарии
login / send / receive
OT / SCADA
только пассивно
ICMP / TCP / OPC bridge
LOGS / EVENTS
Syslog, WinEvents
log items, SSL expiry
ZABBIX PROXY — CORP
Корпоративный сегмент
Active mode, PSK/TLS, буферизация
ZABBIX PROXY — OT DMZ
Изолированный OT-сегмент
нет агентов внутри SCADA
ZABBIX PROXY — REMOTE SITES
Удаленные площадки и склады
Локальная буферизация переживает WAN-разрыв
ZABBIX SERVER
Event engine, escalation engine, media router, LLD processor
Auto-registration, problem correlation, RBAC, API
POSTGRESQL — партиционированная БД
history / trends по партициям, DROP PARTITION вместо DELETE
Patroni HA, PgBouncer, WAL-G, read-only datasource для Grafana
TRIGGER EVALUATION
Пороги, выражения, hysteresis
Severity P1..P4
EVENT CORRELATION
Дедупликация и связывание событий
Correlation tag rules
DEPENDENCY SUPPRESSION
Switch down → один алерт
Каскадный шум подавлен
TAG-BASED ROUTING
service, criticality, owner, env, component
Conditions в Actions → MediaType и тикет
ВИЗУАЛИЗАЦИЯ
АКТИВНЫЕ УВЕДОМЛЕНИЯ
ZABBIX NOC
Active events, P1/P2
Экран дежурки 24/7
GRAFANA
SLA, trends, capacity
CIO, тимлиды, PDF
TELEGRAM
High + Average
Ссылка на runbook
EMAIL
Команды, отчеты
SMTP relay
SMS / ЗВОНОК
только P1/Disaster
15 → 30 → 60 мин
WEBHOOK
JS MediaType → REST
High+ → Service Desk
AUTO REPORTS
Grafana → PDF
SLA за месяц
SERVICE DESK
Тикет, SLA timer, owner
Auto-close при resolve
RUNBOOKS
Bookstack / Confluence
Ссылка из каждого P1/P2
ON-CALL ROSTER
Ротация дежурств
Кто отвечает сейчас
ЭСКАЛАЦИЯ
L1 → L2 → CIO
Actions + таймеры Zabbix
AUDIT / GIT
Config export
Drift detection
ACKNOWLEDGE
Дежурный берет в работу
Комментарий, owner
ДИАГНОСТИКА
Runbook → шаги
Root cause finding
RESOLVE
Фикс и верификация
MTTR записан
POSTMORTEM
Timeline, Root Cause, Impact, Action Items
Обновить runbooks, шаблоны, пороги, SLO
УЛУЧШЕНИЯ
обновить runbooks
основной поток
алертинг
фидбек / улучшения
OT-ограничения