Целевая архитектура мониторинга: источники → сбор → ядро → обработка → каналы → реакция → инцидент → улучшения

Сквозной поток данных в архитектуре мониторинга Схема показывает движение метрик и событий от источников через Zabbix Proxy, Zabbix Server, PostgreSQL, обработку событий, каналы уведомления, Service Desk, runbooks и postmortem. ИСТОЧНИКИ СБОР ЯДРО ОБРАБОТКА КАНАЛЫ РЕАКЦИЯ ИНЦИДЕНТ HARDWARE IPMI / iDRAC / iLO UPS, PDU, RAID NETWORK Cisco / Eltex / UserGate SNMP v2c/v3, traps OS / AGENTS Windows / Linux CPU, RAM, disk, proc APPLICATIONS 1C, Exchange, MSSQL, PG ODBC, WMI, user parameters SYNTHETIC HTTP tests, сценарии login / send / receive OT / SCADA только пассивно ICMP / TCP / OPC bridge LOGS / EVENTS Syslog, WinEvents log items, SSL expiry ZABBIX PROXY — CORP Корпоративный сегмент Active mode, PSK/TLS, буферизация ZABBIX PROXY — OT DMZ Изолированный OT-сегмент нет агентов внутри SCADA ZABBIX PROXY — REMOTE SITES Удаленные площадки и склады Локальная буферизация переживает WAN-разрыв ZABBIX SERVER Event engine, escalation engine, media router, LLD processor Auto-registration, problem correlation, RBAC, API POSTGRESQL — партиционированная БД history / trends по партициям, DROP PARTITION вместо DELETE Patroni HA, PgBouncer, WAL-G, read-only datasource для Grafana TRIGGER EVALUATION Пороги, выражения, hysteresis Severity P1..P4 EVENT CORRELATION Дедупликация и связывание событий Correlation tag rules DEPENDENCY SUPPRESSION Switch down → один алерт Каскадный шум подавлен TAG-BASED ROUTING service, criticality, owner, env, component Conditions в Actions → MediaType и тикет ВИЗУАЛИЗАЦИЯ АКТИВНЫЕ УВЕДОМЛЕНИЯ ZABBIX NOC Active events, P1/P2 Экран дежурки 24/7 GRAFANA SLA, trends, capacity CIO, тимлиды, PDF TELEGRAM High + Average Ссылка на runbook EMAIL Команды, отчеты SMTP relay SMS / ЗВОНОК только P1/Disaster 15 → 30 → 60 мин WEBHOOK JS MediaType → REST High+ → Service Desk AUTO REPORTS Grafana → PDF SLA за месяц SERVICE DESK Тикет, SLA timer, owner Auto-close при resolve RUNBOOKS Bookstack / Confluence Ссылка из каждого P1/P2 ON-CALL ROSTER Ротация дежурств Кто отвечает сейчас ЭСКАЛАЦИЯ L1 → L2 → CIO Actions + таймеры Zabbix AUDIT / GIT Config export Drift detection ACKNOWLEDGE Дежурный берет в работу Комментарий, owner ДИАГНОСТИКА Runbook → шаги Root cause finding RESOLVE Фикс и верификация MTTR записан POSTMORTEM Timeline, Root Cause, Impact, Action Items Обновить runbooks, шаблоны, пороги, SLO УЛУЧШЕНИЯ обновить runbooks основной поток алертинг фидбек / улучшения OT-ограничения