Operational monitoring framework

Архитектура мониторинга как операционная модель

Нажмите на слой, чтобы увидеть его состав. Диаграмма отвечает на вопрос: что должно существовать вокруг Zabbix, чтобы событие превращалось в управляемое действие.

Пример сквозного потока инцидента

  1. 01Сбой на сервере → Zabbix Agent → триггер Disaster.
  2. 02Триггер → Telegram дежурному + автоматический тикет в Service Desk.
  3. 03Дежурный открывает тикет и видит ссылку на runbook прямо в событии.
  4. 04Runbook задает шаги диагностики, команды проверки и порядок эскалации.
  5. 05Инцидент закрыт → время восстановления попадает в SLA-метрику.
  6. 06Повторы за месяц → Problem Management и улучшение шаблонов.

Что ломается без слоя

Без runbooksДежурный решает по памяти. Ушел инженер — ушло знание.
Без SLAИндикатор зеленый, но никто не понимает, что именно означает “зеленый”.
Без матрицы эскалацииАлерт улетел в канал, но никто не взял инцидент в работу.
Без корреляцииОдин отказ порождает десятки событий и быстро приводит к alert fatigue.
Без maintenance windowsПлановые работы превращаются в ночной шторм ложных алертов.
Без problem managementОдна и та же причина чинится каждую неделю как новая авария.