Мониторинг и оповещения на белорусском VPS: Zabbix и Prometheus

Это практическое руководство по выбору, настройке и поддержке мониторинга и оповещений на белорусском VPS с Zabbix и Prometheus. Зачем это нужно: чтобы узнавать о проблемах раньше, чем они остановят продажи, сервисы или кассы, и быстро реагировать без лишних телефонных пробежек.

Выбор стека: Zabbix, Prometheus или оба (пример: кафе в Минске)

Сценарий. Кафе в центре Минска держит POS, термометры в холодильнике и сайт для онлайн‑заказов. Нужны простые алерты на падение сервиса и рост температуры.

Как сделать. Перечислите, что нужно мониторить: хосты, порты, SNMP‑устройства, метрики приложений, задержки. Выберите Zabbix для проверки состояния хостов, доступности сервисов и SNMP‑датчиков; Prometheus для метрических временных рядов приложений и графиков. Для небольшого бизнеса достаточно связки: Zabbix собирает состояния и простые триггеры, Prometheus — метрики приложений и экспортёр для MySQL/Redis. Начните с инвентаря и карты зависимости: какие метрики влияют на продажи. Настройте пороговые алерты для POS и холодильника первыми.

Установка на белорусском VPS: базовая конфигурация (пример: интернет‑магазин в Бресте)

Сценарий. Небольшой магазин на платформе с базой в VPS в Беларуси; важно минимальное потребление ресурсов и простая поддержка.

Как сделать. Выберите Debian или Ubuntu LTS, выделите отдельный диск для метрик (Prometheus TSDB). Для начальной нагрузки хватит 2 vCPU и 4 ГБ ОЗУ; для роста — планируйте 4 vCPU и 8 ГБ. Установите компоненты из официальных репозиториев или Docker‑контейнеров. Пример важных пунктов:

Prometheus: задать retention в параметре --storage.tsdb.retention.time=15d для экономии диска.
Zabbix: разделить сервер и базу данных (Postgres/MySQL) на разные диски при возможности.
Агенты: ставьте Zabbix‑agent на серверы и узлы, на приложение добавьте экспортеры для Prometheus (node_exporter, mysqld_exporter).

Оповещения и маршрутизация: кто и как получает сообщения (пример: салон красоты в Гомеле)

Сценарий. Салон использует онлайн‑запись; при падении сервиса администратор должен получить уведомление и выполнить перезагрузку сервера.

Как сделать. Используйте Alertmanager для Prometheus и встроенную схему триггеров/Zabbix‑Actions для Zabbix. Настройте простые правила эскалации: 1) уведомление в Telegram или почту для ответственного, 2) если не подтверждено 15 минут — звонок менеджеру. Для безопасного доступа к внутренним сервисам и датчикам из центрального мониторинга организуйте VPN между филиалами и VPS; инфру на WireGuard проще поддерживать и настроить для мониторинга филиалов, посмотрите пример настройки WireGuard для филиалов и удалённых сотрудников для белорусского VPS: настройка WireGuard для филиалов на белорусском VPS.

Резервирование данных и восстановление (пример: магазин в Могилёве)

Сценарий. Магазин потерял конфигурации мониторинга после случайного обновления; восстановление заняло сутки и привело к простоям.

Как сделать. Регулярно бэкапьте конфиги и данные метрик. Что сохранять: /etc/zabbix, /etc/prometheus, конфигурации Alertmanager, дамп базы Zabbix, снимки TSDB Prometheus (snapshot). Настройте автоматические архивы и храните копии на другом VPS или в сетевом хранилище. Готовый план резервного копирования и восстановления полезен при подготовке; смотрите пример плана резервного копирования на белорусском VPS: план резервного копирования на белорусском VPS. Тестируйте восстановление минимум раз в квартал.

Типичные ошибки

Незадокументированные пороги и контакты для оповещений.
Хранение метрик на основном диске VPS без квот и retention.
Оповещения без проверки flapping‑состояний — лавина писем при кратковременном сбое.
Открытые агент‑порты в публичной сети без VPN или туннеля.
Отсутствие тестов восстановления бэкапов и экспортёров.

3 шага, которые можно сделать на неделе:

Перечислите критичные сервисы и датчики: сайт, база, POS, холодильник — составьте карту метрик.
Установите Zabbix‑agent на 1–2 сервера и Prometheus node_exporter на приложения; запустите базовые дашборды.
Настройте одно правило оповещения (почта или Telegram) на падение порта 80 и сделайте пробный сценарий восстановления конфигурации и бэкапа.

Система мониторинга приносит результат при регулярной поддержке: обновляйте списки ответственных, тестируйте оповещения и храните резервные копии конфигураций. Малый бизнес получает контроль над инцидентами без лишних затрат при разумной конфигурации Zabbix и Prometheus на белорусском VPS.