Как стать автором
Обновить

Комментарии 18

НЛО прилетело и опубликовало эту надпись здесь

Чего?

Graceful Degradation, Rate Limiting

так эскалировать и собирать группировку умеет наверное примерно все, от того же прома?

Пром умеет группировать, но эскалировать не умеет. Grafana Alerting до версии 9 не умел группировать. А вообще систем мониторинга на рынке 370+, кто-то что-то умеет, а кто-то что-то не умеет.

И все это в контейнере. то есть с сетью придется отдельно воевать.

В нескольких контейнерах*. Пока именно с сетью проблем ни у кого особенных не было, все достаточно легко менеджерится helm'ом.

НЛО прилетело и опубликовало эту надпись здесь

А можно этот софт поставить как замену алертменеджеру? То есть алерты брать напрямую из Прометеуса.

Можно, но если у вас уже есть прометеус, лучше пред-группировку сделать в алертменеджере.

Хотелось бы всем управлять из одного места.

Автоэскалация при отсутствии обязательной реакции (для выполнения временнЫх SLO) и определения обязательного типа реакции (нажал на кнопочку "вижу, ща займусь", письмо на электропочту, действие в других внешних системах) возможны?

Ну и совсем опционально - построение дерева/графа вообще всех событий и условий, для общего понимания всей системы реагирования на инциденты. По идее, это можно попробовать сделать как специфичный дашборд/-ы: общая картина и отдельные деревья/графы реакций, уведомлений по каждому актору (человеку/системе). Конечная цель - иметь карту всех описанных событий, реакций на них и исполнителей с требованиями на такую реакцию. Ещё более опционально - генерация метрик по таким реакциям (с привязкой/ссылкой к исходному событию), для того же prometheus. Из подобного уже можно будет пробовать вынимать KPI для команд, и не только.

Было бы здОрово иметь ту же ansible роль для установки, не все готовы сразу закидывать в кубкластер новый продукт для детальной оценки и тестов. Одного инстанса и роли вполне может хватить для этого.

Спасибо за развитие продукта.

В ближайшем будущем планирую реализовать роль. Есть проект с алертами, но без кубера(

Хотим пощупать с самого момента выхода на гитхабе.
А можно допилить поддержку постгри для продукта? Иссуе №80

Было бы здорово, если бы вы присоединились к разработке) Postgres дотащим

Поправьте, если не прав, но что то до боли знакомое делал в zabbix пару лет назад. Кончно, без гугл таблиц для расписания, но с аггрегацией, эскалацией и подавлением алертов.

без гугл таблиц для расписания

опечатка или нет?

Интересно было бы послушать сравнение со стороны пользователей pagerduty (до которого тоже пока масштаб моей команды не дошел)

нет ни одного упоминания Grafana OnCall, Incident Response Tool с открытым исходным кодом от Grafana Labs

Может быть потому, что опенсорсным он стал два месяца назад.

А что есть инцидент в контексте on-call? Когда инцидент открывается?
И есть ли у нас список всех инцидентов, чтобы потом смотреть потом статистику по ним?

Огромное спасибо за вашу работу!

Пытаюсь понять, как сделать так, чтобы разные алерты от prometheus через alertmanager летели в разные алерт группы. Или может быть alertmanager не нужен и достаточно сразу от прометеуса принимать?

Спасибо! Я недавно вышел из проекта, но контрибьютеры его активно пилят и иногда помогают в чатике https://t.me/amixr_ru

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории