Matvey-Kuk 17 сен 2022 в 13:15

Grafana OnCall — Open Source хаб для алертов и инцидентов

4 мин

23K

Open source*DevOps*

+36

Комментарии 18

НЛО прилетело и опубликовало эту надпись здесь

Matvey-Kuk 17 сен 2022 в 14:15

Чего?

Graceful Degradation, Rate Limiting

так эскалировать и собирать группировку умеет наверное примерно все, от того же прома?

Пром умеет группировать, но эскалировать не умеет. Grafana Alerting до версии 9 не умел группировать. А вообще систем мониторинга на рынке 370+, кто-то что-то умеет, а кто-то что-то не умеет.

И все это в контейнере. то есть с сетью придется отдельно воевать.

В нескольких контейнерах*. Пока именно с сетью проблем ни у кого особенных не было, все достаточно легко менеджерится helm'ом.

НЛО прилетело и опубликовало эту надпись здесь

angapov 17 сен 2022 в 14:22

А можно этот софт поставить как замену алертменеджеру? То есть алерты брать напрямую из Прометеуса.

Matvey-Kuk 17 сен 2022 в 14:53

Можно, но если у вас уже есть прометеус, лучше пред-группировку сделать в алертменеджере.

angapov 17 сен 2022 в 15:36

Хотелось бы всем управлять из одного места.

slava_k 17 сен 2022 в 18:15

Автоэскалация при отсутствии обязательной реакции (для выполнения временнЫх SLO) и определения обязательного типа реакции (нажал на кнопочку "вижу, ща займусь", письмо на электропочту, действие в других внешних системах) возможны?

Ну и совсем опционально - построение дерева/графа вообще всех событий и условий, для общего понимания всей системы реагирования на инциденты. По идее, это можно попробовать сделать как специфичный дашборд/-ы: общая картина и отдельные деревья/графы реакций, уведомлений по каждому актору (человеку/системе). Конечная цель - иметь карту всех описанных событий, реакций на них и исполнителей с требованиями на такую реакцию. Ещё более опционально - генерация метрик по таким реакциям (с привязкой/ссылкой к исходному событию), для того же prometheus. Из подобного уже можно будет пробовать вынимать KPI для команд, и не только.

Было бы здОрово иметь ту же ansible роль для установки, не все готовы сразу закидывать в кубкластер новый продукт для детальной оценки и тестов. Одного инстанса и роли вполне может хватить для этого.

Спасибо за развитие продукта.

numb 19 сен 2022 в 09:10

В ближайшем будущем планирую реализовать роль. Есть проект с алертами, но без кубера(

sergeykons 18 сен 2022 в 22:20

Хотим пощупать с самого момента выхода на гитхабе.
А можно допилить поддержку постгри для продукта? Иссуе №80

Matvey-Kuk 18 сен 2022 в 22:21

Было бы здорово, если бы вы присоединились к разработке) Postgres дотащим

pon007 18 сен 2022 в 22:20

Поправьте, если не прав, но что то до боли знакомое делал в zabbix пару лет назад. Кончно, без гугл таблиц для расписания, но с аггрегацией, эскалацией и подавлением алертов.

shamgulov 28 сен 2022 в 21:56

без гугл таблиц для расписания

опечатка или нет?

shrapneel 18 сен 2022 в 22:20

Интересно было бы послушать сравнение со стороны пользователей pagerduty (до которого тоже пока масштаб моей команды не дошел)

homocomputeris 21 сен 2022 в 01:40

нет ни одного упоминания Grafana OnCall, Incident Response Tool с открытым исходным кодом от Grafana Labs

Может быть потому, что опенсорсным он стал два месяца назад.

r3code 9 ноя 2022 в 16:15

А что есть инцидент в контексте on-call? Когда инцидент открывается?
И есть ли у нас список всех инцидентов, чтобы потом смотреть потом статистику по ним?

erlyvideo 1 дек 2024 в 14:26

Огромное спасибо за вашу работу!

Пытаюсь понять, как сделать так, чтобы разные алерты от prometheus через alertmanager летели в разные алерт группы. Или может быть alertmanager не нужен и достаточно сразу от прометеуса принимать?

Matvey-Kuk 1 дек 2024 в 17:27

Спасибо! Я недавно вышел из проекта, но контрибьютеры его активно пилят и иногда помогают в чатике https://t.me/amixr_ru

TertiumOrganum 13 мар в 14:36

Иииии.... Закрыто!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Grafana OnCall — Open Source хаб для алертов и инцидентов

Комментарии 18

Публикации

Истории

zproxy.org