Как стать автором
Обновить

О мониторинге замолвите слово

Время на прочтение2 мин
Количество просмотров1.1K

Уже завтра, 18 января, стартует «Школа мониторинга». Чем-то она будет похожа на встречу одноклассников после насыщенных каникул: рассказы о жизненных ситуациях тесно сплетутся с советами и интересными наблюдениями. Так во второй день Иван Кондратьев, технический директор Core24/7, расскажет, как команде удалось преодолеть угнетающую силу алертов и выйти на бодрый рабочий график с помощью Grafana OnCall. 

Читать дальше

Grafana OnCall — Open Source хаб для алертов и инцидентов

Время на прочтение4 мин
Количество просмотров23K

Привет, хабр! С удивлением обнаружил, что здесь нет ни одного упоминания Grafana OnCall, Incident Response Tool с открытым исходным кодом от Grafana Labs. И это нужно исправлять, ведь мы бурно растем как по звездочкам на гитхабе, так и как часть Grafana Cloud, а в issues на гитхабе, в основном, встречаются техлиды из FAANG.

Если кратко, OnCall — это инструмент, который поможет организовать надежные оповещения/реагирование на инциденты в команде, соблюдать SLA и не просыпаться ночью от звонков.

Что умеет и как поставить?

Как добавить системности в мониторинг продакшна: параметры и тулинг для инцидент-менеджмента

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров3.3K

На проде что‑то сломалось — такова суровая реальность, случается с лучшими из нас, увы. Что часто происходит в подобных случаях: ловим алерты, бежим смотреть графики и логи, вызваниваем из отпуска разработчика, который занимался этой функциональностью, выкатываем фикс, проводим пост‑мортем. Это реакция на уровне здравого смысла, классика.

Но когда речь заходит о недозаработанных из‑за инцидента деньгах, расстроенных пользователях — любое улучшение, даже небольшое, на доли процента — может принести ощутимый результат.

Давайте поговорим, как подойти к вопросу мониторинга методологически — задействовать инструментарий инцидент‑менеджмента. Обсудим, как оценивать критичность сервисов и какие системы могут быть полезны для отслеживания проблем.

Статья ориентирована в первую очередь на тех, кто прямо сейчас занимается мониторингом на уровне общей инженерной грамотности, но пока не использует в явном виде инцидент‑менеджмент как подход.

А что дальше?

IMPulse — наш взгляд на менеджмент инцидентов

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.5K

Если ваша компания всё ещё не использует средства для менеджмента инцидентов, а утопает в обычных алертах из Alertmanager'а, эта статья для вас. Если ваша компания из-за санкций или соображений безопасности не может отправлять алерты в зарубежные системы менеджмента инцидентов, эта статья для вас. Если вы DevOps и уже изрядно намучились с поиском подобного решения (как я) - статья и для вас тоже.

В статье мы презентуем наше open source решение для работы с алертами.

Приглашаю всех заинтересованных под кат.

Читать далее