Перейти к основному содержимому

2 записи с тегом "mttr"

Посмотреть все теги

MTTR это: метрика восстановления в DORA с формулой и бенчмарками

· 8 мин. чтения
Artur Pan
CTO & Co-Founder at PanDev

Два production-инцидента, одна и та же причина — плохой конфиг положил платёжный сервис. Команда A восстановила сервис за 2 часа 14 минут. Команда B — за 6 минут. У команды B MTTR ниже не потому что инженеры умнее. У них была одна команда rollback, отрепетированная раз в месяц, runbook закреплён в on-call канале, и доступ на запись в прод выдан дежурному заранее. Разрыв — 134 минуты против 6 — это именно то, что измеряет MTTR. И это же отделяет elite-кластер из DORA 2023 State of DevOps Report от всех остальных.

MTTR-цели 2026: реалистичные бенчмарки DORA Speed of Recovery для вашей команды

· 10 мин. чтения
Artur Pan
CTO & Co-Founder at PanDev

Книга Google Site Reliability Engineering (2016) популяризировала контринтуитивный принцип: примите неизбежность сбоев и инвестируйте в скорость восстановления. Исследования DORA подтвердили это данными — разница между элитными и отстающими командами не в том, что у элитных меньше инцидентов, а в том, что они восстанавливаются менее чем за час вместо недели. Каждая инженерная организация инвестирует в предотвращение сбоев. Немногие инвестируют в быстрое восстановление после них. Данные говорят, что приоритеты расставлены наоборот.