Change Failure Rate это: гайд по метрике DORA с формулой и 15%-нормой

3 апреля 2026 г. · 8 мин. чтения

CTO & Co-Founder at PanDev

Когда VP of Engineering говорит мне, что их Change Failure Rate — 0%, я не поздравляю. Я спрашиваю, что они не учитывают. Исследование Stripe «Developer Coefficient» (2018) оценило, что $300 миллиардов ежегодно теряется глобально из-за плохого кода и неэффективных процессов — и значительная часть этих потерь скрывается за нереалистичными метриками качества. 0% CFR почти всегда означает, что команда либо деплоит так редко, что каждый релиз тестируется до состояния паралича, либо — что чаще — определение «сбоя» настолько узкое, что реальные инциденты в него не попадают.

{/* truncate */}

Что измеряет Change Failure Rate

Change Failure Rate (CFR) — это процент деплоев, вызывающих сбой в продакшене. «Сбой» означает, что деплой потребовал корректирующего действия: откат, хотфикс, forward-fix или патч.

Бенчмарки DORA из State of DevOps Report 2023:

Уровень производительности	Change Failure Rate
Elite	0–15%
High	0–15%
Medium	16–30%
Low	46–60%

Обратите внимание на необычный момент: Elite и High делят один диапазон. Исследователи обнаружили, что CFR не дифференцирует топовых игроков. Их отличает скорость восстановления (MTTR) и частота деплоев (Deployment Frequency).

Это критически важный инсайт. Оптимизация под ноль сбоев — неправильная цель.

Почему 0% Change Failure Rate — тревожный сигнал

0% CFR обычно сигнализирует об одной из этих проблем:

1. Вы неправильно считаете

Самая частая причина. Команды исключают:

Инциденты, «пойманные» до того, как пользователи заметили. Если мониторинг поймал всплеск 500-ошибок и вы откатились за 5 минут — это всё равно сбой. Деплой вызвал проблему в продакшене.
Баги фич, обнаруженные после деплоя. Если фича работает не как задумано и требует исправления — оригинальный деплой провалился.
Деградации производительности. Задержка удвоилась после деплоя, но «никто не жаловался»? Это сбой.
Конфигурационные инциденты. Код был в порядке, но деплой сломался из-за отсутствующей переменной окружения. Всё равно сбой деплоя.

Полезное определение: любой деплой, потребовавший незапланированной корректирующей работы, — это сбой. Если инженеру пришлось делать что-то, чего он не ожидал, из-за этого деплоя — считайте.

2. Вы деплоите слишком редко

Если деплоите раз в месяц с неделей ручного QA, ваш CFR действительно может быть низким. Но вы платите за это:

4+ недель Lead Time
Крупными рискованными батчами, когда что-то всё же проскакивает
Медленным time-to-market для фич и фиксов
Фрустрацией разработчиков от медленных циклов обратной связи

Низкий CFR, достигнутый за счёт редких деплоев — это не победа. Это компромисс, и обычно плохой.

3. Вы чрезмерно тестируете в предпродакшен-окружениях

Некоторые команды проводят обширное ручное тестирование в стейджинг-окружениях, идеально зеркалящих продакшен. К моменту, когда код попадает в продакшен, он валидирован исчерпывающе. CFR низкий, но:

Стейджинг-окружения дорого поддерживать
Ручное тестирование медленное и не масштабируется
Вы переместили стоимость с «периодический сбой в продакшене» на «постоянный оверхед тестирования»

Почему 15% — это нормально (и здорово)

Исследования DORA, валидированные на данных более 36 000 специалистов за десять лет (Forsgren, Humble, Kim, Accelerate, 2018; ежегодные State of DevOps Reports), стабильно показывают, что элитные команды имеют CFR 5–15%. Это не признак низкого качества. Это признак:

Скорость важнее идеала. Элитные команды деплоят несколько раз в день. Не каждый деплой будет идеальным. Но каждый деплой маленький, поэтому при сбое восстановление быстрое и зона поражения ограничена.

Сложность реального мира. Продакшен — хаотичное место. Никакое стейджинг-окружение идеально не воспроизводит паттерны трафика, объёмы данных, поведение сторонних API и последовательности взаимодействий пользователей. Некоторые сбои обнаруживаются только в продакшене.

Честное измерение. Элитные команды считают всё. У них зрелое отслеживание инцидентов и точная классификация сбоев. Команды с более низким заявленным CFR часто имеют менее зрелое отслеживание.

Скорость инноваций. Команды, поставляющие быстро, пробуют новое. Новые фичи, новые архитектуры, новые интеграции. Что-то сломается. Это цена инноваций, и она того стоит.

Реальная цена погони за 0%

Организации, оптимизирующие под ноль сбоев, обычно демонстрируют такое поведение:

Поведение	Внешняя метрика	Скрытая цена
Недельный ручной QA	Низкий CFR	Lead Time 4–6 недель
Множественные гейты апрува	Низкий CFR	Pickup Time 3–5 дней
Заморозка деплоев «на всякий случай»	Низкий CFR	Deployment Frequency 1–2 раза/месяц
Отклонение рискованных фич	Низкий CFR	Скорость инноваций близка к нулю
Занижение отчётности по инцидентам	Низкий CFR	Отрыв от реальности, потеря доверия

Итог: команда «безопасна», но медлительна. Продуктовые команды учатся обходить инженеринг, нанимая подрядчиков, используя no-code инструменты или создавая фичи самостоятельно. Инженерная команда становится узким местом, а не ускорителем.

Что реально оптимизировать

Вместо минимизации CFR оптимизируйте стоимость каждого сбоя. Это значит:

1. Уменьшить зону поражения

Сделать так, чтобы каждый сбой затрагивал меньше пользователей в течение меньшего времени.

Canary-деплои: Направьте 1% трафика на новую версию сначала. При всплеске ошибок откатитесь автоматически до того, как 99% пользователей пострадают.
Feature flags: Поставляйте код за флагом. Включите сначала для внутренних пользователей, затем 10%, затем 100%. «Сбой» затрагивает только помеченный сегмент.
Независимые деплои сервисов: Если Сервис A падает, Сервис B продолжает работать. Микросервисная архитектура ограничивает зону поражения.

2. Сократить время восстановления (MTTR)

Сделать каждый сбой короче.

Откат в один клик: Любой инженер должен иметь возможность откатить деплой менее чем за 5 минут, без апрува.
Автоматический откат: Если error rate превышает порог в течение 10 минут после деплоя, откат автоматически.
Чёткое владение: Когда срабатывает алерт, один конкретный человек ответственен. Никакого «распыления ответственности».

3. Сократить время обнаружения

Находить сбои быстрее.

Real-time отслеживание ошибок: Sentry, Datadog или аналог. Ошибки должны быть видны в течение секунд.
Алерты, коррелирующие с деплоем: «Error rate вырос на 300%, начиная с 2 минут после деплоя коммита abc123.» Мгновенная диагностика.
Мониторинг бизнес-метрик: Технические метрики пропускают некоторые сбои. Мониторьте конверсию, завершение регистрации, успешность транзакций.

4. Учиться на каждом сбое

Сделать так, чтобы каждый сбой улучшал систему.

Безобвинительные post-mortem: Фокус на «что произошло» и «что мы меняем», а не «кто виноват».
Категоризация сбоев: Это был баг кода, ошибка конфигурации, проблема зависимости, инфраструктурная проблема? У каждой категории свои стратегии предотвращения.
Отслеживание повторных сбоев: Если одинаковый тип сбоя происходит трижды — это системная проблема, требующая системного решения.

Как правильно измерять Change Failure Rate

Согласование определений

Прежде чем начинать измерять, команда должна договориться, что считается сбоем. Рекомендуемое определение:

Сбой деплоя — это любой деплой в продакшен, результатом которого стали:

Откат
Хотфикс, задеплоенный в течение 24 часов
Деградация сервиса, видимая в мониторинге (рост error rate, рост задержки, снижение доступности)
Баг, видимый клиентам, требующий немедленного исправления

Не является сбоем деплоя:

Баг, обнаруженный через недели, который был внесён тем деплоем (это вопрос качества продукта, а не деплоя)
Запланированная фича, которую не приняли пользователи (это вопрос продуктовой стратегии)
Инфраструктурная проблема, не связанная с деплоем (аутейдж облачного провайдера во время окна деплоя)

Расчёт

$$ Change Failure Rate = (Количество сбойных деплоев / Общее количество деплоев) × 100% $$

Измеряйте еженедельно или ежемесячно. Всплески за одну неделю — это шум; тренды за несколько недель — это сигналы.

Сегментация

Отслеживайте CFR по:

Команде: Определите, каким командам нужна поддержка
Сервису: Найдите, какие системы хрупкие
Дню недели: Некоторые команды видят более высокий failure rate по понедельникам (последствия выходных) или пятницам (спешка перед выходными)
Размеру деплоя: Корреляция CFR с количеством изменённых строк на деплой. Почти всегда показывает, что крупные деплои ломаются чаще.

Бенчмарки CFR по отраслям

Хотя DORA Report даёт общие бенчмарки, отраслевой контекст важен:

Отрасль	Типичный CFR	Примечания
SaaS / Веб-приложения	8–15%	Высокая частота деплоев, быстрое восстановление
Финтех	5–12%	Регулируемый, но зрелые инженерные практики
E-commerce	10–20%	Сезонные пики вызывают стресс-сбои
Корпоративный B2B	15–25%	Сложные интеграции, медленные циклы деплоя
Мобильные приложения	5–10%	Откат затруднён; более осторожные деплои
Embedded / IoT	3–8%	Откат дорогой; больше предрелизного тестирования

Эти диапазоны согласуются с данными Stack Overflow Developer Surveys и исследований DORA. Ваш конкретный контекст важнее отраслевых средних.

Фреймворк для снижения CFR (без замедления)

Если ваш CFR выше 20%, вот приоритизированный список вмешательств:

Уровень 1: Высокое влияние, низкие усилия

Добавьте отслеживание ошибок, коррелирующее с деплоями (чтобы мгновенно знать, когда деплой вызвал проблему)
Внедрите откат в один клик
Установите лимиты на размер MR (менее 400 строк)

Уровень 2: Высокое влияние, средние усилия

Добавьте автоматические smoke-тесты, запускающиеся после деплоя
Внедрите canary-деплои для критических сервисов
Создайте безобвинительный post-mortem процесс

Уровень 3: Высокое влияние, высокие усилия

Увеличьте тестовое покрытие для критических путей
Развяжите сервисы для независимого деплоя
Постройте инфраструктуру прогрессивного раскатывания

Отслеживайте CFR еженедельно по мере внедрения каждого уровня. Ожидайте падение CFR на 5–10 процентных пунктов на уровень, с наибольшим улучшением от Уровня 1 (более быстрое обнаружение и откат означают, что вы классифицируете и считаете сбои правильно, и восстанавливаетесь до того, как мелкие проблемы станут крупными).

Связь CFR с другими DORA-метриками

CFR не существует в изоляции. Его соотношение с другими метриками рассказывает историю:

Высокий CFR + Низкая Deployment Frequency = Крупные батчи вызывают сбои. Решение: более мелкие, более частые деплои.

Высокий CFR + Высокая Deployment Frequency = Недостаточное тестирование или ревью. Решение: инвестиции в CI quality gates и код-ревью.

Низкий CFR + Низкая Deployment Frequency = Чрезмерная осторожность маскирует проблемы качества. Решение: увеличить частоту деплоев и посмотреть, что всплывёт.

Низкий CFR + Высокая Deployment Frequency = Зрелость инженерной практики. Поддерживайте и итерируйте.

PanDev Metrics отслеживает все четыре DORA-метрики вместе, чтобы вы видели эти корреляции в реальном времени — а не в квартальном отчёте, когда уже поздно действовать.

Итог

Change Failure Rate — это метрика здоровья, а не цель для минимизации до нуля. Здоровые команды ломают 5–15% деплоев, потому что деплоят часто, измеряют честно и восстанавливаются быстро. Если ваш CFR — 0%, вы, вероятно, скрываете сбои. Если выше 25% — нужны лучшие тесты и меньшие батчи.

Цель не в том, чтобы предотвратить все сбои. Цель — сделать сбои дешёвыми, быстро обнаруживаемыми и быстро восстанавливаемыми.

Бенчмарки из DORA State of DevOps Reports (2019–2023), опубликованных Google Cloud / DORA team.

Хотите отслеживать реальный Change Failure Rate — с корреляцией событий деплоя, данных об инцидентах и временем восстановления? PanDev Metrics рассчитывает CFR автоматически из данных вашего пайплайна GitLab, GitHub, Bitbucket или Azure DevOps. Измеряйте то, что важно →

Что измеряет Change Failure Rate​

Почему 0% Change Failure Rate — тревожный сигнал​

1. Вы неправильно считаете​

2. Вы деплоите слишком редко​

3. Вы чрезмерно тестируете в предпродакшен-окружениях​

Почему 15% — это нормально (и здорово)​

Реальная цена погони за 0%​

Что реально оптимизировать​

1. Уменьшить зону поражения​

2. Сократить время восстановления (MTTR)​

3. Сократить время обнаружения​

4. Учиться на каждом сбое​

Как правильно измерять Change Failure Rate​

Согласование определений​

Расчёт​

Сегментация​

Бенчмарки CFR по отраслям​

Фреймворк для снижения CFR (без замедления)​

Связь CFR с другими DORA-метриками​

Итог​

Готовы увидеть метрики своей команды?