AI/ML-команды не похожи ни на одну другую инженерную организацию. Половина команды исследует новые подходы, где большинство экспериментов проваливаются — и это ожидаемо. Другая половина строит продакшн-системы, где важны надёжность и скорость. Многие участники делают и то, и другое, переключаясь между Jupyter notebooks и продакшн-кодобазами в течение одного дня. MLOps maturity model описывает этот спектр — от ad hoc экспериментов (Level 0) до полностью автоматизированных ML-пайплайнов (Level 2) — и большинство организаций находятся где-то посередине.
Традиционные инженерные метрики не охватывают эту двойственность. Измерять ML-исследователя по Deployment Frequency — всё равно что измерять повара по скорости мытья посуды. Но полное отсутствие метрик означает, что вы не можете определить, приносят ли исследовательские инвестиции результат и надёжны ли ваши продакшн-системы. Данные Papers with Code показывают, что разрыв между state-of-the-art исследованиями и production-ready ML растёт — что делает мост research-to-production важнее, чем когда-либо.
Вот как построить фреймворк метрик, который уважает разницу между research и engineering, давая руководству необходимую видимость.