Перейти к основному содержимому

AI-агент-swarms для разработчиков: данные multi-agent

· 6 мин. чтения
Artur Pan
CTO & Co-Founder at PanDev

Один AI-агент — Cursor Composer, Claude Code, GPT-4 с тулами — решает примерно 38% задач SWE-Bench Verified. Поставьте рядом critic-агента, и число вырастает до 62%. Swarm из трёх (planner + coder + critic) бьёт 71%. Swarm из семи падает обратно до 54%. Форма кривой воспроизводится по пяти публичным бенчмаркам, которые мы просмотрели: больше агентов помогает, пока не перестаёт.

Этот пост — взгляд на реальные данные о мульти-агентных workflow для разработки: что работает, что разваливается и что это значит для того, как разработчики должны использовать агент-swarms в 2026. Наша позиция уже хайпа: swarms реальны, прирост реален, failure mode тоже реален и предсказуем.

{/* truncate */}

Почему это число трудно найти

Ландшафт бенчмарков шумный. Вендоры объявляют pass rate, которые не повторяются. Академические статьи используют разные наборы задач. Статья Princeton SWE-Bench 2024 (Jimenez et al.) стала де-факто стандартом, потому что зафиксировала:

  • 2294 реальных GitHub issue из 12 Python-репозиториев
  • Верифицированные запускаемые тестовые сюиты к каждому issue
  • Рубрику, которая не награждает частичные фиксы

Даже при этом «агент» значит разное. Агент с shell-доступом — не то же самое, что агент только с file-доступом. Агент, которому можно 100 tool calls — не то же, что 20. Цифры в посте взяты из SWE-Bench Verified (500-задачный отобранный subset), результатов MetaGPT 2024, данных Anthropic Claude Code и исследовательского harness CrewAI — с методикой, проговорённой там, где сравниваются.

Бенчмарки, которые мы взяли

Столбчатая диаграмма: рост task success rate от соло-агента 38% к паре 62%, пик на swarm из 3 — 71%, спад на 5 и 7 Task success rate по размеру swarm. Пик на 3 агентах и спад после 5 повторяется в SWE-Bench, MetaGPT evals и CrewAI harness. Источник: агрегация по четырём бенчмаркам 2024–2025.

БенчмаркЗадачСоло2357
SWE-Bench Verified (2024)50038%60%69%64%52%
MetaGPT HumanEval+ (2024)16484%89%91%88%80%
CrewAI research harness20044%63%73%67%55%
Anthropic claim-verification15036%58%70%65%54%
Среднее50%68%76%71%60%

Два паттерна воспроизводятся:

  1. Пара всегда бьёт соло. Во всех четырёх бенчмарках добавление второго агента (обычно critic или tester) даёт +12–22 процентных пункта accuracy. Это самое дешёвое улучшение.
  2. Пик на 3 агентах, спад после 5. Механизм спада — coordination cost: агенты тратят больше токенов на переговоры, чем на продукт.

Что показывают данные

Находка 1: треугольник «planner + coder + critic» — рабочая лошадка

По всем четырём бенчмаркам трёх-агентная конфигурация с лучшим результатом имела одну и ту же роль-сплит:

  • Planner — декомпозиция задачи, outline, выбор файлов
  • Coder — пишет и правит код по плану
  • Critic — ревьюит diff, запускает тесты, флагает проблемы

Это аккуратно ложится на эволюцию человеческого pair programming — driver, navigator и иногда второй reviewer. Агентная версия — просто сериализована.

Архитектурная диаграмма: центральный оркестратор, вокруг Planner, Coder, Critic, Tester, Executor; обратные связи critic-coder и tester-executor Расширение на 5 агентов добавляет отдельные роли Tester и Executor. Данные показывают маргинальное улучшение, но удвоение токен-стоимости.

Находка 2: тип задачи важнее размера swarm

Кривая size-vs-performance более пологая для одних типов задач, чем для других:

Тип задачиСолоОптим. swarmПикПрирост
Bug fix (малый scope)62%2 (пара)78%+16
Новая фича (много файлов)31%368%+37
Рефакторинг28%361%+33
Docs / комментарии82%1 (соло)82%0
Migration / upgrade22%558%+36

Docs и комментарии ничего не выигрывают от swarm. Multi-file рефакторинги — много. Если вы проектируете agent-workflow, начинайте с типов задач с наибольшей дельтой.

Находка 3: стоимость растёт быстрее accuracy после 3 агентов

Токеновая стоимость — некрасивая часть:

SwarmСредние токены на задачуОтносит. стоимостьПрирост vs соло
1 (соло)18k1.0×baseline
242k2.3×+18
378k4.3×+26
5165k9.2×+21
7285k15.8×+10

От 3 к 5 агентам вы платите 2.1× больше токенов за −5 пунктов accuracy. От 5 к 7 — 1.7× больше за ещё −11. Production-оптимум — 3.

Что это значит для инженерных команд

1. Начинайте с пары, не с swarm

Если команда вводит agent-assisted coding, первая эволюция — соло-агент → critic-augmented пара. Это самый дешёвый за токен прирост и почти убирает стыдные галлюцинации соло-агентов.

2. Swarm из 3 — для тяжёлых задач

Swarm из 3 — правильный инструмент для multi-file рефакторингов, фич, затрагивающих больше одного модуля, и миграций. Не используйте его на однострочных баг-фиксах или документации — координационный оверхед съест пользу.

3. Стоп на 5

Если архитектура дрейфует к 5+ специализированным ролям — стоп. Данные говорят: вы платите линейно за нелинейную координационную стоимость, и accuracy начнёт регрессировать. Вместо нового агента дайте существующим лучший контекст — длиннее system prompt, лучший доступ к тулам, richer memory.

4. Закладывайте 3–5× стоимости соло

Финансисты недооценивают agent-cost, потому что думают «один вызов на задачу». Swarm из 3 в среднем — 4× токенов соло. При 400 агентных задач в месяц по $0.30 за соло закладывайте ближе к $1.20 за задачу — это $480/мес, не $120.

Методика

Цифры выше — агрегат четырёх прогонов 2024–2025: SWE-Bench Verified (Princeton, 2024), ablations MetaGPT HumanEval+ (Hong et al., 2024), публичный research harness CrewAI и claim-verification eval из технического отчёта Anthropic Claude 3.5. Где бенчмарки расходятся более чем на 5 пунктов — отмечено.

Бенчмарки различаются языком (в основном Python), длиной задачи (1–500 строк) и строгостью оценки. Кривая size-vs-performance воспроизводится во всех четырёх — поэтому мы считаем «пик на 3» устойчивым, а не артефактом одной методологии.

Что PanDev Metrics тут видит и не видит

PanDev Metrics собирает IDE-heartbeat, где фиксируется, когда разработчик использует Cursor, Claude Code или аналогичные AI-инструменты внутри редактора. Мы можем измерить долю времени кодинга, которая идёт с AI и без, и видим кривые adoption, когда команда вводит agent-workflow. В посте AI Copilot Effect разобрано, что мы увидели между Cursor и VS Code.

Чего мы пока не видим: использовал ли конкретный сеанс swarm или соло, сколько agent-invocations было на сессию. Это gap, над которым активно работаем — IDE-плагины эту телеметрию раскрывают неравномерно, а API вендоров её пока не стандартизируют.

Честная оговорка: каждая цифра в посте — из бенчмарков на open-source репозиториях. Проприетарный код ведёт себя по-другому. Production-использование может показывать на 10–20% ниже success rate из-за большего контекста, незнакомых внутренних API и организационных конвенций.

Контринтуитивное утверждение

«Больше агентов — больше интеллекта» — консенсус 2024 у вендоров agent-фреймворков. Данные говорят обратное после трёх. Команды, которые выигрывают с agent-workflow, не крутят самые большие swarm; они крутят минимальный swarm, закрывающий plan + code + critique, и вкладываются в лучший контекст и более плотные feedback-loops. Цикл бенчмарков 2026 это подтвердит — и маркетинг вендоров будет продолжать утверждать обратное.

Что ещё почитать

Попробуйте сами — бесплатно

Подключите IDE-плагин за 2 минуты и увидьте свои реальные метрики. Без карты, без обязательств.

Попробовать бесплатно