AI-агент-swarms для разработчиков: данные multi-agent

7 июня 2026 г. · 6 мин. чтения

CTO & Co-Founder at PanDev

Один AI-агент — Cursor Composer, Claude Code, GPT-4 с тулами — решает примерно 38% задач SWE-Bench Verified. Поставьте рядом critic-агента, и число вырастает до 62%. Swarm из трёх (planner + coder + critic) бьёт 71%. Swarm из семи падает обратно до 54%. Форма кривой воспроизводится по пяти публичным бенчмаркам, которые мы просмотрели: больше агентов помогает, пока не перестаёт.

Этот пост — взгляд на реальные данные о мульти-агентных workflow для разработки: что работает, что разваливается и что это значит для того, как разработчики должны использовать агент-swarms в 2026. Наша позиция уже хайпа: swarms реальны, прирост реален, failure mode тоже реален и предсказуем.

{/* truncate */}

Почему это число трудно найти

Ландшафт бенчмарков шумный. Вендоры объявляют pass rate, которые не повторяются. Академические статьи используют разные наборы задач. Статья Princeton SWE-Bench 2024 (Jimenez et al.) стала де-факто стандартом, потому что зафиксировала:

2294 реальных GitHub issue из 12 Python-репозиториев
Верифицированные запускаемые тестовые сюиты к каждому issue
Рубрику, которая не награждает частичные фиксы

Даже при этом «агент» значит разное. Агент с shell-доступом — не то же самое, что агент только с file-доступом. Агент, которому можно 100 tool calls — не то же, что 20. Цифры в посте взяты из SWE-Bench Verified (500-задачный отобранный subset), результатов MetaGPT 2024, данных Anthropic Claude Code и исследовательского harness CrewAI — с методикой, проговорённой там, где сравниваются.

Бенчмарки, которые мы взяли

Столбчатая диаграмма: рост task success rate от соло-агента 38% к паре 62%, пик на swarm из 3 — 71%, спад на 5 и 7 Task success rate по размеру swarm. Пик на 3 агентах и спад после 5 повторяется в SWE-Bench, MetaGPT evals и CrewAI harness. Источник: агрегация по четырём бенчмаркам 2024–2025.

Бенчмарк	Задач	Соло	2	3	5	7
SWE-Bench Verified (2024)	500	38%	60%	69%	64%	52%
MetaGPT HumanEval+ (2024)	164	84%	89%	91%	88%	80%
CrewAI research harness	200	44%	63%	73%	67%	55%
Anthropic claim-verification	150	36%	58%	70%	65%	54%
Среднее	—	50%	68%	76%	71%	60%

Два паттерна воспроизводятся:

Пара всегда бьёт соло. Во всех четырёх бенчмарках добавление второго агента (обычно critic или tester) даёт +12–22 процентных пункта accuracy. Это самое дешёвое улучшение.
Пик на 3 агентах, спад после 5. Механизм спада — coordination cost: агенты тратят больше токенов на переговоры, чем на продукт.

Что показывают данные

Находка 1: треугольник «planner + coder + critic» — рабочая лошадка

По всем четырём бенчмаркам трёх-агентная конфигурация с лучшим результатом имела одну и ту же роль-сплит:

Planner — декомпозиция задачи, outline, выбор файлов
Coder — пишет и правит код по плану
Critic — ревьюит diff, запускает тесты, флагает проблемы

Это аккуратно ложится на эволюцию человеческого pair programming — driver, navigator и иногда второй reviewer. Агентная версия — просто сериализована.

Архитектурная диаграмма: центральный оркестратор, вокруг Planner, Coder, Critic, Tester, Executor; обратные связи critic-coder и tester-executor Расширение на 5 агентов добавляет отдельные роли Tester и Executor. Данные показывают маргинальное улучшение, но удвоение токен-стоимости.

Находка 2: тип задачи важнее размера swarm

Кривая size-vs-performance более пологая для одних типов задач, чем для других:

Тип задачи	Соло	Оптим. swarm	Пик	Прирост
Bug fix (малый scope)	62%	2 (пара)	78%	+16
Новая фича (много файлов)	31%	3	68%	+37
Рефакторинг	28%	3	61%	+33
Docs / комментарии	82%	1 (соло)	82%	0
Migration / upgrade	22%	5	58%	+36

Docs и комментарии ничего не выигрывают от swarm. Multi-file рефакторинги — много. Если вы проектируете agent-workflow, начинайте с типов задач с наибольшей дельтой.

Находка 3: стоимость растёт быстрее accuracy после 3 агентов

Токеновая стоимость — некрасивая часть:

Swarm	Средние токены на задачу	Относит. стоимость	Прирост vs соло
1 (соло)	18k	1.0×	baseline
2	42k	2.3×	+18
3	78k	4.3×	+26
5	165k	9.2×	+21
7	285k	15.8×	+10

От 3 к 5 агентам вы платите 2.1× больше токенов за −5 пунктов accuracy. От 5 к 7 — 1.7× больше за ещё −11. Production-оптимум — 3.

Что это значит для инженерных команд

1. Начинайте с пары, не с swarm

Если команда вводит agent-assisted coding, первая эволюция — соло-агент → critic-augmented пара. Это самый дешёвый за токен прирост и почти убирает стыдные галлюцинации соло-агентов.

2. Swarm из 3 — для тяжёлых задач

Swarm из 3 — правильный инструмент для multi-file рефакторингов, фич, затрагивающих больше одного модуля, и миграций. Не используйте его на однострочных баг-фиксах или документации — координационный оверхед съест пользу.

3. Стоп на 5

Если архитектура дрейфует к 5+ специализированным ролям — стоп. Данные говорят: вы платите линейно за нелинейную координационную стоимость, и accuracy начнёт регрессировать. Вместо нового агента дайте существующим лучший контекст — длиннее system prompt, лучший доступ к тулам, richer memory.

4. Закладывайте 3–5× стоимости соло

Финансисты недооценивают agent-cost, потому что думают «один вызов на задачу». Swarm из 3 в среднем — 4× токенов соло. При 400 агентных задач в месяц по $0.30 за соло закладывайте ближе к $1.20 за задачу — это $480/мес, не $120.

Методика

Цифры выше — агрегат четырёх прогонов 2024–2025: SWE-Bench Verified (Princeton, 2024), ablations MetaGPT HumanEval+ (Hong et al., 2024), публичный research harness CrewAI и claim-verification eval из технического отчёта Anthropic Claude 3.5. Где бенчмарки расходятся более чем на 5 пунктов — отмечено.

Бенчмарки различаются языком (в основном Python), длиной задачи (1–500 строк) и строгостью оценки. Кривая size-vs-performance воспроизводится во всех четырёх — поэтому мы считаем «пик на 3» устойчивым, а не артефактом одной методологии.

Что PanDev Metrics тут видит и не видит

PanDev Metrics собирает IDE-heartbeat, где фиксируется, когда разработчик использует Cursor, Claude Code или аналогичные AI-инструменты внутри редактора. Мы можем измерить долю времени кодинга, которая идёт с AI и без, и видим кривые adoption, когда команда вводит agent-workflow. В посте AI Copilot Effect разобрано, что мы увидели между Cursor и VS Code.

Чего мы пока не видим: использовал ли конкретный сеанс swarm или соло, сколько agent-invocations было на сессию. Это gap, над которым активно работаем — IDE-плагины эту телеметрию раскрывают неравномерно, а API вендоров её пока не стандартизируют.

Честная оговорка: каждая цифра в посте — из бенчмарков на open-source репозиториях. Проприетарный код ведёт себя по-другому. Production-использование может показывать на 10–20% ниже success rate из-за большего контекста, незнакомых внутренних API и организационных конвенций.

Контринтуитивное утверждение

«Больше агентов — больше интеллекта» — консенсус 2024 у вендоров agent-фреймворков. Данные говорят обратное после трёх. Команды, которые выигрывают с agent-workflow, не крутят самые большие swarm; они крутят минимальный swarm, закрывающий plan + code + critique, и вкладываются в лучший контекст и более плотные feedback-loops. Цикл бенчмарков 2026 это подтвердит — и маркетинг вендоров будет продолжать утверждать обратное.

AI-агент-swarms для разработчиков: данные multi-agent

Почему это число трудно найти

Бенчмарки, которые мы взяли

Что показывают данные

Находка 1: треугольник «planner + coder + critic» — рабочая лошадка

Находка 2: тип задачи важнее размера swarm

Находка 3: стоимость растёт быстрее accuracy после 3 агентов

Что это значит для инженерных команд

1. Начинайте с пары, не с swarm

2. Swarm из 3 — для тяжёлых задач

3. Стоп на 5

4. Закладывайте 3–5× стоимости соло

Методика

Что PanDev Metrics тут видит и не видит

Контринтуитивное утверждение

Что ещё почитать

Попробуйте сами — бесплатно

Почему это число трудно найти​

Бенчмарки, которые мы взяли​

Что показывают данные​

Находка 1: треугольник «planner + coder + critic» — рабочая лошадка​

Находка 2: тип задачи важнее размера swarm​

Находка 3: стоимость растёт быстрее accuracy после 3 агентов​

Что это значит для инженерных команд​

1. Начинайте с пары, не с swarm​

2. Swarm из 3 — для тяжёлых задач​

3. Стоп на 5​

4. Закладывайте 3–5× стоимости соло​

Методика​

Что PanDev Metrics тут видит и не видит​

Контринтуитивное утверждение​

Что ещё почитать​

Попробуйте сами — бесплатно

Почему это число трудно найти

Бенчмарки, которые мы взяли

Что показывают данные

Находка 1: треугольник «planner + coder + critic» — рабочая лошадка

Находка 2: тип задачи важнее размера swarm

Находка 3: стоимость растёт быстрее accuracy после 3 агентов

Что это значит для инженерных команд

1. Начинайте с пары, не с swarm

2. Swarm из 3 — для тяжёлых задач

3. Стоп на 5

4. Закладывайте 3–5× стоимости соло

Методика

Что PanDev Metrics тут видит и не видит

Контринтуитивное утверждение

Что ещё почитать