Swarm Coding：大模型编程的下一步

语速

大模型编程的下一步，是 swarm coding。

工具体验

目前使用过的工具中，oh my opencode 是一个典型的 swarm 框架，基于 opencode。花了约 $400 体验下来，效果一般——对任务的拆分粒度和跨 agent 的分发调度做得不够好。Agentless [3] 从反面印证了这一体感：简单的三阶段方法有时可以媲美复杂的 agent 架构，复杂未必更好。

Agent team 还没尝试，暂时不打算吃这个螃蟹。

核心观点：控制交付

随着大模型能力的提升，写代码的基本能力已经可以淘汰 2024 年的初级程序员。那么下一步是什么？

大模型的新阶段，说白了，就是控制交付。

想让大模型更好地运作，靠的不是给它更多自由度，而是用确定性的流程去约束它的行为，做强制检查。MetaGPT [1] 将标准化操作流程（SOP）编码为 prompt 序列来编排多角色协作，正是这一思路的学术实践；CodeR [8] 提出的 task graph 也证明了前置规划优于即时决策；Evolving Orchestration [15] 进一步用 RL 训练中央编排器动态调度 agent，以更低的计算成本实现了优于静态拓扑的效果。

具体做法包括：

通过 opencode 自动化检查隔离上下文——AgentCoder [10] 的实验表明，将代码生成与测试执行分离到不同 agent 后，质量显著提升
使用 ruff、pytest 等工具控制代码质量

此外，大规模强力小模型 + 聪明的 orchestrator 大模型来规划任务和隔离上下文，也是一个很有潜力的方向。SwarmAgentic [5] 将粒子群优化改造为文本符号更新，实现了全自动的多 agent 架构生成；AgentCoder [10] 的程序员+测试设计+测试执行三 agent 框架也是典型实例；AgentOrchestra [16] 的分层架构让 Planning Agent 负责高层推理和任务分解，再委派给专用 agent 执行，在 SimpleQA 上达到 95.3% 准确率。

如何评价蜂群能力？

SWE-agent [11] 定义了 Agent-Computer Interface，确立了 SWE-bench 作为编码 agent 的评测标准。但目前大部分 swarm 产品还处于比较初级的阶段，尚未看到公开的、明确的评测标准。MultiAgentBench [12] 已开始用里程碑式 KPI 评测多 agent 协作质量，但整体仍不成熟；KDD 2025 的评测综述 [13] 提出了二维分类法（评测目标 × 评测流程），覆盖了企业级可靠性与合规性。SWE-Bench Pro [18] 将评测升级为长周期、跨多文件的企业级任务（平均 107.4 行、4.1 个文件），所有模型性能显著下降；Saving SWE-Bench [19] 则揭示现有 benchmark 高估 agent 能力超 50%，提出更贴近真实交互的评测变换方法；Code in Harmony [22] 专门评测多 agent 编码框架，指出高 token 成本、迭代不稳定和泛化困难是主要瓶颈。在成本维度，Optima [20] 通过 generate-rank-select-train 范式实现了性能提升 2.8 倍且 token 用量不到 10%，为蜂群系统的成本评估提供了参考基线。

我认为蜂群能力的评价应包含以下维度：

任务交付能力——最终产出是否满足需求
交付时间——端到端完成耗时
任务拆分程度——子任务划分的合理性
并行效果——多 agent 并发带来的加速比
token 消耗（cost）——完成任务的总成本

尤其关键的是：在用户尚未给出明确交付指标时，蜂群系统能否自行分析任务并推导出合理的交付标准。

当然，现有产品内部也不见得没有这些标准，可能只是尚未公开。

参考文献

[1] Hong et al. MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework. ICLR 2024 (Oral). arXiv
[2] Qian et al. ChatDev: Communicative Agents for Software Development. ACL 2024. ACL
[3] Xia et al. Agentless: Demystifying LLM-Based Software Engineering Agents. FSE 2025. arXiv
[4] Tao et al. MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution. NeurIPS 2024. PDF
[5] Zhang et al. SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence. EMNLP 2025. ACL
[6] Feng et al. Model Swarms: Collaborative Search to Adapt LLM Experts via Swarm Intelligence. ICML 2025. arXiv
[7] Tan et al. Multi-scale Swarm of Large Language Models for Python Code Generation. ICSI 2025. Springer
[8] Chen et al. CodeR: Issue Resolving with Multi-Agent and Task Graphs. arXiv 2024. arXiv
[9] Islam et al. MapCoder: Multi-Agent Code Generation for Competitive Problem Solving. ACL 2024. ACL
[10] Huang et al. AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and Optimisation. arXiv 2024. arXiv
[11] Yang et al. SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering. NeurIPS 2024. arXiv
[12] MultiAgentBench: Evaluating the Collaboration and Competition of LLM Agents. arXiv 2025. arXiv
[13] Mohammadi et al. Evaluation and Benchmarking of LLM Agents: A Survey. KDD 2025. arXiv
[14] He et al. LLM-Based Multi-Agent Systems for Software Engineering: Literature Review, Vision, and the Road Ahead. ACM TOSEM 2025. arXiv
[15] Multi-Agent Collaboration via Evolving Orchestration. arXiv 2025. arXiv
[16] AgentOrchestra: A Hierarchical Multi-Agent Framework for General-Purpose Task Solving. arXiv 2025. arXiv
[17] Jimenez-Romero et al. Multi-Agent Systems Powered by Large Language Models: Applications in Swarm Intelligence. Frontiers in AI 2025. Frontiers
[18] Deng et al. SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? arXiv 2025. arXiv
[19] Garg et al. Saving SWE-Bench: A Benchmark Mutation Approach for Realistic Agent Evaluation. arXiv 2025. arXiv
[20] Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System. ICLR 2025. OpenReview
[21] Wang et al. OpenHands: An Open Platform for AI Software Developers as Generalist Agents. ICLR 2025. arXiv
[22] Code in Harmony: Evaluating Multi-Agent Frameworks. 2025. OpenReview
[23] MOSAIC: Multi-agent Orchestration for Task-Intelligent Scientific Coding. arXiv 2025. arXiv
[24] A Survey on Code Generation with LLM-based Agents. arXiv 2025. arXiv
[25] Liu et al. Large Language Model-Based Agents for Software Engineering: A Survey. arXiv 2025. arXiv