Featured image of post Swarm Coding:大模型编程的下一步

Swarm Coding:大模型编程的下一步

大模型编程的下一步是 swarm coding,通过控制交付和蜂群智能实现更高效的多 agent 协同编程

语速

大模型编程的下一步,是 swarm coding。

工具体验

目前使用过的工具中,oh my opencode 是一个典型的 swarm 框架,基于 opencode。花了约 $400 体验下来,效果一般——对任务的拆分粒度和跨 agent 的分发调度做得不够好。Agentless [3] 从反面印证了这一体感:简单的三阶段方法有时可以媲美复杂的 agent 架构,复杂未必更好。

Agent team 还没尝试,暂时不打算吃这个螃蟹。

核心观点:控制交付

随着大模型能力的提升,写代码的基本能力已经可以淘汰 2024 年的初级程序员。那么下一步是什么?

大模型的新阶段,说白了,就是控制交付

想让大模型更好地运作,靠的不是给它更多自由度,而是用确定性的流程去约束它的行为,做强制检查。MetaGPT [1] 将标准化操作流程(SOP)编码为 prompt 序列来编排多角色协作,正是这一思路的学术实践;CodeR [8] 提出的 task graph 也证明了前置规划优于即时决策;Evolving Orchestration [15] 进一步用 RL 训练中央编排器动态调度 agent,以更低的计算成本实现了优于静态拓扑的效果。

具体做法包括:

  • 通过 opencode 自动化检查 隔离上下文——AgentCoder [10] 的实验表明,将代码生成与测试执行分离到不同 agent 后,质量显著提升
  • 使用 ruff、pytest 等工具控制代码质量

此外,大规模强力小模型 + 聪明的 orchestrator 大模型来规划任务和隔离上下文,也是一个很有潜力的方向。SwarmAgentic [5] 将粒子群优化改造为文本符号更新,实现了全自动的多 agent 架构生成;AgentCoder [10] 的程序员+测试设计+测试执行三 agent 框架也是典型实例;AgentOrchestra [16] 的分层架构让 Planning Agent 负责高层推理和任务分解,再委派给专用 agent 执行,在 SimpleQA 上达到 95.3% 准确率。

相关研究

姚顺雨关于 in-context learning 的研究很有启发,本质上也是迁移学习的一部分。

在多 agent 协同编程领域,ChatDev [2] 通过 “chat chain” 让 agent 在软件生命周期各阶段对话协作;MapCoder [9] 用四个 agent 模拟人类编程周期,HumanEval pass@1 达到 93.9%;MAGIS [4] 将多 agent 应用于 GitHub Issue 解决,解决率比直接用 GPT-4 高 8 倍。

在蜂群智能方向,Model Swarms [6] 让多个 LLM 在权重空间中协同搜索,仅需 200 个样本即可免微调适应;Multi-scale Swarm [7] 提出多尺度蜂群框架用于代码生成,HumanEval 达 86.6%。Jimenez-Romero et al. [17] 首次用 LLM 替代硬编码 agent 程序驱动蚁群觅食和鸟群飞行等经典蜂群模拟,验证了 LLM 作为去中心化行为引擎的可行性。

He et al. [14] 的综述系统审视了 41 篇 LMA(LLM-based Multi-Agent)论文,提出产品负责人/开发者/QA/管理者四角色框架,是该领域最全面的文献梳理。

在开源编码 agent 平台方面,OpenHands [21](原 OpenDevin)以事件流架构和 Docker 沙箱实现了通用 AI 软件开发者平台,SWE-Bench Verified 解决率达 72%;MOSAIC [23] 则面向科学代码生成,通过逐步问题分解在 SciCode 数据集上比 baseline 高 24%。近期两篇综述——代码生成 agent 综述 [24] 和复旦 SE Lab 的 124 篇论文系统综述 [25]——分别从技术演进和 SE+Agent 双视角对该领域进行了全面梳理。

如何评价蜂群能力?

SWE-agent [11] 定义了 Agent-Computer Interface,确立了 SWE-bench 作为编码 agent 的评测标准。但目前大部分 swarm 产品还处于比较初级的阶段,尚未看到公开的、明确的评测标准。MultiAgentBench [12] 已开始用里程碑式 KPI 评测多 agent 协作质量,但整体仍不成熟;KDD 2025 的评测综述 [13] 提出了二维分类法(评测目标 × 评测流程),覆盖了企业级可靠性与合规性。SWE-Bench Pro [18] 将评测升级为长周期、跨多文件的企业级任务(平均 107.4 行、4.1 个文件),所有模型性能显著下降;Saving SWE-Bench [19] 则揭示现有 benchmark 高估 agent 能力超 50%,提出更贴近真实交互的评测变换方法;Code in Harmony [22] 专门评测多 agent 编码框架,指出高 token 成本、迭代不稳定和泛化困难是主要瓶颈。在成本维度,Optima [20] 通过 generate-rank-select-train 范式实现了性能提升 2.8 倍且 token 用量不到 10%,为蜂群系统的成本评估提供了参考基线。

我认为蜂群能力的评价应包含以下维度:

  • 任务交付能力——最终产出是否满足需求
  • 交付时间——端到端完成耗时
  • 任务拆分程度——子任务划分的合理性
  • 并行效果——多 agent 并发带来的加速比
  • token 消耗(cost)——完成任务的总成本

尤其关键的是:在用户尚未给出明确交付指标时,蜂群系统能否自行分析任务并推导出合理的交付标准。

当然,现有产品内部也不见得没有这些标准,可能只是尚未公开。

参考文献

  • [1] Hong et al. MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework. ICLR 2024 (Oral). arXiv
  • [2] Qian et al. ChatDev: Communicative Agents for Software Development. ACL 2024. ACL
  • [3] Xia et al. Agentless: Demystifying LLM-Based Software Engineering Agents. FSE 2025. arXiv
  • [4] Tao et al. MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution. NeurIPS 2024. PDF
  • [5] Zhang et al. SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence. EMNLP 2025. ACL
  • [6] Feng et al. Model Swarms: Collaborative Search to Adapt LLM Experts via Swarm Intelligence. ICML 2025. arXiv
  • [7] Tan et al. Multi-scale Swarm of Large Language Models for Python Code Generation. ICSI 2025. Springer
  • [8] Chen et al. CodeR: Issue Resolving with Multi-Agent and Task Graphs. arXiv 2024. arXiv
  • [9] Islam et al. MapCoder: Multi-Agent Code Generation for Competitive Problem Solving. ACL 2024. ACL
  • [10] Huang et al. AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and Optimisation. arXiv 2024. arXiv
  • [11] Yang et al. SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering. NeurIPS 2024. arXiv
  • [12] MultiAgentBench: Evaluating the Collaboration and Competition of LLM Agents. arXiv 2025. arXiv
  • [13] Mohammadi et al. Evaluation and Benchmarking of LLM Agents: A Survey. KDD 2025. arXiv
  • [14] He et al. LLM-Based Multi-Agent Systems for Software Engineering: Literature Review, Vision, and the Road Ahead. ACM TOSEM 2025. arXiv
  • [15] Multi-Agent Collaboration via Evolving Orchestration. arXiv 2025. arXiv
  • [16] AgentOrchestra: A Hierarchical Multi-Agent Framework for General-Purpose Task Solving. arXiv 2025. arXiv
  • [17] Jimenez-Romero et al. Multi-Agent Systems Powered by Large Language Models: Applications in Swarm Intelligence. Frontiers in AI 2025. Frontiers
  • [18] Deng et al. SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? arXiv 2025. arXiv
  • [19] Garg et al. Saving SWE-Bench: A Benchmark Mutation Approach for Realistic Agent Evaluation. arXiv 2025. arXiv
  • [20] Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System. ICLR 2025. OpenReview
  • [21] Wang et al. OpenHands: An Open Platform for AI Software Developers as Generalist Agents. ICLR 2025. arXiv
  • [22] Code in Harmony: Evaluating Multi-Agent Frameworks. 2025. OpenReview
  • [23] MOSAIC: Multi-agent Orchestration for Task-Intelligent Scientific Coding. arXiv 2025. arXiv
  • [24] A Survey on Code Generation with LLM-based Agents. arXiv 2025. arXiv
  • [25] Liu et al. Large Language Model-Based Agents for Software Engineering: A Survey. arXiv 2025. arXiv