今天,我又测试了一下 doubao-seed-code,一个登顶的 coding llm model。

我们可以看到强度甚至超过了 swe-agent + claude 4.5 sonnet。

评测目的
- 看能否替换 claude max;claude max 价格是 $100;人民币大概 700 块左右
配置问题
但是我在配置过程中遇到了不少问题。一个比较大的问题是没有完全按照官网配置,按照其他博主的博客做的配置。导致实际上没有使用 coding plan,花了1块钱。


具体的问题是,在使用 api 的时候,如果订阅了 coding plan,不能用兼容的 api,应该用 coding api。
| |
也就是下方的 /coding endpoint。
另外,这种配置方法,是我的一种配置思路,在 动态切换 Provider 的 Claude Code 提到了。
实际使用感受
从 swe-benchmark 出发的基本性能上看,我认为能力应该不会太弱,大致上至少追到 minimax-m2 的水平。
问题1:速度比较慢。
我配置 /statusline 大概花费了接近半个小时的时间。就是 claude "/statusline"操作。最终修改.claude配置的时候,没有按照我指定的配置去修改。
| |
也就是说这个配置意义不是很大。实际使用下来可能会出现挺多新问题。
解决思路
私以为蒸馏一下模型应该不是难事。可能是蒸馏之后担心模型能力下降?大概 300B 的某模型就是例子。
问题2:规划性问题
我的 prompt:增加 todo,文章发布功能,@readme.md.
修改的项目是:
豆包的做法:

直接去改了文件,然后请求我的允许。
claude sonnet 的做法:

孰优孰劣,各位自有评判。
最终这个功能我使用 glm 4.6 来实现了。但是实现的效果不太好。对应这个提交。这也是我结合spec-kit做的一次尝试。具体的内容可以看弱模型如何增强这篇文章。
使用 Trae CN
结合 Trae CN 之后,doubao-seed-code 性能有了明显的提升。能看得出更加聪明。

这个修改对应的是 hugo-admin 项目中的 commit。
也就是说,如果你想让自己的订阅最划算,一定要结合 trae 来使用 doubao-seed-code(dsc);否则缺少配套的上下文,性能是发挥不出来的。
为什么 trae+dsc 和 cc+dsc 不一样?
应该有几个主要原因。
- 算法工程师优化时的选择。
如果 doubao 的工程师在优化 dsc(doubao-seed-code)模型的时候,大量的采用 trae 而不是通用的 coding agent(cc 也不能说是通用),那么在 trae+dsc 的表现,优于 cc+dsc。
- 上下文工程的区别
trae 是借助 RAG 技术,也就是 embedding 模型来做的上下文控制。相比之下,cc 则是 read file 以及借助 claude.md 进行的上下文控制。当然,我们不知道具体的技术实现,但是技术方向上我们是可以判断的。在 context 不同的前提下,模型的最终表现可能有较大的差距。
结论
- 总体来说不如 cc + claude 4.5 sonnet。但是,使用 claude code 直接测试 doubao 的强度,对 doubao 是不公平的。terminal bench 实际上就是不如 sonnet。如果想要看看到底多强,还是应该安装 trae 来测试。
- 比 glm 4.6 强大,和 minimax m2 持平。比 deepseek v3.2 也要强大。
- 不建议买 coding plan,直接用 TRAE IDE 更好。
参考阅读
相关 Coding Plan 文章
如果你对其他 AI coding plan 的体验感兴趣,可以阅读:
- 我又买了 Kimi Coding Plan - Kimi 包月计划的使用体验
- 智谱 glm-4.5 在编程方面的若干问题 - GLM 4.5 coding plan 的实际问题总结
