LLMs

LLMs

My private LLM Leaderboard

语速

2026-06-24

Coding Agent: Claude Code / Kimi Code / OpenCode / MiMo Code
Main Dev: GLM-5.2 / Kimi-K2.7 / MiniMax-M3
Code Review: DeepSeek-V4-Flash
Talk: Kimi-K2.6

2025-12-16

Code Agent: Sonnet 4.5
Talk: Opus 4.5

2025-10-24

Code Agent: Kilo Code - GLM 4.6
Code Agent: Claude Code - Sonnet 4.5 or Deepseek Reasoner (v3.2)
Complex reasoning: Claude Sonnet 4.5
Daily conversation: GPT-5

2025-10-09

Current workflow:

Code Agent: Kilo Code - GLM 4.6
Code Agent: Claude Code - GLM 4.6
Complex reasoning: deepseek/deepseek-v3.2
Hard problem solving: Claude Sonnet 4.5
Daily conversation: GPT-5

2025-09-22

Current workflow:

PLAN mode: Claude Code - Claude Sonnet 4
ACT mode: deepseek/deepseek-v3.1 (for complex reasoning)
Daily conversation: GPT-5

2025-08-08

Workflow:

PLAN mode: deepseek/deepseek-reason (on https://platform.deepseek.com)
ACT mode: qwen/qwen3-235b-a22b-07-25 (for quick code editing)

2025-07-27

Aliyun’s official qwen is too expensive, 50 yuan is gone. And based on leaderboard tests, performance is worse than r1-0528.

Fast programming model: deepseek/deepseek-v3
Planning model: deepseek/deepseek-r1-0528
Daily conversation: chatgpt-4o

2025-07-26

Fast programming model: qwen/qwen3-235b-a22b-07-25
Planning model: deepseek/deepseek-r1-0528
Daily conversation: chatgpt-4o

Previous

Fast programming model: cursor-auto
Planning model: deepseek/deepseek-r1-0528
Daily conversation: chatgpt-4o