第三方客户端与大模型 API 结合 -- 性能小测

最近一年里，我尝试使用 deepchat 和大模型 API（例如 k2 thinking turbo) 来构成一个相对私有化的聊天工具（或者说 agent 助手），来处理一些私有化的数据。但是，总的来说体验不是很好。大模型答不对。

搜索方面，我使用了 bocha api，重置了 10 块，来为大模型提供搜索能力。

测试的问题

我感觉上下文能力（单一聊天框内）还是有点问题。我简单测试了这个问题：硅基流动上，最贵的模型是哪一个？。

答案是：

首先是 deepchat:

emm，不对。

然后是 kimi official:

也不对。

先试试客户端。

不对。

再试试 deepseek official。

很接近，答案也靠谱了。但是可惜，也不对。

嘶，有点离谱。让我们试试 gpt-5。

prompt:

1
2
3
硅基流动上，最贵的模型是哪一个？
我指的是 siliconflow.cn
帮我看看