视觉大模型在一些具体任务上比较糟糕,对于格式化的文本比较友好。这里我以仪表识别区域的定位作为例子,展示大模型的效果。
源代码
https://github.com/Svtter/vl-model/pull/4
测试的任务
- 将图片中的文本 boxes 提取出来。
- 将图片中的仪表读数区域提取出来。
测试的文件
我们可以从这个测试结果中看出不同模型的表现差异:
测试结果对比
bounding boxes 作为提示词的结果
各模型详细表现
Anthropic Claude 3.5 Sonnet
Google Gemini 2.5 Pro
OpenAI GPT-4o
分析总结
从这些测试结果可以看出:
- 视觉识别能力差异:不同模型在处理相同视觉任务时表现出明显的性能差异
- 格式化文本处理:相比视觉任务,模型在处理结构化文本时表现更加稳定
- 模型特性:每个模型都有其独特的优势和局限性
这些结果提醒我们在选择 AI 模型时需要根据具体任务类型来评估其适用性。