Featured image of post Poor Performance of Large Models on Specific Tasks

Poor Performance of Large Models on Specific Tasks

大模型在特定任务上的糟糕表现:从视觉识别到格式化文本处理的差异

视觉大模型在一些具体任务上比较糟糕,对于格式化的文本比较友好。这里我以仪表识别区域的定位作为例子,展示大模型的效果。

源代码

https://github.com/Svtter/vl-model/pull/4

测试的任务

  1. 将图片中的文本 boxes 提取出来。
  2. 将图片中的仪表读数区域提取出来。

测试的文件

Original Meter

我们可以从这个测试结果中看出不同模型的表现差异:

测试结果对比

bounding boxes 作为提示词的结果

整体测试结果

各模型详细表现

Anthropic Claude 3.5 Sonnet

Claude 3.5 Sonnet 测试结果

Google Gemini 2.5 Pro

Gemini 2.5 Pro 测试结果

OpenAI GPT-4o

GPT-4o 测试结果

分析总结

从这些测试结果可以看出:

  1. 视觉识别能力差异:不同模型在处理相同视觉任务时表现出明显的性能差异
  2. 格式化文本处理:相比视觉任务,模型在处理结构化文本时表现更加稳定
  3. 模型特性:每个模型都有其独特的优势和局限性

这些结果提醒我们在选择 AI 模型时需要根据具体任务类型来评估其适用性。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计