Using Vision Language Model to Perform Meter Reading

Using Vision Language Model to Perform Meter Reading

通过视觉语言模型来做仪表识别

除了图片较为复杂的情况，大模型已经能够比较好的识别图像中的文本了。但是对于一些相对极端的情况，做的还不是很好:

例如表盘上有水滴，导致图像产生了部分畸变。
表盘中的分割线太粗，导致模型认为粗线是数字”1”。

这是一个简单的示例，如何通过大模型来进行仪表识别。

在这个开源项目里，我调用了兼容 openai 接口的 qwen 模型，来获取仪表识别的结果。

尽管模型的性能可能不如想象的好，但是用于主动学习来标注模型绰绰有余。

comments powered by Disqus