Meter Reader++：基于视觉语言大模型的指针表计识读框架及应用

王昌鹏; 闫云凤; 齐冬莲; 沈潇军; 储海东

doi:10.13336/j.1003-6520.hve.20250426

您当前的位置：

首页 >

文章列表页 >

Meter Reader++：基于视觉语言大模型的指针表计识读框架及应用

更新时间：2026-02-25

- Meter Reader++：基于视觉语言大模型的指针表计识读框架及应用
- Vol. 51, Issue 4, Pages: 1773-1784(2025)
- 作者机构：
  
  1. 浙江大学电气工程学院
  2. 浙江大学海南研究院
  3. 国网浙江省电力有限公司信息通信分公司
  4. 国家电网有限公司
- 作者简介：
- 基金信息：
- DOI：10.13336/j.1003-6520.hve.20250426
  CLC： TH70;TP18;TP391.41
- Published：2025
- 稿件说明：
移动端阅览
王昌鹏, 闫云凤, 齐冬莲, et al. Meter Reader++：基于视觉语言大模型的指针表计识读框架及应用[J]. 2025, 51(4): 1773-1784.
DOI：

王昌鹏, 闫云凤, 齐冬莲, et al. Meter Reader++：基于视觉语言大模型的指针表计识读框架及应用[J]. 2025, 51(4): 1773-1784. DOI： 10.13336/j.1003-6520.hve.20250426.

摘要

指针式表计识读是工业数智化的关键任务，当前主要依赖目标检测、关键点定位等传统识别算法，存在低泛化性、强数据依赖等瓶颈。该文通过视觉语言大模型模拟人类认知识读过程，提出一种通用的指针表计识读框架：1）为突破数据依赖瓶颈，构建工业场景下的识读多模态数据合成管道，可自动生成20 000条以上问答对；2）为克服大模型“幻觉”瓶颈，使用DeepSeek-R1模拟人类认知识读，解耦表计语义理解和识读推理过程，平均参考误差比基础模型Qwen2.5-VL降低10%;3）为提升泛化性，设计基于广义策略优化的容差自适应强化学习优化方法，将绝对精度约束转化为可学习容忍区间以增强分布外数据(out-of-distribution data

OOD)泛化，在OOD测试中，该文方法识读误差降到2%。实验表明，该文所提框架在模拟工业表计测试集的平均参考误差为1.2%，在公开真实表计测试集达到3.16%，超越QWen2.5-VL-72B和GPT4o等先进大模型。该文研究为视觉语言大模型在精细化视觉理解和推理计算任务的落地应用，提供了思路参考。

Abstract

关键词

Keywords

references

Views

下载量

CSCD

Alert me when the article has been cited

提交

Tools

Publicity Resources

电力系统频率安全评估与紧急控制研究综述

基于人工神经网络的电网运行维护优化决策策略

输电线路无人机巡检图像缺陷智能识别方法分析

基于改进DBNet的电力设备铭牌文本检测方法研究

Analysis of Track Parameter Sensitivity to CWR Stability

Related Author

史法顺

张振远

李栌苏

吴俊勇

李佳旭

梁玉真

朱冶诚

张子淼

Related Institution

北京交通大学电气工程学院

石家庄学院机电学院

清华大学电机工程与应用电子技术系

天津职业技术师范大学机械工程学院

国网江苏省电力有限公司

AI问答

⁰