一种基于几何先验和知识图谱的自然场景文本识别方法

文档序号:30925727发布日期:2022-07-29 23:42阅读:192来源:国知局
一种基于几何先验和知识图谱的自然场景文本识别方法

1.本发明属于人工智能技术领域,涉及对电气设备等面向领域的文本图像的特征抽取和文字识别,用于对自然场景进行智能文本识别,为一种基于几何先验和知识图谱的自然场景文本识别方法。


背景技术:

2.随着技术发展和经济发展需求,各类工业场景下的工作也开始进行智能化、数字化的升级和优化。一个典型的例子是一线变电站运维人员需要从事大量的设备定期巡检工作,耗时耗力,极大降低了工作效率。而且由于辖区变电站数量多,运维人员往往难以第一时间发现缺陷。智能文本识别技术通过识别二次回路接线的文本,与cad图纸进行智能对比,可以快速定位变电站现场与竣工图纸不一致的潜在风险,从而大大提升变电站运维效率。
3.光学字符识别(optical character recognition)简称ocr,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。在一些像电子文档这样的简单环境下ocr的准确度已经达到了较高的水平,但是在复杂自然场景下的文本识别效果仍然很不理想。倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽、多语言混合文本等应用落地面临的技术难题还没被彻底解决。
4.根据识别场景的普适与否,ocr可以分类为特定场景的专用ocr和多种场景的通用ocr。对于智能化变电站运维等场景来说,一是缺乏专门针对特定场景的专用ocr技术,二是由于该类场景文字表示形式的多样性和复杂性,通用ocr在用于变电站端子排等场景时因为受到严重形变的影响难以达到较高的性能,三是由于该类场景的文本语义专业性极强,通用的词汇表等语义信息难以在特定场景中发挥作用。因此,研究适用于特定场景的一种基于几何先验和知识图谱的自然场景文本识别方法具有重要意义。
5.目前,自然场景光学字符识别技术主要关注于开放场景下的显著文本区域,这些文本通常存在遮挡模糊、光线不足等问题,变电站等领域场景下的线缆标识除了具有这些共性问题,还存在着由于印刷在柱状表面上而导致的柱状形变问题。除此之外,面向领域的线缆标识明显存在丰富的语义知识,因此面向领域的线缆标识智能识别技术一方面需要引入基于立体几何知识的图像矫正模块,最小化图像形变对文字识别的影响,另一方面需要引入基于特定领域知识图谱的语义推理模块,提升文字识别的准确率。


技术实现要素:

6.本发明要解决的问题是:解决传统文本识别技术在变电站端子排巡检等实际应用场景中可能产生的识别准确率不高的问题,目的是对面向领域的领域场景文本进行全面和准确的识别。
7.本发明的技术方案为:一种基于几何先验和知识图谱的自然场景文本识别方法,
采集领域场景文本图像,所述领域指识别所要应用的场景领域,文本具有柱面弯曲,使用文本检测算法处理图像得到所有文本行的区域,裁出得到文本行图像,接着将文本行图像输入基于几何先验的形变矫正模型进行特征提取和柱状形变矫正,得到矫正图;将矫正图送入识别网络中,通过基于注意力机制的视觉识别模块感知每个字符需要关注的关键空间区域,并得到字符级别的对齐视觉纹理特征,再通过基于知识图谱的的全局语义推理模块来引入场景领域知识,感知上下文信息,并编码抽象的高层语义特征;最后综合视觉和语义模块的输出得到文本识别结果。
8.本发明适用于特定领域场景,尤其是对具有柱面弯曲的文本的识别,可迁移应用于自控仪表、装备制造、数控机床、汽车制造、轨道交通等不同面向领域的自然场景文本识别,解决了传统文本识别技术在自然场景中因柱面文本形变和缺乏相关词典而识别准确率不高的问题,实现了对领域文本更精准的识别。
9.本发明的有益效果是:通过引入基于立体几何知识的柱状形变矫正模块,实现对于变电站等领域场景文本的柱状形变矫正,现有的矫正预处理方案通常是通过检测文字区域的文字边缘锚点来进行空间变换,这种处理方法难以解决线缆等柱面文字存在的形变问题,而柱状形变矫正模块能够捕捉到比文字边缘更隐蔽、更深层的视觉空间信息;通过引入对应领域的知识图谱的全局语义推理模块,能够利用已知的领域场景文本设计规则等先验知识来向原本仅有视觉感知特征的推理过程融入上下文语义信息,有助于更加全面和精准的识别。
附图说明
10.图1为本发明的实施流程图。
11.图2为本发明的基于几何先验的形变矫正器的结构图。
12.图3为本发明的基于知识图谱的语义推理器的结构图。
具体实施方式
13.本发明提出了一种基于几何先验和知识图谱的自然场景文本识别方法,如图1所示,采集领域场景文本图像,所述领域指识别所要应用的场景领域,文本具有柱面弯曲,使用文本检测算法处理图像得到所有文本行的区域,裁出得到文本行图像,接着将文本行图像输入基于几何先验的形变矫正模型进行特征提取和柱状形变矫正,得到矫正图;将矫正图送入识别网络中,通过基于注意力机制的视觉识别模块感知每个字符需要关注的关键空间区域,并得到字符级别的对齐视觉纹理特征,再通过基于知识图谱的的全局语义推理模块来引入场景领域知识,感知上下文信息,并编码抽象的高层语义特征;最后综合视觉和语义模块的输出得到文本识别结果,例如变电站等场景常见的端子排文本识别。
14.下面结合本发明实施例及附图,对本发明实例中的技术方案进行清楚、完整地描述,所描述的实例仅仅是本发明的一部分实例,而不是全部的实例。基于本发明的实例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实例,都属于本发明的保护范围。本发明的具体实施包括以下步骤。
15.1.使用db文本检测算法处理图像,将输入图片经过特征金字塔主干网络,接着将金字塔特征上采样到同一尺寸,然后用特征图同时预测概率图和阈值图,由特征图和阈值
图计算后得到近似二值图,对概率图、阈值图和近似二值图进行监督,输出文本行区域的检测框坐标信息,根据检测框裁出文本行图像。
16.2.根据文本行区域检测框结果将文本行区域裁出,并通过基于cnn的方法识别文本行方向、将文本框旋转到正确方向。
17.3.使用基于几何先验、cnn和双线性插值的形变矫正模型进行文本图像的特征提取和柱状形变矫正,如图2所示,包括:
18.1)通过resnet对输入图片进行特征提取,将观察到的柱面文字所发生的形变用柱面正投影法来表示,具体是指将圆柱切平面上某个的区域映射到柱状表面的方法,再将提取出的特征传入全连接神经网络回归得柱面投影的三个参数cx,cy和半径r,其中,(cx,cy)是切平面文本区域左上角顶点相对于观察点原点的坐标值,用来表征观察方向和透视情况,r是指圆柱的半径,用来表征弯曲的程度;
19.2)根据步骤1)中得到的形变参数进一步计算图片中每一个像素(x,y)的重映射坐标值(x’,y’),具体计算公式为:
[0020][0021]
3)根据步骤2)中得到的重映射公式,将柱面投影定义成一种可微的操作,使网络得以进行反向传播,将网络输入图像称为s,将经过基于几何先验的形变矫正器目标图像称为t,柱面投影变换定义为ρ
(cx,cy,r)
,输入图像s上的原坐标是(xs,ys),目标图像t上的目标坐标是(x
t
,y
t
),形变矫正过程定义为:
[0022][0023]
4)通过双线性插值法将输入图片按照重映射坐标来进行像素值采集,通过重映射来完成柱面形变图像的矫正。
[0024]
4.通过注意力机制定位每个字符的位置并利用得到的底层视觉特征分类出每个字符的初步识别结果,具体为使用fpn汇总resnet50的第3阶段、第4阶段和第5阶段的层次结构特征图作为主干网络,得到图像的2d视觉特征通过多头注意力机制,给定键值对(k,v)和查询q,键和值均取值于视觉特征u
ij
,计算查询q和所有键k之间的相似性来得到注意力值α,以此为权重计算v的加权和,以此生成多个与文本中每一个字符对齐的2d视觉特征g,计算公式为:
[0025][0026]
其中,e
t,ij
是第t个字符与视觉特征u
ij
的相关性,o
t
为第t个字符的在文本中的顺序,fo是embedding函数,we、wo、wv是可训练权重矩阵,α
t,ij
是第t个字符相对于视觉特征u
ij
的注意力值,g
t
是与第t个字符对齐的视觉特征值。
[0027]
5.通过基于特定场景知识图谱的全局语义推理模块来编码抽象的高层特征,如图3所示,包括:
[0028]
1)构建对应领域的知识图谱本体,本实施例以变电站端子排的识别为例,知识图谱参考国家电网发布的《线路保护及辅助装置标准化设计规范》,构建以回路设计中的间隔号、电缆号、端子号三个要素为核心本体的知识图谱本体,再将知识图谱本体转化为无向图k的形式,便于知识图谱与神经网络进行结合,k的具体定义为:
[0029][0030][0031]
其中,表示知识图谱中的结点数,na代表第la个位置的字符类别为ca,每条边用来编码两个结点之间的一种知识;
[0032]
2)将输入的特征图通过全连接层和softmax层得到初步的类别分布概率p,并使用交叉熵损失计算的l
p
来使其更专注于目标字符:
[0033][0034]
其中,n表示文本的长度,y
t
表示第t个字符的真值,p
t
表示第t个字符的分布概率,p()表示条件概率函数;
[0035]
3)将包含领域知识的无向图k与类别分布概率图p进行矩阵相乘得到高层上下文特征,与原结果进行拼接后得到含有视觉信息和依赖于先验知识的语义信息的增强特征q,输入神经网络拟合模型,并使用使用交叉熵损失计算的lq进行监督:
[0036][0037]
其中,q
t
表示第t个字符的增强特征;
[0038]
4)将步骤3)得到的结果进行embedding后送入transformer encoder重新编码,进行不依赖于先验知识的语义信息学习,通过堆叠的多层transformer单元隐示建模一阶关系和高阶语义关系,最后输出时间步级别的上下文特征m,同时加入推理损失lm。目标函数可以定义为:
[0039][0040]
其中,m
t
表示第t个字符的上下文特征。
[0041]
6.使用视觉语义融合解码器将前面步骤得到的基于视觉和语义的特征值g
t
、q
t
、m
t
进行相加融合,通过引入一些可训练的权重来平衡不同领域的特征的贡献,并将序列解码为对字符的最终预测,融合方式和解码器的损失值具体定义为:
[0042]
[0043][0044]
其中,z
t
是平衡不同领域特征的权值,wz是可训练的权重,σ为激活函数,f
t
是第t个融合特征向量,g
t
、q
t
、m
t
是步骤4中介绍的与f
t
对应的视觉特征g
t
、以及步骤5基于先验知识的语义特征和不依赖于先验知识的语义特征,即增强特征q
t
和上下文特征m
t
,整体网络模型的最终目标函数为:
[0045]
loss=α
p
l
p
+αqlq+αmlm+αflf[0046]
其中,α
p
=1,αq=2,αm=0.15,αf=1,分别表示视觉识别损失、基于知识图谱的推理损失、隐式语义推理损失和最终解码器损失所占的比重。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1