端到端利用多模特征的文档图像勾选信息抽取方法及系统与流程

文档序号:34441179发布日期:2023-06-13 02:18阅读:52来源:国知局
本发明涉及计算机视觉领域,尤其是一种端到端利用多模特征的文档图像勾选信息抽取方法及系统。
背景技术
::1、现实中,大量文档图像中存在各式各样的勾选标记。作为文档图像中结构化信息的有效表示方式,勾选标记扮演着非常重要的信息承载作用。这些勾选符号通常以对勾选框打钩、涂抹、打叉等方式出现,标记出对应的勾选信息。2、勾选框3、常见的勾选框样式有实线框、虚线框、括号等,其中最常见的是实线框(如下表编号1)。现实中的文档图像上,勾选框会存在尺寸大小、线段粗细、长宽比的变化,也存在由于取图方式导致的旋转、透视变换以及背景模糊、干扰等情况。4、如下是一些常见的勾选框样式示例。5、6、表1勾选框样式7、勾选符号8、勾选符号是对于勾选状态的一个标记,常见的有打钩、打叉、涂抹、划线等方式。同时又分为打印和手写两种情况,如下表2。9、10、表2勾选符号11、勾选信息12、勾选信息指勾选符号所表示的结构化信息,常见的有显式键值对和隐式键值对的形式。13、键值对是常用的表示结构化信息的方法,由键和值字段组成。勾选键值对是指键值对的值是通过勾选符号进行标记的键值对。14、·显式勾选键值对15、显式键值对指键值对包含明确的键和值,如图1所示。说明如下表3。16、17、表3勾选键值对18、·隐式勾选键值对19、隐式键值对指文档图像上并没有键字段,勾选标记本身代表一个特定信息的值,这时候通常隐含一个特定的键名称,如图2所示。键和值的说明如下表4。20、 编号 键(隐含) 值 1 结算方式 汇款 1 到账方式 实时 2 汇款方式 电汇 21、表4无键的勾选键值对22、对于显式和隐式的勾选键值对,最终要识别和提取的关键信息都是相同的,即键值对中的值。23、另外,由于套打、手写等原因,大量文档上存在勾选符号偏移的现象,如图3所示由于套打和手写导致的偏移,这给勾选信息的提取带来了很大的困难,尤其是使用传统的基于规则或模板的方法,很难通过特定的方式,判断出正确的勾选信息。24、随着深度学习技术的快速发展,ocr和结构化提取技术取得了突破性进展。利用通用ocr模型,首先可以对文档图像上所有的文字进行识别。然后,利用识别结果中的文字、位置、图像和语义特征,通过结构化提取模型可以从文本中抽取各种实体,如名称,地址和金额。由于深度学习方法天然具备强大的自动特征学习能力,以及基于样本标注和训练方法本身的通用性,使得以模型化思路实现结构化内容提取,相比常用的规则和模板的方法具有很大的优势。25、因此,亟待提供一种基于深度学习方法的文档图像勾选信息抽取方法。技术实现思路1、为了实现以上目的,本发明提供一种端到端利用多模特征的文档图像勾选信息抽取方法及系统。对于输入的带有勾选信息的文档图像,能够直接输出勾选值信息,具有端到端、高效且提取精度高的特点。2、根据本发明的第一方面,提供一种端到端利用多模特征的文档图像勾选信息抽取方法,其特征在于,所述方法包括以下步骤:3、步骤1:文本行特征提取步骤,检测并输出勾选文档图像的文本行内容和文本行位置,经编码后得到文本行embedding向量;4、步骤2:勾选符号特征提取步骤,确定勾选图像emebdding向量、勾选位置emebdding向量以及勾选类别emebdding向量,相加后得到勾选符号embedding向量;5、步骤3:勾选信息提取步骤,以文本行和勾选符号作为节点,融合文本行embedding向量和勾选符号embedding向量获得文本行增强特征向量,经分类获得勾选信息。6、进一步地,所述步骤1具体包括:7、步骤11:输入勾选文档图像并进行ocr模型检测,输出文本行内容和文本行位置;8、步骤12:分别对文本行内容和文本行位置进行特征编码,得到文本行内容特征向量和文本行位置特征向量;9、步骤13:使文本行内容特征向量和文本行位置特征向量相加得到文本行embedding向量。10、进一步地,所述步骤2具体包括:11、步骤21:利用深度学习勾选符号检测模型,对勾选文档图像上的勾选符号进行检测,输出勾选符号类别和勾选符号位置框,以及勾选文档图像特征图;12、步骤22:结合勾选符号位置框以及勾选文档图像特征图进行池化操作,得到勾选图像emebdding向量;13、步骤23:建立版式和类别embedding table,并以勾选符号类别和勾选符号位置框为输入,查找对应的table,得到勾选位置emebdding向量以及勾选类别emebdding向量;14、步骤24:将勾选图像emebdding向量、勾选位置emebdding向量以及勾选类别emebdding向量相加得到勾选符号embedding向量。15、进一步地,所述步骤21中,所述深度学习对象检测模型基于卷积神经网络(convolutional neural networks,cnn)实现,通过预设的锚点框,预测出图像特征图上每一个点可能出现勾选符号的概率以及与锚点框的偏移量,从而确定勾选符号类别和勾选符号位置框。16、进一步地,所述步骤21中,所述勾选符号类别包括多个类别,每一类别具有特定的类别值。17、这里,多个类别例如包括:类别1:勾选框;类别2:打钩;类别3:打叉;类别4:黑块;类别5:划线,等。18、进一步地,所述步骤21中,所述勾选符号位置通过[x,y,w,h]四个值来表示,x,y表示勾选符号位置框的中心点,w和h表示其宽和高。19、进一步地,所述步骤21中,所述勾选文档图像特征图是深度学习勾选符号检测模型中的cnn网络针对整体勾选文档图像特征提取的特征图。20、进一步地,所述步骤21中,所述勾选文档图像特征图是一个三维张量(tensor),大小为[h,w,c],h、w为特征图高和宽,c为通道大小。21、进一步地,所述步骤22具体包括:22、步骤221:将勾选符号位置框归一化到勾选文档图像特征图大小范围;23、步骤222:通过归一化后的勾选符号位置框从勾选文档图像特征图上切分出对应部分;24、步骤223:通过平均池化操作,得到每一个勾选符号的勾选图像emebdding。25、进一步地,所述步骤23中,所述版式和类别embedding table本质上由一组权重值组成,这些权重在训练学习过程中不断地迭代更新,从而收敛并逼近其最优值。26、进一步的,所述步骤3具体包括:27、步骤31:以文本行和勾选符号作为节点,文本行之间的链接关系代表图的边,构建无向图;28、步骤32:进行图卷积操作,获得文本行增强特征向量;29、步骤33:采用多层感知机对所述文本行增强特征向量进行分类,获得相应的勾选信息。30、进一步地,所述步骤32具体包括:31、步骤321:根据文本行embedding向量和勾选符号embedding向量之间的欧式距离计算每一个节点与其他节点之间边的权重,获取一个软的图邻接矩阵;32、步骤322:根据所述软的图邻接矩阵,对相邻节点的embedding向量进行加权聚合,得到聚合后的邻居节点特征;33、步骤323:针对某一节点的特征与聚合的邻居节点特征进行拼接;34、步骤324:采用多层感知机对拼接后的特征进行变换,得到文本行增强特征向量。35、根据本发明的第二方面,提供一种端到端利用多模特征的文档图像勾选信息抽取装置,所述装置基于前述任一方面提供的方法进行操作,所述装置包括:36、文本行特征提取模块,用于检测并输出勾选文档图像的文本行内容和文本行位置,经编码后得到文本行embedding向量;37、勾选符号特征提取模块,用于确定勾选图像emebdding向量、勾选位置emebdding向量以及勾选类别emebdding向量,相加后得到勾选符号embedding向量;38、勾选信息提取模块,用于以文本行和勾选符号作为节点,融合文本行embedding向量和勾选符号embedding向量获得文本行增强特征向量,经分类获得勾选信息。39、根据本发明的第三方面,提供一种端到端利用多模特征的文档图像勾选信息抽取系统,所述系统包括:处理器和用于存储可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令,以执行如以上任一方面所述的端到端利用多模特征的文档图像勾选信息抽取方法。40、根据本发明的第四方面,提供一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如以上任一方面所述的端到端利用多模特征的文档图像勾选信息抽取方法。41、本发明的有益效果:42、1.结合勾选标记视觉和文本语义多模特征,提取精度高;43、2.采用深度学习方法,具备通用性,可以通过样本标注和训练的方式解决各式各样文档图像上勾选信息的抽取问题;44、3.端到端解决方案,整体优化,可以直接识别出勾选结构化信息,避免了多个中间环节方法潜在的错误传播问题。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1