1.本发明涉及计算机视觉中的实例分割技术领域,具体涉及一种基于maskrcnn骨架的自注意力试卷版面分析方法。
背景技术:2.近年来,电子化试卷因其存储与重构的便利性被广泛应用于教学场景。如何高效地获得电子试卷中每道题目的范围并提取有效信息,是教学相关应用开发的重要前提。电子化试卷多以图片格式存储,缺乏结构化特征,难以直接对其进行分析、统计,而版面分析技术可以对图片进行区域划分,将图片格式的试卷进一步分为插图区域、文字区域等等,使得试卷图片得以被结构化地存储、分析、统计。
3.该领域传统方法过度地依赖人工的参与,如人工裁切试卷题目的不同区域,或人工预先设定模板以针对不同版面设计让像素点聚类成特定区域的阈值等。这些方法极度依赖人工,时间成本和经济成本太高。随着机器学习和深度学习的发展,出现了手工设计版面特征以训练机器学习分类器、利用多种模态信息的神经网络模型等等一系列方法。但是这些方法中大多采用过于简单的神经网络模型,往往无法适应其他复杂的版面情况。少部分方法利用了大规模预训练模型并在下游任务上进行微调,但是预训练模型在预训练过程中需要较细粒度的文本标注信息,标注成本和处理数据的成本过高。
4.考虑到当前方法的局限性和不足,目前亟待提出一种标注成本低、人工参与少的试卷版面分析方法。
技术实现要素:5.本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于maskrcnn骨架的自注意力试卷版面分析方法,该方法先通过maskrcnn骨架得到roi候选区域和区域特征向量,然后利用注意力机制获得融合了版面位置信息的综合特征向量,最后将该综合特征向量输入分类器,得到最终的分类和边框回归结果。
6.本发明的目的可以通过采取如下技术方案达到:
7.一种基于maskrcnn骨架的自注意力试卷版面分析方法,所述试卷版面分析方法包括以下步骤:
8.s1、将尺寸为h
×w×
3的rgb试卷图片输入resnet-50,得到5张不同尺寸的特征图,分别记作:c1,c2,c3,c4,c5,5张特征图的尺寸依次为苴中,h表示试卷图片的高,w表示试卷图片的宽;
9.s2、使用fpn算法对四张特征图c2,c3,c4,c5进行融合,得到通道数相同、尺寸不同的特征图,其中,fpn算法过程为:首先自上而下对c5,c4,c3,c2进行最近邻上采样得到的特征图m5,m4,m3,m2,然后对c5,c4,c3,c2中的每一个特征图进行一个1
×
1卷积,接着和上采样得到的特征图m5,m4,m3,m2对应进行对应加和得到d5,d4,d3,d2,最后,对加和后的特征图d5,d4,d3,d2进行3
×
3的卷积最终得到融合特征图p5,p4,p3,p2;
10.s3、对上采样得到的特征图m5进行步长为2的最大池化得到融合特征图p6,该融合特征图p6用于获得后续的候选协议框;
11.s4、分别以融合特征图p6,p5,p4,p3,p2中每一个像素点为中心生成3种不同长度、长宽比分别为1∶1,1∶2,2∶1共9个先验区域,使用区域推荐网络rpn对上述先验区域进行二分类和边框回归,并将属于目标的置信度小于γ的、尺寸过小以至于不能完整包含目标的或尺寸过大以至于超出特征图范围的先验区域过滤掉,其中,γ为用于过滤低置信度先验区域的预定义置信度阈值,接着,采用非极大值抑制过滤重叠的先验区域获得最终的候选区域roi,其中,每一个矩形候选区域都有四个顶点,roi∈rn×4,r表示实数域,n是每张特征图的候选框个数;
12.s5、对候选区域roi进行roi align候选区域对齐,获得大小一致的若干特征图;
13.s6、使用多层神经网络对步骤s5得到的特征图进行边界识别和掩膜预测,其中,边界识别包括区域分类和边界回归;
14.s7、将步骤s4得到的候选区域roi输入位置编码层position_embeddings,获取每个候选区域的位置嵌入特征position_embeddings(roi),其中,position_embeddings(roi)∈rn×d;
15.s8、将区域特征向量p与位置嵌入特征position_embeddings(roi)相加得到融合向量g,g=p+position_embeddings(roi),对融合向量g进行层归一化操作,得到特征向量f,f=layer_norm(g),其中,g,f∈rn×d,layer_norm()表示层归一化操作函数;
16.s9、将步骤s8得到的特征向量f输入注意力层得到注意力特征a;
17.s10、将注意力特征a和原始的区域特征向量p相加并进行层归一化操作,得到最终的综合特征向量p
′
,其中p
′
∈rn×d;
18.s11、将综合特征向量p
′
分别输入两个独立的全连接层:第一全连接层fc1和第二全连接层fc2,分别用于分类和边框回归,得到最终的分类和回归结果。
19.进一步地,所述resnet-50是由49个卷积层和1个池化层顺序拼接的残差网络,是一种图片特征提取器,可以从原始图片中提取5种不同大小的特征图。特别地,resnet-50采用残差连接的方式,解决了随着网络深度的增加带来的梯度消失问题,使得网络的深度不再是限制最终性能的约束。
20.进一步地,所述步骤s2在使用fpn算法对四张特征图c2,c3,c4,c5进行融合过程中,对c5,c4,c3,c2中的每一个特征图进行一个1
×
1卷积,将输出通道全部设置为相同的256通道。fpn算法,即特征金字塔网络算法,是一种自顶向下的特征融合方法,能够进行多尺度的目标检测,获得多个特征图。fpn算法使得最终的预测可以在多个不同尺度的融合特征图上进行,实现检测精度的最大化。
21.进一步地,所述步骤s4中使用区域推荐网络rpn对上述先验区域进行目标或背景的二分类。rpn基于之前步骤得到的融合特征图,对应将原图划分为若干个区域,原图的每个区域的中心由这个特征图上的一个像素点坐标表示(假设特征图的尺寸大小为m
×
n则将原图划分为m
×
n个区域)。通过锚点机制,可以在每个像素点对应原图的区域生成9个可能存在目标的候选框。接着,rpn判断每个像素点对应的9个区域是不是包含目标,进行二分类,过滤掉上述所有不符合要求的先验区域。
22.进一步地,所述步骤s4中非极大值抑制具体过程如下:将所有先验区域属于目标
的置信度进行排序,选中最高置信度的先验区域及其所对应的边界,过滤掉其他与该先验区域iou(a,v)值大于δ的先验区域;该过程可以过滤掉重叠较多的区域,得到最终的候选区域,a,v表示两个不同的图,a∩v表示a,v两区域重叠面积,a∪v表示a,v两区域总面积,iou(a,v)即a,b两区域重叠面积比a,v两区域总面积,δ为用于对过滤过程进行限制的预定义阈值。
23.进一步地,所述步骤s6中使用多层神经网络对步骤s5得到的特征图进行边界识别和掩膜预测的过程由两个相互独立的神经网络mlp1和mlp2分别完成,其中,mlp1将步骤s5得到的特征图压缩为区域特征向量p,其中p∈rn×d,其中,d是预设的局部特征向量的维度,mlp2用于得到特征图的掩膜,即对特征图中的每个像素点属于目标或是背景进行分类。
24.进一步地,所述步骤s8中层归一化操作函数layer_norm()的操作过程如下:先求向量g的n行中每一行的均值e1,e2,...,en和方差σ1,σ2,...,σn,向量g是一个尺寸为n
×
d的向量,则f中第i行j列个元素f
ij
可由下式计算得到:其中,g
ij
表示向量g中第i行j列个元素,1≤i≤n,1≤j≤d,∈是用于防止数据分布的方差为0的预定义参数,γ是用于对数据分布的方差进行调节的预定义参数,β是用于对数据分布的均值进行调节的预定义参数。层归一化将输入特征转换为均值为1,方差为o的数据,抹平了不同样本之间的大小关系,而保留了不同特征之间的大小关系,保证了数据特征分布的稳定性,加速了训练过程的收敛速度。
25.进一步地,所述步骤s9过程如下:随机初始化三个尺寸d
×
d的权重矩阵q,k,v,分别将f与q,k,v相乘得到尺寸为n
×
d的矩阵q,k,v,基于q,k,v计算注意力权重矩阵a并用softmax函数进行归一化处理,其计算公式如下:自注意力机制有效捕获版面信息之间的关系,对于试卷这一特殊的图片类型有更加敏锐的感知,进一步提高了版面分析的性能。
26.进一步地,所述rgb试卷图片包括但不限于语文、数学、政治、历史、地理、物理、化学、生物等科目。
27.本发明相对于现有技术具有如下的优点及效果:
28.1、本发明使用了神经网络模型,不需要人工裁切试卷,不需要人工将插图、文本等等内容分开,极大程度上降低了任务的时间成本和经济成本。
29.2、本发明提出的模型基于预训练模型maskrcnn,因此并不需要海量数据集重新进行训练,在有限的数据集上进行微调即可有效发挥作用,对数据量的要求较低,且标注简单(只需要标注出各个区域的位置和类别即可),极大程度上降低了标注成本和数据处理成本。
30.3、本发明用实例分割任务替代了传统的目标检测任务,将综合特征向量p
′
输入两个独立的全连接层,不仅要将试题的文字区域、插图区域、表格区域等狂选出来,还要对其进行分类,把同一类别的不同区域当作不同的对象。比起传统的目标检测任务更加细粒度,对区域的定位更为精准。
31.4、本发明采用了自注意力机制,有效地捕获了版面信息之间的关系,使得模型对于试卷这一特殊的图片类型有更加敏锐的感知。
32.5、本发明提出的基于maskrcnn骨架的自注意力试卷版面分析方法基于计算机视觉进行设计,因此完全不受限于输入图片的类型(背景明暗、分辨率高低、版面格式、字体颜色等等),适用范围广,在语文、数学、政治、历史、地理、物理、化学、生物等多个科目上均表现良好。
附图说明
33.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
34.图1是本发明中公开的基于maskrcnn骨架的自注意力试卷版面分析方法流程图;
35.图2是本发明中公开的基于maskrcnn骨架的自注意力试卷版面分析方法的概要图,从图2中可以看出本试卷版面分析方法的原理;
36.图3是本发明公开的基于maskrcnn骨架的自注意力试卷版面分析方法在文科综合上的实验样例图;
37.图4是本发明公开的基于maskrcnn骨架的自注意力试卷版面分析方法在化学科目上的实验样例图。
具体实施方式
38.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
39.实施例1
40.图1是本发明公开的基于扰动改良的自注意力机制网络文本情感分析方法的流程图,如图1所示,该网络文本情感分析方法包括以下步骤:
41.s1、将尺寸为1600
×
800
×
3的rgb文科综合试卷图片输入resnet-50,得到5张不同尺寸的特征图,分别记作:c1,c2,c3,c4,c5,5张特征图的尺寸依次为800
×
400
×
256,400
×
200
×
256,200
×
100
×
512,100
×
50
×
1024,50
×
25
×
2048;
42.s2、使用fpn算法对四张特征图c2,c3,c4,c5进行融合,得到通道数相同、尺寸不同的特征图;其中,fpn算法过程为:首先自上而下对c5,c4,c3,c2进行最近邻上采样得到的特征图m5,m4,m3,m2,然后对c5,c4,c3,c2中的每一个特征图进行一个1
×
1卷积,接着和上采样得到的特征图m5,m4,m3,m2对应进行对应加和得到d5,d4,d3,d2,最后,对加和后的特征图d5,d4,d3,d2进行3
×
3的卷积最终得到融合特征图p5,p4,p3,p2;
43.s3、对上采样得到的特征图m5进行步长为2的最大池化得到融合特征图p6,该融合特征图p6用于获得后续的候选协议框;
44.s4、分别以融合特征图p6,p5,p4,p3,p2中每一个像素点为中心生成3种不同长度、长宽比分别为1∶1,1∶2,2∶1共9个先验区域,使用区域推荐网络rpn对上述先验区域进行二分类(目标或背景)和边框回归,并将属于目标的置信度小于0.7的、尺寸过小以至于不能完整
包含目标的或尺寸过大以至于超出特征图范围的先验区域过滤掉。接着,采用非极大值抑制过滤重叠的先验区域获得最终的候选区域roi,其中,每一个矩形候选区域都有四个顶点,因此roi∈rn×4,r表示实数域,n是每张特征图的候选框个数;
45.s5、对候选区域roi进行对齐,获得大小一致的若干特征图;
46.s6、使用多层神经网络对s5得到的特征图进行边界识别和掩膜预测,其中,边界识别包括区域分类和边界回归。特别地,该步骤由两个相互独立的神经网络mlp1和mlp2分别完成,其中mlp1将s5得到的特征图压缩为区域特征向量p,其中p∈rn×d,其中,d是预设的局部特征向量的维度。mlp2则用于得到特征图的掩膜,即对特征图中的每个像素点属于目标或是背景进行分类;
47.s7、将步骤s4得到的候选区域roi输入位置编码层position_embeddings,获取每个候选区域的位置嵌入特征position_embeddings(roi)。其中,position_embeddings(roi)∈rn×d。
48.s8、将区域特征向量p与位置嵌入特征position_embeddings(roi)相加得到融合向量g,g=p+position_embeddings(roi),对融合向量g进行层归一化操作,得到特征向量f,f=layer_norm(g),其中,g,f∈rn×d,layer_norm()表示层归一化操作函数;
49.s9、将步骤s8得到的特征向量f输入注意力层得到注意力特征a;
50.s10、将注意力特征a和原始的区域特征向量p相加并进行层归一化操作,得到最终的第x特征向量p
′
,其中p
′
∈rn×d;
51.s11、将综合特征向量p
′
分别输入两个独立的全连接层:第一全连接层fc1和第二全连接层fc2,分别用于分类和边框回归,得到最终的分类和回归结果。
52.实施例2
53.本实施例采用基于maskrcnn骨架的自注意力试卷版面分析方法mrsa,即基于maskrcnn的selfattention版面分析模型。该方法在多个科目(政治、地理、物理、化学、生物)的试卷图片数据集上采用不同的iou_threshold(iou阈值)的实验结果如表1、表2、表3所示。
54.表1.iou_threshold=0.80的实验结果表
[0055][0056]
表2.iou_threshold=0.85的实验结果表
[0057][0058]
表3.iou_threshold=0.9的实验结果表
[0059]
[0060][0061]
本实验使用iou作为评价指标,此指标可以反映预测框和真实框的重叠程度,代表了预测的精确程度,越接近1表示预测得越精确。
[0062]
本文分别使用了iou=0.80,0.85,0.90作为阈值,计算每个学科的每个类别下,所有图片中iou大于阈值的预测框的iou,并求平均值,作为衡量模型性能的标准。
[0063]
由表可知,与其他模型相比,本发明提出的基于maskrcnn骨架的自注意力试卷版面分析方法在各个学科的文本区域和插图区域下达到最优结果的次数是最多的,总共达到了17次。
[0064]
总体来看,本发明提出的基于maskrcnn骨架的自注意力试卷版面分析方法在生物、化学、物理、政治这四个科目上表现较好,在地理上虽性能良好但却并非最优。这一现象与不同科目试卷的排版和标注方式是有紧密联系的:在其他科目的试卷中,一道题(可能有若干小问)往往对应一张图片或者多张图片;但是在地理科目中,一张插图往往对应多个题目,而这些题目却被全部标注为一整个文本区域,即自注意力试卷版面分析方法被要求将这些题目视为一个实体看待,因此在这种标注模式下性能难以达到最优。
[0065]
对比本发明提出的基于maskrcnn骨架的自注意力试卷版面分析方法和mrsa w/o attn(即去除了自注意力的试卷版面分析方法,也就是原始的mask-rcnn)的指标,可知若去除本文设计的自注意力模块,仅使用mask-rcnn进行预测,性能上有显著下降。
[0066]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。