本发明涉及电子文档处理技术领域,具体的说,是一种基于深度学习的电子文档中标题印章指纹特征检测方法。
背景技术:
当今社会是信息社会,信息资源已经成为当今社会重要的战略资源之一。信息资源的利用和开发水平已经成为推动经济、文化、科技和社会发展的重要动力。在司法领域,很多卷宗都是由自由文本的形式处理,识别文档中的字符目标和图像中的关键的图像图形,比如标题,印章,指纹等,目前主要依靠人工来观察,其效率低,消耗大,不利于提高文案处理效率。
技术实现要素:
本发明的目的在于提供一种基于深度学习的电子文档中标题印章指纹特征检测方法,用于解决现有技术中依靠人工识别文档中的标题印章指纹特征效率低下的问题。
本发明通过下述技术方案解决上述问题:
一种基于深度学习的电子文档中标题印章指纹特征检测方法,包括:
步骤s100:对电子文档图片按照预设比例进行手工标注,这部分数据作为训练集,其余部分作为测试集;
步骤s200:搭建faster-rcnn模型,采用训练集训练faster-rcnn模型;
步骤s300:将测试集输入训练好的faster-rcnn模型预测目标类别和坐标,对测试集进行自动标注,形成标注数据集;
步骤s400:采用标注数据集对faster-rcnn模型进行迭代训练,直到faster-rcnn输出的目标类别和坐标准确为止;
步骤s500:导出最终的faster-rcnn模型的模型参数,输入电子文档图片,得到电子文档中标题印章指纹信息。
所述步骤s200具体包括:
步骤s210:迁移采用imagenet数据预训练的模型数据,对faster-rcnn模型参数进行初始化;
步骤s220:将训练集输入faster-rcnn模型,得到目标类别和坐标,将得到的目标类别和坐标分别与训练集的真实目标类别和真实坐标进行比较,采用bp算法,修改faster-rcnn模型参数;
步骤s230:返回步骤s220进行迭代训练,直到faster-rcnn模型输出的目标类别和坐标准确为止。
还包括统计小概率样本,抽取样本并制作小数据集,采用小数据集对步骤s400中的faster-rcnn模型进行迭代训练,直到faster-rcnn模型输出的目标类别和坐标准确为止。
所述faster-rcnn模型包括卷积层、区域候选网络、池化层和分类器,图像进入模型后,使用卷积层提取到图像的featuremaps,提取的featuremaps进入区域候选网络,区域候选网络提取proposals,池化层结合输入的featuremaps和proposals,提取proposalfeaturemaps,送入分类器进行判别目标类别和坐标,faster-rcnn模型最终输出目标类别和坐标。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明将基于深度学习的目标检测算法应用于案件电子卷宗文档处理中,可以检测并定位到文档中的字符目标和图像中的关键的图像图形,提取文档的关键特征,这些特征可以被展示给用户;将基于深度学习的目标检测用于传统的案件电子卷宗文档处理领域后,极大方便了文档处理。
(2)本发明采用多次修改模型参数和迭代训练的方法,以及综合了长尾分布,提高检测结果的准确度;采用半自动化标注,节约了人力。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例:
结合附图1所示,一种基于深度学习的电子文档中标题印章指纹特征检测方法,包括:
(1):收集数据,抽取一部分案件电子卷宗文档,观察文档结构,针对需要提取出来的特征,设计出需要的检测的特征目标的,例如,红色指纹与灰色指纹,圆形印章与方形印章,标题等,以下称为被检测目标集合,设计好被检测目标集合后,将案件转换为图片格式;
(2):搭建faster-rcnn模型,所述faster-rcnn模型包括卷积层、区域候选网络、池化层和分类器,图像进入模型后,使用卷积层提取到图像的featuremaps,提取的featuremaps进入区域候选网络,区域候选网络提取proposals,池化层结合输入的featuremaps和proposals,提取proposalfeaturemaps,送入分类器进行判别目标类别和坐标,faster-rcnn模型最终输出目标类别和坐标;迁移采用imagenet数据预训练的模型数据,对faster-rcnn模型参数进行初始化;
步骤a:将训练集输入faster-rcnn模型,得到目标类别和坐标,将得到的目标类别和坐标分别与训练集的真实目标类别和真实坐标进行比较,采用bp算法,修改faster-rcnn模型参数;
步骤b:返回步骤a进行迭代训练,直到faster-rcnn模型输出的目标类别和坐标准确为止采用训练集训练faster-rcnn模型;
(3)划分数据集:电子文档图片按照预设比例进行手工标注,手工标注的方法可以采用:使用左上点的x,y坐标和长,宽来定义一个矩形,矩形内的目标是被标注的目标;每一个矩形被标注为一个类别,如标题,指纹,印章;为提高的模型的精确度,标注数据集时,应该使用人工多次核对的方式尽量保证标注数据的准确性。如将其中的10%进行手工标注,这部分数据作为训练集,其余部分作为测试集;
(4):训练模型和半自动标注:
将测试集输入步骤b中训练好的faster-rcnn模型预测目标类别和坐标,对测试集进行自动标注,形成标注数据集;自动标注的数据可能有不准确的地方,需要人工复核,但是由于本方法10%用人工标注,90%采用自动标注,节约了大量人力。
(5)训练模型:采用标注数据集对faster-rcnn模型进行迭代训练,直到faster-rcnn输出的目标类别和坐标准确为止;
(6)处理长尾分布:
统计小概率样本,抽取样本并制作小数据集;采用小数据集对步骤s400中的faster-rcnn模型进行迭代训练,直到faster-rcnn模型输出的目标类别和坐标准确为止;
(7)导出模型:导出最终的faster-rcnn模型的模型参数,输入任意一张电子文档图片,检测得到电子文档中标题印章指纹信息(类别和坐标)。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在
本技术:
公开的原则范围和精神之内。
1.一种基于深度学习的电子文档中标题印章指纹特征检测方法,其特征在于,包括:
步骤s100:对电子文档图片按照预设比例进行手工标注,这部分数据作为训练集,其余部分作为测试集;
步骤s200:搭建faster-rcnn模型,采用训练集训练faster-rcnn模型;
步骤s300:将测试集输入训练好的faster-rcnn模型预测目标类别和坐标,对测试集进行自动标注,形成标注数据集;
步骤s400:采用标注数据集对faster-rcnn模型进行迭代训练,直到faster-rcnn输出的目标类别和坐标准确为止;
步骤s500:导出最终的faster-rcnn模型的模型参数,输入电子文档图片,得到电子文档中标题印章指纹信息。
2.根据权利要求1所述的基于深度学习的电子文档中标题印章指纹特征检测方法,其特征在于,所述步骤s200具体包括:
步骤s210:迁移采用imagenet数据预训练的模型数据,对faster-rcnn模型参数进行初始化;
步骤s220:将训练集输入faster-rcnn模型,得到目标类别和坐标,将得到的目标类别和坐标分别与训练集的真实目标类别和真实坐标进行比较,采用bp算法,修改faster-rcnn模型参数;
步骤s230:返回步骤s220进行迭代训练,直到faster-rcnn模型输出的目标类别和坐标准确为止。
3.根据权利要求1所述的基于深度学习的电子文档中标题印章指纹特征检测方法,其特征在于,还包括统计小概率样本,抽取样本并制作小数据集,采用小数据集对步骤s400中的faster-rcnn模型进行迭代训练,直到faster-rcnn模型输出的目标类别和坐标准确为止。
4.根据权利要求1所述的基于深度学习的电子文档中标题印章指纹特征检测方法,其特征在于,所述faster-rcnn模型包括卷积层、区域候选网络、池化层和分类器,图像进入模型后,使用卷积层提取到图像的featuremaps,提取的featuremaps进入区域候选网络,区域候选网络提取proposals,池化层结合输入的featuremaps和proposals,提取proposalfeaturemaps,送入分类器进行判别目标类别和坐标,faster-rcnn模型最终输出目标类别和坐标。