1.本发明涉及信息检索领域,特别涉及一种文档内容分类方法、系统、装置及计算机可读存储介质。
背景技术:
::2.文档内容分类技术是在一定的分类体系下对信息内容进行标注分类,属于信息检索技术的一个研究领域,其作用是帮助人们提高管理和处理文本信息的效率,在文档结构化处理、文档组织、文本过滤等领域广泛使用。经过调研,传统的文档内容分类技术是基于统计和规则的方法实现,基于统计的方法是在大规模的语料库上学习到的一种具有不确定性的基于概率推理方法,该方法的不足之处是语料的覆盖范围需要足够的广才能取得好的效果。基于规则的方法是根据语言学中的一些规则约束制定一定的分类规则,该方法是一种确定性的推理方法,该方法的不足之处是规则的制定需要领域专家的参与,进而造成规则的更新存在一定的限制。随着深度神经网络技术的发展,近些年来对于文档内容分类任务大多是基于nlp相关任务实现,实现基本方式是先对文本做分词处理,并做embedding操作提取文字的特征向量,再经过一系列的卷积、池化操作,最后对输出结果经过softmax(softmaxlogicalregression,softmax逻辑回归)得到分类结果,该方式的优点是模型简单且容易训练,不足之处是根据训练的结果有针对性的对模型参数调整,同时对于长篇幅的文档无法体现出词向量之间语义特征。总之,上述的基于文本内容分类方法的前提是需要大量的、符合正确语义的、具有正确的文字顺序的文字内容做基础支撑,并且需要对文本数据做一定的预处理,例如分词处理、词频清洗、特殊符号与停用词的处理、词向量的构建等。3.顺序是保障文本语义正确的前提,无论是文档分类后的结果,还是对每个类别中的文字进行检测和识别,其返回的结果都有可能是乱序的,对于这些结果不做顺序上的处理会直接严重影响下游nlp(naturallanguageprocessing,自然语言处理)相关任务的效果,因此返回正确的顺序是至关重要的。现有技术中,在对文本排序过程中,容易出现判断错误导致文档布局混乱。4.因此,需要一种识别更为精准更为灵活和有效的文档内容分类方法技术实现要素:5.有鉴于此,本发明的目的在于提供一种文档内容分类方法、系统、装置及计算机可读存储介质,更为灵活和有效。其具体方案如下:6.一种文档内容分类方法,包括:7.获取目标文档,将所述文档转换为图片格式,得到与所述目标文档对应的目标图片;8.利用预设的文档内容分类模型,按照预设的分类标准,从所述目标图片中提取内容特征,根据内容特征对所述目标图片进行区域划分,得到多个待排序的分割区域;9.利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型,对各个分割区域内的文本顺序按照预设的布局规则进行排序,得到多个文本顺序正确的文本区域;10.利用各个文本区域的内容特征和文本顺序,将各个文本区域重新排序,得到重组后的文档;11.其中,所述文档内容分类模型为预先根据预设的所述分类标准,对历史图片进行分割训练得到的;所述文档布局分析模型为预先根据预设的所述布局规则,对历史图片进行布局训练得到的。12.可选的,所述文档内容分类模型采用resnet+fpn作为骨干网络,对resnet网络中每一个resblock结构生成的featuremap先融合通道注意力模型,再融合空间注意力模型,得到了由整个骨干网络生成的融合了注意力机制的featuremap。13.可选的,所述分类标准,包括:文本、标题、表格体、表格标题、表格注释、列表、图像、注释、页眉和页脚。14.可选的,所述利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型,对各个分割区域内的文本顺序按照预设的布局规则进行排序,得到多个文本顺序正确的文本区域的过程,包括:15.利用文档布局分析模型分析出分割区域的文本类型;16.利用分割区域的文本类型,计算出与分割区域相应的boundingbox坐标区域;17.利用boundingbox坐标区域的宽度与相应的分割区域的宽度确定分割区域的排序纵向排序顺序;18.利用boundingbox坐标区域的高度,判断分割区域中的文本间距。19.本发明还公开了一种文档内容分类系统,包括:20.图片转换模块,用于获取目标文档,将所述文档转换为图片格式,得到与所述目标文档对应的目标图片;21.区域分类模块,用于利用预设的文档内容分类模型,按照预设的分类标准,从所述目标图片中提取内容特征,根据内容特征对所述目标图片进行区域划分,得到多个待排序的分割区域;22.文档布局模块,用于利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型,对各个分割区域内的文本顺序按照预设的布局规则进行排序,得到多个文本顺序正确的文本区域;23.文档重组模块,用于利用各个文本区域的内容特征和文本顺序,将各个文本区域重新排序,得到重组后的文档;24.其中,所述文档内容分类模型为预先根据预设的所述分类标准,对历史图片进行分割训练得到的;所述文档布局分析模型为预先根据预设的所述布局规则,对历史图片进行布局训练得到的。25.可选的,所述文档布局模块,包括:26.文本类型分析单元,用于利用文档布局分析模型分析出分割区域的文本类型;27.boundingbox计算单元,用于利用分割区域的文本类型,计算出与分割区域相应的boundingbox坐标区域;28.纵向排序单元,用于利用boundingbox坐标区域的宽度与相应的分割区域的宽度确定分割区域的排序纵向排序顺序;29.间距排序单元,用于利用boundingbox坐标区域的高度,判断分割区域中的文本间距。30.本发明还公开了一种文档内容分类装置,包括:31.存储器,用于存储计算机程序;32.处理器,用于执行所述计算机程序以实现如前述的文档内容分类方法。33.本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的文档内容分类方法。34.本发明中,文档内容分类方法,包括:获取目标文档,将所述文档转换为图片格式,得到与所述目标文档对应的目标图片;利用预设的文档内容分类模型,按照预设的分类标准,从所述目标图片中提取内容特征,根据内容特征对所述目标图片进行区域划分,得到多个待排序的分割区域;利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型,对各个分割区域内的文本顺序按照预设的布局规则进行排序,得到多个文本顺序正确的文本区域;利用各个文本区域的内容特征和文本顺序,将各个文本区域重新排序,得到重组后的文档;其中,所述文档内容分类模型为预先根据预设的所述分类标准,对历史图片进行分割训练得到的;所述文档布局分析模型为预先根据预设的所述布局规则,对历史图片进行布局训练得到的。35.本发明过图像识别按照类别将文档划分为多个区域,每个区域单独进行排版,使的排版更为灵活,最后进行整体排序,得到完整的文档,通过对单个区域排序,即使个别区域内排序错误,也能减轻对整个文档的布局影响,容错率更高。附图说明36.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。37.图1为本发明实施例公开的一种文档内容分类方法流程示意图;38.图2为本发明实施例公开的一种文档内容分类系统结构示意图。具体实施方式39.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。40.本发明实施例公开了一种文档内容分类方法,参见图1所示,该方法包括:41.s11:获取目标文档,将文档转换为图片格式,得到与目标文档对应的目标图片。42.具体的,为了利用图像识别技术对文档内容进行分类,因此,将非图片格式的文档进行图片格式转换,当然,已经是图片格式的文档就不用再次转换,可以直接作为目标图片使用。43.s12:利用预设的文档内容分类模型,按照预设的分类标准,从目标图片中提取内容特征,根据内容特征对目标图片进行区域划分,得到多个待排序的分割区域。44.具体的,分类标准,可以包括:文本、标题、表格体、表格标题、表格注释、列表、图像、注释、页眉和页脚,根据分类标准将对图片进行区域划分,得到与分类标准对应的各个图片区域,例如,标题区域。表格区域和页脚区域等等,此过程中仅是将图片中各类内容识别出来,并未排序整理,因此各区域为待排序的分割区域。45.s13:利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型,对各个分割区域内的文本顺序按照预设的布局规则进行排序,得到多个文本顺序正确的文本区域。46.具体的,通过提取各个分割区域的文本类型,文本类型可以包括段落间距,文档布局是否为一栏、两栏、三栏、混合多栏等布局方式,判断每个分割区域内的文本顺序,例如,判断分割区域内对应的文本内容是否为上下段,文字内容是否与图片或表格对应等,在分析完毕后可以根据预设的布局规则重新将分割区域中的内容进行排序,例如,将两栏的文本重新排序为一栏,得到多个文本顺序正确的文本区域。47.s14:利用各个文本区域的内容特征和文本顺序,将各个文本区域重新排序,得到重组后的文档。48.具体的,文本区域对应分割区域,在每个文本区域内文本顺序正常的情况下,再利用各个文本区域之间的内容特征和文本顺序,便可以将文本区域重新排序,最终可以得到重组后的文档。49.其中,文档内容分类模型为预先根据预设的分类标准,对历史图片进行分割训练得到的;文档布局分析模型为预先根据预设的布局规则,对历史图片进行布局训练得到的。50.可见,本发明实施例通过图像识别按照类别将文档划分为多个区域,每个区域单独进行排版,使的排版更为灵活,最后进行整体排序,得到完整的文档,通过对单个区域排序,即使个别区域内排序错误,也能减轻对整个文档的布局影响,容错率更高。51.本发明实施例公开了一种具体的文档内容分类方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:52.进一步的,文档内容分类模型可以采用resnet+fpn作为骨干网络,对resnet网络中每一个resblock结构生成的featuremap先融合通道注意力模型,再融合空间注意力模型,得到了由整个骨干网络生成的融合了注意力机制的featuremap。53.具体的,文档内容分类模型可以包括构建训练数据集阶段、特征提取骨干网络的构建阶段和模型训练阶段;其中,54.构建训练数据集阶段,包括该步骤一方面采用开源数据集进行模型训练,另一方面融合入由数据标注人员使用开发的标注系统进行数据标注的数据,当前文档的类别主要包括文本(text)、标题(title)、表格体(table_body)、表格标题(table_title)、表格注释(table_annotation)、列表(list)、图像(figure)、注释(annotation)、页眉(page_header)、页脚(footer)等10个类别,数据标注类型使用coco数据集格式。55.特征提取骨干网络的构建阶段,包括采用实例分割思想,相比于目标检测系列模型,实例分割模型在检测的基础上进行了分割计算,达到了像素级别的识别,进而识别的boundingbox坐标位置更加精确,对于后期文字检测与识别的准确度提供了保障,同时只需要比较少的数据集即可训练出具有高泛化能力的模型。56.为了更好的提取特征,本发明实施例使用特征金字塔网络(featurepyramidnetwork,fpn)进行多尺度目标检测方法,该网络实现了将各个层级结构的特征进行融合。另一方面,部分图像页面中可能存在大量的空白区域,不同的图像中各个类别区域的布局具有多样性,同时部分类别之间存在一定的位置联系,比如对于表格类别包括表格标题,表格体,表格注释等,即不同类别的特征在空间上存在一定的联系,这些因素都可能导致模型的识别性能下降,因此,为了避免上述缺点,首先充分挖掘不同类别之间的特征,结合深度神经网络结构的特点,可以通过增加网络的深度、增加特征图的通道数和采用多尺度特征融合技术等方式改善;然后,在模型训练过程中融合入空间位置信息来抑制各个类比的共性特征,提升特定区域的表征能力的方法来提升模型的识别准确度。因此,采用resnet+fpn作为骨干网络,同时对resnet网络中每一个resblock结构生成的featuremap先融合通道注意力模型,再融合空间注意力模型,进而为整个骨干网络生成的featuremap融合了注意力机制,自动学习不同特征通道和每个特征空间的重要性,帮助我们提取出图像中的特征中既包含了空间上的特征权重,同时也包含了不同通道之间的特征权重,提升了模型的特征提取能力。57.假如原始图像经过骨干网络中生成的featuremap大小为c*w*h,c表示特征图的通道数,w表示特征图的宽,h表示特征图的高,对该featuremap分别在空间维度做全局最大池化(globalmaxpooling)和全局均匀池化(globalaveragepooling)处理,输出值再经过全连接层与softmax激活函数,最后对分别输出的特征向量做相加操作,得到通道注意力模型的权重,并与输入特征做点乘操作,得到经过通道注意力模型的特征图。58.通道注意力模型输出的特征图分别在通道维度做全局最大池化和全局均匀池化处理,并将得到的featuremap做合并处理,最后经过一个卷积层和sofxmax激活层得到大小为1*w*h的空间注意力模型的权重,并与通道注意力模型的输出特征做点乘操作。59.模型训练阶段,包括rpn模块负责对生成固定数量的候选区域rois,并进行前后背景分类与回归目标检测框的位置与大小,获得过滤后的roi区域,roialign模块采用双线性插值的方法将roi区域的特征图与原图区域对应起来,取消了取整操作,缓解了roipooling引起的特征图与原始图位置偏差的问题,提高的检测精度,mask模块对roi区域进行分类和候选框的回归计算以及生成mask,完成实例分割任务。60.进一步的,上述s13利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型,对各个分割区域内的文本顺序按照预设的布局规则进行排序,得到多个文本顺序正确的文本区域的过程,可以包括s131至s134;其中,61.s131:利用文档布局分析模型分析出分割区域的文本类型;62.s132:利用分割区域的文本类型,计算出与分割区域相应的boundingbox坐标区域。63.具体的,根据图像文本类型,计算出与分割区域中文本类型与对应的boundingbox坐标区域,这里对返回的boundingbox坐标区域做进一步处理,计算每个boundingbox之间的交并比值(iou=[0,1]),若存在多个boundingbox之间相交的情况,若某两个或者多个boundingbox的iou值大于固定阈值(例如0.98),则认为这些boundingbox之间存在完全重合,去除掉被完全包含在内的boundingbox坐标与类别。[0064]s133:利用boundingbox坐标区域的宽度与相应的分割区域的宽度确定分割区域的排序纵向排序顺序。[0065]具体的,根据上一步返回的每一个boundingbox的宽度计算出与整个图片的宽度的比值,找出boundingbox坐标的宽度与整个图片的宽度的比值大于固定阈值(例如0.5,即超过这个图片宽度的一半)的所有boundingbox坐标区域,并对该部分的boundingbox按照y轴从上到下的顺序排序。[0066]s134:利用boundingbox坐标区域的高度,判断分割区域中的文本间距。[0067]具体的,基于计算出的boundingbox坐标区域将对整个图像中的的布局分割成多个区域,对于剩余的boundingbox坐标按照计算出的多个区域归类,再判断该区域中的类别属于多少栏的布局,对每个区域内部的所有boundingbox按照从左到右优先排序、再按照从上到小的坐标值进行排序,然后依次将对应的boundingbox加入对应的布局列表中;依次将计算出的与整个图像的宽度比值大于固定阈值的boundingbox坐标区域插入到对应的位置(按照y轴排序)。[0068]进一步的,对行之间的布局进行调整,基于ocr模块识别出的boundingbox基础上,先对所有的boundingbox进行一个按照y轴坐标的预排序处理,判断当前boundingbox的中心坐标与下一个boundingbox的中心坐标的差值是否大于当前boundingbox的高度的一半,若大于一半判定为当前boundingbox处于换行的位置,找到换行位置后之后再对每一行的boundingbox按照x轴进行排序,此时段落内的行级别排序规则完成。最后再做一些细节上的处理,比如行末尾的字符存在'-'连接符问题,直接将该字符删除与下一行字符连接过于直接,比如’50-60’删掉之后称为’5060’,直接造成语义上的错误,目前根据是否为字母或数字的规则来进行处理,该细节问题也可以借助nlp下的子任务判断。[0069]相应的,本发明实施例还公开了一种文档内容分类系统,参见图2所示,该系统包括:[0070]图片转换模块11,用于获取目标文档,将文档转换为图片格式,得到与目标文档对应的目标图片;[0071]区域分类模块12,用于利用预设的文档内容分类模型,按照预设的分类标准,从目标图片中提取内容特征,根据内容特征对目标图片进行区域划分,得到多个待排序的分割区域;[0072]文档布局模块13,用于利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型,对各个分割区域内的文本顺序按照预设的布局规则进行排序,得到多个文本顺序正确的文本区域;[0073]文档重组模块14,用于利用各个文本区域的内容特征和文本顺序,将各个文本区域重新排序,得到重组后的文档;[0074]其中,文档内容分类模型为预先根据预设的分类标准,对历史图片进行分割训练得到的;文档布局分析模型为预先根据预设的布局规则,对历史图片进行布局训练得到的。[0075]可见,本发明实施例通过图像识别按照类别将文档划分为多个区域,每个区域单独进行排版,使的排版更为灵活,最后进行整体排序,得到完整的文档,通过对单个区域排序,即使个别区域内排序错误,也能减轻对整个文档的布局影响,容错率更高。[0076]具体的,上述文档布局模块13,包括文本类型分析单元、boundingbox计算单元、纵向排序单元和间距排序单元;其中,[0077]文本类型分析单元,用于利用文档布局分析模型分析出分割区域的文本类型;[0078]boundingbox计算单元,用于利用分割区域的文本类型,计算出与分割区域相应的boundingbox坐标区域;[0079]纵向排序单元,用于利用boundingbox坐标区域的宽度与相应的分割区域的宽度确定分割区域的排序纵向排序顺序;[0080]间距排序单元,用于利用boundingbox坐标区域的高度,判断分割区域中的文本间距。[0081]其中,文档内容分类模型采用resnet+fpn作为骨干网络,对resnet网络中每一个resblock结构生成的featuremap先融合通道注意力模型,再融合空间注意力模型,得到了由整个骨干网络生成的融合了注意力机制的featuremap。[0082]其中,分类标准,包括:文本、标题、表格体、表格标题、表格注释、列表、图像、注释、页眉和页脚。[0083]此外,本发明实施例还公开了一种文档内容分类装置,包括:[0084]存储器,用于存储计算机程序;[0085]处理器,用于执行计算机程序以实现如前述的文档内容分类方法。[0086]另外,本发明实施例还公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述的文档内容分类方法。[0087]最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。[0088]专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。[0089]以上对本发明所提供的技术内容进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。当前第1页12当前第1页12