PDF文档跨页表格合并方法、装置、电子设备及存储介质与流程

文档序号:23985369发布日期:2021-02-20 11:54阅读:来源:国知局

技术特征:
1.一种pdf文档跨页表格合并方法,其特征在于,所述pdf文档跨页表格合并方法包括:获取至少两个包含表格的pdf文档,并采集每个所述pdf文档中的至少一个表格的位置信息和文本信息,并根据所述表格的位置信息得到表格数据集;对所述表格数据集中的每个表格,随机选取每个所述表格中的一行进行划分,得到每个所述表格的上半区块的位置信息和每个所述表格的下半区块的位置信息,合并所述每个表格的上半区块的位置信息和每个所述表格的下半区块的位置信息得到正样本数据,将所述正样本数据标注为第一标记,随机选择所述每个表格的上半区块的位置信息和其他表格的上半区块的位置信息得到负样本数据,将所述负样本数据标注为第二标记,所述正样本数据与所述负样本数据组成样本训练数据,所述样本训练数据与对应的标注组成跨页表格训练数据集;构建基于深度双向变换器的预训练模型的深度学习模型,根据所述跨页表格训练数据集构造所述深度学习模型的输入数据,将所述跨页表格训练数据集中的每个所述表格中的单元格作为所述深度学习模型的输入的步长,将所述跨页表格训练数据集中每个样本训练数据标注对应的二分类预测值作为所述深度学习模型的输出,训练并优化所述深度学习模型,得到表格合并模型;获取pdf测试文档,采集所述pdf测试文档中每个页面的文本信息和位置信息,去除所述pdf测试文档中每个页面的页眉与页脚的文本信息和位置信息,根据所述每个页面的位置信息判断每个页面的底部和顶部是否存在表格,当所述页面底部与所述页面的下一页面顶部存在表格时,合并所述页面底部的表格的位置信息与所述页面的下一页面顶部的表格的位置信息,将合并结果作为跨页表格测试数据;根据所述跨页表格测试数据,利用所述表格合并模型预测得到二分类预测值,所述二分类预测值用于判断所述跨页表格测试数据是否需要合并;当判断所述跨页表格测试数据需要合并时,合并所述页面底部的表格与所述下一页面顶部的表格得到结果表格,并根据指令显示所述结果表格。2.如权利要求1所述的pdf文档跨页表格合并方法,其特征在于,所述根据所述跨页表格训练数据集构造所述深度学习模型的输入数据包括:将所述跨页表格训练数据集中的样本训练数据和样本训练数据的标注构造为符合模型输入格式的数据,并作为所述深度学习模型的输入数据,其中,所述模型输入格式为[sep]+table1_cell1+table1_cell2+

+table1_cell
m
+[sep]+table2_cell1+table2_cell2+

+table2_cell
n
+[sep],其中,table1和table2表示两个区块,table_cell表示由区块中单元格位置信息构成的特征,m表示table1的单元格数量,n表示table2的单元格数量,当m大于或等于n时,[sep]为m个“1”组成的序列,当m小于n时,[sep]为n个“1”组成的序列,所述table_cell内的数据为[x_t,y_t,w_t,h_t,x_t+w_t,y_t+h_t,(x_t+w_t)/h_t,(y_t+h_t)/2,x_c,y_c,w_c,h_c,x_c+w_c,y_c+h_c,(x_c+w_c)/h_c,(y_c+h_c)/2,a],其中,x_t为区块左上角的x坐标,y_t为区块左上角的y坐标,w_t为区块的宽,h_t为区块的高,x_c为单元格左上角的x坐标,y_c为单元格左上角的y坐标,w_c为单元格的宽,h_c为单元格的高,a为0或1。3.如权利要求2所述的pdf文档跨页表格合并方法,其特征在于,所述将所述跨页表格训练数据集中每个样本训练数据标注对应的二分类预测值作为所述深度学习模型的输出
包括:当所述样本训练数据的标注为所述第一标记时,所述深度学习模型的输出中[sep]处的二分类预测值为第一预设值;当所述样本训练数据的标注为所述第二标记时,所述深度学习模型的输出中[sep]处的二分类预测值为第二预设值。4.如权利要求1所述的pdf文档跨页表格合并方法,其特征在于,所述训练并优化所述深度学习模型,得到表格合并模型包括:利用所述深度学习模型的编码层对所述输入数据进行编码;训练所述深度学习模型的预测层,直至所述深度学习模型的预测层收敛,得到所述表格合并模型,所述表格合并模型的输出为预测所述样本训练数据是否需要合并的二分类预测值。5.如权利要求1所述的pdf文档跨页表格合并方法,其特征在于,所述去除所述pdf测试文档中每个页面的页眉与页脚的文本信息和位置信息包括:计算所述pdf测试文档中所有页面的页面高度均值;取所述页面平均高度的第一分位值的高度作为页眉的候选区域,取所述页面平均高度的第二分位值的高度作为页脚的候选区域;对所述pdf测试文档中的每个页面,提取所述页眉的候选区域中的文本信息和位置信息及所述页脚的候选区域中的文本信息和位置信息;对所述pdf测试文档中的每个页面,计算所述页眉的候选区域中的文本与该页面前后指定数量的页面中所述页眉的候选区域中文本的第一编辑距离,并计算所述页脚的候选区域中的文本与该页面前后指定数量的页面中所述页脚的候选区域中文本的第二编辑距离;当所述第一编辑距离小于预设的第一阈值时,判定所述候选区域中的所述文本为页眉,去除所述页眉的文本信息和位置信息,当所述第二编辑距离小于预设的第二阈值时,判定所述候选区域中的所述文本为页脚,去除所述页脚的文本信息和位置信息。6.如权利要求1所述的pdf文档跨页表格合并方法,其特征在于,所述根据所述跨页表格测试数据,利用所述表格合并模型预测得到二分类预测值包括:将所述跨页表格测试数据的格式转换为所述表格合并模型所要求的格式,并将格式转换后的跨页表格测试数据作为所述表格合并模型的输入数据;所述表格合并模型根据所述输入数据预测所述跨页表格测试数据中的所述页面底部的表格与所述下一页面的顶部的表格需要合并的二分类预测值。7.如权利要求1所述的pdf文档跨页表格合并方法,其特征在于,所述合并所述页面底部的表格与所述下一页面顶部的表格得到结果表格,并根据指令显示所述结果表格包括:根据提取到的所述页面底部的表格的所述位置信息和所述下一页面顶部的表格的位置信息合并所述页面底部的表格与所述下一页面顶部的表格,得到结果表格;将所述结果表格存储为表格文件,并存储所述完整的结果表格;当接收到指令时,显示所述结果表格。8.一种pdf文档跨页表格合并装置,其特征在于,所述pdf文档跨页表格合并装置包括:表格数据获取模块,用于获取至少两个包含表格的pdf文档,并采集每个所述pdf文档中的至少一个表格的位置信息和文本信息,并根据所述表格的位置信息得到表格数据集;
训练数据集构造模块,用于对所述表格数据集中的每个表格,随机选取每个所述表格中的一行进行划分,得到每个所述表格的上半区块的位置信息和每个所述表格的下半区块的位置信息,合并所述每个表格的上半区块的位置信息和每个所述表格的下半区块的位置信息得到正样本数据,将所述正样本数据标注为第一标记,随机选择所述每个表格的上半区块的位置信息和其他表格的上半区块的位置信息得到负样本数据,将所述负样本数据标注为第二标记,所述正样本数据与所述负样本数据组成样本训练数据,所述样本训练数据与对应的标注组成跨页表格训练数据集;模型训练模块,用于构建基于深度双向变换器的预训练模型的深度学习模型,根据所述跨页表格训练数据集构造所述深度学习模型的输入数据,将所述跨页表格训练数据集中的每个所述表格中的单元格作为所述深度学习模型的输入的步长,将所述跨页表格训练数据集中每个样本训练数据标注对应的二分类预测值作为所述深度学习模型的输出,训练并优化所述深度学习模型,得到表格合并模型;测试数据构造模块,用于获取pdf测试文档,采集所述pdf测试文档中每个页面的文本信息和位置信息,去除所述pdf测试文档中每个页面的页眉与页脚的文本信息和位置信息,根据所述每个页面的位置信息判断每个页面的底部和顶部是否存在表格,当所述页面底部与所述页面的下一页面顶部存在表格时,合并所述页面底部的表格的位置信息与所述页面的下一页面顶部的表格的位置信息,将合并结果作为跨页表格测试数据;预测模块,用于根据所述跨页表格测试数据,利用所述表格合并模型预测得到二分类预测值,所述二分类预测值用于判断所述跨页表格测试数据是否需要合并;合并模块,用于当判断所述跨页表格测试数据需要合并时,合并所述页面底部的表格与所述下一页面顶部的表格得到结果表格,并根据指令显示所述结果表格。9.一种电子设备,其特征在于,所述电子设备包括:存储器,存储至少一个指令;及处理器,执行所述存储器中存储的指令以实现如权利要求1至7中任一项所述的pdf文档跨页表格合并方法。10.一种计算机存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的pdf文档跨页表格合并方法。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1