本发明涉及计算机,尤其涉及一种文档比对方法及系统。
背景技术:
1、文案工作是企业中最常见的形式,文案工作处理过程中也会面临各种各样的问题,尤其企业中需要用到的文档越来越多,一个文档经过多次转手之后、后,难免会出现一些偏差,最常见的例如合同文档,业务人员将拟好的合同发送给客户后,客户盖章后返还时,为规避风险,需要对合同进行审核。目前通过人工审查合同文档方式的效率很低,且当合同内容过多时容易漏掉重要信息,现有的通过计算机审查合同的方式,也因为计算机内存的原因,当合同页码过多时,无法完成处理。况且,现有的计算机文档比对方法无法有效处理其中一个文档有额外多余页码的情况。因此,如何提高多页码长合同文档的比对效率和准确率成为目前亟待解决的问题。
技术实现思路
1、为解决现有技术的不足,本发明提出一种文档比对方法及系统,提高多页码长合同文档的比对效率和准确率。
2、为实现以上目的,本发明所采用的技术方案包括:
3、本发明第一方面公开了一种文档比对方法,包括:
4、步骤s1、分别获取测试文档与模板文档并按照页码解析为图片格式的文本,其中,每个页码的内容解析为一张图片;
5、步骤s2、对测试文本与模板文本进行预处理、检测和识别;
6、步骤s3、将测试文本与模板文本进行页码匹配计算,确定模板文本任一页码在测试文本中的最优匹配页码;
7、步骤s4、根据页码匹配计算结果进行判断,若测试文档存在多余页码,则移除多余页码的内容,若测试文档不存在多余页码,则执行步骤s5;
8、步骤s5、将模板文本划分为n个区域,在任一区域内随机选中m个连续的字符并标记位置,确定m个连续的字符所在页码位置,根据页码位置确定测试文本中相对应的最优匹配页码的位置,在测试文本中相对应的最优匹配页码中找出相同的m个连续的字符并标记位置,将模板文本和测试文本中相同的m个连续的字符所在的位置分别确定为页切分位;依次找出n个区域的页切分位;n≥1,m≥2;
9、步骤s6、将模板文本中任意两个相邻的页切分位确定的内容与测试文本相对应内容进行比对计算,获得模板文本和测试文本的比对结果。
10、进一步地,所述步骤s2中,所述预处理包括判断所述测试文本与所述模板文本的倾斜角度并进行旋转矫正。
11、进一步地,所述步骤s2中,所述检测包括文本检测和表格检测,所述文本检测包括识别文本行并确定所述文本行的位置坐标,所述表格检测包括识别表格并确定所述表格中各个单元格的位置坐标。
12、进一步地,所述步骤s3还包括:计算并得到所述测试文本与所述模板文本的页相似度矩阵。
13、进一步地,所述步骤s3还包括:分别采用匈牙利算法和贪心算法计算所述测试文本与所述模板文本的页相似度,其中,所述匈牙利算法计算结果为全局最优匹配,所述贪心算法计算结果为局部最优匹配。
14、进一步地,所述步骤s3还包括:分别采用所述匈牙利算法和所述贪心算法将所述模板文本中的第i页与所述测试文本中的所有页码进行相似度计算,若所述匈牙利算法和所述贪心算法的计算结果一致,则确定所述计算结果为最优匹配页码,并将页码对应结果添加至一致对应列表;若所述匈牙利算法和所述贪心算法的计算结果不一致,则根据一致对应列表确定最优匹配页码,其中,i为所述模板文本中的任意页码。
15、进一步地,所述步骤s5还包括针对所述模板文本设定的累计字符数阈值,将所述模板文本划分为n个区域。
16、进一步地,所述方法还包括将所述模板文本和所述测试文本的比对结果在浏览器界面进行清晰展示。
17、本发明第二方面公开了一种文档比对系统,包括:
18、预处理模块,用于获取测试文档与模板文档并按照页码解析为图片格式的文本,其中,每个页码的内容解析为一张图片;对测试文本与模板文本进行预处理、检测和识别;
19、页码匹配计算模块,用于将测试文本与模板文本进行页码匹配计算,确定模板文本任一页码在测试文本中的最优匹配页码;
20、移除多余页模块,用于根据页码匹配计算结果进行判断,若测试文档存在多余页码,则移除多余页码的内容,若测试文档不存在多余页码,则执行下一个步骤;
21、确定页切分位模块,用于将模板文本划分为n个区域,在任一区域内随机选中m个连续的字符并标记位置,确定m个连续的字符所在页码位置,根据页码位置确定测试文本中相对应的最优匹配页码的位置,在测试文本中相对应的最优匹配页码中找出相同的m个连续的字符并标记位置,将模板文本和测试文本中相同的m个连续的字符所在的位置分别确定为页切分位;依次找出n个区域的页切分位;n≥1,m≥2;
22、文本比对计算模块,用于将模板文本中任意两个相邻的页切分位确定的内容与测试文本相对应内容进行比对计算,获得文本的比对结果。
23、本发明第三方面公开了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
24、本发明第四方面公开了一种电子设备,包括处理器和存储器;
25、所述存储器,用于存储操作指令;
26、所述处理器,用于通过调用所诉操作指令,执行上述的方法。
27、本发明的有益效果为:
28、采用本发明所述文档比对方法及系统,通过将测试文本与模板文本进行相似性比对,快速、准确找出测试文本相较模板文本新增、删除、修改的字符,可以防止文档内容发生篡改,有效规避风险,该方法尤其适用于页数过多的长文档的比对,或者测试文档或模板文档额外多出几页的情况。
1.一种文档比对方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述步骤s2中,所述预处理包括判断所述测试文本与所述模板文本的倾斜角度并进行旋转矫正。
3.如权利要求1所述的方法,其特征在于,所述步骤s2中,所述检测包括文本检测和表格检测,所述文本检测包括识别文本行并确定所述文本行的位置坐标,所述表格检测包括识别表格并确定所述表格中各个单元格的位置坐标。
4.如权利要求1所述的方法,其特征在于,所述步骤s3还包括:计算并得到所述测试文本与所述模板文本的页相似度矩阵。
5.如权利要求1至4任一项所述的方法,其特征在于,所述步骤s3还包括:分别采用匈牙利算法和贪心算法计算所述测试文本与所述模板文本的页相似度,其中,所述匈牙利算法计算结果为全局最优匹配,所述贪心算法计算结果为局部最优匹配。
6.如权利要求5所述的方法,其特征在于,所述步骤s3还包括:分别采用所述匈牙利算法和所述贪心算法将所述模板文本中的第i页与所述测试文本中的所有页码进行相似度计算,若所述匈牙利算法和所述贪心算法的计算结果一致,则确定所述计算结果为最优匹配页码,并将页码对应结果添加至一致对应列表;若所述匈牙利算法和所述贪心算法的计算结果不一致,则根据一致对应列表确定最优匹配页码,其中,i为所述模板文本中的任意页码。
7.如权利要求1所述的方法,其特征在于,所述步骤s5还包括针对所述模板文本设定的累计字符数阈值,将所述模板文本划分为n个区域。
8.如权利要求1所述的方法,其特征在于,所述方法还包括将所述模板文本和所述测试文本的比对结果在浏览器界面进行清晰展示。
9.一种文档比对系统,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。
11.一种电子设备,其特征在于,包括处理器和存储器;