本技术涉及信息检索,特别是涉及一种文本内容审查方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术:
1、随着计算机技术的发展,出现了敏感字词审查与关键字检索等技术,以辅助人工进行文本内容审查。例如,在合同数量多且篇幅过长的情况下,借助计算机软件技术,通过检索、定位特定语义内容的文本,来辅助法务人员审查合同,以此来解决人工审查效率低、遗漏率高的问题。
2、传统的敏感字词审查只能对文本中的字或词进行筛查,无法对句子进行筛选。例如,只能筛查敏感词“甲方”,无法筛查“甲方应当负赔付责任”、“甲方必须承担赔偿责任”等同类语义句子。现有的关键字检索也只能检索带有特定关键词的文本,而不能对与特定关键词内容相近的文本进行检索,存在文本内容审查不够全面的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种更加全面的文本内容审查方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本技术提供了一种文本内容审查方法。所述方法包括:
3、获取待比较文本,待比较文本包括待审查文本以及审查参考文本;
4、对待审查文本进行光学字符识别,确定待审查文本中的换行符,基于待审查文本和审查参考文本中各自的换行符,将待审查文本和审查参考文本分别拆分为多段待比较语句;
5、获取待比较语句的句向量,计算待审查文本中待比较语句的句向量与审查参考文本中待比较语句的句向量间的文本相似度;
6、针对大于预设阈值的目标文本相似度,基于目标文本相似度在待审查文本中对应的第一目标语句、目标文本相似度在审查参考文本中对应的第二目标语句、以及两者间的映射关系进行突出展示,并基于突出展示内容进行文本内容审查。
7、在其中一个实施例中,获取待比较语句的句向量,包括:
8、基于词典匹配的中文分词算法,对待比较语句进行拆分并去除停用词,获得多个分词,获取多个分词的词向量;
9、通过训练skip-gram模型获取各词向量对应的权重;
10、基于各词向量对应的权重,将多个分词的词向量进行加权平均,获取待比较语句的句向量。
11、在其中一个实施例中,基于词典匹配的中文分词算法,对待比较语句进行拆分并去除停用词,获得多个分词,获取多个分词的词向量,包括:
12、基于n-gram模型,将待比较语句拆分为多个分词;
13、从拆分得到的所有分词中,筛选出不为停用词的分词。
14、在其中一个实施例中,基于目标文本相似度在待审查文本中对应的第一目标语句、目标文本相似度在审查参考文本中的第二目标语句、以及两者间的映射关系进行突出展示,包括:
15、显示文本展示界面,文本展示界面包括待审查文本展示区域和辅助展示区域;
16、在辅助展示区域内,展示第二目标语句;
17、响应于对辅助展示区域的选定操作,在待审查文本展示区域内突出展示选定操作所选择的第二目标语句所映射的第一目标语句。
18、在其中一个实施例中,在待审查文本展示区域内突出展示选定操作所选择的第二目标语句所映射的第一目标语句,包括:
19、针对选定操作所选择的第二目标语句所映射的第一目标语句,确定第一目标语句在待审查文本中的所处位置;
20、根据所处位置调整待审查文本展示区域的显示方式,以使得第一目标语句在待审查文本展示区域的当前可视区域进行展示。
21、在其中一个实施例中,上述在待审查文本展示区域内突出展示选定操作所选择的第二目标语句所映射的第一目标语句,还包括:
22、在第一目标语句在当前可视区域进行展示的情况下,按照预定颜色对第一目标语句的展示背景色进行调整。
23、第二方面,本技术还提供了一种文本内容审查装置。所述装置包括:
24、文本获取模块,用于获取待比较文本,待比较文本包括待审查文本以及审查参考文本;
25、文本拆分模块,用于对待审查文本进行光学字符识别,确定待审查文本中的换行符,基于待审查文本和审查参考文本中各自的换行符,将待审查文本和审查参考文本分别拆分为多段待比较语句;
26、相似度计算模块,用于获取待比较语句的句向量,计算待审查文本中待比较语句的句向量与审查参考文本中待比较语句的句向量间的文本相似度;
27、突出展示模块,用于针对大于预设阈值的目标文本相似度,基于目标文本相似度在待审查文本中对应的第一目标语句、目标文本相似度在审查参考文本中对应的第二目标语句、以及两者间的映射关系进行突出展示,并基于突出展示内容进行文本内容审查。
28、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
29、获取待比较文本,待比较文本包括待审查文本以及审查参考文本;
30、对待审查文本进行光学字符识别,确定待审查文本中的换行符,基于待审查文本和审查参考文本中各自的换行符,将待审查文本和审查参考文本分别拆分为多段待比较语句;
31、获取待比较语句的句向量,计算待审查文本中待比较语句的句向量与审查参考文本中待比较语句的句向量间的文本相似度;
32、针对大于预设阈值的目标文本相似度,基于目标文本相似度在待审查文本中对应的第一目标语句、目标文本相似度在审查参考文本中对应的第二目标语句、以及两者间的映射关系进行突出展示,并基于突出展示内容进行文本内容审查。
33、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
34、获取待比较文本,待比较文本包括待审查文本以及审查参考文本;
35、对待审查文本进行光学字符识别,确定待审查文本中的换行符,基于待审查文本和审查参考文本中各自的换行符,将待审查文本和审查参考文本分别拆分为多段待比较语句;
36、获取待比较语句的句向量,计算待审查文本中待比较语句的句向量与审查参考文本中待比较语句的句向量间的文本相似度;
37、针对大于预设阈值的目标文本相似度,基于目标文本相似度在待审查文本中对应的第一目标语句、目标文本相似度在审查参考文本中对应的第二目标语句、以及两者间的映射关系进行突出展示,并基于突出展示内容进行文本内容审查。
38、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
39、获取待比较文本,待比较文本包括待审查文本以及审查参考文本;
40、对待审查文本进行光学字符识别,确定待审查文本中的换行符,基于待审查文本和审查参考文本中各自的换行符,将待审查文本和审查参考文本分别拆分为多段待比较语句;
41、获取待比较语句的句向量,计算待审查文本中待比较语句的句向量与审查参考文本中待比较语句的句向量间的文本相似度;
42、针对大于预设阈值的目标文本相似度,基于目标文本相似度在待审查文本中对应的第一目标语句、目标文本相似度在审查参考文本中对应的第二目标语句、以及两者间的映射关系进行突出展示,并基于突出展示内容进行文本内容审查。
43、上述文本内容审查方法、装置、计算机设备、存储介质和计算机程序产品,获取待比较文本,待比较文本包括待审查文本以及审查参考文本;对待审查文本进行光学字符识别,确定待审查文本中的换行符,基于待审查文本和审查参考文本中各自的换行符,将待审查文本和审查参考文本分别拆分为多段待比较语句;获取待比较语句的句向量,计算待审查文本中待比较语句的句向量与审查参考文本中待比较语句的句向量间的文本相似度;针对大于预设阈值的目标文本相似度,基于目标文本相似度在待审查文本中对应的第一目标语句、目标文本相似度在审查参考文本中对应的第二目标语句、以及两者间的映射关系进行突出展示,并基于突出展示内容进行文本内容审查。整个文本内容审查过程,基于光学字符识别技术,将不同格式的文本转换为电子文本,根据换行符将两个待比较文本分别拆解为多段待比较语句,通过计算两个待比较语句所对应句向量间的文本相似度、对文本相似度高的语句进行突出显示,实现了更加全面的文本内容审查。