本技术涉及人工智能领域,尤其涉及一种文件中表格检索的方法、装置、设备、介质以及产品。
背景技术:
1、表格结构简单,分隔归纳明确,适合展示大量的信息内容和关键数据,是一种简单有效且直观的数据表现形式,用户可以通过浏览表格迅速获取所需信息,故若想从大量文件中获取所需信息,检索表格是一种十分快捷的方式。
2、目前检索表格的方式大多是先将文件中的表格提取出来,然后将检索关键词与提取到的表格的行列名进行重复率计算,将与检索关键词重复率最高的行列名对应的表格作为结果输出。
3、然而,文件中表格的行列名可能会出现相同或相似的情况,单靠比较检索关键词与行列名的重复率,检索到的表格准确性较低;且现有技术中对于框线不完整的表格识别效果有限,提取到的表格不是文件中的全部表格,导致最后得到的结果不具备全面性,间接降低了检索结果的准确率。
技术实现思路
1、本技术提供一种文件中表格检索的方法、装置、设备、介质以及产品,用以解决文件中表格检索的准确性和全面性差的技术问题。
2、第一方面,本技术提供一种文件中表格检索的方法,所述方法包括:
3、接收目标文件中表格的检索请求,所述检索请求包括目标文件和检索关键词;
4、根据所述检索请求获取所述目标文件中多个文本位置信息并提取第一类型表格,所述第一类型表格为框线完整的表格;
5、根据所述文本位置信息提取第二类型表格,所述第二类型表格为框线不完整的表格;
6、若所述第一类型表格和所述第二类型表格中的至少一种存在跨页情况,则对所述存在跨页情况的表格进行合并,以获得合并后的表格;
7、确定各表格对应的主题词,所述各表格包括合并后的表格及未合并的第一类型表格和第二类型表格;
8、根据所述主题词及所述检索关键词对所述各表格进行检索,以获得目标表格。
9、在一种可能的设计中,所述获取所述目标文件中多个文本位置信息,包括:
10、获取所述目标文件中的文本内容;
11、根据每一行所述文本内容生成多个文本框,并确定多个所述文本框的四个顶点坐标;
12、将各所述文本框的四个顶点坐标确定为对应的文本位置信息。
13、在一种可能的设计中,所述获取所述目标文件中的文本内容,包括:
14、提取所述目标文件中每一页的字符特征;
15、将所述字符特征与预设字符模板进行匹配,以识别出字符;
16、将所述字符转换为对应的文本内容,以获得所述目标文件中的文本内容。
17、在一种可能的设计中,所述提取第一类型表格,包括:
18、确定所述目标文件中表格框线的位置和长度;
19、根据所述表格框线的位置和长度,确定表格中的单元格位置信息;
20、根据所述文本位置信息和所述单元格位置信息,确定各单元格中对应的文本内容;
21、将所述各单元格中对应的文本内容填入对应的单元格中,以提取到第一类型表格。
22、在一种可能的设计中,所述根据所述文本位置信息提取第二类型表格,包括:
23、确定行文本内容中的空格数量,所述行文本内容中不包括所述第一类型表格中包含的文本内容,所述行文本内容位于所述目标文件中;
24、计算所述空格之间文本横坐标的均值;
25、根据所述空格数量和所述均值,确定所述第二类型表格对应的文本内容;
26、根据所述文本位置信息将所述对应的文本内容填入对应的表格中,以提取到第二类型表格。
27、在一种可能的设计中,所述根据所述空格数量和所述均值,确定所述第二类型表格对应的文本内容,包括:
28、若存在两行及以上的所述行文本内容满足预设条件,则将满足所述预设条件的文本内容确定为所述第二类型表格对应的文本内容,所述预设条件为:所述行文本内容都包含两个及以上的空格,且所述空格之间的文本横坐标的均值都相等。
29、在一种可能的设计中,识别第一类型表格和所述第二类型表格中的至少一种存在跨页情况,包括:
30、针对所述目标文件中的每一页依次进行如下操作:
31、确定当前页包含的表格是否为当前页开头;所述当前页包含的表格为第一类型表格或第二类型表格;
32、若是,则判断上一页包含的表格是否为上一页的结尾;
33、若是,则判断所述当前页包含的表格和所述上一页包含的表格的框架是否相同;
34、若是,则确定当前页表格存在跨页情况。
35、在一种可能的设计中,所述确定当前页包含的表格是否为当前页开头,包括:
36、确定所述当前页包含的表格中的第一行文本内容与当前页第一行文本内容是否相同;
37、若不同,则确定所述当前页包含的表格中的第一行文本内容与当前页第二行文本内容是否相同;
38、若相同,则确定当前页包含的表格为当前页开头。
39、在一种可能的设计中,所述确定各表格对应的主题词之前,还包括:
40、提取所述各表格对应的目标文本内容,所述目标文本内容包括所述各表格之前的三行文本内容和所述各表格的行列名。
41、在一种可能的设计中,所述确定各表格对应的主题词,包括:
42、利用主题抽取模型对所述各表格对应的目标文本内容进行主题词抽取。
43、在一种可能的设计中,所述根据所述主题词及所述检索关键词对所述各表格进行检索,以获得目标表格,包括:
44、创建所述各表格对应的主题词列表,所述各表格对应的主题词列表用于存储所述各表格对应的主题词和检索关键词;
45、计算所述各表格对应的主题词列表中所述各表格对应的主题词和检索关键词的标准化点互信息(normalized pointwise mutual information,npmi)值,以获得多个npmi值;
46、将所述多个npmi值由大到小排序并将排在第一位的npmi值对应的表格输出,以获得目标表格。
47、第二方面,本技术提供一种文件中表格检索装置,所述装置包括:
48、获取模块,用于根据所述检索请求获取所述目标文件中多个文本位置信息;
49、提取模块,用于提取第一类型表格,所述第一类型表格为框线完整的表格;
50、所述提取模块,还用于根据所述文本位置信息提取第二类型表格,所述第二类型表格为框线不完整的表格;
51、合并模块,用于若所述第一类型表格和所述第二类型表格中的至少一种存在跨页情况,则对所述存在跨页情况的表格进行合并,以获得合并后的表格;
52、确定模块,用于确定各表格对应的主题词,所述各表格包括合并后及未合并的第一类型表格和第二类型表格;
53、检索模块,用于根据所述主题词及所述检索关键词对所述各表格进行检索,以获得目标表格。
54、第三方面,本技术提供一种文件中表格检索设备,包括:处理器,以及与所述处理器通信连接的存储器及输入装置;
55、所述存储器存储计算机执行指令;
56、所述输入装置,用于接收目标文件中表格的检索请求,所述检索请求包括目标文件和检索关键词;
57、所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所述的方法。
58、第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。
59、第五方面,本技术提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面所述的方法。
60、本技术提供的文件中表格检索的方法、装置、设备、介质以及产品,通过接收目标文件中表格的检索请求,所述检索请求包括目标文件和检索关键词;根据所述检索请求获取所述目标文件中多个文本位置信息并提取第一类型表格,所述第一类型表格为框线完整的表格;根据所述文本位置信息提取第二类型表格,所述第二类型表格为框线不完整的表格;若所述第一类型表格和所述第二类型表格中的至少一种存在跨页情况,则对所述存在跨页情况的表格进行合并,以获得合并后的表格;确定各表格对应的主题词,所述各表格包括合并后的表格及未合并的第一类型表格和第二类型表格;根据所述主题词及所述检索关键词对所述各表格进行检索,以获得目标表格。接收到检索请求后,根据检索请求从目标文件中将框线完整的表格提取出来,并获取多个文本位置信息,那么就可以根据文本位置信息确定出哪些文本是表格中的文本,从而提取出框线不完整的表格,这样文件中所有表格就都被提取出来,保证了表格的全面性,使得检索结果更加具有可靠性;若提取出的表格中存在跨页情况,则将存在跨页情况下的表格进行合并,确保了表格的完整性,避免同一表格被拆分为两个,影响最终的检索结果;最后确定出各表格的主题词,根据主题词与检索关键词进行表格检索,主题词是结合语义语境确定出来的,用于体现各表格所表达内容的词语,那么在检索表格时就可以结合语义语境获得目标表格,而不是仅比较检索关键词与表格行列名的重复率,不仅丰富了表格的检索方法,还提升了文件中表格检索的准确性。