文本检索方法、装置及存储介质与流程

文档序号:34658297发布日期:2023-07-04 23:33阅读:27来源:国知局
文本检索方法、装置及存储介质与流程

本发明属于文本检索,具体涉及一种文本检索方法、装置及存储介质。


背景技术:

1、文本检索(textretrieval)亦称为自然语言检索,是指根据文本内容,如文本所包含的词语、语意等对文本集合进行检索、分类、过滤等处理。

2、目前,对于文本检索较常采用关键词识别方法,其通过对文本内容关键词抽取形成索引,以达到对文本内容的全文检索,例如当前主流的elasticsearch全文搜索引擎就是使用这种检索方法,然而采用这种方式只能对抽取出来的关键词进行检索,而对于没有抽取出来的关键词则无法检索到,导致常常无法从文本中准确检索出所要检索的内容。

3、因此,如何提供一种有效的方案以便从文本中准确检索出所要检索的内容,已成为现有技术中一亟待解决的问题。


技术实现思路

1、本发明的目的是提供一种文本检索方法、装置及存储介质,用以解决现有技术中存在的上述问题。

2、为了实现上述目的,本发明采用以下技术方案:

3、第一方面,本发明提供了一种文本检索方法,包括:

4、查找出检索词中各字符所对应的知识信息表,所述知识信息表中记录有对应字符的区位码、对应字符的区位码的下级区位码集合以及对应字符在文本中出现的位次集合,任一字符的区位码的下级区位码集合为文本中出现过且位于所述任一字符后的所有相邻字符所对应区位码的集合;

5、依次判断所述检索词中各目标字符所对应知识信息表中的下级区位码集合中,是否存在与下一相邻检索词所对应知识信息表中的区位码一致的区位码,所述目标字符为所述检索词中除最后一个检索词外的其余字符;

6、如果所述检索词中各目标字符所对应知识信息表中的下级区位码集合中,均存在与下一相邻检索词所对应知识信息表中的区位码一致的区位码,则基于所述检索词中各字符所对应知识信息表中所记录的位次集合,查找出与所述检索词匹配的文本内容。

7、基于上述公开的内容,本发明通过先查找出检索词中各字符所对应的知识信息表,知识信息表中记录有对应字符的区位码、对应字符的区位码的下级区位码集合以及对应字符在文本中出现的位次集合;然后依次判断检索词中各目标字符所对应知识信息表中的下级区位码集合中,是否存在与下一相邻检索词所对应知识信息表中的区位码一致的区位码;如果检索词中各目标字符所对应知识信息表中的下级区位码集合中,均存在与下一相邻检索词所对应知识信息表中的区位码一致的区位码,则基于检索词中各字符所对应知识信息表中所记录的位次集合,查找出与检索词匹配的文本内容。在此过程中,通过判断检索词中各目标字符所对应知识信息表中的下级区位码集合中,是否存在与下一相邻检索词所对应知识信息表中的区位码一致的区位码,从而可在文本中找出与检索词中前一字符相邻的所有后一字符,进而可根据找出的各字符所对应的位次从文本中定位并找到与检索词匹配的文本内容,如此可以方便地对文本中的任意内容进行检索,而不仅限于对抽取出的关键词进行检索,确保能够从文本中准确检索出所要检索的内容。

8、通过上述的设计,本发明可方便地对文本中的任意内容进行检索,而不仅限于对抽取出的关键词进行检索,确保能够从文本中准确检索出所要检索的内容,便于实际应用和推广。

9、在一个可能的设计中,所述基于所述检索词中各字符所对应知识信息表中所记录的位次集合,查找出与所述检索词匹配的文本内容,包括:

10、基于所述检索词中各字符所对应知识信息表中所记录的位次集合,确定出从各字符所对应知识信息表中依次选择一个位次后得到位次连续的至少一组位次组合;

11、基于所述至少一组位次组合,查找出与所述检索词匹配的至少一处文本内容。

12、在一个可能的设计中,所述查找出检索词中各字符所对应的知识信息表,包括:

13、通过哈希算法计算出所述检索词中各字符所对应知识信息表的存储地址;

14、基于各字符所对应知识信息表的存储地址,查找出检索词中各字符所对应的知识信息表。

15、在一个可能的设计中,所述检索词中各字符所对应知识信息表的存储地址为:

16、p(ai)=((ai%100-1)×94+[ai/100]-1)×32,其中p(ai)表示检索词中第i个字符所对应知识信息表在存储空间中的存储位次,ai表示检索词中第i个字符的区位码,%表示取模运算,[ ]表示取整。

17、在一个可能的设计中,在查找出检索词中各字符所对应的知识信息表之前,所述方法还包括:

18、构建知识网络,所述知识网络包括由文本中各字符所对应知识信息表所构成的有向连接图;

19、所述有向连接图中,位于文本中前一字符所对应的应知识信息表指向后一字符所对应的应知识信息表。

20、在一个可能的设计中,所述知识信息表中还包括对应字符的上级区位码集合和表征字符在文本中是否连续出现的自我关联标识,任一字符的区位码的上级区位码集合为文本中出现过且位于所述任一字符前的所有相邻字符所对应区位码的集合。

21、在一个可能的设计中,所述方法还包括:

22、如果所述检索词的其中一个目标字符所对应知识信息表中的下级区位码集合中,不存在与下一相邻检索词所对应知识信息表中的区位码一致的区位码,则生成表征在文本中未查询到所述检索词的提示信息。

23、第二方面,本发明提供了一种文本检索装置,包括:

24、第一查找单元,用于查找出检索词中各字符所对应的知识信息表,所述知识信息表中记录有对应字符的区位码、对应字符的区位码的下级区位码集合以及对应字符在文本中出现的位次集合,任一字符的区位码的下级区位码集合为文本中出现过且位于所述任一字符后的所有相邻字符所对应区位码的集合;

25、判断单元,用于依次判断所述检索词中各目标字符所对应知识信息表中的下级区位码集合中,是否存在与下一相邻检索词所对应知识信息表中的区位码一致的区位码,所述目标字符为所述检索词中除最后一个检索词外的其余字符;

26、第二查找单元,用于如果所述检索词中各目标字符所对应知识信息表中的下级区位码集合中,均存在与下一相邻检索词所对应知识信息表中的区位码一致的区位码,则基于所述检索词中各字符所对应知识信息表中所记录的位次集合,查找出与所述检索词匹配的文本内容。

27、第三方面,本发明提供了一种文本检索装置,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如上述第一方面所述的文本检索方法。

28、第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行第一方面所述的文本检索方法。

29、第五方面,本发明提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面所述的文本检索方法。

30、有益效果:

31、本发明可方便地对文本中的任意内容进行检索,而不仅限于对抽取出的关键词进行检索,确保能够从文本中准确检索出所要检索的内容,便于实际应用和推广。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1