文本召回方法、装置、计算设备及机器可读存储介质与流程

文档序号:37483444发布日期:2024-04-01 13:52阅读:9来源:国知局
文本召回方法、装置、计算设备及机器可读存储介质与流程

本发明涉及数据处理领域,具体地涉及一种文本召回方法、装置、计算设备及机器可读存储介质。


背景技术:

1、随着信息技术的快速发展,通过文本召回,可以从海量的文本数据中快速准确找到用户需求的数据。具体地,当用户提供一个初始的输入文本时,提取初始的输入文本中的关键词和关键语句等关键信息。根据提取得到的关键信息,对数据库中的文本数据进行匹配召回,进而得到用户需求的数据作为文本召回结果。

2、实际的文本召回场景中,不同关键词在一个输入文本中具有不同的重要性。然而,文本召回时通常将得到的所有关键信息,认为是同样重要的信息进行分析,导致了得到的文本召回结果不准确。此外,通常从输入文本中提取到大量的关键信息,存在着把不重要的信息误提取为关键信息并进行分析的情况,进一步导致了对输入文本的关键信息进行分析得到的文本召回结果不准确。


技术实现思路

1、本发明实施例的目的是提供一种文本召回方法、装置、计算设备及机器可读存储介质,文本召回方法用于解决得到的文本召回结果不准确问题。

2、为了实现上述目的,第一方面,本申请提供一种文本召回方法,文本召回方法包括:

3、根据目标文本和目标文本的文本长度,确定第一数量的关键词,其中,第一数量与目标文本的文本长度正相关;

4、根据每个关键词在目标文本中的出现顺序,将第一数量的关键词进行组合,得到关键文本;

5、分别对关键词和关键文本进行向量化,得到关键词向量和关键文本向量;

6、将关键文本向量与所有的关键词向量进行加权求和,得到目标文本对应的向量映射;

7、根据向量映射对目标文本进行向量召回,生成目标文本的文本召回结果。

8、本申请的实施例中,根据向量映射对目标文本进行向量召回,生成目标文本的文本召回结果,包括:

9、获取语料数据库中每个语料的向量和每个语料的文本长度;

10、根据每个语料的文本长度、目标文本的文本长度、每个语料的向量及向量映射,分别确定目标文本与语料数据库中每个语料的相似度;

11、对所有的相似度进行排序,将第二数量的最大的相似度对应的语料确定为文本召回结果。

12、本申请的实施例中,文本召回方法还包括:

13、根据目标知识领域的知识集,确定多个待存储语料;

14、分别对每个待存储语料进行向量化和归一化,得到每个语料的归一化语料向量;

15、基于所有的归一化语料向量,更新语料数据库。

16、本申请的实施例中,将关键文本向量与所有的关键词向量进行加权求和,得到目标文本对应的向量映射,包括:

17、根据每个关键词在目标文本中的出现顺序,确定每个关键词的权重,其中,关键词的权重与关键词在目标文本中的出现顺序正相关;

18、基于每个关键词的权重,对所有的关键词向量进行加权求和,得到关键词向量和;

19、将关键文本向量与关键词向量和进行加权求和,得到目标文本对应的向量映射。

20、本申请的实施例中,文本召回方法还包括:

21、获取初始文本和停用词集合,其中,停用词集合包括至少一个停用词;

22、清洗初始文本中的停用词,得到目标文本。

23、本申请的实施例中,文本召回方法还包括:

24、将初始文本和文本召回结果输入至预设模型,对预设模型进行更新,其中,预设模型用于生成输入的文本对应的文本召回结果。

25、本申请的实施例中,将关键文本向量与所有的关键词向量进行加权求和,得到目标文本对应的向量映射,包括:

26、分别对关键词向量和关键文本向量进行归一化,得到归一化关键词向量和归一化关键文本向量;

27、将归一化关键文本向量与所有的归一化关键词向量进行加权求和,得到目标文本对应的向量映射。

28、第二方面,本申请提供一种文本召回装置,文本召回装置包括:

29、关键词确定模块,用于根据目标文本和目标文本的文本长度,确定第一数量的关键词,其中,第一数量与目标文本的文本长度正相关;

30、文本得到模块,用于根据每个关键词在目标文本中的出现顺序,将第一数量的关键词进行组合,得到关键文本;

31、向量得到模块,用于对关键词进行向量化,得到关键词向量,并对关键文本进行向量化,得到关键文本向量;

32、向量求和模块,用于将关键文本向量与所有的关键词向量进行加权求和,得到目标文本对应的向量映射;

33、结果得到模块,用于根据向量映射对目标文本进行向量召回,生成目标文本的文本召回结果。

34、第三方面,本申请提供一种计算设备,包括:

35、存储器,被配置成存储指令;以及

36、处理器,被配置成从存储器调用指令以及在执行指令时能够实现根据上述的文本召回方法。

37、第四方面,本申请提供一种机器可读存储介质,机器可读存储介质上存储有指令,指令用于使得机器执行根据上述的文本召回方法。

38、本申请提供一种文本召回方法,文本召回方法包括:根据目标文本和目标文本的文本长度,确定第一数量的关键词;根据每个关键词在目标文本中的出现顺序,将第一数量的关键词进行组合,得到关键文本;分别对关键词和关键文本进行向量化,得到关键词向量和关键文本向量;将关键文本向量与所有的关键词向量进行加权求和,得到目标文本对应的向量映射;根据向量映射对目标文本进行向量召回,生成目标文本的文本召回结果。在限制关键词数量的基础上,基于每个关键词的重要性,得到目标文本对应的向量映射。通过向量映射进行文本召回,能够得到高准确性的文本召回结果。同时,由于限制了关键词的数量,能够从海量文本数据快速得到文本召回结果,进而提高了文本召回结果的实时性。



技术特征:

1.一种文本召回方法,其特征在于,所述文本召回方法包括:

2.根据权利要求1所述的文本召回方法,其特征在于,所述根据所述向量映射对所述目标文本进行向量召回,生成所述目标文本的文本召回结果,包括:

3.根据权利要求2所述的文本召回方法,其特征在于,所述文本召回方法还包括:

4.根据权利要求1所述的文本召回方法,其特征在于,所述将所述关键文本向量与所有的所述关键词向量进行加权求和,得到所述目标文本对应的向量映射,包括:

5.根据权利要求1所述的文本召回方法,其特征在于,所述文本召回方法还包括:

6.根据权利要求5所述的文本召回方法,其特征在于,所述文本召回方法还包括:

7.根据权利要求1所述的文本召回方法,其特征在于,所述将所述关键文本向量与所有的所述关键词向量进行加权求和,得到所述目标文本对应的向量映射,包括:

8.一种文本召回装置,其特征在于,所述文本召回装置包括:

9.一种计算设备,其特征在于,包括:

10.一种机器可读存储介质,其特征在于,所述机器可读存储介质上存储有指令,所述指令用于使得机器执行根据权利要求1至7中任一项所述的文本召回方法。


技术总结
本申请实施例公开了一种文本召回方法、装置、计算设备及机器可读存储介质,属于数据处理领域。文本召回方法包括:根据目标文本和目标文本的文本长度,确定第一数量的关键词;根据每个关键词在目标文本中的出现顺序,将第一数量的关键词进行组合,得到关键文本;分别对关键词和关键文本进行向量化,得到关键词向量和关键文本向量;将关键文本向量与所有的关键词向量进行加权求和,得到目标文本对应的向量映射;根据向量映射对目标文本进行向量召回,生成目标文本的文本召回结果。在限制关键词数量的基础上,基于每个关键词的重要性,得到目标文本对应的向量映射。通过向量映射进行文本召回,能够得到高准确性的文本召回结果。

技术研发人员:吴光鹏,王蕴韬,潘季明,余小军,薛智慧,李娇
受保护的技术使用者:北京天融信网络安全技术有限公司
技术研发日:
技术公布日:2024/3/31
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1