1.本发明涉及互联网技术领域,特别是涉及一种搜索召回方法、装置及介质。
背景技术:2.搜索场景在互联网技术中是非常重要的组成部分,搜索召回的结果的准确性和丰富性直接影响着用户的搜索体验感,当前,最常用的搜索方式为基于词的搜索召回方式,在查询过程中,直接采用用于信息检索与数据挖掘的常用加权技术(term frequency
–
inverse document frequency,简称tf
‑
idf)对查询词和文档的关联度进行匹配计算,获取到查准率高的结果,此时结果往往不够丰富,即查全率低。或者可以采用tf
‑
idf算法,利用搜索词的标签和文档的标签进行匹配,获取到查全率足够高的结果,但是此时查准率的部分正确性会被标签掩盖导致查准率低。
3.因此,目前常用的基于词的搜索召回手段,无法同时满足查准率和查全率,准确度高的情况下,结果往往不够丰富,满足丰富度的情况下,又会导致准确性低。
4.由此可见,在搜索过程中如何保证查准率的情况下兼顾查全率,是本领域技术人员亟待解决的问题。
技术实现要素:5.本发明的目的是提供一种搜索召回方法、装置及介质,保证用户在搜索召回时,得到的召回结果满足查准率的同时也可以兼顾查全率,提升用户搜索体验感。
6.为解决上述技术问题,本发明提供一种搜索召回方法,包括:
7.获取查询词;
8.通过基于词匹配的召回方式对所述查询词进行召回得到召回结果;
9.若所述召回结果满足准确率条件,则在查询条件中增加影响所述召回结果的影响因子展开新的召回,其中,所述影响因子为与所述查询词对应的标签和/或类别。
10.优选地,所述准确率条件为召回结果为空。
11.优选地,所述增加影响所述召回结果的影响因子包括:
12.从预先设定的关联库中,获取与所述查询词相对应的全部所述影响因子。
13.优选地,所述关联库的设定包括:
14.依据各所述查询词预先要求的查全率,预先设定所述关联库。
15.优选地,所述搜索召回方法还包括:
16.每隔预设周期,对所述关联库进行更新。
17.优选地,所述通过基于词匹配的召回方式对所述查询词进行召回得到召回结果包括:
18.建立基于查准率的排序模型,并对所述查询词进行召回得到所述召回结果;
19.依据所述排序模型,对所述召回结果进行排序。
20.优选地,在所述建立基于查准率的排序模型之前还包括:
21.根据不同的业务需求,对搜索引擎中的文档结果配置对应的业务字段以便于提升所述召回结果的排名。
22.为了解决上述技术问题,本发明还提供了一种搜索召回装置,包括:
23.获取模块,用于获取查询词;
24.召回模块,用于通过基于词匹配的召回方式对所述查询词进行召回得到召回结果;
25.增加模块,用于若所述召回结果满足准确率条件,则在查询条件中增加影响所述召回结果的影响因子展开新的召回,其中,所述影响因子为与所述查询词对应的标签和/或类别。
26.为了解决上述技术问题,本发明还提供了一种搜索召回装置,包括存储器,用于存储计算机程序;
27.处理器,用于执行所述计算机程序时实现如所述的搜索召回方法的步骤。
28.为了解决上述技术问题,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如所述的搜索召回方法的步骤。
29.本发明所提供的一种搜索召回方法,包括:获取用户需要搜索的查询词,并通过基于词匹配的召回方式对查询词进行召回得到召回结果,若获得的召回结果满足预先设定的准确率条件,则在搜索条件中增加影响召回结果的影响因子并展开新的召回,其中,影响因子为与查询词相对应的标签和/或类别。由此可见,本发明所提供的技术方案,通过基于词匹配的召回方式对查询词进行召回以保证召回结果的查准率,当召回结果是否满足预设的准确率条件时,在查询条件中增加影响召回结果的影响因子并展开新的召回以保证召回结果的查全率,由此既保证了召回结果的准确性同时兼顾了召回结果的丰富性,提升用户的搜索体验感。
30.此外,本发明所提供的搜索召回装置及介质与上述搜索召回方法对应,效果同上。
附图说明
31.为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
32.图1为本发明实施例所提供的搜索召回方法的流程图;
33.图2为本发明实施例所提供的搜索召回装置的结构图;
34.图3为本发明另一实施例提供的一种搜索召回装置的结构图。
具体实施方式
35.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
36.本发明的核心是提供一种搜索召回方法、装置及介质,在用户搜索召回的过程中,
保证召回结果满足查全率的同时又可以兼顾查准率,即召回结果满足准确率的同时兼顾丰富性,提高用户的搜索体验感。
37.为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
38.随着互联网的快速发展,搜索引擎的功能越来越强大,搜索场景在互联网技术中占据非常重要的地位,搜索召回的结果是否准确且丰富直接影响着用户的搜索体验感。目前,最常使用的搜索召回手段为基于词匹配的召回方式,该召回方式直接通过tf
‑
idf算法对查询词和结果文档的关联度进行匹配计算,从而获得准确率高的召回结果,但是在保证准确率的情况下召回结果往往不够丰富,即查全率低。当采用tf
‑
idf算法,利用搜索词的标签和结果文档的标签进行匹配,获取到查全率足够高的召回结果时,召回结果的部分正确性又会被标签掩盖导致查准率低。由此可见,目前通过基于词匹配的召回方式对查询词进行召回获得的召回结果无法同时满足查准率和查全率。
39.为了解决搜索过程中无法满足查准率的同时兼顾查全率的问题,本发明提出了一种搜索召回方法,首先,通过基于词匹配的召回方式对查询词进行召回以保证召回结果的查准率,当召回结果的满足准确率条件时,则在查询条件中增加影响召回结果的影响因子并展开新的召回以保证召回结果的丰富性,其中,影响因子为与查询词相对应的标签和/或类别。从而,既保证了搜索召回结果的准确性又保证了结果的丰富性,提高了用户的搜索体验感。
40.图1为本发明实施例所提供的搜索召回方法的流程图,如图1所示,该方法包括:
41.s10:获取查询词。
42.s11:通过基于词匹配的召回方式对查询词进行召回得到召回结果。
43.s12:若召回结果满足准确率条件,则在查询条件中增加影响召回结果的影响因子展开新的召回。
44.在具体实施例中,当用户有搜索召回的需求时,首先获取到用户需要搜索的查询词,并通过基于词匹配的召回方式,采用tf
‑
idf算法对该查询词和结果文档的关联度进行匹配计算,从而获得准确率高的召回结果,当召回结果满足准确率条件时,在查询条件中增加影响召回结果的影响因子并展开新的召回,从而保证召回结果的丰富性。需要说明的是,满足准确率的条件为召回结果为空,即当未获得召回结果时保证召回结果的准确率。
45.在实施例中,优先保证查准率后,表示召回结果足够准确,在召回结果足够准确的条件下,需要扩充结果的丰富性,则在查询条件中通过增加影响因子并展开新的召回以保证查全率,进而同时保证召回结果的准确性和丰富性。需要说明的是,影响召回结果的影响因子为与查询词对应的标签和/或类别,而影响因子从关联库中获得,其中,关联库为人工手动维护的关于查询词与各查询词相对应的标签或类别。关联库可以是定期进行更新,也可以是出现新的查询词与其对应的标签和类别,或者查询词对应的标签和类别有新的产生时就对关联库进行更新,对于关联库的更新方式,本发明对此不作限定,优选定期更新。
46.本发明提供的搜索召回方法,优先保证查准率后,在查询条件中通过增加影响因子并展开新的召回进而保证查全率,因此影响因子直接关系到召回结果的丰富性,所以在维护关联库时,就要依旧每个查询词需要的丰富度设置其对应的标签和类别数量。
47.当然,为了进一步保证查询词的准确性,利用tf
‑
idf算法对查询词和结果文档的
关联度进行匹配计算的同时,建立基于查准率的排序模型,在查询词与结果文档进行匹配的过程中,根据不同业务的不同业务字段对召回结果增加得分,影响召回结果的最终得分,获得各召回结果的得分后,对各召回结果进行排序,以便于获得准确率高的召回结果。值得注意的是,业务字段为根据不同的业务需求,对搜索引擎中的文档结果设定对应的字段标志,通过判断查询词对应的业务字段是否满足要求来影响该业务字段对应的文档结果的打分及排名。
48.本发明所提供的一种搜索召回方法,包括:获取用户需要搜索的查询词,并通过基于词匹配的召回方式对查询词进行召回得到召回结果,若获得的召回结果满足预先设定的准确率条件,则在搜索条件中增加影响召回结果的影响因子并展开新的召回,其中,影响因子为与查询词相对应的标签和/或类别。由此可见,本发明所提供的技术方案,通过基于词匹配的召回方式对查询词进行召回以保证召回结果的查准率,当召回结果是否满足预设的准确率条件时,在查询条件中增加影响召回结果的影响因子并展开新的召回以保证召回结果的查全率,由此既保证了召回结果的准确性同时兼顾了召回结果的丰富性,提升用户的搜索体验感。
49.在具体实施例中,为了保证用户的搜索结果满足查准率的同时又满足查全率,首先采用基于词匹配的召回方式对查询词进行召回保证召回结果的准确性,若召回结果满足准确率条件,则在查询条件中增加影响召回结果的影响因子并展开新的召回以保证召回结果的丰富性,其中,召回结果满足的准确率条件为召回结果为空。当召回结果为空时,表示查询词的召回结果准确率很高,此时,在查询条件中再增加影响因子展开新的召回,在高准确率的情况下扩充召回结果的丰富性,由此满足召回结果的查准率和查全率。
50.本发明实施例所提供的搜索召回方法,将准确率条件设置为召回结果为空,由此保证采用基于词匹配的召回方式进行召回的召回结果的准确性,以便于在查询条件中增加影响因子展开新的召回以保证查询的丰富性,进而既保证了召回结果的准确性也保证了丰富性,提高了用户的搜索体验感。
51.在上述实施例的基础上,为了能快速获取与查询词相对应的影响因子,则预先设定由各查询词以及与各查询词相对应的标签和类别组成的关联库,各查询词对应的标签和类别均称为影响召回结果的影响因子。例如,当查询词为“孙俪”时,对应的影响因子可以为影视、演员、明星、中国人等,再例如,当查询词为“清华”,对应的影响因子有教育、高等学府、世界排名等。当保证了召回结果的查准率后,从关联库中获取与查询词对应的影响因子并展开新的召回以提升召回结果的查全率。需要说明的是,为了保证召回结果足够丰富,因此增加影响召回结果的影响因子时,应当获取关联库中与查询词对应的全部影响因子。
52.本发明实施例所提供的搜索召回方法,通过从预先设定的关联库中获取与各查询词相对应的全部影响因子并展开新的召回来保证召回结果的丰富性,既可以快速获取到准确的影响因子,同时可以通过调整关联库中各查询词对应的影响因子的个数来改变召回结果的丰富性,该方法既容易实现且能快速获得丰富性高的召回结果,进而提升用户的搜索体验感。
53.在具体实施例中,扩充召回结果的丰富性主要通过在查询条件中增加影响结果的全部影响因子以影响召回结果的丰富性,影响因子为关联库中与查询词相对应的标签和类别,因此,若要改变各查询词召回结果的丰富性,可以通过改变关联库中各查询词对应的标
签和类别数量以改变召回结果的查全率。需要说明的是,在预先设定关联库时,对于不同的查询词可以根据预先要求的查全率,通过设定不同数量的与各查询词对应的影响因子以实现相应的丰富性。当然,也可以根据实际的业务需求,改变关联库中的影响因子数量来改变各查询词的丰富性。
54.本发明实施例所提供的搜索召回方法,可以根据预先设定的查全率来维护关联库中各查询词对应的影响因子的数量,以实现不同查询词的不同查全率,进而既保证召回结果的准确性的同时还可以保证预设的查全率,提升用户体验感。
55.在上述实施例中,考虑到时代的不断变化,会出现很多新的查询词以及与新查询词相对应的影响因子,因此,需要对关联库进行更新。需要说明的是,对于关联库的更新,可以是每隔预设周期进行一次更新,例如,每隔一周或一个月对关联库进行一次更新。也可以在关联库新增查询词以及与新增查询词对应的影响因子,或新增已有查询词对应的影响因子时,就对关联库进行一次更新,对此本发明不作限定。
56.本发明实施例所提供的搜索召回方法,通过不断更新关联库以保证各查询词随着时代的变化依旧能保证丰富性,同时还可以避免出现新的词汇时,无法保证召回结果的丰富性,进一步提升用户的搜索体验感。
57.在具体实施例中,为了进一步保证搜索召回的召回结果的准确性,通过基于词匹配的召回方式进行召回的同时,建立基于查准率的排序模型。当获取到用户的查询词后,对搜索引擎中每个待检索文档构建倒排索引,并对查询词进行分词,利用tf
‑
idf算法对查询词的分词结果与待检索文的倒排索引进行关联性匹配计算得到召回结果,然后依据基于查准率的排序模型,影响召回结果的得分并对召回结果进行排序,从而获得准确性高的召回结果。
58.本发明实施例所提供的搜索召回方法,通过建立基于查准率的排序模型,对召回结果进行增加得分并排序以便获得准确率高的召回结果,进一步保证了召回结果的查准率,以便于后续对召回结果丰富性的扩充,提升用户体验感。
59.在上述实施例的基础上,考虑到能快速判别各召回结果是否可以增加得分,则根据不同的业务需求,对搜素引擎中的文档配置对应的业务字段以便于提升召回结果的排名,进而保证召回结果的准确率。为了便于理解,下面将举例说明。
60.例如,在一系列的企业文档中,有的是通过工商认证,有些是三无企业,当对搜索引擎的文档标志为是否为工商认证时,若是工商认证则得分加一,若不是工商认证则不改变得分,对于是否为工商认证的标志,可以是数字、中文或英文等,对此本发明不作限定,例如,1标志为工商认证,0标志为非工商认证,当基于查准率的排序模型对召回结果进行处理,识别到数字1时,确定召回结果为工商认证,则对于工商认证的召回结果进行加分以便于在排序过程中提升排名。因此,在基于词匹配的召回方式中,标志为工商认证的字段增加最终打分,并在排序过程中影响排序结果,进而保证搜索结果的准确性。
61.本发明实施例所提供的搜索召回方法,通过对搜素引擎中的文档配置对应的业务字段,进而可以根据召回结果的字段标志快速判别各召回结果是否增加得分,并对增加得分后的各召回结果进行排序以获取准确率高的召回结果。
62.在上述实施例中,对于一种搜索召回方法进行了详细描述,本发明还提供一种搜索召回装置对应的实施例。需要说明的是,本发明从两个角度对装置部分的实施例进行描
述,一种是基于功能模块的角度,另一种是基于硬件结构的角度。
63.图2为本发明实施例所提供的搜索召回装置的结构图,如图2所示,该装置包括:
64.获取模块10,用于获取查询词。
65.召回模块11,用于通过基于词匹配的召回方式对查询词进行召回得到召回结果。
66.增加模块12,用于若召回结果满足准确率条件,则在查询条件中增加影响召回结果的影响因子展开新的召回,其中,影响因子为与查询词对应的标签和/或类别。
67.作为优选的实施方式,该装置还包括更新模块和配置模块,更新模块用于每隔预设周期,对关联库进行更新,配置模块用于根据不同的业务需求,对搜索引擎中的文档结果配置对应的业务字段以便于提升召回结果的排名。
68.由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
69.本发明所提供的一种搜索召回装置,包括:获取用户需要搜索的查询词,并通过基于词匹配的召回方式对查询词进行召回得到召回结果,若获得的召回结果满足预先设定的准确率条件,则在搜索条件中增加影响召回结果的影响因子并展开新的召回,其中,影响因子为与查询词相对应的标签和/或类别。由此可见,本发明所提供的技术方案,通过基于词匹配的召回方式对查询词进行召回以保证召回结果的查准率,当召回结果是否满足预设的准确率条件时,在查询条件中增加影响召回结果的影响因子并展开新的召回以保证召回结果的查全率,由此既保证了召回结果的准确性同时兼顾了召回结果的丰富性,提升用户的搜索体验感。
70.图3为本发明另一实施例提供的一种搜索召回装置的结构图,如图3所示,搜索召回装置包括:存储器20,用于存储计算机程序;
71.处理器21,用于执行计算机程序时实现如上述实施例所提到的一种搜索召回装置的步骤。
72.本实施例提供的搜索召回装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
73.其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理(digital signal processing,简称dsp)、现场可编程门阵列(field-programmable gate array,简称fpga)、可编程逻辑阵列(programmable logic array,简称pla)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(central processing unit,简称cpu);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有图像处理器(graphics processing unit,简称gpu),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括人工智能(artificial intelligence,简称ai)处理器,该ai处理器用于处理有关机器学习的计算操作。
74.存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的搜索召
回方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括windows、unix、linux等。数据203可以包括但不限于在搜索召回中涉及的相关数据等。
75.在一些实施例中,搜索召回装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
76.本领域技术人员可以理解,图3中示出的结构并不构成对搜索召回装置的限定,可以包括比图示更多或更少的组件。
77.本发明实施例提供的搜索召回装置,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如下方法:搜索召回方法。
78.本发明实施例提供的搜索召回装置,在用户搜索召回过程中,既保证了召回结果的准确性又兼顾了召回结果的丰富性,提高了用户的搜索体验感。
79.最后,本发明还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
80.可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read
‑
only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等各种可以存储程序代码的介质。
81.以上对本发明所提供的一种搜索召回方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
82.还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。