搜索结果的确定方法及装置、存储介质、电子装置与流程

文档序号:33317965发布日期:2023-03-03 16:38阅读:37来源:国知局
搜索结果的确定方法及装置、存储介质、电子装置与流程

1.本发明涉及通信领域,具体而言,涉及一种搜索结果的确定方法及装置、存储介质、电子装置。


背景技术:

2.近年来,搜索引擎获得快速发展。企业经过多年的运作,积累了大量的运营、工作、生产、研发的经验与知识,在企业内部不断产出知识文档。这些知识积累可以用于指导企业或组织员工行动、减少操作失误、提升工作效率、降低运营成本,因此,如何快速、精确的让用户使用搜索引擎获取到所需知识是必不可少的一个环节。
3.在相关技术中,常用的文档检索方法是用户通过输入搜索语句来利用搜索语句在数据库中执行搜索操作,并得到包含输入搜索语句内容的所有文档;根据搜索返回结果的时间顺序,将文档显示在搜索结果列表。但是该种文档检索方法存在检索出的文档精确度不高,上下文内容与搜索语句语义不符等问题。使得搜索的准确性、全面性都不够,需要耗费用户大量精力去对结果进行再过滤。
4.针对相关技术中,无法快速准确的确定包含所需文档的搜索结果等问题,尚未提出有效的解决方案。


技术实现要素:

5.本发明实施例提供了一种搜索结果的确定方法及装置、存储介质、电子装置,以至少解决相关技术中,无法快速准确的确定包含所需文档的搜索结果等问题。
6.根据本发明的一个实施例,提供了一种搜索结果的确定方法,包括:获取待搜索语句,并从结构化数据库确定与待搜索语句存在内容关联的多个文档,其中,待搜索语句用于指示目标对象查找目标文档的输入文本;确定多个文档中每一个文档与待搜索语句之间的契合度,并根据契合度确定待搜索语句的搜索结果,其中,契合度通过每一个文档与待搜索语句的匹配度,以及每一个文档与待搜索语句的相似度确定。
7.在一个示例性的实施例中,从结构化数据库确定与待搜索语句存在内容关联的多个文档,包括:根据预设解析规则对待搜索语句进行解析,得到与待搜索语句对应的多个搜索关键词;使用多个搜索关键词在结构化数据库进行关键词查询;根据关键词查询的结果确定与待搜索语句存在内容关联的多个文档。
8.在一个示例性的实施例中,获取待搜索语句,并从结构化数据库确定与待搜索语句存在内容关联的多个文档之后,上述方法还包括:确定多个文档中每一个文档对应的语句语义;比较每一个文档的语句语义与待搜索语句的目标语句语义的匹配度。
9.在一个示例性的实施例中,比较每一个文档的语句语义与待搜索语句的目标语句语义的匹配度之后,上述方法还包括:确定每一个文档的语句语义与目标语句语义在不同维度的目标相似度,其中,不同维度包括以下至少之一:确定语句语义与目标语句语义在应用场景上的第一目标相似度、确定语句语义与目标语句语义中每一个词语的基本含义的第
二目标相似度、确定语句语义与目标语句语义在句法结构上的第三目标相似度,其中,句法结构是指语句中某一成分与其他成分之间在语义上的联系。
10.在一个示例性的实施例中,确定多个文档中每一个文档与待搜索语句之间的契合度,包括:确定匹配度对应的第一权重以及确定目标相似度对应的第二权重,其中,第二权重包括以下至少之一:第一目标相似度的第一目标权重,第二目标相似度的第二目标权重,确定第三目标相似度的第三目标权重;将根据匹配度和第一权重确定出的第一乘积值与根据目标相似度和第二权重确定出的第二乘积值相加求和,得到加权处理结果;将加权处理结果作为文档与待搜索语句对应的契合度。
11.在一个示例性的实施例中,根据契合度确定检索结果,包括:获取确定出的每一个文档与待搜索语句的契合度;根据契合度的大小关系对多个文档进行排序,得到第一列表;将第一列表中契合度大于预设阈值的契合度对应的文档提取出来,得到第二列表;将第二列表作为待搜索语句的搜索结果。
12.根据本发明的另一个实施例,还提供了一种搜索结果的确定装置,包括:获取模块,用于获取待搜索语句,并从结构化数据库确定与待搜索语句存在内容关联的多个文档,其中,待搜索语句用于指示目标对象查找目标文档的输入文本;确定模块,用于确定多个文档中每一个文档与待搜索语句之间的契合度,并根据契合度确定待搜索语句的搜索结果,其中,契合度通过每一个文档与待搜索语句的匹配度,以及每一个文档与待搜索语句的相似度确定。
13.在一个示例性的实施例中,上述获取模块,还用于根据预设解析规则对待搜索语句进行解析,得到与待搜索语句对应的多个搜索关键词;使用多个搜索关键词在结构化数据库进行关键词查询;根据关键词查询的结果确定与待搜索语句存在内容关联的多个文档。
14.在一个示例性的实施例中,上述装置还包括:匹配模块,用于确定多个文档中每一个文档对应的语句语义;比较每一个文档的语句语义与待搜索语句的目标语句语义的匹配度。
15.在一个示例性的实施例中,上述装置还包括:相似模块,用于确定每一个文档的语句语义与目标语句语义在不同维度的目标相似度,其中,不同维度包括以下至少之一:确定语句语义与目标语句语义在应用场景上的第一目标相似度、确定语句语义与目标语句语义中每一个词语的基本含义的第二目标相似度、确定语句语义与目标语句语义在句法结构上的第三目标相似度,其中,句法结构是指语句中某一成分与其他成分之间在语义上的联系。
16.在一个示例性的实施例中,上述确定模块,还用于确定匹配度对应的第一权重以及确定目标相似度对应的第二权重,其中,第二权重包括以下至少之一:第一目标相似度的第一目标权重,第二目标相似度的第二目标权重,确定第三目标相似度的第三目标权重;将根据匹配度和第一权重确定出的第一乘积值与根据目标相似度和第二权重确定出的第二乘积值相加求和,得到加权处理结果;将加权处理结果作为文档与待搜索语句对应的契合度。
17.在一个示例性的实施例中,上述确定模块,还用于获取确定出的每一个文档与待搜索语句的契合度;根据契合度的大小关系对多个文档进行排序,得到第一列表;将第一列表中契合度大于预设阈值的契合度对应的文档提取出来,得到第二列表;将第二列表作为
待搜索语句的搜索结果。
18.根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
19.根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
20.通过本发明,获取待搜索语句,并从结构化数据库确定与待搜索语句存在内容关联的多个文档,其中,待搜索语句用于指示目标对象查找目标文档的输入文本;确定多个文档中每一个文档与待搜索语句之间的契合度,并根据契合度确定待搜索语句的搜索结果,其中,契合度通过每一个文档与待搜索语句的匹配度,以及每一个文档与待搜索语句的相似度确定,即通过在待搜索语句对应的结构化数据库中查找出多个内容关联的文档,进一步,确定出搜索语句与每一个文档之间的契合度,根据契合度确定出符合待搜索语句需求的文档,解决了相关技术中无法快速准确的确定包含所需文档的搜索结果等问题,实现从文档整体层面进行契合度匹配,使得搜索过程耗时和搜索结果的精确度均有所提升,提升了得到搜索结果的效率。
附图说明
21.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
22.图1是本发明实施例的一种搜索结果的确定方法的计算机终端的硬件结构框图;
23.图2是根据本发明实施例的搜索结果的确定方法的流程图;
24.图3为根据本发明可选实施例的文档检索方法的流程图;
25.图4为根据本发明可选实施例的文档库与结构化数据库中的数据交互示意图;
26.图5为根据本发明可选实施例的搜索处理装置的结构框图;
27.图6是根据本发明实施例的一种搜索结果的确定装置的结构框图。
具体实施方式
28.下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
29.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
30.本技术实施例所提供的方法实施例可以在云平台、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种搜索结果的确定方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,在一个示例性实施例中,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括
比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
31.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的搜索结果的确定方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
32.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
33.在本实施例中提供了一种搜索结果的确定方法,应用于上述计算机终端,图2是根据本发明实施例的搜索结果的确定方法的流程图,该流程包括如下步骤:
34.步骤s202,获取待搜索语句,并从结构化数据库确定与所述待搜索语句存在内容关联的多个文档,其中,所述待搜索语句用于指示目标对象查找目标文档的输入文本;
35.步骤s204,确定所述多个文档中每一个文档与所述待搜索语句之间的契合度,并根据所述契合度确定所述待搜索语句的搜索结果,其中,所述契合度通过每一个文档与所述待搜索语句的匹配度,以及每一个文档与所述待搜索语句的相似度确定。
36.需要说明的是,上述匹配度是指待搜索语句对应的语义与文档中包含的语义是否处于相同领域的值,即同一个词在不同的领域下可能有不同的语义,不同的词可能包含相同的语义,此次,旨在对所处领域的相关性比较。
37.通过上述技术方案,获取待搜索语句,并从结构化数据库确定与待搜索语句存在内容关联的多个文档,其中,待搜索语句用于指示目标对象查找目标文档的输入文本;确定多个文档中每一个文档与待搜索语句之间的契合度,并根据契合度确定待搜索语句的搜索结果,其中,契合度通过每一个文档与待搜索语句的匹配度,以及每一个文档与待搜索语句的相似度确定,即通过在待搜索语句对应的结构化数据库中查找出多个内容关联的文档,进一步,确定出搜索语句与每一个文档之间的契合度,根据契合度确定出符合待搜索语句需求的文档,解决了相关技术中无法快速准确的确定包含所需文档的搜索结果等问题,实现从文档整体层面进行契合度匹配,使得搜索过程耗时和搜索结果的精确度均有所提升,提升了得到搜索结果的效率。
38.在一个示例性的实施例中,从结构化数据库确定与待搜索语句存在内容关联的多个文档,包括:根据预设解析规则对待搜索语句进行解析,得到与待搜索语句对应的多个搜索关键词;使用多个搜索关键词在结构化数据库进行关键词查询;根据关键词查询的结果确定与待搜索语句存在内容关联的多个文档。
39.简而言之,为了提升使用搜索语句进行查找的效率,通过训练好的分词模型对待搜索语句进行分解,从而确定出多个搜索关键词,进而使用搜索关键词在结构化数据库进
行关键词查询,由于将文档以结构化方式存储在数据库中,接收到搜索语句在结构化数据库中执行搜索,输出搜索结果,搜索操作耗费时间较短,搜索过程占用资源较少,因此,可以快速确定出与待搜索语句存在内容关联的多个文档。
40.在一个示例性的实施例中,获取待搜索语句,并从结构化数据库确定与待搜索语句存在内容关联的多个文档之后,上述方法还包括:确定多个文档中每一个文档对应的语句语义;比较每一个文档的语句语义与待搜索语句的目标语句语义的匹配度。
41.可以理解的是,由于不同的语境下相同词语或者语句的语义可能存在不同,因此,需要确定每一个文档的语句语义与待搜索语句的目标语句语义是否处于相同的语境,进而确定对应的语境的匹配度。
42.在一个示例性的实施例中,比较每一个文档的语句语义与待搜索语句的目标语句语义的匹配度之后,上述方法还包括:确定每一个文档的语句语义与目标语句语义在不同维度的目标相似度,其中,不同维度包括以下至少之一:确定语句语义与目标语句语义在应用场景上的第一目标相似度、确定语句语义与目标语句语义中每一个词语的基本含义的第二目标相似度、确定语句语义与目标语句语义在句法结构上的第三目标相似度,其中,句法结构是指语句中某一成分与其他成分之间在语义上的联系。
43.例如,确定文档表面内容和文本结构与搜索语句的文本相似程度;具体的,从表面文本内容相关度、文本的表面字词和表面文本结构之间的关联性等多维度确定文档与搜索语句的相似程度;其中,表面文本内容相关度是指搜索出的文档其文本的应用场景与搜索语句对应的应用场景的相似性;文本的表面字词用于指示搜索出的文档其文本中字词对应的基本含义与搜索语句中关键词的基本含义的相似性;表面文本结构用于指示搜索出的文档其文本中的词语同文本整体结构的一致性,即确定搜索出的文档中词语的句法结构与搜索语句中关键词在句法结构上的相似性,句法结构是指该语句中的某一成分与其他成分之间在语义上的联系。
44.需要说明的是,上述对匹配度和相似度的确定在流程上还可以是:定多个文档中每一个文档对应的语句语义之后,先执行确定每一个文档的语句语义与目标语句语义在不同维度的目标相似度,其次执行比较每一个文档的语句语义与待搜索语句的目标语句语义的匹配度的操作;并且为了使得确定契合度的流程更加简洁,还可同时进行不同维度的目标相似度和匹配度的确认,以减少运算时间,提升确定效率。
45.在一个示例性的实施例中,确定多个文档中每一个文档与待搜索语句之间的契合度,包括:确定匹配度对应的第一权重以及确定目标相似度对应的第二权重,其中,第二权重包括以下至少之一:第一目标相似度的第一目标权重,第二目标相似度的第二目标权重,确定第三目标相似度的第三目标权重;将根据匹配度和第一权重确定出的第一乘积值与根据目标相似度和第二权重确定出的第二乘积值相加求和,得到加权处理结果;将加权处理结果作为文档与待搜索语句对应的契合度。
46.例如,文本契合度ε=α*0.2+β*0.3+γ*0.4+δ*0.1,其中,语句语义的匹配度为α、表面文本内容相关度的相似度为β、文本的表面字词的相似度为γ和表面文本结构的相似度为δ。
47.在一个示例性的实施例中,根据契合度确定检索结果,包括:获取确定出的每一个文档与待搜索语句的契合度;根据契合度的大小关系对多个文档进行排序,得到第一列表;
将第一列表中契合度大于预设阈值的契合度对应的文档提取出来,得到第二列表;将第二列表作为待搜索语句的搜索结果。
48.可以理解的是,为了输出更加准确的结果,在确定出所有关联文档与待搜索语句的契合度后,按契合度降序排序,并选出契合度大于预设阈值的多个契合度对应的文档作为搜索结果输出,以实现从文档整体层面进行契合度匹配,使得搜索过程耗时和搜索结果的精确度均有所提升。
49.为了更好的理解上述搜索结果的确定方法的过程,以下结合可选实施例对上述搜索结果的确定方法流程进行说明,但不用于限定本发明实施例的技术方案。
50.在一个可选实施例中,提供了一种基于语义和表面内容相似程度的文档检索方法;通过对与搜索语句内容相关的文档再进行处理,确定文档与搜索语句语义的匹配程度,确定文档表面内容与搜索语句的文本相似程度,将二者综合考虑,对文档相关值进行评分。基于相关值评分,将评分高的一定数量文档作为搜索结果输出。此外,预先将文档以结构化方式存储在数据库中,接收到搜索语句在结构化数据库中执行搜索,输出搜索结果,搜索操作耗费时间较短,搜索过程占用资源较少。解决搜索引擎搜索得出的结果与搜索语句语义不符、精确度不高的问题;以及搜索操作所占用的计算资源过多,耗时较长的问题。
51.需要说明的是,基于语义和表面内容相似程度的文档检索方法得到的搜索结果全面且精确度高。使用此种文档检索方法目的就是让用户快速、精确检索出所需知识。
52.作为一中可选的实施方式,如图3所示为一种文档检索方法的流程图,具体包括以下步骤:
53.步骤1、确定搜索语句;
54.步骤2、响应检测到搜索语句的输入完成,确定接收到检索请求;
55.步骤3、基于接收到的搜索语句,解析出多个搜索关键词,在结构化数据库中搜索;
56.可选的,结构化数据库中的文档是将文档库中的文档发送至搜索引擎,搜索引擎利用插件解析文档,提取文档内容,存储到结构化数据库中;如图4所示,为文档库与结构化数据库中的数据交互示意图;将文档以结构化方式存储在数据库中,虽然搜索过程中会执行搜索装置中的匹配度、相似程度等多种算法,但是整体搜索效率较之传统搜索方法还是会有所提升,并且搜索过程中占用的计算资源也更低。
57.步骤4、确定文档深层语义与搜索语句语义的匹配程度;
58.步骤5、确定文档表面内容和文本结构与搜索语句的文本相似程度;具体的,从表面文本内容相关度、文本的表面字词和表面文本结构之间的关联性等多维度确定文档与搜索语句的相似程度;其中,表面文本内容相关度是指搜索出的文档其文本的应用场景与搜索语句对应的应用场景的相似性;文本的表面字词用于指示搜索出的文档其文本中字词对应的基本含义与搜索语句中关键词的基本含义的相似性;表面文本结构用于指示搜索出的文档其文本中的词语同文本整体结构的一致性,即确定搜索出的文档中词语的句法结构与搜索语句中关键词在句法结构上的相似性,句法结构是指该语句中的某一成分与其他成分之间在语义上的联系;
59.步骤6、基于语义匹配程度和文本相似程度,对文档进行综合判定;
60.步骤7、基于综合判定结果,与搜索语句契合度高的文档作为结果输出;
61.综上,整体的文档检索流程如下:获取搜索语句,检索出所有与搜索语句内容相关
的文档;确定文档与搜索语句语义的匹配程度;确定文档表面内容与搜索语句的文本相似程度;综合考虑二者,进行文档相关值评分,将评分高的一定数量文档作为搜索结果输出。即上述搜索处理方法基于获取到的搜索语句在结构化数据库进行搜索后,从结构化数据库中检索出所有与搜索语句内容相关的文档。首先确定文档与搜索语句语义的匹配程度以及确定文档表面内容与搜索语句的文本相似程度,然后综合分析将契合度高的文档作为搜索结果输出。该搜索过程通过表面文本内容相关度、文本的表面字词和表面文本结构之间的关联性等多维度来关注搜索语句,还通过语义相关度对搜索语句和文档在深层语义方面的关联关系进行挖掘和理解,以实现从文档整体层面进行契合度匹配,使得搜索过程耗时和搜索结果的精确度均有所提升。
62.作为一种可选的实施方式,本发明可选实施例还提供了一种搜索处理装置,如图5所示,包含:获取模块52、语义判断模块54、表面内容判断模块56、整合分析模块58和结果输出模块60。
63.获取模块52:获取搜索语句,将搜索语句解析成多个搜索关键词,从结构化数据库中检索出所有与搜索语句内容相关的文档。
64.语义判断模块54:确定文档与搜索语句语义的匹配程度。
65.表面内容判断模块56:确定文档表面内容与搜索语句的文本相似程度,并结合文档上下文内容进行分析。具体的,从表面文本内容相关度、文本的表面字词和表面文本结构之间的关联性等多维度确定文档与搜索语句的相似程度;其中,表面文本内容相关度是指搜索出的文档其文本的应用场景与搜索语句对应的应用场景的相似性;文本的表面字词用于指示搜索出的文档其文本中字词对应的基本含义与搜索语句中关键词的基本含义的相似性;表面文本结构用于指示搜索出的文档其文本中的词语同文本整体结构的一致性,即确定搜索出的文档中词语的句法结构与搜索语句中关键词在句法结构上的相似性,句法结构是指该语句中的某一成分与其他成分之间在语义上的联系;
66.整合分析模块58:基于语义匹配程度和文本相似程度对检索出的文档进行分析,对分析得出的结果进行综合判定。
67.可选地,将检索到的所有与搜索语句内容相关的文档根据语义匹配程度和文本相似程度两方面按照一定权重计算得出文档契合度值。
68.结果输出模块60:基于综合判定结果,与搜索语句契合度高的一定数量的文档(按契合度降序排序)作为搜索结果输出。
69.本发明可选实施例,通过用算法得出文档深层语义与搜索语句语义的匹配度和基于相似度计算式从表面文本内容相关度、文本的表面字词和表面文本结构之间的关联性等多维度确定文档与搜索语句的相似程度,得出匹配度和相似程度后,再根据权重占比计算得出契合度值;进而让用户输入搜索语句后更快速、更精确地得到搜索结果。利用基于语义和表面内容相似程度的文档检索方法,能够改善传统文档检索方法检索结果不精确的问题,大大提高了检索结果的精确度;
70.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储
介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
71.在本实施例中还提供了一种搜索结果的确定装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
72.图6是根据本发明实施例的一种搜索结果的确定装置的结构框图;如图6所示,包括:
73.获取模块62,用于获取待搜索语句,并从结构化数据库确定与所述待搜索语句存在内容关联的多个文档,其中,所述待搜索语句用于指示目标对象查找目标文档的输入文本;
74.确定模块64,用于确定所述多个文档中每一个文档与所述待搜索语句之间的契合度,并根据所述契合度确定所述待搜索语句的搜索结果,其中,所述契合度通过每一个文档与所述待搜索语句的匹配度,以及每一个文档与所述待搜索语句的相似度确定。
75.通过上述技术方案,获取待搜索语句,并从结构化数据库确定与待搜索语句存在内容关联的多个文档,其中,待搜索语句用于指示目标对象查找目标文档的输入文本;确定多个文档中每一个文档与待搜索语句之间的契合度,并根据契合度确定待搜索语句的搜索结果,其中,契合度通过每一个文档与待搜索语句的匹配度,以及每一个文档与待搜索语句的相似度确定,即通过在待搜索语句对应的结构化数据库中查找出多个内容关联的文档,进一步,确定出搜索语句与每一个文档之间的契合度,根据契合度确定出符合待搜索语句需求的文档,解决了相关技术中无法快速准确的确定包含所需文档的搜索结果等问题,实现从文档整体层面进行契合度匹配,使得搜索过程耗时和搜索结果的精确度均有所提升,提升了得到搜索结果的效率。
76.在一个示例性的实施例中,上述获取模块,还用于根据预设解析规则对待搜索语句进行解析,得到与待搜索语句对应的多个搜索关键词;使用多个搜索关键词在结构化数据库进行关键词查询;根据关键词查询的结果确定与待搜索语句存在内容关联的多个文档。简而言之,为了提升使用搜索语句进行查找的效率,通过训练好的分词模型对待搜索语句进行分解,从而确定出多个搜索关键词,进而使用搜索关键词在结构化数据库进行关键词查询,由于将文档以结构化方式存储在数据库中,接收到搜索语句在结构化数据库中执行搜索,输出搜索结果,搜索操作耗费时间较短,搜索过程占用资源较少,因此,可以快速确定出与待搜索语句存在内容关联的多个文档。
77.在一个示例性的实施例中,上述装置还包括:匹配模块,用于确定多个文档中每一个文档对应的语句语义;比较每一个文档的语句语义与待搜索语句的目标语句语义的匹配度。可以理解的是,由于不同的语境下相同词语或者语句的语义可能存在不同,因此,需要确定每一个文档的语句语义与待搜索语句的目标语句语义是否处于相同的语境,进而确定对应的语境的匹配度。
78.在一个示例性的实施例中,上述装置还包括:相似模块,用于确定每一个文档的语句语义与目标语句语义在不同维度的目标相似度,其中,不同维度包括以下至少之一:确定语句语义与目标语句语义在应用场景上的第一目标相似度、确定语句语义与目标语句语义
中每一个词语的基本含义的第二目标相似度、确定语句语义与目标语句语义在句法结构上的第三目标相似度,其中,句法结构是指语句中某一成分与其他成分之间在语义上的联系。
79.例如,确定文档表面内容和文本结构与搜索语句的文本相似程度;具体的,从表面文本内容相关度、文本的表面字词和表面文本结构之间的关联性等多维度确定文档与搜索语句的相似程度;其中,表面文本内容相关度是指搜索出的文档其文本的应用场景与搜索语句对应的应用场景的相似性;文本的表面字词用于指示搜索出的文档其文本中字词对应的基本含义与搜索语句中关键词的基本含义的相似性;表面文本结构用于指示搜索出的文档其文本中的词语同文本整体结构的一致性,即确定搜索出的文档中词语的句法结构与搜索语句中关键词在句法结构上的相似性,句法结构是指该语句中的某一成分与其他成分之间在语义上的联系。
80.需要说明的是,上述对匹配度和相似度的确定在流程上还可以是:定多个文档中每一个文档对应的语句语义之后,先执行确定每一个文档的语句语义与目标语句语义在不同维度的目标相似度,其次执行比较每一个文档的语句语义与待搜索语句的目标语句语义的匹配度的操作;并且为了使得确定契合度的流程更加简洁,还可同时进行不同维度的目标相似度和匹配度的确认,以减少运算时间,提升确定效率。
81.在一个示例性的实施例中,上述确定模块,还用于确定匹配度对应的第一权重以及确定目标相似度对应的第二权重,其中,第二权重包括以下至少之一:第一目标相似度的第一目标权重,第二目标相似度的第二目标权重,确定第三目标相似度的第三目标权重;将根据匹配度和第一权重确定出的第一乘积值与根据目标相似度和第二权重确定出的第二乘积值相加求和,得到加权处理结果;将加权处理结果作为文档与待搜索语句对应的契合度。例如,文本的契合度ε=α*0.2+β*0.3+γ*0.4+δ*0.1,其中,语句语义的匹配度为α、表面文本内容相关度的相似度为β、文本的表面字词的相似度为γ和表面文本结构的相似度为δ。
82.在一个示例性的实施例中,上述确定模块,还用于获取确定出的每一个文档与待搜索语句的契合度;根据契合度的大小关系对多个文档进行排序,得到第一列表;将第一列表中契合度大于预设阈值的契合度对应的文档提取出来,得到第二列表;将第二列表作为待搜索语句的搜索结果。可以理解的是,为了输出更加准确的结果,在确定出所有关联文档与待搜索语句的契合度后,按契合度降序排序,并选出契合度大于预设阈值的多个契合度对应的文档作为搜索结果输出,以实现从文档整体层面进行契合度匹配,使得搜索过程耗时和搜索结果的精确度均有所提升。
83.本发明的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的方法。
84.在一个示例性实施例中,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
85.s1,获取待搜索语句,并从结构化数据库确定与所述待搜索语句存在内容关联的多个文档,其中,所述待搜索语句用于指示目标对象查找目标文档的输入文本;
86.s2,确定所述多个文档中每一个文档与所述待搜索语句之间的契合度,并根据所述契合度确定所述待搜索语句的搜索结果,其中,所述契合度通过每一个文档与所述待搜索语句的匹配度,以及每一个文档与所述待搜索语句的相似度确定。
87.在一个示例性实施例中,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
88.本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
89.在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
90.在一个示例性实施例中,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
91.s1,获取待搜索语句,并从结构化数据库确定与所述待搜索语句存在内容关联的多个文档,其中,所述待搜索语句用于指示目标对象查找目标文档的输入文本;
92.s2,确定所述多个文档中每一个文档与所述待搜索语句之间的契合度,并根据所述契合度确定所述待搜索语句的搜索结果,其中,所述契合度通过每一个文档与所述待搜索语句的匹配度,以及每一个文档与所述待搜索语句的相似度确定。
93.在一个示例性实施例中,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
94.显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,在一个示例性实施例中,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
95.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1