数据检索方法、装置、电子设备和可读存储介质与流程

文档序号:33190194发布日期:2023-02-04 08:06阅读:35来源:国知局
数据检索方法、装置、电子设备和可读存储介质与流程

1.本技术涉及计算机技术领域,特别是涉及一种数据检索方法、装置、电子设备和可读存储介质。


背景技术:

2.目前,随着互联网技术的发展,越来越多的人选择通过互联网的方式进行信息检索,例如,人们可以通过互联网检索想阅读的文章,也可以通过互联网检索想查看的图片、视频,还可以通过互联网检索想了解的商品等等。
3.在相关技术中,用户可以通过终端输入一个或多个关键词进行检索,以得到相应的信息。
4.然而,由于互联网存在大量无效的信息,所以,如何使得用户能够准确的检索到有效信息是目前亟需解决的问题。


技术实现要素:

5.有鉴于此,本技术实施例提供一种数据检索方法、装置、电子设备和可读存储介质,以提高数据检索的准确度。
6.第一方面,提供了一种数据检索方法,所述方法应用于电子设备,所述方法包括:
7.接收数据检索请求,所述数据检索请求至少包括文本信息。
8.根据所述文本信息,确定第一输入文本和至少一个第二输入文本,所述第一输入文本包括所述文本信息中的全部关键词,所述第二输入文本包括所述文本信息中的部分关键词。
9.确定所述第二输入文本对应的概率映射关系,所述概率映射关系包括所述第二输入文本与至少一个备选文本相同的概率。
10.根据所述概率映射关系和所述第一输入文本,确定匹配结果。
11.第二方面,提供了一种数据检索装置,所述装置应用于电子设备,所述装置包括:
12.接收模块,用于接收数据检索请求,所述数据检索请求至少包括文本信息。
13.输入文本确定模块,用于根据所述文本信息,确定第一输入文本和至少一个第二输入文本,所述第一输入文本包括所述文本信息中的全部关键词,所述第二输入文本包括所述文本信息中的部分关键词。
14.概率映射关系确定模块,用于确定所述第二输入文本对应的概率映射关系,所述概率映射关系包括所述第二输入文本与至少一个备选文本相同的概率。
15.匹配结果确定模块,用于根据所述概率映射关系和所述第一输入文本,确定匹配结果。
16.第三方面,本技术实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
17.第四方面,本技术实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
18.第五方面,本技术实施例提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如第一方面所述的方法。
19.在本技术实施例中,可以通过文本信息确定包含文本信息全部关键词的第一输入文本,以及包含文本信息部分关键词的第二输入文本,然后,可以确定第二输入文本对应的概率映射关系,并根据该概率映射关系以及第一输入文本确定匹配结果。在此过程中,由于概率映射关系包含第二输入文本与至少一个备选文本相同的概率,所以,本技术实施例综合概率映射关系以及第一输入文本可以更准确的确定匹配结果。
附图说明
20.通过以下参照附图对本技术实施例的描述,本技术实施例的上述以及其它目的、特征和优点将更为清楚,在附图中:
21.图1为本技术实施例数据检索系统的示意图;
22.图2为本技术实施例数据检索方法的流程图;
23.图3为本技术实施例确定第一输入文本和第二输入文本的流程图;
24.图4为本技术实施例通过深度语义匹配模型确定匹配结果的流程图;
25.图5为本技术实施例另一种数据检索方法的流程图;
26.图6为本技术实施例确定关键词文本、正样本和负样本的流程图;
27.图7为本技术实施例展示界面的示意图;
28.图8为本技术实施例数据检索装置的结构示意图;
29.图9为本技术实施例电子设备的结构示意图。
具体实施方式
30.以下基于实施例对本技术进行描述,但是本技术并不仅仅限于这些实施例。在下文对本技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本技术。为了避免混淆本技术的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
31.此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
32.除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
33.在本技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。
34.在相关技术中,由于互联网中充斥大量对于用户无用的信息,所以,当用户通过关键词进行数据检索时,检索的结果中会出现大量无效的检索结果,使得检索的效率较低。
35.为了解决上述问题,本技术实施例提供一种数据检索系统,该系统可以设置在电子设备,其中,电子设备可以是终端或者服务器,终端可以是智能手机、平板电脑或者个人
计算机(personal computer,pc)等,服务器可以是单个服务器,也可以是以分布式方式配置的服务器集群,还可以是云服务器。
36.通过设置在电子设备中的数据检索系统,可以执行本技术实施例的数据检索方法,如图1所示,图1为本技术实施例数据检索系统的示意图,该示意图包括:用户端11和电子设备12。
37.在本技术实施例中,用户可以通过用户端11向电子设备12发送数据检索请求,其中,数据检索请求至少包括文本信息,该文本信息可以是用户通过用户端11输入的搜索字段。
38.如图1所示,电子设备12与用户端11可以通过网络进行无线数据传输,在另一种情况下,电子设备12与用户端11也可以通过数据线进行有线数据传输。
39.当电子设备12接收到用户端11发送的数据检索请求后,电子设备12可以对文本信息进行关键词提取,确定第一输入文本和至少一个第二输入文本。其中,第一输入文本可以包括文本信息中的全部关键词,第二输入文本可以包括文本信息中的部分关键词。
40.另外,本技术实施例中第一输入文本和第二输入文本的“第一”和“第二”仅是用于区分两种输入文本,不起到其它限定作用。
41.然后,电子设备可以根据第一输入文本和第二输入文本来确定匹配结果,其中,匹配结果是与数据检索请求中的文本信息相匹配的字段,在实际应用中,匹配结果可以是视频的简介信息、视频的标题、图片的简介、商品的标题、商品的描述信息等等。
42.下面将结合具体实施方式,对本技术实施例的数据检索方法进行详细的说明,如图2所示,具体步骤如下:
43.在步骤21,接收数据检索请求,数据检索请求至少包括文本信息。
44.其中,文本信息是在用户进行检索时输入的信息,其可以是中文形式的文本,也可以是其它语种文本,还可以是不同语种混合的文本。
45.在实际应用中,由于电子设备是根据关键词进行检索的,所以,在电子设备接收到数据检索请求后,可以针对数据检索请求中的文本信息进行清洗,去除文本信息中没有意义的部分。例如,电子设备可以去除文本信息中用于连接词语之间的字(例如连接形容词和名词的“的”),也可以去除文本信息中标点符号,还可以去除文本信息中没有意义的乱码。
46.在步骤22,根据文本信息,确定第一输入文本和至少一个第二输入文本。
47.其中,第一输入文本包括文本信息中的全部关键词,第二输入文本包括文本信息中的部分关键词,第二输入文本的数量也可以是一个或者多个。关键词为具有实际意义的词语,在本技术实施例中,可以通过删除文本信息中无意义的词语来得到关键词。
48.在一种优选的实施方式中,可以通过分词处理确定第一输入文本和至少一个第二输入文本。具体的,步骤22可以执行为:对文本信息进行分词处理,确定文本信息中的各关键词,然后基于文本信息中的各关键词,确定文本信息对应的第一输入文本,然后根据关键词删除规则,对第一输入文本中特定位置的关键词进行删除,确定至少一个第二输入文本。
49.如图3所示,图3为本技术实施例确定第一输入文本和第二输入文本的流程图。
50.电子设备在接收到数据检索请求后,可以通过分词工具对文本信息31进行分词处理,确定多个候选词(即候选词321、候选词322、候选词323、候选词324、候选词325和候选词326)。
51.其中,分词工具可以是针对中文的分词工具或者针对其它语种的分词工具,例如,分词工具可以是jieba分词工具,jieba分词工具是一种针对中文的分词工具,在实际应用中,jieba分词工具可以支持多种分词模式(例如精确分词模式、全模式等等),以应对多种应用场景。
52.在电子设备基于分词工具确定多个候选词后,电子设备可以在各候选词中确定至少一个关键词,进而确定第一输入文本33。在图3中,电子设备从各候选词中确定的关键词为候选词321、候选词322、候选词324、和候选词326,也就是说,电子设备将上述4个候选词确定为关键词并基于这4个关键词组成了第一输入文本33。
53.当然,在一些情况下,若文本信息中的词语全部存在实际意义,则电子设备也可以将全部候选词确定为关键词。
54.然后,电子设备可以根据关键词删除规则,对第一输入文本33中的部分关键词进行删除,进而确定至少一个第二输入文本(第二输入文本341、第二输入文本342和第二输入文本343)。
55.具体的,如图3所示,电子设备可以将第一输入文本33中的关键词“aa”删除,以确定第二输入文本341,可以将第一输入文本33中的关键词“dddd”删除,以确定第二输入文本342,可以将第一输入文本33中的关键词“bbb”和“dddd”删除,以确定第二输入文本343。
56.由此可见,在本技术实施例中,电子设备既可以在第一输入文本33中删除单个关键词以确定第二输入文本,也可以在第一输入文本33中删除多个关键词以确定第二输入文本。
57.在步骤23,确定第二输入文本对应的概率映射关系。
58.其中,概率映射关系包括第二输入文本与至少一个备选文本相同的概率。也就是说,概率映射关系中可以包括一个或多个备选文本,以及第二输入文本与每个备选文本相同的概率。
59.另外,若存在多个第二输入文本,则不同的输入文本与同一个备选文本的概率可能相同,也可能不同。
60.例如,如下表一所示,表一为一种概率映射关系的示意表,该表格具体如下:
61.表一
[0062] 第二输入文本1第二输入文本2备选文本10.890.23备选文本20.500.95备选文本30.470.47备选文本40.770.78备选文本50.910.90
………………
[0063]
在表一中,备选文本与第二输入文本之间数值用于表征二者相同的概率,例如,备选文本1与第二输入文本1之间的数值为0.89,该数值即表征备选文本1与第二输入文本1相同的概率为0.89(即89%)。其中,备选文本与第二输入文本之间的概率取值为[0,1],也就是说,备选文本与第二输入文本之间的概率最大为1,最小为0。
[0064]
在确定概率映射关系之后,可以根据概率映射关系和第一输入文本来确定匹配结
果。
[0065]
在步骤24,根据概率映射关系和第一输入文本,确定匹配结果。
[0066]
其中,匹配结果是与数据检索请求中的文本信息相匹配的字段,在实际应用中,匹配结果可以是视频的简介信息、视频的标题、图片的简介、商品的标题、商品的描述信息等等。
[0067]
在本技术实施例中,可以通过文本信息确定包含文本信息全部关键词的第一输入文本,以及包含文本信息部分关键词的第二输入文本,然后,可以确定第二输入文本对应的概率映射关系,并根据该概率映射关系以及第一输入文本确定匹配结果。在此过程中,由于概率映射关系包含第二输入文本与至少一个备选文本相同的概率,所以,本技术实施例综合概率映射关系以及第一输入文本可以更准确的确定匹配结果。
[0068]
进一步的,本技术实施例可以先基于概率映射关系对各个备选文本进行一次筛选,然后再根据第一输入文本对筛选得到的文本再进行一次筛选,以确定至少一个匹配结果。
[0069]
具体的,步骤24可以执行为:根据概率映射关系,确定第二输入文本对应的至少一个目标文本,然后根据第一输入文本和各目标文本之间相似度,在各目标文本中确定至少一个匹配结果。
[0070]
其中,由于概率映射关系包含第二输入文本与至少一个备选文本相同的概率,所以,本技术实施例可以基于概率映射关系中的各个概率,对备选文本进行筛选,从各个备选文本中确定至少一个目标文本。然后再通过第一输入文本和各目标文本之间相似度确定匹配结果,这样,可以实现对备选文本的两次筛选,提高了数据检索的精确程度。
[0071]
而且,由于第二输入文本中仅包含文本信息中的部分关键词(也就是说,第二输入文本中的关键词数量相对较少),所以,在各备选文本中会出现更多相匹配的目标文本,进而可以在一定程度上扩大搜索范围,使得匹配结果更加全面。
[0072]
在一种优选的实施方式中,本技术实施例可以通过预定概率阈值来确定目标文本,具体的,该过程可以执行为:根据概率映射关系,确定与第二输入文本相同的概率大于预定概率阈值的备选文本为目标文本。
[0073]
也就是说,通过设置预定概率阈值,可以将与第二输入文本相同概率大于该阈值的所有备选文本确定为目标文本,这样,可以将所有与文本信息相近似的备选文本作为目标文本并用于确定匹配结果,提高了数据检索的精确度。
[0074]
其中,预定概率阈值可以是根据实际情况进行设置的数值,例如0.85、0.9、0.95等等,设置的数值越高,目标文本的数量会越少。反之,设置的数值越低,目标文本的数量会越多。
[0075]
也就是说,若用户需求精确度较高的匹配结果,则可以设置数值较高的预定概率阈值,若用户需求数量较多的匹配结果,则可以设置数值较低的预定概率阈值。
[0076]
另外,如果存在多个第二输入文本,则可以将各第二输入文本的概率映射关系综合并进行筛选。
[0077]
在另一种优选的实施方式中,本技术实施例可以通过对概率进行排序来确定目标文本,具体的,该过程可以执行为:根据概率映射关系,确定与第二输入文本相同的概率最大的预定数量个备选文本为目标文本。
[0078]
也就是说,通过对概率映射关系中的概率进行排序并设置预定数量,可以将与第二输入文本相同概率最大的前n个备选文本确定为目标文本,其中,n为大于等于1的自然数。这样,可以将与文本信息相似度较高的n个备选文本作为目标文本并用于确定匹配结果,提高了数据检索的精确度。
[0079]
其中,预定数量可以是根据实际情况进行设置的数值,例如100、200、500等等,设置的数值越低,目标文本的数量会越少。反之,设置的数值越高,目标文本的数量会越多。
[0080]
也就是说,若用户需求精确度较高的匹配结果,则可以设置数值较低的预定数量,若用户需求数量较多的匹配结果,则可以设置数值较高的预定数量。
[0081]
另外,如果存在多个第二输入文本,则可以将各第二输入文本的概率映射关系综合并进行筛选。
[0082]
在本技术实施例中,概率映射关系和匹配结果可以基于预先训练的匹配模型确定。
[0083]
在一种优选的实施方式中,匹配模型可以是深度语义匹配模型(deep structured semantic model,dssm),dssm是一种用于语义匹配的模型,在dssm中,dssm可以通过语义文本之间的相似度来进行语义的匹配,进而实现查询等功能。
[0084]
例如,如图4所示,图4为本技术实施例通过深度语义匹配模型确定匹配结果的流程图,其中,深度语义匹配模型43包括:输入层431、输入层432、表示层433、表示层434和匹配层435。
[0085]
在确定匹配结果的过程中,深度语义匹配模型43的两个输入层可以分别接收第一输入文本和第二输入文本,以图4为例,输入层431可以接收第一输入文本41,输入层432可以接收第二输入文本42。
[0086]
在输入层分别接收第一输入文本和第二输入文本之后,深度语义匹配模型43可以通过表示层对第一输入文本和第二输入文本进行处理,其中,处理的内容可以包括特征提取、降维等等。以图4为例,表示层433可以对第一输入文本41进行特征提取、降维等处理,然后将处理后的结果输入匹配层435,表示层434可以对第二输入文本42进行特征提取、降维等处理,然后将处理后的结果输入匹配层435。
[0087]
在匹配层435接收到表示层433和表示层434发送的处理结果后,匹配层435可以针对各处理结果进行匹配操作,输出匹配得分44,其中,匹配操作即为上述步骤23和步骤24。
[0088]
具体的,以图4为例,在匹配层435接收到处理结果后,可以先根据表示层434发送的处理结果(即第二输入文本42对应的处理结果)确定概率映射关系,然后根据该概率映射关系确定至少一个目标文本,然后计算表示层433发送的处理结果(即第以输入文本41对应的处理结果)与各目标文本之间的相似度,进而输出匹配得分44,其中,匹配得分44即为深度语义匹配模型43的输出。
[0089]
在深度语义匹配模型43输出匹配得分44之后,电子设备可以根据匹配得分44来确定匹配结果45,例如,电子设备可以将匹配得分44大于预定阈值的目标文本确定为匹配结果45,也可以将匹配得分44数值前预定数量的目标文本确定为匹配结果45。
[0090]
通过本技术实施例,通过预先训练的匹配模型可以确定第二输入文本对应的概率映射关系,并根据该概率映射关系以及第一输入文本确定匹配结果。在此过程中,由于概率映射关系包含第二输入文本与至少一个备选文本相同的概率,所以,本技术实施例综合概
率映射关系以及第一输入文本可以更准确的确定匹配结果。
[0091]
在一种优选的实施方式中,本技术实施例可以针对匹配模型进行训练,具体的,如图5所示,训练过程可以包括如下步骤:
[0092]
在步骤51,获取训练集。
[0093]
其中,训练集可以包括各训练文本。
[0094]
在一种优选的实施方式中,电子设备可以先对训练集中的各训练文本进行数据清洗,去除各训练文本中没有意义的部分,然后再执行步骤52,例如,电子设备可以去除各训练文本中用于连接词语之间的字(例如连接形容词和名词的“的”),也可以去除各训练文本中标点符号,还可以去除各训练文本中没有意义的乱码。
[0095]
在步骤52,对各训练文本进行关键词处理和标注处理,确定各训练文本对应的关键词文本、正样本和负样本。
[0096]
在本技术实施例中,关键词文本为包括训练文本中全部关键词的文本,正样本和负样本为包括训练文本中部分关键词的文本。也就是说,对应于上述数据检索的过程,关键词文本可以作为匹配模型的第一输入文本,正样本和负样本可以作为匹配模型的第二输入文本。
[0097]
在一种优选的实施方式中,步骤52可以执行为:对训练文本进行分词处理,确定训练文本中的各关键词,然后基于训练文本中的各关键词,确定训练文本对应的关键词文本,然后根据关键词删除规则,对关键词文本中特定位置的关键词进行删除,确定关键词文本对应的正样本,然后根据关键词替换规则,对关键词文本中特定位置的关键词进行替换,确定关键词文本对应的负样本。
[0098]
其中,确定正样本和负样本的过程不分先后顺序,可以先确定正样本再确定负样本,也可以先确定负样本再确定正样本,还可以同时确定正样本和负样本。
[0099]
如图6所示,图6为本技术实施例确定关键词文本、正样本和负样本的流程图。
[0100]
在确定关键词文本、正样本和负样本的过程中,电子设备可以先对训练文本61进行分词处理,确定多个候选词(即候选词621、候选词622、候选词623、候选词624、候选词625和候选词626)。其中,分词工具可以是针对中文的分词工具或者针对其它语种的分词工具。
[0101]
在电子设备确定多个候选词后,电子设备可以在各候选词中确定至少一个关键词,进而确定关键词文本63。在图6中,电子设备从各候选词中确定的关键词为候选词621、候选词622、候选词624、和候选词626,也就是说,电子设备将上述4个候选词确定为关键词并基于这4个关键词组成了关键词文本63。
[0102]
当然,在一些情况下,电子设备也可以将全部候选词确定为关键词。
[0103]
然后,电子设备可以根据关键词删除规则,对关键词文本63中的部分关键词进行删除,进而确定正样本64。以图6为例,电子设备将图6中的关键词“aa”进行删除,从而得到了正样本64。
[0104]
需要说明的,图6中是以一个正样本为例进行说明的,在实际应用中,电子设备可以通过对关键词文本63中不同位置的关键词进行删除,进而得到多个正样本。
[0105]
电子设备还可以根据关键词替换规则,对关键词文本63中的部分关键词进行替换,进而确定负样本65。以图6为例,电子设备将图6中的关键词“dddd”替换为了“g”,从而得到了负样本65。
[0106]
需要说明的,图6中是以一个负样本为例进行说明的,在实际应用中,电子设备可以通过对关键词文本63中不同位置的关键词进行替换,进而得到多个负样本。
[0107]
在步骤53,基于关键词文本、正样本和负样本,对匹配模型进行训练。
[0108]
具体的,步骤53可以执行为:将关键词文本、正样本和负样本输入匹配模型,计算关键词文本分别与对应正样本、负样本之间的相似度,然后以关键词文本对应正样本的概率最大似然函数作为损失函数,训练匹配模型。
[0109]
也就是说,通过对匹配模型进行训练,可以使得匹配模型能够准确确定相匹配的关键词文本和正样本,进而,在后续检索的过程中,匹配模型就可以通过第二输入文本准确确定相匹配的目标文本。
[0110]
通过训练后的匹配模型,可以确定第二输入文本对应的概率映射关系,并根据该概率映射关系以及第一输入文本确定匹配结果。在此过程中,由于概率映射关系包含第二输入文本与至少一个备选文本相同的概率,所以,本技术实施例综合概率映射关系以及第一输入文本可以更准确的确定匹配结果。
[0111]
在一种优选的实施方式中,在确定匹配结果之后,电子设备可以向发送数据检索请求的设备返回匹配结果,以使得该设备针对匹配结果进行展示。
[0112]
在一种情况下,发送数据检索请求的设备可以先对匹配度较高的部分匹配结果进行展示,若接收到继续展示的指令,则该设备可以进行后续的展示。
[0113]
例如,如图7所示,图7为本技术实施例展示界面的示意图,该示意图包括匹配结果展示界面71,匹配结果展示界面71中包括多个匹配结果(匹配结果721、匹配结果722、匹配结果723、匹配结果724、匹配结果725和匹配结果726)以及继续展示按钮73。
[0114]
当电子设备确定多个匹配结果后,电子设备可以向发送数据检索请求的设备返回部分匹配结果,例如,电子设备可以向发送数据检索请求的设备返回匹配度最高的6个匹配结果,以供该设备进行展示。
[0115]
当该设备接收到这6个匹配结果后,可以在匹配结果展示界面71中展示这6个匹配结果。
[0116]
若用户选中某一个匹配结果,则该设备可以跳转至对应匹配结果的界面。
[0117]
若用户点击继续展示按钮73,则该设备可以向电子设备请求更多的匹配结果,当电子设备接收到请求后,可以向该设备返回剩余匹配结果中的任意数量的匹配结果(例如6个),以供该设备在接收到匹配结果后继续进行展示。
[0118]
基于相同的技术构思,本技术实施例还提供了一种数据检索装置,如图8所示,该装置包括:接收模块81、输入文本确定模块82、概率映射关系确定模块83和匹配结果确定模块84。
[0119]
接收模块81,用于接收数据检索请求,所述数据检索请求至少包括文本信息。
[0120]
输入文本确定模块82,用于根据所述文本信息,确定第一输入文本和至少一个第二输入文本,所述第一输入文本包括所述文本信息中的全部关键词,所述第二输入文本包括所述文本信息中的部分关键词。
[0121]
概率映射关系确定模块83,用于确定所述第二输入文本对应的概率映射关系,所述概率映射关系包括所述第二输入文本与至少一个备选文本相同的概率。
[0122]
匹配结果确定模块84,用于根据所述概率映射关系和所述第一输入文本,确定匹
配结果。
[0123]
在一些实施例中,所述匹配结果确定模块84,具体用于:
[0124]
根据所述概率映射关系,确定所述第二输入文本对应的至少一个目标文本。
[0125]
根据所述第一输入文本和各目标文本之间相似度,在各目标文本中确定至少一个匹配结果。
[0126]
在一些实施例中,所述匹配结果确定模块84,具体用于:
[0127]
根据所述概率映射关系,确定与所述第二输入文本相同的概率大于预定概率阈值的备选文本为目标文本。
[0128]
在一些实施例中,所述匹配结果确定模块84,具体用于:
[0129]
根据所述概率映射关系,确定与所述第二输入文本相同的概率最大的预定数量个备选文本为目标文本。
[0130]
在一些实施例中,输入文本确定模块82,具体用于:
[0131]
对所述文本信息进行分词处理,确定所述文本信息中的各关键词。
[0132]
基于所述文本信息中的各关键词,确定所述文本信息对应的第一输入文本。
[0133]
根据关键词删除规则,对所述第一输入文本中特定位置的关键词进行删除,确定至少一个第二输入文本。
[0134]
在一些实施例中,所述概率映射关系和所述匹配结果基于预先训练的匹配模型确定。
[0135]
在一些实施例中,所述匹配模型基于如下模块训练:
[0136]
获取模块,用于获取训练集,所述训练集包括各训练文本。
[0137]
处理模块,用于对各训练文本进行关键词处理和标注处理,确定各训练文本对应的关键词文本、正样本和负样本。
[0138]
训练模块,用于基于所述关键词文本、所述正样本和所述负样本,对匹配模型进行训练。
[0139]
在一些实施例中,所述训练模块,具体用于:
[0140]
将所述关键词文本、所述正样本和所述负样本输入匹配模型,计算所述关键词文本分别与对应正样本、负样本之间的相似度。
[0141]
以所述关键词文本对应正样本的概率最大似然函数作为损失函数,训练所述匹配模型。
[0142]
在一些实施例中,所述处理模块,具体用于:
[0143]
对所述训练文本进行分词处理,确定所述训练文本中的各关键词。
[0144]
基于所述训练文本中的各关键词,确定所述训练文本对应的关键词文本。
[0145]
根据关键词删除规则,对所述关键词文本中特定位置的关键词进行删除,确定所述关键词文本对应的正样本。
[0146]
根据关键词替换规则,对所述关键词文本中特定位置的关键词进行替换,确定所述关键词文本对应的负样本。
[0147]
在一些实施例中,所述匹配模型为深度语义匹配模型。
[0148]
在本技术实施例中,可以通过文本信息确定包含文本信息全部关键词的第一输入文本,以及包含文本信息部分关键词的第二输入文本,然后,可以确定第二输入文本对应的
概率映射关系,并根据该概率映射关系以及第一输入文本确定匹配结果。在此过程中,由于概率映射关系包含第二输入文本与至少一个备选文本相同的概率,所以,本技术实施例综合概率映射关系以及第一输入文本可以更准确的确定匹配结果。
[0149]
图9是本技术实施例的电子设备的示意图。如图9所示,图9所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器91和存储器92。处理器91和存储器92通过总线93连接。存储器92适于存储处理器91可执行的指令或程序。处理器91可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器91通过执行存储器92所存储的指令,从而执行如上所述的本技术实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线93将上述多个组件连接在一起,同时将上述组件连接到显示控制器94和显示装置以及输入/输出(i/o)装置95。输入/输出(i/o)装置95可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置95通过输入/输出(i/o)控制器96与系统相连。
[0150]
本领域的技术人员应明白,本技术的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品。
[0151]
本技术是参照根据本技术实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
[0152]
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
[0153]
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
[0154]
本技术的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
[0155]
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本技术各实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0156]
本技术的另一实施例涉及一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时可以实现上述部分或全部的方法实施例。
[0157]
即,本领域技术人员可以理解,本技术实施例可以通过处理器执行计算机程序产品(计算机程序/指令)来指定相关的硬件(包括处理器自身),进而实现上述实施例方法中的全部或部分步骤。
[0158]
以上所述仅为本技术的优选实施例,并不用于限制本技术,对于本领域技术人员
而言,本技术可以有各种改动和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
[0159]
本技术实施例公开了ts1、一种数据检索方法,其中,所述方法包括:
[0160]
接收数据检索请求,所述数据检索请求至少包括文本信息;
[0161]
根据所述文本信息,确定第一输入文本和至少一个第二输入文本,所述第一输入文本包括所述文本信息中的全部关键词,所述第二输入文本包括所述文本信息中的部分关键词;
[0162]
确定所述第二输入文本对应的概率映射关系,所述概率映射关系包括所述第二输入文本与至少一个备选文本相同的概率;以及
[0163]
根据所述概率映射关系和所述第一输入文本,确定匹配结果。
[0164]
ts2、如ts1所述的方法,其中,所述根据所述概率映射关系和所述第一输入文本,确定匹配结果,包括:
[0165]
根据所述概率映射关系,确定所述第二输入文本对应的至少一个目标文本;以及
[0166]
根据所述第一输入文本和各目标文本之间相似度,在各目标文本中确定至少一个匹配结果。
[0167]
ts3、如ts2所述的方法,其中,所述根据所述概率映射关系,确定所述第二输入文本对应的至少一个目标文本,包括:
[0168]
根据所述概率映射关系,确定与所述第二输入文本相同的概率大于预定概率阈值的备选文本为目标文本。
[0169]
ts4、如ts2所述的方法,其中,所述根据所述概率映射关系,确定所述第二输入文本对应的至少一个目标文本,包括:
[0170]
根据所述概率映射关系,确定与所述第二输入文本相同的概率最大的预定数量个备选文本为目标文本。
[0171]
ts5、如ts1所述的方法,其中,所述根据所述文本信息,确定第一输入文本和至少一个第二输入文本,包括:
[0172]
对所述文本信息进行分词处理,确定所述文本信息中的各关键词;
[0173]
基于所述文本信息中的各关键词,确定所述文本信息对应的第一输入文本;以及
[0174]
根据关键词删除规则,对所述第一输入文本中特定位置的关键词进行删除,确定至少一个第二输入文本。
[0175]
ts6、如ts1所述的方法,其中,所述概率映射关系和所述匹配结果基于预先训练的匹配模型确定。
[0176]
ts7、如ts6所述的方法,其中,所述匹配模型基于如下步骤训练:
[0177]
获取训练集,所述训练集包括各训练文本;
[0178]
对各训练文本进行关键词处理和标注处理,确定各训练文本对应的关键词文本、正样本和负样本;以及
[0179]
基于所述关键词文本、所述正样本和所述负样本,对匹配模型进行训练。
[0180]
ts8、如ts7所述的方法,其中,所述基于所述关键词文本、所述正样本和所述负样本,对匹配模型进行训练,包括:
[0181]
将所述关键词文本、所述正样本和所述负样本输入匹配模型,计算所述关键词文
本分别与对应正样本、负样本之间的相似度;以及
[0182]
以所述关键词文本对应正样本的概率最大似然函数作为损失函数,训练所述匹配模型。
[0183]
ts9、如ts7所述的方法,其中,所述对各训练文本进行关键词处理和标注处理,确定各训练文本对应的关键词文本、正样本和负样本,包括:
[0184]
对所述训练文本进行分词处理,确定所述训练文本中的各关键词;
[0185]
基于所述训练文本中的各关键词,确定所述训练文本对应的关键词文本;
[0186]
根据关键词删除规则,对所述关键词文本中特定位置的关键词进行删除,确定所述关键词文本对应的正样本;以及
[0187]
根据关键词替换规则,对所述关键词文本中特定位置的关键词进行替换,确定所述关键词文本对应的负样本。
[0188]
ts10、如ts6所述的方法,其中,所述匹配模型为深度语义匹配模型。
[0189]
ts11、一种数据检索装置,其中,所述装置包括:
[0190]
接收模块,用于接收数据检索请求,所述数据检索请求至少包括文本信息;
[0191]
输入文本确定模块,用于根据所述文本信息,确定第一输入文本和至少一个第二输入文本,所述第一输入文本包括所述文本信息中的全部关键词,所述第二输入文本包括所述文本信息中的部分关键词;
[0192]
概率映射关系确定模块,用于确定所述第二输入文本对应的概率映射关系,所述概率映射关系包括所述第二输入文本与至少一个备选文本相同的概率;以及
[0193]
匹配结果确定模块,用于根据所述概率映射关系和所述第一输入文本,确定匹配结果。
[0194]
ts12、如ts11所述的装置,其中,所述匹配结果确定模块,具体用于:
[0195]
根据所述概率映射关系,确定所述第二输入文本对应的至少一个目标文本;以及
[0196]
根据所述第一输入文本和各目标文本之间相似度,在各目标文本中确定至少一个匹配结果。
[0197]
ts13、如ts12所述的装置,其中,所述匹配结果确定模块,具体用于:
[0198]
根据所述概率映射关系,确定与所述第二输入文本相同的概率大于预定概率阈值的备选文本为目标文本。
[0199]
ts14、如ts12所述的装置,其中,所述匹配结果确定模块,具体用于:
[0200]
根据所述概率映射关系,确定与所述第二输入文本相同的概率最大的预定数量个备选文本为目标文本。
[0201]
ts15、如ts11所述的装置,其中,输入文本确定模块,具体用于:
[0202]
对所述文本信息进行分词处理,确定所述文本信息中的各关键词;
[0203]
基于所述文本信息中的各关键词,确定所述文本信息对应的第一输入文本;以及
[0204]
根据关键词删除规则,对所述第一输入文本中特定位置的关键词进行删除,确定至少一个第二输入文本。
[0205]
ts16、如ts11所述的装置,其中,所述概率映射关系和所述匹配结果基于预先训练的匹配模型确定。
[0206]
ts17、如ts16所述的装置,其中,所述匹配模型基于如下模块训练:
[0207]
获取模块,用于获取训练集,所述训练集包括各训练文本;
[0208]
处理模块,用于对各训练文本进行关键词处理和标注处理,确定各训练文本对应的关键词文本、正样本和负样本;以及
[0209]
训练模块,用于基于所述关键词文本、所述正样本和所述负样本,对匹配模型进行训练。
[0210]
ts18、如ts17所述的装置,其中,所述训练模块,具体用于:
[0211]
将所述关键词文本、所述正样本和所述负样本输入匹配模型,计算所述关键词文本分别与对应正样本、负样本之间的相似度;以及
[0212]
以所述关键词文本对应正样本的概率最大似然函数作为损失函数,训练所述匹配模型。
[0213]
ts19、如ts17所述的装置,其中,所述处理模块,具体用于:
[0214]
对所述训练文本进行分词处理,确定所述训练文本中的各关键词;
[0215]
基于所述训练文本中的各关键词,确定所述训练文本对应的关键词文本;
[0216]
根据关键词删除规则,对所述关键词文本中特定位置的关键词进行删除,确定所述关键词文本对应的正样本;以及
[0217]
根据关键词替换规则,对所述关键词文本中特定位置的关键词进行替换,确定所述关键词文本对应的负样本。
[0218]
ts20、如ts16所述的装置,其中,所述匹配模型为深度语义匹配模型。
[0219]
ts21、一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如ts1-ts10中任一项所述的方法。
[0220]
ts22、一种计算机可读存储介质,其中,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现ts1-ts10任一项所述的方法。
[0221]
ts23、一种计算机程序产品,包括计算机程序/指令,其中,所述计算机程序/指令被处理器执行时实现ts1-ts10任一项所述的方法。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1