一种基于意图识别的关联搜索方法及系统与流程

文档序号:30390240发布日期:2022-06-11 14:36阅读:165来源:国知局
一种基于意图识别的关联搜索方法及系统与流程

1.本技术涉及信息检索技术领域,尤其是涉及一种基于意图识别的关联搜索方法及系统。


背景技术:

2.目前,面向企业用户和个人用户的搜索引擎,一般都是按照企业用户或个人用户的搜索意图对不同的数据源进行内容搜索。
3.但是,搜索引擎对于无差别的搜索,需要逐个查询所有数据源,再对搜索到的结果进行混合排序,会导致搜索过程的效率低,并且也无法保证搜索结果满足用户搜索意图。


技术实现要素:

4.为了提高搜索过程的效率,并且搜索结果能够满足用户的搜索意图,本技术提供了一种基于意图识别的关联搜索方法及系统。
5.第一方面,本技术提供一种基于意图识别的关联搜索方法,采用如下的技术方案:一种基于意图识别的关联搜索方法,包括:获取检索内容文本;根据所述检索内容文本进行意图识别,得到意图检索领域;根据所述意图检索领域关联得到目标数据源;对所述目标数据源进行搜索,得到搜索结果。
6.通过采用上述技术方案,在进行搜索之前,先根据检索内容文本进行意图识别,得到意图检索领域,从而关联到目标数据源,从进行精准的搜索,不需要遍历所有的数据源进行搜索了,提高了搜索过程的效率,并且搜索结果能够满足用户的搜索意图。
7.可选的,所述根据所述检索内容文本进行意图识别,得到意图检索领域,包括:将所述检索内容文本与预设关键词库进行关键词匹配;若成功匹配到目标关键词,则基于所述目标关键词进行意图识别,得到意图检索领域。
8.可选的,所述根据所述检索内容文本进行意图识别,得到意图检索领域,包括:将所述检索内容文本与预设热词库进行热词匹配;若成功匹配到目标热词,则基于所述目标热词进行意图识别,得到意图检索领域。
9.可选的,所述方法还包括:若未成功匹配到目标关键词和/或目标热词,则对所述检索内容文本进行向量化处理;将向量化处理后的所述检索内容文本输入预先训练的卷积神经意图识别模型,得到模型输出结果,将所述模型输出结果作为意图检索领域。
10.可选的,所述根据所述检索内容文本进行意图识别,得到意图检索领域之前,还包括:
获取所有数据源的数据中的重要词语,将所述重要词语作为第一热词;获取用户搜索历史文本,对所述用户搜索历史文本进行非名词清洗,得到第二热词;根据所述第一热词和所述第二热词形成热词库;接收运维人员输入的热修复词语,将所述热修复词语作为新的热词增加到所述热词库中。
11.可选的,所述根据所述检索内容文本进行意图识别,得到意图检索领域之前,还包括:获取业务标注数据及数据源中的数据;根据预设标签类别,对所述业务标注数据和所述数据源中的数据赋予类别标签;对所述类别标签的数据进行向量化处理后,对文本卷积神经网络模型进行训练,得到卷积神经意图识别模型。
12.可选的,所述根据所述意图检索领域关联得到目标数据源,包括:确定所述意图检索领域的子领域数量;当存在一个子领域时,确定与子领域对应的目标数据源;当存在多个子领域时,根据子领域历史搜索热度,设定每一个子领域的优先级;根据优先级从高到低的原则,确定与每一个子领域对应的目标数据源。
13.可选的,所述对所述目标数据源进行搜索,得到搜索结果,包括:当只有一个子领域对应的目标数据源时,对所述目标数据源进行搜索,得到搜索结果;当存在多个子领域对应的目标数据源时,根据每一个子领域的优先级,按照优先级从高到低的原则,依次搜索对应的目标数据源,得到每个目标数据源对应的搜索结果。
14.第二方面,本技术提供一种基于意图识别的关联搜索系统,采用如下的技术方案:获取模块,用于获取检索内容文本;意图识别模块,用于根据所述检索内容文本进行意图识别,得到意图检索领域;数据源关联模块,用于根据所述意图检索领域关联得到目标数据源;搜索模块,用于对所述目标数据源进行搜索,得到搜索结果。
15.综上,本技术包括以下有益技术效果:在进行搜索之前,先根据检索内容文本进行意图识别,得到意图检索领域,从而关联到目标数据源,进行精准的搜索,不需要遍历所有的数据源进行搜索了,提高了搜索过程的效率,并且搜索结果能够满足用户的搜索意图。
附图说明
16.图1是本技术的基于意图识别的关联搜索方法的流程示意图。
17.图2是本技术的通过关键词方式进行意图识别得到意图检索领域的过程的流程示意图。
18.图3是本技术的通过热词方式进行意图识别得到意图检索领域的过程的流程示意图。
19.图4是本技术的通过卷积神经意图识别模型的方式进行意图识别得到意图检索领
域的过程的流程示意图。
20.图5是本技术的根据意图检索领域关联目标数据源搜索得到搜索结果的流程示意图。
21.图6是本技术的基于意图识别的关联搜索系统的结构示意图。
具体实施方式
22.为了使本技术的目的、技术方案及优点更加清楚明白,以下通过附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
23.本技术实施例公开一种基于意图识别的关联搜索方法。
24.参照图1,该方法包括:101,获取检索内容文本。
25.其中,在当前情况下,一款具有检索功能的应用在面向企业用户或者个人用户时,由于能够提供的业务和服务范围并非是单一的,那么用户在进行搜索和检索时,需要输入检索内容,检索内容可以是通过点击应用的选项,可以是输入一段文字,也可以是语音输入之后,将语音信息转换为文本,最终得到的都是检索内容文本,检索内容文本一般可以是短词、语句或者长段文字。具体的,本技术的实施例中具有检索功能的应用,主要功能有政策检索、专利检索、商标检索、版权检索及产学研合作检索。
26.102,根据检索内容文本进行意图识别,确定意图检索领域。
27.其中,由于应用的业务和服务范围的多样性,那么需要检索的数据源就是多种,例如,一个知识产权的服务平台,可能涉及到政策检索、专利检索、商标检索、版权检索及产学研合作检索,那么数据源就有5种,分别是商标数据库、版权数据库、专利数据库、政策数据库及产学研合作数据库,每一种数据库都是需要分别进行搜索的,将会消耗大量的时间和资源进行遍历搜索,因此,需要根据检索内容文本进行意图识别,即确定用户需要搜索的目标是什么,在本实施例中,意图识别完成之后得到意图检索领域。进行意图识别得到意图检索领域的方式具体包括3种,第一种是关键词,第二种是热词,第三种是利用卷积神经意图识别模型。例如,输入的检索内容文本是h04n,h04n是国际专利分类号ipc中h大类中的中的一个小类,分类号h04n表示的是专利分类属于图像通信,很明显,用户输入h04n,需要的是从专利数据库中检索到所有分属于h04n的专利,意图检索领域就是专利数据库。
28.103,根据意图检索领域关联得到目标数据源。
29.其中,通过确定的意图检索领域查找与其唯一对应的关联的目标数据源,进行精准的搜索,不需要遍历所有的数据源进行搜索了。
30.104,对目标数据源进行搜索,生成搜索结果。
31.本技术的实施原理为:在进行搜索之前,先根据检索内容文本进行意图识别,得到意图检索领域,从而关联到目标数据源,从进行精准的搜索,不需要遍历所有的数据源进行搜索了,提高了搜索过程的效率,并且搜索结果能够满足用户的搜索意图。
32.在以上图1所示的实施例的步骤102中进行意图识别得到意图检索领域的方式具体包括3种,第一种是关键词,第二种是热词,第三种是利用卷积神经意图识别模型,下面通过实施例分别进行说明。这一段可以放到步骤102后面。
33.如图2所示,通过关键词方式进行意图识别得到意图检索领域的过程,具体步骤如下:201,将检索内容文本与预设关键词库进行关键词匹配。
34.其中,预设关键词库是根据数据源中数据的特有关键词提取出的,例如,专利数据库相关的预设关键词库中包含的关键词,包括了所有的专利分类号,专利分类号是每件专利都具有的,而商标是没有的,商标具有的是商标分类号。那么,如果检索内容文本包括了专利分类号,检索意图很明显就是检索专利了,对应的意图检索领域就肯定是专利领域了,因此,可以提炼出一些意图明显的关键词形成预设关键词库,将检索内容文本与预设关键词库进行关键词匹配,识别出检索内容文本中是否有词语是与预设关键词库中的关键词相同。
35.202,若成功匹配到目标关键词,则基于目标关键词进行意图识别,得到意图检索领域。
36.其中,如果有关键词相同,那么就是成功匹配到了目标关键词,基于目标关键词进行意图识别,例如,目标关键词是“商标”,就是想检索商标了,对应的意图检索领域就是商标领域;目标关键词是“版权”,就是想检索版权,对应的意图检索领域就是版权领域了。需要说明的是,本实施例中,只是以专利、版权、商标作为例子,在实际应用中,还会有更多的关键词作为意图识别,不能一一例举。
37.需要说明的是,在没有成功匹配到目标关键词时,表明通过关键词方式进行意图识别失败,为了保障用户的使用体验,可以转向通过热词或卷积神经意图识别模型进行意图识别。
38.本实施例的实施原理为:通过将检索内容文本与预设关键词库进行关键词匹配的方式,再按照匹配出的目标关键词识别出用户意图,从而确定意图识别领域,使得意图识别的效率提高,并且识别出的意图识别领域的精准度高。
39.如图3所示,通过热词方式进行意图识别得到意图检索领域的过程,具体步骤如下:301,获取所有数据源的数据中的重要词语,将重要词语作为第一热词。
40.其中,从所有数据源的数据中提取重要词语,重要词语的提取可以按照重要的技术词出现次数,也可以是上市公司的简称或知名院校的简称等等,将提取出的重要词语作为第一热词。
41.302,获取用户搜索历史文本,对用户搜索历史文本进行非名词清洗,得到第二热词。
42.其中,还可以将获取用户搜索历史文本,即聚合用户搜索历史,先从用户搜索历史文本中选择出现次数最高的语句,再对语句进行非名词清洗,例如,语句是“符合湖南省高新企业认证的申报条件”,非名词是指除了名词之外的动词、介词及连词等等,即只保留“湖南省”、“高新企业”、“申报条件”,得到第二热词。
43.303,根据第一热词和第二热词形成热词库。
44.其中,将提取出的第一热词和第二热词进行汇总,形成热词库。
45.304,接收输入的热修复词语,将热修复词语作为新的热词增加到热词库中。
46.305,将检索内容文本与预设热词库进行热词匹配。
47.其中,将检索内容文本与预设热词库进行热词匹配,识别出检索内容文本中是否有词语是与预设热词库中的热词相同。
48.306,若成功匹配到目标热词,则基于目标热词进行意图识别,得到意图检索领域。
49.其中,如果有热词相同,那么就是成功匹配到了目标热词,基于热词进行意图识别,得到意图检索领域。
50.需要说明的是,在没有成功匹配到目标热词时,表明通过热词方式进行意图识别失败,为了保障用户的使用体验,可以转向通过关键词或卷积神经意图识别模型进行意图识别。
51.本实施例的实施原理为:通过将检索内容文本与预设热词库进行热词匹配的方式,再按照匹配出的目标热词识别出用户意图,从而确定意图识别领域,可以提高意图识别的效率,并且识别出的意图识别领域会更加精准。
52.如图4所示,通过卷积神经意图识别模型的方式进行意图识别得到意图检索领域的过程,具体步骤如下:401,获取业务标注数据及数据源中的数据。
53.其中,业务标注数据是对历史上进行过检索业务的业务数据进行了标注后得到的,数据源中的数据主要指的是实时搜索引擎(elastic search,es)数据源。
54.402,根据预设标签类别,对业务标注数据和数据源中的数据赋予类别标签。
55.其中,根据预设标签类别,对业务标注数据和数据源中的数据赋予类别标签,具体的可以是对语句打上类别标签。
56.403,对类别标签的数据进行向量化处理后,对文本卷积神经网络模型进行训练,得到卷积神经意图识别模型。
57.其中,对类别标签的数据进行向量化处理,即对语句进行向量化处理,再将向量化语句输入文本卷积神经网络(textcnn)模型,通过softmax逻辑回归方式计算出类别,在训练过程中,使用交叉熵作为损失函数,交叉熵损失函数常用于分类问题中,用于表示模型预测结果与真实结果分布之间的差距,通过不断优化交叉熵,可以提升模型预测指标,直至模型指标收敛,最终训练得到卷积神经意图识别模型。
58.404,若未成功匹配到目标关键词和/或目标热词,则对检索内容文本进行向量化处理。
59.其中,在以上图2和图3的实施例中,由于关键词匹配和热词匹配,都只能针对重复出现的词语和重要的搜索语句,还有大量长的搜索语句无法覆盖,那么在匹配目标关键词和目标热词过程中,只要有一个没有匹配到,或者,两个都没有匹配到时,还需要对检索内容文本进行向量化处理。
60.405,将向量化处理后的检索内容文本输入预先训练的卷积神经意图识别模型,得到模型输出结果,将模型输出结果作为意图检索领域。
61.本实施例的实施原理为:关键词和热词的意图识别方式,只能针对重复出现的词语和重要的搜索语句,在关键词匹配和热词匹配过程中,只要有一个没有匹配到,或者,两个都没有匹配到时,为了保障搜索的完整度,还需要通过预先训练的卷积神经意图识别模型识别用户意图得到意图检索领域,提高了识别意图识别领域的完整性。
62.在以上图1所示的实施例中,步骤103和步骤104中根据意图检索领域关联目标数据源,再得到搜索结果的过程中,可能由于意图检索领域不单单只是一个,那么为了提高搜索的速度,可以按照优先级的方式进行数据源关联和搜索,具体如图5所示,步骤包括:501,确定意图检索领域的子领域数量。
63.其中,意图检索领域可以是有多种,例如,在知识产权检索平台中,针对不同的业务,可以有企业检索、商标检索、版权检索、各地政策检索及专利检索,如果在检索内容文本的意图识别出的意图检索领域同时包括商标领域和专利领域,即包括的子领域有两个。
64.502,当存在一个子领域时,确定与子领域对应的目标数据源。
65.其中,如果只有一个子领域“商标领域”时,即可以确定“商标领域”对应的目标数据源。
66.503,当存在多个子领域时,根据子领域历史搜索热度,设定每一个子领域的优先级。
67.其中,如果有多个子领域,假设两个分别是“政策领域”和“专利领域”时,根据子领域的历史搜索热度,“专利领域”的搜索次数比“政策领域”的搜索次数多,那么子领域“专利领域”的优先级比“政策领域”的优先级高。
68.504,根据优先级从高到低的原则,确定与每一个子领域对应的目标数据源。
69.505,当只有一个子领域对应的目标数据源时,对目标数据源进行搜索,得到搜索结果。
70.506,当存在多个子领域对应的目标数据源时,根据每一个子领域的优先级,按照优先级从高到低的原则,依次搜索对应的目标数据源,得到每个目标数据源对应的搜索结果。
71.其中,在进行搜索时,由于目标数据源是由子领域的优先级,按照优先级从高到低确定的,那么也可以按照优先级从高到低的原则,依次搜索对应的目标数据源,得到每个目标数据源对应的搜索结果。
72.本实施例的实施原理为:意图检索领域可以是一个或多个,在只有一个的时候,对应的目标数据源也只有一个,直接进行搜索就行了,如果有多个子领域的时候,需要先根据子领域历史搜索热度,确定子领域的优先级,按照优先级确定每个子领域的目标数据源,再按照优先级依次对目标数据源进行检索,明确了搜索的先后顺序,可以更好的统筹资源,提高搜索效率。
73.需要说明的是,在图5的实施例的步骤505和506中,一个子领域对应的目标数据源,可以是多个,例如,以专利数据库为例,每个国家都有专利数据库,全球范围内也划分了各个语种的数据库,那么“专利领域”对应的目标数据库,就是包括了多个国家、地区、语种的多个子数据库,而针对多个子数据库,尤其是中文专利数据库和英文专利数据库,都是数量非常具大的,检索花费的时间比较多,为了进一步提高检索效率,在步骤505和506中搜索目标数据库之前,进行如下步骤:当目标数据库中包括多个子数据库时,获取各子数据库的语言特性及地域特性,语言特性表示子数据库的使用语种,地域特性表示子数据库的数据来源的国家或地区;根据检索内容文本,提取得到语种信息和地域信息;根据语种信息和地域信息,及各子数据库的语言特性及地域特性,从多个子数据
库中匹配出目标子数据库。
74.在以上实施例中,详细说明了基于意图识别的关联搜索方法,下面通过实施例对应用该方法的基于意图识别的关联搜索系统进行说明,如图6所示,本技术提供一种基于意图识别的关联搜索系统,包括:获取模块601,用于获取检索内容文本;意图识别模块602,用于根据检索内容文本进行意图识别,得到意图检索领域;数据源关联模块603,用于根据意图检索领域关联得到目标数据源;搜索模块604,用于对目标数据源进行搜索,得到搜索结果。
75.本技术的实施原理为:搜索模块604在进行搜索之前,意图识别模块602先对获取模块601获取到的检索内容文本进行意图识别,得到意图检索领域,数据源关联模块603关联到目标数据源,从而让搜索模块604进行精准的搜索,不需要遍历所有的数据源进行搜索了,提高了搜索过程的效率,并且搜索结果能够满足用户的搜索意图。
76.以上均为本技术的较佳实施例,并非依此限制本技术的保护范围,本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1