一种多方式丰富搜索词库优化搜索分词方法、装置、设备及存储介质与流程

文档序号:32891320发布日期:2023-01-12 23:13阅读:30来源:国知局
一种多方式丰富搜索词库优化搜索分词方法、装置、设备及存储介质与流程

1.本发明属于信息检索技术领域,具体涉及一种多方式丰富搜索词库优化搜索分词方法、装置、设备及存储介质。


背景技术:

2.现有的搜索词库优化方案一般采用导入整理好的通用词库,例如:水果名称库、人物名称库、地名库等,采用这种方法确实可以优化搜索的通用分词效果,但是针对于特定地域的旅游行业垂直搜索却没能有较好的优化,并且现有的搜索词库优化方案其词库的获取比较困难,依赖于各个领域的专家进行筛选和数据库的建立,往往需要花费较长的时间,还达不到较好的优化效果。另外,目前还有一种搜索词库优化方案是基于技术方案来进行优化搜索分词的,但其对自然语言处理的技术要求较高,往往还需要耗费很高的成本。


技术实现要素:

3.本发明所要解决的技术问题在于针对上述现有的搜索词库优化方案存在的耗时较长以及技术要求高、成本高的问题,提供一种多方式丰富搜索词库优化搜索分词方法,一种多方式丰富搜索词库优化搜索分词装置,一种多方式丰富搜索词库优化搜索分词设备,还提供一种多方式丰富搜索词库优化搜索分词存储介质。
4.第一方面,本发明提供的一种多方式丰富搜索词库优化搜索分词方法,包括以下步骤:
5.s1.根据用户搜索行为数据构建搜索词库;
6.s2.根据所述用户搜索行为数据和用户点击行为数据,优化搜索词库;
7.s3.根据用户历史搜索行为数据,补全用户搜索词。
8.作为本发明的进一步改进,所述步骤s1包括:
9.根据公开数据库提取地方市、区、县、地方景区名称及其简称;
10.根据网页信息采集与所述地方市、区、县、地方景区名称对应的别名。
11.作为本发明的进一步改进,所述步骤s2包括:
12.在第一预设周期内对用户搜索行为数据进行分析、对用户输入的搜索词进行频次统计;
13.根据所述第一预设周期内用户搜索的总次数n,按照使用频次从高到底提取n/5的搜索词,其中,n为正整数;
14.对提取的搜索词进行语义分析,去除语义不完整的搜索词,并将剩余的搜索词与现有搜索词库中的搜索词比对,进行去重入库。
15.作为本发明的进一步改进,所述步骤s2还包括:
16.在第二预设周期内对用户点击行为数据进行分析、对用户点击行为产生的点击量进行统计排名;
17.提取点击量排名在前m的资源,对提取的资源进行关键词、主题词、地理位置信息提取;
18.对提取的关键词及主题词进行语义分析,提取语义匹配度较高的k个词与现有搜索词库中的搜索词比对,进行去重入库;
19.其中,m、k均为正整数,且m≤100,k≤2。
20.作为本发明的进一步改进,所述用户搜索行为数据包括但不限于用户搜索词;所述用户点击行为数据包括但不限于基于所述用户搜索词返回的数据对象中用户点击的资源对象;所述用户历史搜索行为数据包括但不限于从历史搜索记录中获取的用户搜索词。
21.作为本发明的进一步改进,所述步骤s3还包括,根据用户历史搜索行为数据,分析用户搜索喜好,预测用户搜索词并自动补全用户搜索词,将补充的词用于搜索,其中,预测的用户搜索词为搜索词库中的搜索词。
22.作为本发明的进一步改进,所述预测的用户搜索词为用户输入的搜索词的同义词和/或近义词。
23.第二方面,本发明还提供一种多方式丰富搜索词库优化搜索分词装置,包括:
24.构建模块,用于根据用户搜索行为数据构建搜索词库;
25.优化模块,用于根据用户搜索行为数据和用户点击行为数据,优化搜索词库;
26.补充模块,用于根据用户历史搜索行为数据,补全用户搜索词。
27.第三方面,本发明还提供一种多方式丰富搜索词库优化搜索分词设备,其特征在于,所述多方式丰富搜索词库优化搜索分词设备包括:存储器和至少一个处理器,所述存储器中存储有计算机执行指令;所述至少一个处理器调用所述存储器中的所述计算机执行指令,以使得所述多方式丰富搜索词库优化搜索分词设备执行上述实施例中任意一项所述的多方式丰富搜索词库优化搜索分词方法。
28.第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机执行指令,其特征在于,所述计算机执行指令被处理器执行用于实现上述实施例中任意一项所述的多方式丰富搜索词库优化搜索分词方法。
29.本发明提供的一种多方式丰富搜索词库优化搜索分词方法,通过根据用户历史搜索行为数据和用户点击行为数据,分析用户搜索喜好,根据用户输入的搜索词进行提前预测并自动补全用户搜索词,预测补充的词为搜索词库中的词,将补充的词用于搜索,从而给到用户更符合需求的搜索结果。
30.下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
31.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明一部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
32.图1为本发明实施例提供的一种多方式丰富搜索词库优化搜索分词方法流程图;
33.图2为本发明实施例提供的一种多方式丰富搜索词库优化搜索分词装置的结构框图;
34.图3为本发明实施例提供的一种多方式丰富搜索词库优化搜索分词设备的结构示意图。
35.附图中各标号的含义为:
36.构建模块-201;优化模块-202;补充模块-203;301-存储器;302-处理器。
具体实施方式
37.为了使本发明的目的、技术方案及优点更加清楚明白,下面将结合本发明实施例中的附图和具体实施例,对本发明实施例中的技术方案进行清楚、完整地描述,对本发明作进一步详细说明,应当理解,此处所描述的实施例仅仅用以解释本发明,是本发明一部分实施例,而不是全部的实施例,即此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。实施方式中涵盖了多个具体实施例的特征以及用以建构与操作这些具体实施例的方法步骤与其顺序。然而,亦可利用其它具体实施例来达成相同或均等的功能与步骤顺序。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
38.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施,另外,在本发明实施例的描述中,除非另有说明,“/”表示或的意思,例如,a/b可以表示a或b;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。
39.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
40.当前现有的搜索词库优化方案其词库的获取比较困难,依赖于各个领域的专家进行筛选和数据库的建立,往往需要花费较长的时间,还达不到较好的优化效果。另外,目前还有一种搜索词库优化方案是基于技术方案来进行优化搜索分词的,但其对自然语言处理的技术要求较高,往往还需要耗费很高的成本。
41.为了解决现有的搜索词库优化方案存在的耗时较长以及技术要求高、成本高的问题,本发明实施例提供一种多方式丰富搜索词库优化搜索分词方法,图1为本发明实施例提供的一种多方式丰富搜索词库优化搜索分词方法流程图,如图1所示,本发明提供的一种多方式丰富搜索词库优化搜索分词方法,包括以下步骤:
42.s1.根据用户搜索行为数据构建搜索词库。
43.优选地,步骤s1还包括:
44.s101.根据公开数据库提取地方市、区、县、地方景区名称及其简称;
45.s102.根据网页信息采集与所述地方市、区、县、地方景区名称对应的别名。
46.具体地,以云南省为例,基于公开数据库提取云南省各州市、区县名称及其简称,基于公开文旅数据库提取云南省各景区名称及其简称,基于百度百科网页信息提取与云南
省各州市、区县、景区名称及其简称相对应的别名,构建云南省州市、区县、景区搜索词库。其中,该用户搜索行为数据包括但不限于用户搜索词。
47.本发明实施例提供的一种多方式丰富搜索词库优化搜索分词的方法,综合多种方式并与用户搜索行为数据结合构建搜索词库,不仅控制了成本,并适用于旅游行业垂直领域的搜索,达到了低成本高产出的丰富搜索词库优化搜索分词的效果。
48.s2.根据用户搜索行为数据和用户点击行为数据,优化搜索词库。
49.优选地,在第一预设周期内对用户搜索行为数据进行分析、对用户输入的搜索词进行频次统计;根据第一预设周期内用户搜索的总次数n,按照使用频次从高到底提取n/5的搜索词;对提取的搜索词进行语义分析,去除语义不完整的搜索词,并将剩余的搜索词与现有搜索词库中的词比对,进行去重入库。
50.作为本发明实施例的进一步改进,第一预设周期优选为一个月,具体地,每个月对用户搜索行为数据进行分析,提取用户输入的搜索词,并对其进行使用频次统计,根据本月内用户搜索的总次数n,按照使用频次从高到底提取n/5的搜索词,对提取的搜索词进行语义分析,去除语义不完整的搜索词,并将剩余的搜索词与现有搜索词库中的搜索词比对,进行去重入库,丰富搜索词库。
51.优选地,在第二预设周期内对用户点击行为数据进行分析、对用户点击行为产生的点击量进行统计排名;提取点击量排名在前m的资源,对提取的资源进行关键词、主题词、地理位置信息提取;对提取的关键词及主题词进行语义分析,提取语义匹配度较高的k个词与现有搜索词库中的搜索词比对,进行去重入库。
52.作为本发明实施例的进一步改进,第二预设周期优选为一个月,具体地,每个月对用户点击行为数据进行分析,提取点击量排名前100的资源,并对提取的资源进行关键词,主题词,地理位置信息提取,对提取的关键词及主题词进行语义分析,提取语义匹配度较高的1-2个词与现有搜索词库中的词比对,进行去重入库,进一步丰富搜索词库。其中,该用户点击行为数据包括但不限于基于用户搜索词返回的数据对象中用户点击的资源对象。
53.s3.根据用户历史搜索行为数据,补全用户搜索词。
54.优选地,步骤s3还包括,根据用户历史搜索行为数据,分析用户搜索喜好,预测用户搜索词并自动补全用户搜索词,将补充的搜索词用于搜索,其中,预测的用户搜索词为搜索词库中的搜索词,具体地,预测的用户搜索词为用户输入的搜索词的同义词和/或近义词,且该户历史搜索行为数据包括但不限于从历史搜索记录中获取的用户搜索词。
55.具体地,本发明实施例提供的一种多方式丰富搜索词库优化搜索分词方法,通过根据用户历史搜索行为数据和用户点击行为数据,分析用户搜索喜好,根据用户输入的搜索词进行提前预测并自动补全用户搜索词,预测补充的词为搜索词库中的搜索词,将补充的搜索词用于搜索,从而达到完整分词的效果,让分词搜索结果更接近用户意图。
56.基于上述多方式丰富搜索词库优化搜索分词方法,本发明实施例还提供一种多方式丰富搜索词库优化搜索分词装置,图2为本发明提供的一种多方式丰富搜索词库优化搜索分词装置的结构框图,如图3所示,该多方式丰富搜索词库优化搜索分词装置包括构建模块201、优化模块202、补充模块203。
57.构建模块201,用于根据用户搜索行为数据构建搜索词库。
58.优选地,构建模块201还用于根据公开数据库提取地方市、区、县、地方景区名称及
其简称;根据网页信息采集与所述地方市、区、县、地方景区名称对应的别名。
59.具体地,以云南省为例,基于公开数据库提取云南省各州市、区县名称及其简称,基于公开文旅数据库提取云南省各景区名称及其简称,基于百度百科网页信息提取与云南省各州市、区县、景区名称及其简称相对应的别名,构建云南省州市、区县、景区搜索词库。其中,该用户搜索行为数据包括但不限于用户搜索词,其中,该用户搜索行为数据包括但不限于用户搜索词
60.优化模块202,用于根据用户搜索行为数据和用户点击行为数据,优化搜索词库。
61.优选地,优化模块202还用于在第一预设周期内对用户搜索行为数据进行分析、对用户输入的搜索词进行频次统计;根据第一预设周期内用户搜索的总次数n,按照使用频次从高到底提取n/5的搜索词;对提取的搜索词进行语义分析,去除语义不完整的搜索词,并将剩余的搜索词与现有搜索词库中的词比对,进行去重入库,优化搜索词库。作为本发明实施例地进一步改进,优化模块202还用于在第二预设周期内对用户点击行为数据进行分析、对用户点击行为产生的点击量进行统计排名;提取点击量排名在前m的资源,对提取的资源进行关键词、主题词、地理位置信息提取;对提取的关键词及主题词进行语义分析,提取语义匹配度较高的k个词与现有搜索词库中的词比对,进行去重入库,进一步优化搜索词库。其中,该用户点击行为数据包括但不限于基于用户搜索词返回的数据对象中用户点击的资源对象。需要说明的是,本发明实施例中的第一预设周期和第二预设周期优选为一个月。
62.补充模块203,用于根据用户历史搜索行为数据,补全用户搜索词。
63.具体地,补充模块203用于根据用户历史搜索行为数据,分析用户搜索喜好,预测用户搜索词并自动补全用户搜索词,将补充的词用于搜索,达到优化搜索分词的效果,其中,预测的用户搜索词为搜索词库中的搜索词,具体地,预测的用户搜索词为用户输入的搜索词的同义词和/或近义词,且该历史搜索行为数据包括但不限于从历史搜索记录中获取的用户搜索词。
64.需要说明的是,本发明实施例提供的一种多方式丰富搜索词库优化搜索分词装置,通过根据用户历史搜索行为数据和用户点击行为数据,分析用户搜索喜好,根据用户输入的搜索词进行提前预测并自动补全用户搜索词,预测补充的词为搜索词库中的词,将补充的词用于搜索,从而给到用户更符合需求的搜索结果。
65.关于上述多方式丰富搜索词库优化搜索分词装置中各模块实现上述技术方案的其他细节,可参见上述发明实施例中提供的多方式丰富搜索词库优化搜索分词方法中的描述,此处不再赘述。
66.本技术实施例还提供了一种多方式丰富搜索词库优化搜索分词设备的结构示意图,图3为本技术实施例提供的一种多方式丰富搜索词库优化搜索分词设备的结构示意图,如图3所示,该多方式丰富搜索词库优化搜索分词设备可以包括:处理器302以及与所述处理器通信连接的存储器301;该存储器301用于存储计算机程序;该处理器302用于执行该存储器301上存储的计算机程序,使得该处理器302执行上述任一实施例所述的方法。具体地,存储器301和处理器302可以通过总线连接。
67.关于上述多方式丰富搜索词库优化搜索分词设备中处理器实现上述技术方案的其他细节,可参见上述发明实施例中提供的多方式丰富搜索词库优化搜索分词方法中的描述,此处不再赘述。
68.本技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序执行指令,计算机执行指令被处理器执行时用于实现上述本技术任一实施例中的方法。
69.在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,各个部分的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
70.作为分离部件说明的装置中的各个部分可以是或者也可以不是物理上分开的,比如,作为寄存器模型的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案
71.另外,在本技术各个实施例中该装置的各个部分可以集成在一个处理单元中,也可以是单独的物理存在,也可以两个或两个以上集成在一个单元中。扎样形成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本技术各个实施例所述方法的部分步骤。
72.应理解,上述处理器可以是中央处理单元(central processing unit,简称cpu),还可以是其它通用处理器、数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
73.存储器可能包含高速随机存取存储器(random access memory,简称ram),也可能还包括非不稳定的存储器(non-volatile memory,简称nvm),例如至少一个磁盘存储器,还可以为u盘、移动硬盘、只读存储器、磁盘或光盘等。总线可以是工业标准体系结构(industry standard architecture,简称isa)总线、外部设备互连(peripheral component interconnect,简称pci)总线或扩展工业标准体系结构(extended industry standard architecture,简称eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本技术附图中的总线并不限定仅有一根总线或一种类型的总线。
74.上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(static random-access memory,简称sram),电可擦除可编程只读存储器(electrically erasable programmable read only memory,简称eeprom),可擦除可编程只读存储器(erasable programmable read-only memory,简称eprom),可编程只读存储器(programmable read-only memory,简称prom),只读存储器(read-only memory,简称rom),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部
分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits,简称asic)中。当然,处理器和存储介质也可以作为分立组件存在于多方式丰富搜索词库优化搜索分词设备或主控设备中。
75.以上对本发明实施例公开的一种多方式丰富搜索词库优化搜索分词方法、装置、设备及存储介质进行了详细介绍,尽管已描述了本发明的优选实施例,但其只作为范例,本发明并不限制于以上描述的具体实施方式。本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。因此,对于本领域的技术人员而言,依据本发明的思想,对该发明进行的等同修改或替代也都在本发明的范畴之中,在不脱离本发明的精神和原则范围下所作的均等变换和修改、改进等,都应涵盖在本发明的范围内。综上,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1