搜索方法和装置与流程

文档序号:12720220阅读:258来源:国知局
搜索方法和装置与流程

本申请涉及互联领域,具体涉及搜索领域,尤其涉及搜索方法和装置。



背景技术:

搜索引擎可以通过诸如搜索引擎营销(SEM,Search Engine Marketing)的手段为与其合作电商的站点带来更多的点击和关注。电商通过有针对性地在搜索引擎上购买关键词,将搜索引擎上的用户导入电商的站点。电商的站点可以提供中间页作为搜索引擎导入流量的入口,激发用户的购买兴趣。目前,通常是直接将搜索引擎导入的用户搜索关键词在电商的站点的商品检索系统中进行搜索,并在中间页将搜索结果呈现给用户。

然而,由于搜索引擎与电商的站点的商品检索系统的知识体系存在明显差异,搜索引擎倾向于更普适性的应用场景,在搜索时倾向于诸如信息的热度等无偏向性的属性,而电商的站点的商品检索系统是基于商品集合深度优化的,倾向于将检索的目标局限在已知商品的范围内。从而,导致在直接将搜索引擎导入的用户搜索关键词在电商的站点的商品检索系统中搜索,难以返回用户感兴趣的商品,进而导致无法在中间页向用户呈现用户感兴趣的商品,影响用户体验以及最终转化。



技术实现要素:

本申请提供了搜索方法和装置,用于解决上述背景技术部分存在的技术问题。

第一方面,本申请提供了搜索方法,该方法包括:对用户在搜索引擎中输入的用户搜索关键词进行文本切分,以及对文本切分后得到的切分词语进行组合,得到多个用户搜索关键词元组;从多个站内搜索关键词元组中分别查找出与每一个用户搜索关键词元组匹配的站内搜索关键词元组,其中,站内搜索关键词元组基于预先对用户在站点内输入的站内搜索关键词进行文本切分得到的切分词语进行组合而生成;从查找出的站内搜索关键词元组中选取出满足预设条件的站内搜索关键词元组,以及从选取出的站内搜索关键词元组中选取出核心词语,预设条件包括:对应的站点内的至少一个类目的搜索意图的强度大于阈值;将核心词语对应的站点内的搜索结果呈现给用户。

第二方面,本申请提供了搜索装置,该装置包括:处理单元,配置用于对用户在搜索引擎中输入的用户搜索关键词进行文本切分,以及对文本切分后得到的切分词语进行组合,得到多个用户搜索关键词元组;查找单元,配置用于从多个站内搜索关键词元组中分别查找出与每一个用户搜索关键词元组匹配的站内搜索关键词元组,其中,站内搜索关键词元组基于预先对用户在站点内输入的站内搜索关键词进行文本切分得到的切分词语进行组合而生成;核心词语筛选单元,配置用于从查找出的站内搜索关键词元组中选取出满足预设条件的站内搜索关键词元组,以及从选取出的站内搜索关键词元组中选取出核心词语,预设条件包括:对应的站点内的至少一个类目的搜索意图的强度大于阈值;站点内搜索单元,配置用于将核心词语对应的站点内的搜索结果呈现给用户。

本申请提供的搜索方法和装置,通过对用户在搜索引擎中输入的用户搜索关键词进行文本切分,以及对文本切分后得到的切分词语进行组合,得到多个用户搜索关键词元组;从多个站内搜索关键词元组中分别查找出与每一个用户搜索关键词元组匹配的站内搜索关键词元组;从查找出的站内搜索关键词元组中选取出满足预设条件的站内搜索关键词元组,以及从选取出的站内搜索关键词元组中选取出核心词语;将核心词语对应的站点内的搜索结果呈现给用户。实现了从诸如搜索引擎导入的用户搜索关键词挖掘出更好表现用户的兴趣和意图的核心词语,利用核心词语在诸如电商的站点内进行搜索,向用户呈现用户感兴趣的诸如电商的站点的商品的搜索结果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是可以应用于本申请的搜索方法的示例性系统架构图;

图2示出了本申请的搜索方法的一个流程图;

图3示出了本申请的搜索方法的一个示例性流程图;

图4示出了本申请的搜索装置的一个结构示意图。

具体实施例

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用于本申请的搜索方法的示例性系统架构图。

如图1所示,系统架构可以包括搜索引擎101、网络102和站点103。网络102用以在搜索引擎101和站点103之间提供传输链路的介质。网络102可以包括各种连接类型,例如有线、无线传输链路或者光纤电缆等等。

搜索引擎101可以为站点103导入流量。例如,站点103可以为电商的站点,搜索引擎101可以通过搜索引擎营销手段为站点103导入流量。站点103上的服务器可以将搜索引擎101导入的用户搜索关键词挖掘出更好地表现用户的兴趣和意图的核心词语,利用核心词语在站点103的检索系统中进行搜索,得到用户感兴趣的搜索结果,从而,将用户感兴趣的搜索结果在搜索中间页呈现给用户。

请参考图2,其示出了本申请的搜索方法的一个流程图。该方法可以由服务器例如图1中的站点103上的服务器执行,相应地,搜索装置可以设置于服务器例如站点103上的服务器中。该方法包括以下步骤:

步骤201,对用户在搜索引擎中输入的搜索关键词进行处理。

以站点为电商的站点,搜索引擎可以为电商的站点导入流量的搜索引擎为例,为了将搜索引擎导入的用户搜索关键词改写为更好地表现用户的兴趣和意图的核心词语,并利用核心词语在电商的站点内的商品检索系统中搜索,返回用户感兴趣的商品,可以首先获取搜索引擎导入的用户搜索关键词。在获取用户搜索关键词之后,可以首先对用户搜索关键词进行文本切分,得到多个切分词语。然后,可以对切分词语进行组合,得到用户搜索关键词元组。

在一些实施例中,在对用户搜索关键词进行文本切分时,考虑了未登录词(Unregistered Word)对文本切分的质量的影响,可以预先设置包含站点内的未登陆词的预设词表。在进行文本切分时,除了依靠常用词语构成的字典,可以根据预设词表,准确地切分出用户搜索关键词中的未登陆词。

以站点为电商的站点为例,用户在电商的站点内搜索时输入的站点内搜索词通常与商品名称、品牌等相关,站点内搜索词多属于未登录词,但又表达了强烈的对商品的搜索意图。为提升文本切分质量,可以定期更新类目词表、商品词表、品牌词表等预设词表,类目词表、商品词表、品牌词表中包含表示电商的站点内的商品类别的关键词、表示电商的站点内的商品名称的关键词、表示电商的站点内的商品品牌的关键词。从而,在对用户搜索关键词进行文本切分时,可以根据定期更新的类目词表、商品词表、品牌词表,准确的切分出表示商品类别的关键词、表示商品名称的关键词、表示商品品牌的关键词等词语。从而,提升文本切分的准确度。

在一些实施例中,在对用户搜索关键词进行文本切分,得到多个切分词语之后,可以采用N-元组(N-Gram)模型对切分词语进行组合,得到用户搜索关键词元组。

例如,对用户搜索关键词进行文本切分后得到的切分词语中包含“苹果”。对于“苹果”,在不同的上下文中可能是指品牌或者商品。可以利用N-元组模型对切分词语进行组合。在利用N-元组模型对切分词语进行组合时,每个切分词语可以与左右相邻连续的词汇构成一个用户搜索关键词元组,最大长度N是可调参数。从而,使得用户搜索关键词元组既包含了词组本身也包含了一定的上下文信息,更能够凸显用户的搜索意图。例如,用户搜索关键词元组中包含“苹果”和“手机”,则可以确定“苹果”是指品牌,同时也能更准确地反映用户的搜索意图为某品牌的手机产品。

步骤202,分别查找出与每一个用户搜索关键词元组匹配的站内搜索关键词元组。

在通过步骤201得到用户搜索关键词元组之后,例如,在结合预设词表进行文本切分和N-元组模型对从搜索引擎导入的用户搜索关键词进行加工,得到用户搜索关键词元组之后,可以从预先得到的多个站内搜索关键词元组中分别查找出与每一个用户搜索关键词元组匹配的站内搜索关键词元组,即从预先得到的多个站内搜索关键词元组中查找出用户搜索关键词的元组。

在一些实施例中,可以预先获取海量的用户在站点内的历史搜索中输入的站内搜索关键词和点击的站内搜索关键词对应的站点内的搜索结果。然后,可以根据包含站点内的未登陆词的预设词表,对获取到的站内搜索关键词进行文本切分,以及采用N-元组模型对切分后的切分词语进行组合,得到站内搜索关键词元组。

步骤203,从查找出的站内搜索关键词元组中挖掘核心词语。

在通过步骤202查找出与每一个用户搜索关键词元组匹配的站内搜索关键词元组之后,可以进一步从查找出的站内搜索关键词元组中挖掘核心词语。

在一些实施例中,可以预先计算每一个站内搜索关键词元组对应的信息增益,基于站内搜索关键词元组对应的信息增益,挖掘出核心词语。对于任何一个搜索关键词元组,可以定义信息增益为在有无该搜索关键词元组的情况下,搜索意图确定性的差异。以站点为电商的站点为例,假设没有关键词描述的搜索行为最终的转化是均匀分布在所有商品上的,而此时加入搜索关键词“手机”,则可以推断转化目标只限于手机类目下的商品。加入搜索关键词后引起的目标范围的缩小或者说确定性的提升,可以用信息论中的信息增益来量化描述。

在一些实施例中,可以预先确定每一个站内搜索关键词元组对应的历史转化类目集合以及每一个类目的转化次数。例如,用户在站点内的历史搜索中输入了站内搜索关键词元组,用户点击了站内搜索关键词元组对应的站点内的搜索结果中的一个类目的搜索结果,则该类目可以作为站内搜索关键词元组对应的历史转化类目,用户对该类目的搜索结果的点击次数,可以作为该类目的转化次数。在分别计算出每一个站内搜索关键词元组对应的历史转化类目集合以及每一个类目的转化次数之后,可以进一步分别计算每一个站内搜索关键词元组对应的信息增益。每一个站内搜索关键词元组对应的信息增益可以为站点内所有的类目转化概率的熵减去在站内搜索关键词元组参与在站点内搜索的情况下的类目转化概率的条件熵。在计算出每一个站内搜索关键词元组对应的信息增益之后,可以构建包含站内搜索关键词元组和站内搜索关键词元组对应的信息增益的字典。

在一些实施例中,可以在包含站内搜索关键词元组和站内搜索关键词元组对应的信息增益的字典中,查找与用户搜索关键词元组匹配的站内搜索关键词元组,即在字典中查找出用户搜索关键词的元组。

若字典中不存在与用户搜索关键词元组匹配的站内搜索关键词元组,即在字典中未查找出用户搜索关键词的元组,则可以认为信息增益为零。

若字典中存在与用户搜索关键词元组匹配的站内搜索关键词元组,即从字典中查找出了用户搜索关键词的元组,可以对查找出与用户搜索关键词元组匹配的站内搜索关键词元组对应的信息增益进行排序,即将查找出的用户搜索关键词的元组按照信息增益从高到低排序,选取排名前几个的用户搜索关键词元组作为核心词语的候选。从而,使得筛选的核心词语能够更好地表现用户的兴趣和意图。

以站点为电商的站点为例,用户在搜索引擎中输入“苹果三星哪个好”,“小米6什么时候发售”等搜索词,可以判断这些搜索词中是否存在“苹果手机”、“三星手机”、“小米5”等在电商的站点内搜索有用的语素,虽然小米6实际上没有发售,但依然可以分析出用户对电商的站点内的商品的搜索的兴趣,认为用户对小米感兴趣,根据用户在站内的历史热度,可以推荐小米5。

在本申请中,可以通过基于类目而非商品构建的信息增益,避免长尾商品销量记录过少引起的计算数值不稳定,也能够适应后续的中间页优化的需求。

步骤204,将核心词语对应的站点内的搜索结果呈现给用户。

在通过步骤203得到核心词语之后,可以对核心词语进行组合,得到核心词语组合。可以利用核心词语组合在站点内进行搜索,得到用户感兴趣的搜索结果,将该搜索结果呈现给用户。

在一些实施例中,利用核心词语组合在站点内进行搜索,得到用户感兴趣的搜索结果之后,可以将搜索结果在搜索中间页中呈现给用户。

以站点为电商的站点,搜索引擎为可以为电商的站点导入流量的搜索引擎为例,可以利用核心词语组合在站点内的商品检索系统中进行搜索,将得到的搜索结果在搜索中间页呈现给用户。由于核心词语组合中的核心组合可以更好地表现用户的兴趣和意图,因此,利用核心词语组合在站点内的商品检索系统中进行搜索得到的搜索结果为用户感兴趣的商品,可以将用户感兴趣的商品在在搜索中间页中呈现,从而,提升搜索商品展示准确率。

请参考图3,其示出了本申请提供的搜索方法的一个示例性流程图。

将站内搜索关键词经过文本切分和N-元组模型加工、汇总,得到站内搜索关键词元组。将用户搜索关键词经过文本切分和N-元组模型加工、汇总,得到用户搜索关键词元组。可以预先根据站内搜索关键词对应的点击历史,确定每一个站内搜索关键词元组对应的历史转化类目集合以及每一个类目的转化次数,进而计算每一个站内搜索关键词对应的信息增益,信息增益为所有的类目转化概率的熵减去在确定该元组情况下的类目转化概率的条件熵,站内搜索关键词元组和对应信息增益构成字典。

可以从字典中查找出用户搜索关键词的元组。若不存在则认为增益为零。若存在,可以将查找出的用户搜索关键词的元组按照信息增益从高到低排序,选取排名靠前的查找出的用户搜索关键词的元组作为核心词语的候选。在得到信息增益排名靠前的多个元组后,可能出现有些元组是另一些元组的子集的情况,可以进行去重以及去除敏感词语,得到核心词语,核心词语可以更好地表现用户的兴趣和意图。然后,可以对核心词语进行排列组合,得到改写目标。从而,可以利用该改写目标在站点内的检索系统中进行搜索,得到用户感兴趣的搜索结果,将该搜索结果呈现给用户。

以下以站点为电商的站点为例,说明本申请的搜索方法的优点:在本申请中,可以利用电商的站点自身的搜索数据构建反映用户对不同的类目的搜索意图的模型,该模型可以根据站内搜索词元组和站点搜索词元组对应的信息增益来构建。可以将搜索引擎导入的搜索行为映射到该模型上,利用改写后的搜索词元组在站点内的商品检索系统中进行检索,得到用户感兴趣的商品,在搜索中间页呈现用户感兴趣的商品。从而,有效地解决了直接利用搜索引擎导入的用户搜索关键词直接传入电商的站点的检索系统进行搜索,因在搜索引擎中输入的搜索词不正规以及搜索习惯上的差异导致的返回给用户的内容质量低下的问题,提升了搜索召回率。通过改写使得电商的站点搜索能够返回用户感兴趣的商品,提升搜索商品展示准确率。

请参考图4,其示出了本申请的搜索装置的一个结构示意图。搜索装置包括:处理单元401,查找单元402,核心词语筛选单元403,站点内搜索单元404。其中,处理单元401配置用于对用户在搜索引擎中输入的用户搜索关键词进行文本切分,以及对文本切分后得到的切分词语进行组合,得到多个用户搜索关键词元组;查找单元402配置用于从多个站内搜索关键词元组中分别查找出与每一个用户搜索关键词元组匹配的站内搜索关键词元组,其中,站内搜索关键词元组基于预先对用户在站点内输入的站内搜索关键词进行文本切分得到的切分词语进行组合而生成;核心词语筛选单元403配置用于从查找出的站内搜索关键词元组中选取出满足预设条件的站内搜索关键词元组,以及从选取出的站内搜索关键词元组中选取出核心词语,预设条件包括:对应的站点内的至少一个类目的搜索意图的强度大于阈值;站点内搜索单元404配置用于将核心词语对应的站点内的搜索结果呈现给用户。

本申请还提供了一种服务器,该服务器可以包括图4所描述的搜索装置。该服务器可以配置有一个或多个处理器;存储器,用于存储一个或多个程序,一个或多个程序中可以包含用以执行上述步骤201-204中描述的操作的指令。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述步骤201-204中描述的操作。

本申请还提供了一种计算机可读介质,该计算机可读介质可以是服务器中所包括的;也可以是单独存在,未装配入服务器中。该计算机可读介质承载有一个或者多个程序,当一个或者多个程序被该服务器执行时,使得该服务器:对用户在搜索引擎中输入的用户搜索关键词进行文本切分,以及对文本切分后得到的切分词语进行组合,得到多个用户搜索关键词元组;从多个站内搜索关键词元组中分别查找出与每一个用户搜索关键词元组匹配的站内搜索关键词元组,其中,站内搜索关键词元组基于预先对用户在站点内输入的站内搜索关键词进行文本切分得到的切分词语进行组合而生成;从查找出的站内搜索关键词元组中选取出满足预设条件的站内搜索关键词元组,以及从选取出的站内搜索关键词元组中选取出核心词语,预设条件包括:对应的站点内的至少一个类目的搜索意图的强度大于阈值;将核心词语对应的站点内的搜索结果呈现给用户。

需要说明的是,上述计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包括或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以为多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包括的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1