一种数据搜索处理方法及装置的制造方法

文档序号:8457275阅读:214来源:国知局
一种数据搜索处理方法及装置的制造方法
【技术领域】
[0001] 本申请涉及互联网搜索处理领域,更具体地涉及一种数据搜索处理方法及装置。
【背景技术】
[0002] 在搜索过程中,用户通常通过在查询框内输入查询词来表达需求。大多数情况下, 由于用户最初在进行搜索时并未确定搜索目标的品类,因此,通常会先输入一个品类比较 宽泛的查询词。之后,随着在搜索结果页看到大量的搜索结果,用户会进一步地从搜索结 果的名称或者搜索结果的详情页的描述中获取信息,并根据这些信息来修改或者补充上一 个查询词,以进行下一次搜索。例如,当用户输入的查询词序列是"外套_>外套韩版_>棉 衣_>棉衣加厚_>羽绒服_>羽绒服长款_>羽绒服长款大毛领_>羽绒服长款修身大毛领" 时,用户的意图可能是希望通过搜索找到一件满意的冬装上衣,也可能是看看最近网上有 没有什么新款或者优惠。此时,如果能了解用户的意图(购买或浏览),可以对搜索结果进行 适当调整。比如,对于意图是"购买"的用户,可以展示更多的销量高、满意度高的商品;对 于意图是"浏览"的用户,可以展示更多的用户可能感兴趣的商品(新品或者偏好商品)。然 而,在搜索过程中,是否会发生购买是一种隐藏状态,系统能够观察到的只有用户的各种操 作行为,其是否具有购买某一商品的意图很难获知。现有搜索技术中,采用查询词意图来判 断用户意图类型,这是一种很直接的方式。这种方式利用历史数据中查询词所引导的后续 行为以及各查询词在浏览网站期间(Session)出现的位置等信息对查询词的意图类型(如 前例:购买意图)进行建模,然后离线计算出每个查询词的意图类型结果,形成静态词表。之 后,在线实时判断用户行为意图时,加载该静态词表通过关键词查询即可。这种判断用户行 为意图类型的方法无须借助实时分析系统,实现方式简单。
[0003] 但是,由于各查询词的意图类型结果是在离线状态下计算出来的,没有考虑到对 该查询词进行本次搜索动作的上下文(搜索前的其他行为信息),只考虑当前的查询词本 身,这种方式所导致的结果是,相同的查询词所对应的意图类型是相同的。因此,这种方案 不能体现出不同用户之间、同一用户在不同搜索上下文的情况下使用相同查询词的意图类 型差异,导致对意图类型的预测不准确,进而导致提供给对应用户的数据搜索结果效率低、 准确性差,搜索结果的排序不够人性化,降低了用户的搜索体验。

【发明内容】

[0004] 本申请的主要目的在于,针对上述缺陷,提供数据搜索处理技术,以区分搜索过程 中不同用户、同一用户在不同搜索上下文的情况下使用相同查询词的意图类型差异,从而 更准确地确定用户意图,提升搜索结果准确性的问题。
[0005] 根据本申请的第一方面,提供了一种数据搜索处理方法,其特征在于,包括:根据 历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,进行机器学习模 型的训练,建立意图类型预测模型;根据用户当前搜索的近期行为特征数据、查询词的特征 数据和用户个人特征数据使用意图类型预测模型确定用户当前搜索行为的意图类型;以及 根据确定的意图类型,调整与数据搜索处理结果相关的排序因子的权重。
[0006] 根据本申请的第二方面,提供了一种数据搜索处理装置,其特征在于,包括:模型 训练模块,用于根据历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数 据,进行机器学习模型的训练,建立意图类型预测模型;意图类型确定模块,用于根据用户 当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据使用意图类型预测 模型确定用户当前搜索行为的意图类型;以及调整模块,用于根据确定的意图类型,调整与 数据搜索处理结果相关的排序因子的权重。
[0007] 与现有技术相比,根据本申请的技术方案,能够在用户发生搜索操作时,结合用户 的长期行为习惯以及近期行为等因素,比如:结合用户当前搜索的近期行为特征数据、查 询词的特征数据和用户个人特征数据等因素,更准确地对用户当前搜索的意图类型进行预 测,从而避免在现有技术中不能体现出不同用户、同一用户在不同搜索上下文的情况下使 用相同查询词的意图类型的差异而导致的对意图类型确定不准确等缺陷,进而使数据搜索 结果的排序更加人性化,以提高用户的搜索体验。
【附图说明】
[0008] 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申 请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0009] 图1是根据本申请一个实施例的数据搜索处理方法的流程图;
[0010] 图2是根据本申请的更详细实施例的数据搜索处理方法的流程图;以及
[0011] 图3是根据本申请一个实施例的数据搜索处理装置的框图。
【具体实施方式】
[0012] 本申请的主要思想在于,通过结合用户在当前搜索行为发生的时间点的近期行为 特征数据、查询词的特征数据和用户个人特征数据来确定用户当前搜索行为的意图类型, 并且根据确定的意图类型来调整与数据搜索处理结果相关的排序因子的权重。本方案借助 近期行为特征数据、查询词的特征数据和用户个人特征数据,分析各特征数据与最终搜索 意图之间的关系,能更准确地对用户的意图类型进行确定,并用该意图来指导搜索结果的 排序,提供更准确的结果,使得搜索过程更个性化、人性化。
[0013] 为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及 相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一 部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0014] 为描述本申请的方案,下面将以数据搜索处理量巨大的且易理解的购物网络搜索 为例,进行具体说明。
[0015] 为了方便下文描述,先介绍部分术语解释。
[0016] 用户意图:用户行为的目的。例如,在商品搜索中,从是否需要购买的角度定义分 为购买和浏览(比如看看是否有优惠商品、了解时下最新潮流趋势等)。
[0017] 对象详情页:介绍搜索到的数据对象的详细内容的页面,即展示每个数据对象具 体内容的页面,内容为一系列的文本信息、图片信息和交互按钮等。
[0018] 行为日志:用户在网站上的各种操作都会被记录下来作为用户的行为日志,比如: 搜索、商品点击、浏览品类下的对象、查看搜索结果、在对象详情页上的操作(例如:购买/ 收藏/好评/中评/差评)以及这些行为的发生时间,等等。
[0019] 浏览网站时间窗(Session):用户在浏览一个网站时,从进入网站到关闭网站所经 过的这段时间。
[0020] 转化率:评价搜索系统的一种基准指标。例如,在电子商务中,成交转化率就是评 价购物搜索系统的一种基准指标,成交转化率=去重成交用户数/去重搜索用户数。
[0021] 查询词意图:隐藏在输入查询词之后的用户行为的目的即用户意图,其可以通过 用查询词的文本特征、统计特征和用户行为特征等特征数据建模,并在线下预测得到。
[0022] 离散性属性:按照类别取值的属性,比如性别:男、女。
[0023] 连续性属性:按照数值取值的属性,比如身高:160、165、167。
[0024] 搜索的近期行为数据:该次搜索之前的预设的一段时间的行为数据。
[0025] 如果该次搜索是发生在过去的时间内,称为历史搜索,对应的近期行为数据称为 历史搜索的近期行为数据;如果该次搜索正在发生,称为实时搜索,对应的近期行为数据称 为当前(实时)搜索的近期行为数据。
[0026] 历史搜索的近期行为数据:在过去的特定时间段内的行为记录中,在该次历史搜 索之前较近的一段时间内的行为数据。例如,在过去1天到过去30天内的历史行为记录数 据中,该次历史搜索行为之前半小时内的行为数据被称为该次历史搜索的近期行为数据。
[0027] 历史搜索的近期行为特征数据:根据历史搜索的近期行为数据得到的特征数据 (例如下面表1中所示的特征数据),该类特征是相对该次历史搜索来定义的。
[0028] 当前(实时)搜索的近期行为数据:在当前正在发生的搜索行为之前较近的一段时 间内的行为数据。例如,当前时刻正在发生的搜索行
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1