专利名称:搜索方法及搜索引擎的制作方法
技术领域:
本发明涉及搜索引擎技术,尤其涉及一种基于知识库对查询指令进行需求分析与 解析的搜索方法及搜索引擎。
背景技术:
随着互联网上信息的飞速增长,网络上充斥了越来越多的冗余信息,而对于在网 络上搜寻自己所需要信息的互联网用户而言,面对这些漫无边际的信息无疑像大海捞针。 搜索引擎的出现无疑在一定程度上为用户的搜索需求带来了很大便利。搜索引擎是一种在 网络上应用的软件系统,其以一定的策略在网络上搜集和发现信息,并在对信息进行处理 和组织后,为用户提供互联网上的信息搜索服务。通常,这种软件系统提供一个网页界面, 让用户在客户端通过浏览器软件提交搜索词,然后很快返回一个可能和用户输入的搜索内 容相关的信息列表。这个列表通常会包括上万个条目,每个条目代表一篇搜索到的相关网 页。过去十几年以来,相应地,众多的互联网搜索引擎及对应的网站应运而生,这中 间的佼佼者包括百度公司的百度搜索(WWW. baidu. com)和谷歌公司的谷歌搜索(www. google, cn)。现有的搜索引擎对用户输入的查询指令大多是基于查询指令字符理解的,例 如,用户输入查询指令为“Nokia手机”,基于现有的搜索引擎只能将该查询指令分词为 “Nokia”和“手机”,且通过该分词结果在网页数据库索引中进行检索,将文本包括“Nokia” 和“手机”的网页Url输入,形成搜索结果,然而这种搜索引擎并不能对用户的查询指令进 行内容与语义层次上的理解,例如,用户输入查询指令为“Nokia手机”,其并不能将这个查 询指令理解为“Nokia”为“手机”中的一种品牌;当然,更不能理解查询指令的需求意图,以 及查询指令的结构,不能对查询指令进行语义内容扩充等。对于用户输入的表达形式多样 化、需求意图多样化的查询指令,现有的基于字符的搜索引擎已经不能更好的满足用户的 需求,造成用于查找不全,需要多次输入不同的查询指令才可能找到需要的搜索结果,搜索 效率较低,浪费网络资源的问题。
发明内容
本发明的目的在于提供一种改进的搜索方法,其可在知识库的基础上,更好的理 解用户输入的查询指令,分析查询指令的以图,解析查询指令的结构,对查询指令进行语义 内容扩充。本发明的目的还在于提供一种实现上述搜索方法的改进的搜索引擎。为实现上述发明目的之一,本发明第一实施方式提供一种搜索方法,包括以下步 骤Si、接收查询指令;S2、基于知识库对所述查询指令进行需求意图分析,明确所述查询指令的需求意图;S3、将带有需求意图的所述查询指令在数据库中搜索,得到搜索结果;S4、输出所述搜索结果。作为本发明的进一步改进,所述数据库为网页存储库或与所述需求意图相对应的 垂直搜索数据库。作为本发明的进一步改进,在所述S2步骤和S3步骤间,还包括语义扩充步骤基于所述知识库对所述查询指令进行语义扩充。作为本发明的进一步改进,所述“基于知识库对所述查询指令进行需求意图分析, 明确所述查询指令的需求意图”具体包括以下流程S200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使 各个知识片段都具有相应的需求意图得分;S201、将所述查询指令与知识片段匹配,得到与所述查询指令相匹配的至少一个 知识片段;S202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分 数;S203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减 所述第一分数,得到知识库整体需求得分;S204、判断所述知识库整体需求得分是否大于一设定阈值;S205、若大于所述设定阈值,则以所述知识库整体需求得分最高的需求类型作为 所述查询指令的需求意图;S206、若小于所述设定阈值,则判断所述查询指令无明显需求意图。作为本发明的进一步改进,所述“基于知识库对所述查询指令进行需求意图分析, 明确所述查询指令的需求意图”具体包括以下流程S200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使 各个知识片段都具有相应的需求意图得分;S201、将所述查询指令与知识片段和表达模板匹配,得到与所述查询指令相匹配 的至少一个知识片段和一表达模板;S202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分 数;S203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减 所述第一分数,得到知识库整体需求得分;S204、对所述查询指令在表达模板层面上进行打分,得到表达模板得分;S205、将知识库整体需求得分与表达模板得分的加权之和作为查询指令需求强度 得分;S206、判断所述查询指令需求强度得分是否大于一设定阈值;S207、若大于所述设定阈值,则以查询指令需求强度得分最高的需求类型作为所 述查询指令的需求意图;S208、若小于所述设定阈值,则判断所述查询指令无明显需求意图。为实现上述发明目的之一,本发明第二实施方式提供一种搜索方法,包括以下步骤Si、接收查询指令;S2、基于知识库对所述查询指令进行需求意图分析,明确所述查询指令的需求意 图,同时,基于所述知识库对所述查询指令进行语义扩充;S3、将带有需求意图并扩充语义的查询指令在数据库中搜索,得到搜索结果;S4、输出所述搜索结果。作为本发明的进一步改进,所述数据库为网页存储库或与所述需求意图相对应的 垂直搜索数据库。作为本发明的进一步改进,所述“基于知识库对所述查询指令进行需求意图分析, 明确所述查询指令的需求意图”具体包括以下流程S200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使 各个知识片段都具有相应的需求意图得分;S201、将所述查询指令与知识片段匹配,得到与所述查询指令相匹配的至少一个 知识片段;S202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分 数;S203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减 所述第一分数,得到知识库整体需求得分;S204、判断所述知识库整体需求得分是否大于一设定阈值;S205、若大于所述设定阈值,则以所述知识库整体需求得分最高的需求类型作为 所述查询指令的需求意图;S206、若小于所述设定阈值,则判断所述查询指令无明显需求意图。作为本发明的进一步改进,所述“基于知识库对所述查询指令进行需求意图分析, 明确所述查询指令的需求意图”具体包括以下流程S200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使 各个知识片段都具有相应的需求意图得分;S201、将所述查询指令与知识片段和表达模板匹配,得到与所述查询指令相匹配 的至少一个知识片段和一表达模板;S202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分 数;S203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减 所述第一分数,得到知识库整体需求得分;S204、对所述查询指令在表达模板层面上进行打分,得到表达模板得分;S205、将知识库整体需求得分与表达模板得分的加权之和作为查询指令需求强度 得分;S206、判断所述查询指令需求强度得分是否大于一设定阈值;S207、若大于所述设定阈值,则以查询指令需求强度得分最高的需求类型作为所 述查询指令的需求意图;S208、若小于所述设定阈值,则判断所述查询指令无明显需求意图。
为实现上述发明目的之一,本发明第三实施方式提供一种搜索方法,包括以下步 骤Si、接收查询指令;S2、基于知识库和表达模板库对所述查询指令进行需求意图分析,明确所述查询 指令的需求意图;S3、将带有需求意图的所述查询指令在数据库中搜索,得到搜索结果;S4、输出所述搜索结果。作为本发明的进一步改进,所述数据库为网页存储库或与所述需求意图相对应的 垂直搜索数据库。作为本发明的进一步改进,在所述S2步骤和S3步骤间,还包括语义扩充步骤基于所述知识库对所述查询指令进行语义扩充。作为本发明的进一步改进,所述“基于知识库对所述查询指令进行需求意图分析, 明确所述查询指令的需求意图”具体包括以下流程S200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使 各个知识片段都具有相应的需求意图得分;S201、将所述查询指令与知识片段匹配,得到与所述查询指令相匹配的至少一个 知识片段;S202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分 数;S203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减 所述第一分数,得到知识库整体需求得分;S204、判断所述知识库整体需求得分是否大于一设定阈值;S205、若大于所述设定阈值,则以所述知识库整体需求得分最高的需求类型作为 所述查询指令的需求意图;S206、若小于所述设定阈值,则判断所述查询指令无明显需求意图。作为本发明的进一步改进,所述“基于知识库对所述查询指令进行需求意图分析, 明确所述查询指令的需求意图”具体包括以下流程S200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使 各个知识片段都具有相应的需求意图得分;S201、将所述查询指令与知识片段和表达模板匹配,得到与所述查询指令相匹配 的至少一个知识片段和一表达模板;S202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分 数;S203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减 所述第一分数,得到知识库整体需求得分;S204、对所述查询指令在表达模板层面上进行打分,得到表达模板得分;S205、将知识库整体需求得分与表达模板得分的加权之和作为查询指令需求强度 得分;S206、判断所述查询指令需求强度得分是否大于一设定阈值;
11
S207、若大于所述设定阈值,则以查询指令需求强度得分最高的需求类型作为所 述查询指令的需求意图;S208、若小于所述设定阈值,则判断所述查询指令无明显需求意图。作为本发明的进一步改进,所述表达模板库的构建方法,包括以下流程S300、抽取在用户历史行为库中包含知识片段的查询指令;S301、将所述知识库片段替换成通用符号,生成候选表达模板;S302、统计生成的所述候选表达模板符合的知识库片段的数量;S303、判断所述数量是否大于设定阈值;S304、若大于设定阈值,则将所述候选表达模板作为表达模板,并存于数据库中, 生成表达模板库;S305、若小于设定阈值,则舍弃所述候选表达模板。为实现上述发明目的之一,本发明第四实施方式提供一种搜索方法,包括以下步 骤Si、接收查询指令;S2、基于知识库和表达模板库对所述查询指令进行需求意图分析,明确所述查询 指令的需求意图,同时,基于所述知识库对接收到的查询指令进行语义扩充;S3、将带有需求意图并扩充语义的查询指令在数据库中搜索,得到搜索结果;S4、输出所述搜索结果。作为本发明的进一步改进,所述数据库为网页存储库或与所述需求意图相对应的 垂直搜索数据库。作为本发明的进一步改进,所述“基于知识库对所述查询指令进行需求意图分析, 明确所述查询指令的需求意图”具体包括以下流程S200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使 各个知识片段都具有相应的需求意图得分;S201、将所述查询指令与知识片段匹配,得到与所述查询指令相匹配的至少一个 知识片段;S202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分 数;S203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减 所述第一分数,得到知识库整体需求得分;S204、判断所述知识库整体需求得分是否大于一设定阈值;S205、若大于所述设定阈值,则以所述知识库整体需求得分最高的需求类型作为 所述查询指令的需求意图;S206、若小于所述设定阈值,则判断所述查询指令无明显需求意图。作为本发明的进一步改进,所述“基于知识库对所述查询指令进行需求意图分析, 明确所述查询指令的需求意图”具体包括以下流程S200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使 各个知识片段都具有相应的需求意图得分;S201、将所述查询指令与知识片段和表达模板匹配,得到与所述查询指令相匹配的至少一个知识片段和一表达模板;S202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分 数;S203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减 所述第一分数,得到知识库整体需求得分;S204、对所述查询指令在表达模板层面上进行打分,得到表达模板得分;S205、将知识库整体需求得分与表达模板得分的加权之和作为查询指令需求强度 得分;S206、判断所述查询指令需求强度得分是否大于一设定阈值;S207、若大于所述设定阈值,则以查询指令需求强度得分最高的需求类型作为所 述查询指令的需求意图;S208、若小于所述设定阈值,则判断所述查询指令无明显需求意图。作为本发明的进一步改进,所述表达模板库的构建方法,包括以下流程S300、抽取在用户历史行为库中包含知识片段的查询指令;S301、将所述知识库片段替换成通用符号,生成候选表达模板;S302、统计生成的所述候选表达模板符合的知识库片段的数量;S303、判断所述数量是否大于设定阈值;S304、若大于设定阈值,则将所述候选表达模板作为表达模板,并存于数据库中, 生成表达模板库;S305、若小于设定阈值,则舍弃所述候选表达模板。相应地,作为实现上述发明另一目的,本发明一实施方式提供一种搜索引擎,包 括UI模块,用于接收查询指令,且所述UI模块还用于接收搜索模块返回的搜索结 果,并将所述搜索结果拼装为结果页面后输出;需求意图分析模块,用于基于知识库对所述查询指令进行需求意图分析,明确所 述查询指令的需求意图;搜索模块,用于将带有需求意图的所述查询指令在数据库中搜索,得到搜索结 果;知识库,用于存储先验知识。作为本发明的进一步改进,所述搜索引擎还包括web服务模块,用于通过网络协议接收客户端发出的查询指令,并将所述查询指令 转到所述UI模块,且所述web服务模块还用于接收所述UI模块返回的结果页面,并将所述 结果页面返回至所述客户端。作为本发明的进一步改进,所述搜索引擎还包括用户历史行为库,用于存储用户历史搜索记录。作为本发明的进一步改进,所述用户历史搜索记录包括查询指令、查询次数,以 及加权点击数。作为本发明的进一步改进,所述搜索引擎还包括表达模板挖掘模块,用于根据所述知识库中的知识片段和所述用户历史行为库中的用户历史查询指令,挖掘表达模板,并将所述表达模板存储于表达模板库;表达模板库,用于存储由所述表达模板挖掘模块挖掘出的表达模板。作为本发明的进一步改进,所述搜索引擎还包括结构分类模块,用于基于所述知识库对所述查询指令进行语义扩充。作为本发明的进一步改进,所述数据库为网页存储库或与所述需求意图相对应的 垂直搜索数据库。作为本发明的进一步改进,所述网页存储库用于存储网页数据和该网页数据的索 引信息;所述垂直搜索数据库用于存储特定类别数据和该特定类别数据的索引信息。与现有技术相比,本发明的有益效果是在知识库的基础上,更好的理解用户输入 的查询指令,分析查询指令的以图,解析查询指令的结构,对查询指令进行语义内容扩充, 从而更好的指导搜索引擎选择优质的资源满足用户的搜索需求,使得用户搜索效率提高, 节约网络流量。
图1是本发明搜索引擎与客户端实现互动的工作原理图;图2是本发明搜索引擎第一实施方式的模块图;图3是本发明搜索引擎第二实施方式的模块图;图4是本发明搜索引擎第三实施方式的模块图;图5是本发明搜索引擎第四实施方式的模块图;图6是本发明知识库架构的示意图;图7是本发明搜索方法第一实施方式的流程图;图8是本发明搜索方法第二实施方式的流程图;图9是本发明搜索方法第三实施方式的流程图;图10是本发明搜索方法第四实施方式的流程图;图11是本发明“基于知识库对所述查询指令进行需求意图分析,明确所述查询指 令的需求意图”步骤一实施方式的流程图;图12是本发明“基于知识库对所述查询指令进行需求意图分析,明确所述查询指 令的需求意图”步骤另一实施方式的流程图;图13是本发明表达模板库的构建方法的流程图;图14是本发明在线界面一实施方式的示意图;图15是“当用户点击垂直搜索结果跳转至新页面”中的新页面示意图。
具体实施例方式以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不 限制本发明,本领域的普通技术人员根据这些实施方式所轻易做出的结构、方法、或功能上 的变换均包含在本发明的保护范围内。图1所示的本发明的搜索引擎10与客户端20实现互动的工作原理图。本实施方 式中,该客户端20包括一浏览器201,客户可通过该浏览器201打开搜索引擎在线展示的网页,并在网页中的对话框内输入查询指令,一般的,该输入的查询指令为文本信息,当然, 该查询指令还可以为图片信息、视频信息等等。所述搜索引擎10通过网络接收客户输入至 所述浏览器中的查询指令,并对该查询指令进行搜索后,将搜索结果通过搜索引擎在线展 示网页返回至该浏览器201。其中,该搜索引擎10可以包括一台或多台服务器,该客户端 20可以包括一个或多个用户终端设备,如个人计算机、笔记本电脑、无线电话、个人数字处 理(PDA)、或其它计算机系统和通信系统。这些服务器和终端设备在架构上都包含一些基本组件,如总线、处理系统、存储系 统、一个或多个输入/输出系统、和通信接口等。总线可以包括一个或多个导线,用来实现 服务器或终端设备各组件之间的通信。处理系统包括各类型的用来执行指令、处理进程或 线程的处理器或微处理器。存储系统可以包括存储动态信息的随机访问存储器(RAM)等动 态存储器,和存储静态信息的只读存储器(ROM)等静态存储器,以及包括磁或光学记录介 质与相应驱动的大容量存储器。输入系统供用户输入信息到服务器或终端设备,如键盘、鼠 标、手写笔、声音识别系统、或生物测定系统等。输出系统包括用来输出信息的显示器、打印 机、扬声器等。通信接口用来使服务器或终端设备与其它系统或系统进行通信。通信接口 之间可通过有线连接、无线连接、或光连接连接到网络中,使搜索引擎10、客户端20间能够 通过网络实现相互间的通信。网络可以包括局域网(LAN)、广域网(WAN)、电话网络如公共 交换电话网(PSTN)、企业内部的互联网、因特网、或上述这些网络的结合等。服务器和终端设备上均包含有用来管理系统资源、控制其它程序运行的操作系统 软件,以及用来实现特定功能模块的应用软件。如图2所示,在本发明第一实施方式中,所 述搜索引擎包括了 web服务模块101、与web服务模块101交互通信的UI模块102、与所 述UI模块102通信的需求意图分析模块103、与所述需求意图分析模块103通信的结构分 析模块104、与所述结构分析模块104通信的搜索模块105,以及与所述需求意图分析模块 103、所述结构分析模块104交互通信的知识库106、与所述知识库106通信的用户历史行为 库107、与所述知识库106、用户历史行为库107通信的表达模板挖掘模块108、与所述表达 模板挖掘模块108和所述需求意图分析模块103通信的表达模板库109,以及与所述搜索模 块105通信的网页存储库110。值得一提的是,这些模块即可存储并运行于同一服务器中, 也可存储并运行在多台服务器中。所述web服务模块101用于通过网络协议接收从客户端20传来的查询指令,并将 该查询指令转到UI模块102,另外,该web服务模块101还用于接收所述UI模块102返回 的结果页面,并将所述结果页面返回至客户端20。所述UI模块102用于接收所述web服务模块101传送的查询指令,并将该查询指 令发送至所述查询指令分析模块103 ;另外,所述UI模块102还用于接收所述搜索模块104 返回的搜索结果,并将所述搜索结果拼装为结果页面后,返回所述结果页面至所述web服 务模块101。所述需求意图分析模块103用于调用所述知识库106、用户历史行为库107,以及 所述表达模板库108,以对接收到的查询指令进行需求意图分析,明确所述查询指令的需求 意图。在本发明中,所述意图分析模块103首先通过所述用户历史行为库107给所述知识 库106中的各个知识片段的各个需求意图打分,具体的用户在查询某类需求时,会点击相 应的满足他需求的结果,如用户想获得汽车报价相关的信息,在搜索引擎输入查询指令“朗逸”后,会点击搜索引擎返回的汽车网站的tol,如“网易车库”,此时用户输入的查询指令 “朗逸”片段以及用户点击的tol “网易车库”都隐含反映用户有找车相关信息的需求,基 于这一点,本发明在计算各个知识片段的需求意图时,根据某个知识片段点击某类tol的 数目/某个知识片段点击的总tol,来确定此知识片段需求意图的得分,如在所述用户历史 行为库107中得知,查询指令为“朗逸”,其点击的总Url数为10个,其中,商品类tol为5 个,新闻类Url为3个,图片类Url为2个,则可计算出该查询指令的商品类的需求意图为 0. 5,新闻类的需求意图为0. 3,图片类的需求意图为0. 2 ;其次,在接收到用户输入的一个 查询指令后,需要经过知识库106的知识匹配,得到所述查询指令中存在于所述知识库106 中的知识片段,并综合计算所述查询指令的知识库整体需求强度。例如用户输入“上海大 众朗逸报价”,则通过知识库可获得“上海大众” “朗逸”的知识片段。获得初步信息后,首 先将知识片段“上海大众”和“朗逸”各自的需求意图得分加总,得到第一分数,其次,再通 过知识片段“上海大众”与“朗逸”的关系,加减所述第一分数,得到知识库整体需求得分, 在本发明最佳实施方式中,若知识片段的关系为同属关系,则加分;若知识片段为非同属关 系,则减分;若该知识库整体需求得分大于设定的阈值,则以知识库整体需求得分最高的需 求类型作为查询指令的需求意图,并根据所述需求意图在所述查询指令中加入相应的tag 信息,例如“商品”、“新闻”、“图片”等。值得一提的是在本发明的最佳实施方式中,除了计 算知识库整体需求得分外,在分析需求意图时,还会考虑表达模板层面上的打分在接收到 用户输入的一个查询指令后,需要经过表达模板库108的表达模板匹配,得到所述查询指 令中存在于所述表达模板库108中的表达模板片段,例如用户输入“上海大众朗逸报价”, 则通过用户模板识别出查询指令中存在的“XX报价”模板。在根据上述方法获得知识库整 体需求得分的同时,查询指令又符合用户需求模板,表达模板库108也对所述查询指令在 表达模板层面上进行打分,得到表达模板得分,则整体查询指令的需求强度得分为知识库 整体需求得分与表达模板得分的加权之和,若该加权之和大于设定的阈值,则已加权之和 最大的需求类型作为查询指令的需求意图,并根据所述需求意图在所述查询指令中加入相 应的tag信息,例如“商品”、“新闻”、“图片”等。 所述结构分类模块104用于结合所述知识库106,对经过所述需求意图分析模块 103后的查询指令进行智能化变换后发送至所述搜索模块105,其中,所述智能化变换即是 语义内容扩充,所述的语义内容扩充包括了语义内容的归一化,以及语义类别的扩展。具体 的,在所述查询指令有同属关系(上位属性的知识片段+下位属性的知识片段)时,例如, 所述查询指令为“手机诺基亚”,此时,所述结构分类模块104在发送给所述搜索模块105 时,即会在“手机”这个上位属性的知识片段上加入“可以丢弃”的tag,这样,在搜索模块 105对所述查询指令进行搜索时,即可通过“手机诺基亚”进行搜索,也可通过“诺基亚”进 行搜索,且还可认为带有“手机诺基亚”文本信息的网页和只带有“诺基亚”文本信息的网 页权值一样;另外,例如若所述查询指令为“诺基亚”,则所述结构分类模块104在发送给 所述搜索模块105时,还可根据“诺基亚”对应其上位属性进行扩展,如扩展为“手机”,这 样,在搜索模块105对“诺基亚”进行搜索时,可根据结果的数量判断是否需要扩展到“手 机”进行搜索,如通过“诺基亚”搜索到的结果数量较小时,即可扩展到“手机”;又如若所 述查询指令为“手机”,则所述结构分类模块104可将“手机”对应其同位属性进行扩展,如 扩展为“电脑”,这样的扩展可用于广告的推广,如在搜索页面的右侧即可根据“手机”这个查询指令进行广告推广,又可根据“电脑”这个查询指令进行广告推广;再如,若所述查询指 令为“诺基亚”,则所述结构分类模块104在发送给所述搜索模块105时,还可根据“诺基亚” 对应其下位属性进行扩展,如扩展为“N71”、“N72”等,这样,在搜索模块105在搜索到带有 “Ν71”、“Ν72”等文本信息网页时,也可根据这些网页的权值,判断是否作为搜索结果输出。 这种权值判断可参现有搜索引擎中的权值判断,在此不再赘述。总而言之,对所述查询指令 进行扩展时,可根据搜索的策略,即可扩展其上位属性的知识片段,也可扩展其同位属性的 知识片段,也可扩展其下位属性的知识片段。所述搜索模块105用于接收经过所述需求意图分析模块103或所述结构分类模块 104的智能化变换后的查询指令,并将该查询指令在网页存储库110中搜索,以得到搜索结 果,同时,所述搜索模块105还用于将所述搜索结果返回至所述UI模块102。所述知识库106用于存储先验知识。在本发明最佳实施方式中,所述知识库主要 存储为树形结构,对每一类知识库构建一棵知识库树,通过该知识库树的父亲节点标识其 上位属性,右兄弟节点表示其同位属性,左兄弟节点表示其下位属性,如此迭代,直至叶子 节点。如图6所示,“大众”为其最上位属性;其下位属性为“上海大众”;与所述“上海大众” 同位的有“一汽大众”;在所述“上海大众”下位的有“朗逸”,与所述“朗逸”同位的有“途
观”......这种知识库的构建方法,本领域的普通技术人员可参现有技术完成,在此不再赘述。用户历史行为库107用于存储用户历史搜索记录。优选地,其可包括查询指令、查 询次数,以及加权点击数等信息。表达模板挖掘模块108用于根据所述知识库106中的知识片段和所述用户历史 行为库107中的用户历史查询指令,挖掘出表达模板,并将所述表达模板存储于所述表达 模板库109中。相同需求的用户,在表达方式上会出现相似性,所述表达模板是指,一般用 户在有一定查询需求时,其输入的查询指令为何,例如,当用户在查询汽车相关信息时,表 达方式会有“速腾怎么样”、“马六动力如何”等,其中即可抽取出“汽车品牌/型号怎么 样”、“汽车品牌/型号动力如何”等表达汽车需求时常用的表达模板。在本发明的一实施 方式中,具体为首先在所述用户历史行为库107中包含知识库106知识片段的查询指令抽 取出来,如在“马六如何”、“斯柯达如何”、“速腾如何”的查询指令中,抽取出知识片段“马 六”、“斯柯达”、“速腾”,其次将知识库片段替换成“汽车品牌/型号”符号,即生成“汽车 品牌/型号如何”的候选表达模板;再次,统计生成的候选表达模板符合的知识库片段的 数量,若该数量大于设定的阈值,则将所述候选表达模板作为表达模板,存于所述表达模板 库109中;若该数量小于设定的阈值,则舍弃所述候选表达模板。所述表达模板库109用于存储由所述表达模板挖掘模块108挖掘出的表达模板。所述网页存储库110用于存储网页数据和该网页数据的索引信息。该数据库即是 普通搜索引擎常用的数据库,在此不再赘述。如图3所示,在本发明第二实施方式中,所述搜索引擎包括了 web服务模块101、 与web服务模块101交互通信的UI模块102、与所述UI模块102通信的需求意图分析模块 103、与所述需求意图分析模块103通信的结构分析模块104、与所述结构分析模块104通信 的搜索模块105,以及与所述需求意图分析模块103、所述结构分析模块104交互通信的知 识库106、与所述知识库106通信的用户历史行为库107、与所述知识库106、用户历史行为库107通信的表达模板挖掘模块108、与所述表达模板挖掘模块108和所述需求意图分析模 块103通信的表达模板库109,以及与所述搜索模块105通信的网页存储库110、第一垂直
搜索数据111a、第二垂直搜索数据库Illb........第N垂直搜索数据库llln。值得一提
的是,这些模块即可存储并运行于同一服务器中,也可存储并运行在多台服务器中。所述web服务模块101用于通过网络协议接收从客户端20传来的查询指令,并将 该查询指令转到UI模块102,另外,该web服务模块101还用于接收所述UI模块102返回 的结果页面,并将所述结果页面返回至客户端20。所述UI模块102用于接收所述web服务模块101传送的查询指令,并将该查询指 令发送至所述查询指令分析模块103 ;另外,所述UI模块102还用于接收所述搜索模块104 返回的搜索结果,并将所述搜索结果拼装为结果页面后,返回所述结果页面至所述web服 务模块101。所述需求意图分析模块103用于调用所述知识库106、用户历史行为库107,以及 所述表达模板库108,以对接收到的查询指令进行需求意图分析,明确所述查询指令的需求 意图。在本发明中,所述意图分析模块103首先通过所述用户历史行为库107给所述知识 库106中的各个知识片段的各个需求意图打分,具体的用户在查询某类需求时,会点击相 应的满足他需求的结果,如用户想获得汽车报价相关的信息,在搜索引擎输入查询指令“朗 逸”后,会点击搜索引擎返回的汽车网站的tol,如“网易车库”,此时用户输入的查询指令 “朗逸”片段以及用户点击的tol “网易车库”都隐含反映用户有找车相关信息的需求,基 于这一点,本发明在计算各个知识片段的需求意图时,根据某个知识片段点击某类tol的 数目/某个知识片段点击的总此1,来确定此知识片段需求意图的得分,如在所述用户历史 行为库107中得知,查询指令为“朗逸”,其点击的总Url数为10个,其中,商品类tol为5 个,新闻类Url为3个,图片类Url为2个,则可计算出该查询指令的商品类的需求意图为 0. 5,新闻类的需求意图为0. 3,图片类的需求意图为0. 2 ;其次,在接收到用户输入的一个 查询指令后,需要经过知识库106的知识匹配,得到所述查询指令中存在于所述知识库106 中的知识片段,并综合计算所述查询指令的知识库整体需求强度。例如用户输入“上海大 众朗逸报价”,则通过知识库可获得“上海大众” “朗逸”的知识片段。获得初步信息后,首 先将知识片段“上海大众”和“朗逸”各自的需求意图得分加总,得到第一分数,其次,再通 过知识片段“上海大众”与“朗逸”的关系,加减所述第一分数,得到知识库整体需求得分, 在本发明最佳实施方式中,若知识片段的关系为同属关系,则加分;若知识片段为非同属关 系,则减分;若该知识库整体需求得分大于设定的阈值,则以知识库整体需求得分最高的需 求类型作为查询指令的需求意图,并根据所述需求意图在所述查询指令中加入相应的tag 信息,例如“商品”、“新闻”、“图片”等。值得一提的是在本发明的最佳实施方式中,除了计 算知识库整体需求得分外,在分析需求意图时,还会考虑表达模板层面上的打分在接收到 用户输入的一个查询指令后,需要经过表达模板库108的表达模板匹配,得到所述查询指 令中存在于所述表达模板库108中的表达模板片段,例如用户输入“上海大众朗逸报价”, 则通过用户模板识别出查询指令中存在的“XX报价”模板。在根据上述方法获得知识库整 体需求得分的同时,查询指令又符合用户需求模板,表达模板库108也对所述查询指令在 表达模板层面上进行打分,得到表达模板得分,则整体查询指令的需求强度得分为知识库 整体需求得分与表达模板得分的加权之和,若该加权之和大于设定的阈值,则已加权之和最大的需求类型作为查询指令的需求意图。所述结构分类模块104用于结合所述知识库106,对经过所述需求意图分析模块 103后的查询指令进行智能化变换后发送至所述搜索模块105,其中,所述智能化变换即是 语义内容扩充,所述的语义内容扩充包括了语义内容的归一化,以及语义类别的扩展。具体 的,在所述查询指令有同属关系(上位属性的知识片段+下位属性的知识片段)时,例如, 所述查询指令为“手机诺基亚”,此时,所述结构分类模块104在发送给所述搜索模块105 时,即会在“手机”这个上位属性的知识片段上加入“可以丢弃”的tag,这样,在搜索模块 105对所述查询指令进行搜索时,即可通过“手机诺基亚”进行搜索,也可通过“诺基亚”进 行搜索,且还可认为带有“手机诺基亚”文本信息的网页和只带有“诺基亚”文本信息的网 页权值一样;另外,例如若所述查询指令为“诺基亚”,则所述结构分类模块104在发送给 所述搜索模块105时,还可根据“诺基亚”对应其上位属性进行扩展,如扩展为“手机”,这 样,在搜索模块105对“诺基亚”进行搜索时,可根据结果的数量判断是否需要扩展到“手 机”进行搜索,如通过“诺基亚”搜索到的结果数量较小时,即可扩展到“手机”;又如若所 述查询指令为“手机”,则所述结构分类模块104可将“手机”对应其同位属性进行扩展,如 扩展为“电脑”,这样的扩展可用于广告的推广,如在搜索页面的右侧即可根据“手机”这个 查询指令进行广告推广,又可根据“电脑”这个查询指令进行广告推广;再如,若所述查询指 令为“诺基亚”,则所述结构分类模块104在发送给所述搜索模块105时,还可根据“诺基亚” 对应其下位属性进行扩展,如扩展为“N71”、“N72”等,这样,在搜索模块105在搜索到带有 “Ν71”、“Ν72”等文本信息网页时,也可根据这些网页的权值,判断是否作为搜索结果输出。 这种权值判断可参现有搜索引擎中的权值判断,在此不再赘述。总而言之,对所述查询指令 进行扩展时,可根据搜索的策略,即可扩展其上位属性的知识片段,也可扩展其同位属性的 知识片段,也可扩展其下位属性的知识片段。所述搜索模块105用于接收经过所述需求意图分析模块103或所述结构分类模块 104的智能化变换后的查询指令,并将该查询指令在多个垂直搜索数据库(第一垂直搜索
数据库111a、第二垂直搜索数据库Illb........第N垂直数据库llln)的其中之一,以及
所述网页存储库1110中搜索,以得到搜索结果,同时,所述搜索模块105还用于将所述搜索 结果返回至所述UI模块102。值得一提的是选择某个垂直搜索数据库进行垂直搜索是通 过查询指令的需求意图确定的,例如若查询指令的需求意图为“商品”,则在商品垂直搜索 数据库中进行搜索;所查询指令的需求意图为“图片”,则在图片垂直搜索数据库中进行搜 索,其中,在垂直搜索数据库中搜索到的一条或多条结果,会插入至在网页存储库中搜索到 的结果中,形成整体搜索结果。所述垂直搜索,即是在某个特定的类别下进行搜索,其具体 的搜索方法和系统在本领域中已多有现有技术揭示,在此不再赘述。所述知识库106用于存储先验知识。在本发明最佳实施方式中,所述知识库主要 存储为树形结构,对每一类知识库构建一棵知识库树,通过该知识库树的父亲节点标识其 上位属性,右兄弟节点表示其同位属性,左兄弟节点表示其下位属性,如此迭代,直至叶子 节点。如图6所示,“大众”为其最上位属性;其下位属性为“上海大众”;与所述“上海大众” 同位的有“一汽大众”;在所述“上海大众”下位的有“朗逸”,与所述“朗逸”同位的有“途
观”......这种知识库的构建方法,本领域的普通技术人员可参现有技术完成,在此不再赘述。
用户历史行为库107用于存储用户历史搜索记录。优选地,其可包括查询指令、查 询次数,以及加权点击数等信息。表达模板挖掘模块108用于根据所述知识库106中的知识片段和所述用户历史 行为库107中的用户历史查询指令,挖掘出表达模板,并将所述表达模板存储于所述表达 模板库109中。相同需求的用户,在表达方式上会出现相似性,所述表达模板是指,一般用 户在有一定查询需求时,其输入的查询指令为何,例如,当用户在查询汽车相关信息时,表 达方式会有“速腾怎么样”、“马六动力如何”等,其中即可抽取出“汽车品牌/型号怎么 样”、“汽车品牌/型号动力如何”等表达汽车需求时常用的表达模板。在本发明的一实施 方式中,具体为首先在所述用户历史行为库107中包含知识库106知识片段的查询指令抽 取出来,如在“马六如何”、“斯柯达如何”、“速腾如何”的查询指令中,抽取出知识片段“马 六”、“斯柯达”、“速腾”,其次将知识库片段替换成“汽车品牌/型号”符号,即生成“汽车 品牌/型号如何”的候选表达模板;再次,统计生成的候选表达模板符合的知识库片段的 数量,若该数量大于设定的阈值,则将所述候选表达模板作为表达模板,存于所述表达模板 库109中;若该数量小于设定的阈值,则舍弃所述候选表达模板。所述表达模板库109用于存储由所述表达模板挖掘模块108挖掘出的表达模板。所述网页存储库110用于存储网页数据和该网页数据的索引信息。该数据库即是 普通搜索引擎常用的数据库,在此不再赘述。所述第一垂直搜索数据库11 la、第二垂直搜索数据库Illb........第N垂直搜索
数据库Illn用于存储特定类别数据和该特定类别数据的索引信息,例如商品数据、商品索 引;新闻数据、新闻索引;图片数据、图片索引等。如图4所示,在本发明第三实施方式中,所述搜索引擎包括了 web服务模块101、 与web服务模块101交互通信的UI模块102、与所述UI模块102通信的需求意图分析模块 103、与所述UI模块102通信的结构分析模块104、与所述结构分析模块104通信的搜索模 块105,以及与所述需求意图分析模块103、所述结构分析模块104交互通信的知识库106、 与所述知识库106通信的用户历史行为库107、与所述知识库106、用户历史行为库107通 信的表达模板挖掘模块108、与所述表达模板挖掘模块108和所述需求意图分析模块103通 信的表达模板库109,以及与所述搜索模块105通信的网页存储库110。值得一提的是,这 些模块即可存储并运行于同一服务器中,也可存储并运行在多台服务器中。所述web服务模块101用于通过网络协议接收从客户端20传来的查询指令,并将 该查询指令转到UI模块102,另外,该web服务模块101还用于接收所述UI模块102返回 的结果页面,并将所述结果页面返回至客户端20。所述UI模块102用于接收所述web服务模块101传送的查询指令,并将该查询指 令发送至所述查询指令分析模块103 ;另外,所述UI模块102还用于接收所述搜索模块104 返回的搜索结果,并将所述搜索结果拼装为结果页面后,返回所述结果页面至所述web服 务模块101。所述需求意图分析模块103用于调用所述知识库106、用户历史行为库107,以及 所述表达模板库108,以对接收到的查询指令进行需求意图分析,明确所述查询指令的需求 意图。在本发明中,所述意图分析模块103首先通过所述用户历史行为库107给所述知识 库106中的各个知识片段的各个需求意图打分,具体的用户在查询某类需求时,会点击相应的满足他需求的结果,如用户想获得汽车报价相关的信息,在搜索引擎输入查询指令“朗 逸”后,会点击搜索引擎返回的汽车网站的tol,如“网易车库”,此时用户输入的查询指令 “朗逸”片段以及用户点击的tol “网易车库”都隐含反映用户有找车相关信息的需求,基 于这一点,本发明在计算各个知识片段的需求意图时,根据某个知识片段点击某类tol的 数目/某个知识片段点击的总此1,来确定此知识片段需求意图的得分,如在所述用户历史 行为库107中得知,查询指令为“朗逸”,其点击的总Url数为10个,其中,商品类tol为5 个,新闻类Url为3个,图片类Url为2个,则可计算出该查询指令的商品类的需求意图为 0. 5,新闻类的需求意图为0. 3,图片类的需求意图为0. 2 ;其次,在接收到用户输入的一个 查询指令后,需要经过知识库106的知识匹配,得到所述查询指令中存在于所述知识库106 中的知识片段,并综合计算所述查询指令的知识库整体需求强度。例如用户输入“上海大 众朗逸报价”,则通过知识库可获得“上海大众” “朗逸”的知识片段。获得初步信息后,首 先将知识片段“上海大众”和“朗逸”各自的需求意图得分加总,得到第一分数,其次,再通 过知识片段“上海大众”与“朗逸”的关系,加减所述第一分数,得到知识库整体需求得分, 在本发明最佳实施方式中,若知识片段的关系为同属关系,则加分;若知识片段为非同属关 系,则减分;若该知识库整体需求得分大于设定的阈值,则以知识库整体需求得分最高的需 求类型作为查询指令的需求意图,并根据所述需求意图在所述查询指令中加入相应的tag 信息,例如“商品”、“新闻”、“图片”等。值得一提的是在本发明的最佳实施方式中,除了计 算知识库整体需求得分外,在分析需求意图时,还会考虑表达模板层面上的打分在接收到 用户输入的一个查询指令后,需要经过表达模板库108的表达模板匹配,得到所述查询指 令中存在于所述表达模板库108中的表达模板片段,例如用户输入“上海大众朗逸报价”, 则通过用户模板识别出查询指令中存在的“XX报价”模板。在根据上述方法获得知识库整 体需求得分的同时,查询指令又符合用户需求模板,表达模板库108也对所述查询指令在 表达模板层面上进行打分,得到表达模板得分,则整体查询指令的需求强度得分为知识库 整体需求得分与表达模板得分的加权之和,若该加权之和大于设定的阈值,则已加权之和 最大的需求类型作为查询指令的需求意图,并根据所述需求意图在所述查询指令中加入相 应的tag信息,例如“商品”、“新闻”、“图片”等。 所述结构分类模块104用于结合所述知识库106,对UI模块102输入的查询指令 进行智能化变换后发送至所述搜索模块105,其中,所述智能化变换即是语义内容扩充,所 述的语义内容扩充包括了语义内容的归一化,以及语义类别的扩展。具体的,在所述查询指 令有同属关系(上位属性的知识片段+下位属性的知识片段)时,例如,所述查询指令为 “手机诺基亚”,此时,所述结构分类模块104在发送给所述搜索模块105时,即会在“手机” 这个上位属性的知识片段上加入“可以丢弃”的tag,这样,在搜索模块105对所述查询指令 进行搜索时,即可通过“手机诺基亚”进行搜索,也可通过“诺基亚”进行搜索,且还可认为 带有“手机诺基亚”文本信息的网页和只带有“诺基亚”文本信息的网页权值一样;另外,例 如若所述查询指令为“诺基亚”,则所述结构分类模块104在发送给所述搜索模块105时, 还可根据“诺基亚”对应其上位属性进行扩展,如扩展为“手机”,这样,在搜索模块105对 “诺基亚”进行搜索时,可根据结果的数量判断是否需要扩展到“手机”进行搜索,如通过“诺 基亚”搜索到的结果数量较小时,即可扩展到“手机”;又如若所述查询指令为“手机”,则 所述结构分类模块104可将“手机”对应其同位属性进行扩展,如扩展为“电脑”,这样的扩展可用于广告的推广,如在搜索页面的右侧即可根据“手机”这个查询指令进行广告推广, 又可根据“电脑”这个查询指令进行广告推广;再如,若所述查询指令为“诺基亚”,则所述结 构分类模块104在发送给所述搜索模块105时,还可根据“诺基亚”对应其下位属性进行扩 展,如扩展为“N71”、“N72”等,这样,在搜索模块105在搜索到带有“N71 ”、“N72”等文本信 息网页时,也可根据这些网页的权值,判断是否作为搜索结果输出。这种权值判断可参现有 搜索引擎中的权值判断,在此不再赘述。总而言之,对所述查询指令进行扩展时,可根据搜 索的策略,即可扩展其上位属性的知识片段,也可扩展其同位属性的知识片段,也可扩展其 下位属性的知识片段。所述搜索模块105用于接收经过所述需求意图分析模块103或所述结构分类模块 104的智能化变换后的查询指令,并将该查询指令在网页存储库110中搜索,以得到搜索结 果,同时,所述搜索模块105还用于将所述搜索结果返回至所述UI模块102。所述知识库106用于存储先验知识。在本发明最佳实施方式中,所述知识库主要 存储为树形结构,对每一类知识库构建一棵知识库树,通过该知识库树的父亲节点标识其 上位属性,右兄弟节点表示其同位属性,左兄弟节点表示其下位属性,如此迭代,直至叶子 节点。如图6所示,“大众”为其最上位属性;其下位属性为“上海大众”;与所述“上海大众” 同位的有“一汽大众”;在所述“上海大众”下位的有“朗逸”,与所述“朗逸”同位的有“途
观”......这种知识库的构建方法,本领域的普通技术人员可参现有技术完成,在此不再赘述。用户历史行为库107用于存储用户历史搜索记录。优选地,其可包括查询指令、查 询次数,以及加权点击数等信息。表达模板挖掘模块108用于根据所述知识库106中的知识片段和所述用户历史 行为库107中的用户历史查询指令,挖掘出表达模板,并将所述表达模板存储于所述表达 模板库109中。相同需求的用户,在表达方式上会出现相似性,所述表达模板是指,一般用 户在有一定查询需求时,其输入的查询指令为何,例如,当用户在查询汽车相关信息时,表 达方式会有“速腾怎么样”、“马六动力如何”等,其中即可抽取出“汽车品牌/型号怎么 样”、“汽车品牌/型号动力如何”等表达汽车需求时常用的表达模板。在本发明的一实施 方式中,具体为首先在所述用户历史行为库107中包含知识库106知识片段的查询指令抽 取出来,如在“马六如何”、“斯柯达如何”、“速腾如何”的查询指令中,抽取出知识片段“马 六”、“斯柯达”、“速腾”,其次将知识库片段替换成“汽车品牌/型号”符号,即生成“汽车 品牌/型号如何”的候选表达模板;再次,统计生成的候选表达模板符合的知识库片段的 数量,若该数量大于设定的阈值,则将所述候选表达模板作为表达模板,存于所述表达模板 库109中;若该数量小于设定的阈值,则舍弃所述候选表达模板。所述表达模板库109用于存储由所述表达模板挖掘模块108挖掘出的表达模板。所述网页存储库110用于存储网页数据和该网页数据的索引信息。该数据库即是 普通搜索引擎常用的数据库,在此不再赘述。如图5所示,在本发明第四实施方式中,所述搜索引擎包括了 web服务模块101、 与web服务模块101交互通信的UI模块102、与所述UI模块102通信的需求意图分析模块 103、与所述UI模块102通信的结构分析模块104、与所述结构分析模块104通信的搜索模 块105,以及与所述需求意图分析模块103、所述结构分析模块104交互通信的知识库106、与所述知识库106通信的用户历史行为库107、与所述知识库106、用户历史行为库107通 信的表达模板挖掘模块108、与所述表达模板挖掘模块108和所述需求意图分析模块103通 信的表达模板库109,以及与所述搜索模块105通信的网页存储库110、第一垂直搜索数据
111a、第二垂直搜索数据库Illb........第N垂直搜索数据库llln。值得一提的是,这些
模块即可存储并运行于同一服务器中,也可存储并运行在多台服务器中。所述web服务模块101用于通过网络协议接收从客户端20传来的查询指令,并将 该查询指令转到UI模块102,另外,该web服务模块101还用于接收所述UI模块102返回 的结果页面,并将所述结果页面返回至客户端20。所述UI模块102用于接收所述web服务模块101传送的查询指令,并将该查询指 令发送至所述查询指令分析模块103 ;另外,所述UI模块102还用于接收所述搜索模块104 返回的搜索结果,并将所述搜索结果拼装为结果页面后,返回所述结果页面至所述web服 务模块101。所述需求意图分析模块103用于调用所述知识库106、用户历史行为库107,以及 所述表达模板库108,以对接收到的查询指令进行需求意图分析,明确所述查询指令的需求 意图。在本发明中,所述意图分析模块103首先通过所述用户历史行为库107给所述知识 库106中的各个知识片段的各个需求意图打分,具体的用户在查询某类需求时,会点击相 应的满足他需求的结果,如用户想获得汽车报价相关的信息,在搜索引擎输入查询指令“朗 逸”后,会点击搜索引擎返回的汽车网站的tol,如“网易车库”,此时用户输入的查询指令 “朗逸”片段以及用户点击的tol “网易车库”都隐含反映用户有找车相关信息的需求,基 于这一点,本发明在计算各个知识片段的需求意图时,根据某个知识片段点击某类tol的 数目/某个知识片段点击的总tol,来确定此知识片段需求意图的得分,如在所述用户历史 行为库107中得知,查询指令为“朗逸”,其点击的总Url数为10个,其中,商品类tol为5 个,新闻类Url为3个,图片类Url为2个,则可计算出该查询指令的商品类的需求意图为 0. 5,新闻类的需求意图为0. 3,图片类的需求意图为0. 2 ;其次,在接收到用户输入的一个 查询指令后,需要经过知识库106的知识匹配,得到所述查询指令中存在于所述知识库106 中的知识片段,并综合计算所述查询指令的知识库整体需求强度。例如用户输入“上海大 众朗逸报价”,则通过知识库可获得“上海大众” “朗逸”的知识片段。获得初步信息后,首 先将知识片段“上海大众”和“朗逸”各自的需求意图得分加总,得到第一分数,其次,再通 过知识片段“上海大众”与“朗逸”的关系,加减所述第一分数,得到知识库整体需求得分, 在本发明最佳实施方式中,若知识片段的关系为同属关系,则加分;若知识片段为非同属关 系,则减分;若该知识库整体需求得分大于设定的阈值,则以知识库整体需求得分最高的需 求类型作为查询指令的需求意图,并根据所述需求意图在所述查询指令中加入相应的tag 信息,例如“商品”、“新闻”、“图片”等。值得一提的是在本发明的最佳实施方式中,除了计 算知识库整体需求得分外,在分析需求意图时,还会考虑表达模板层面上的打分在接收到 用户输入的一个查询指令后,需要经过表达模板库108的表达模板匹配,得到所述查询指 令中存在于所述表达模板库108中的表达模板片段,例如用户输入“上海大众朗逸报价”, 则通过用户模板识别出查询指令中存在的“XX报价”模板。在根据上述方法获得知识库整 体需求得分的同时,查询指令又符合用户需求模板,表达模板库108也对所述查询指令在 表达模板层面上进行打分,得到表达模板得分,则整体查询指令的需求强度得分为知识库整体需求得分与表达模板得分的加权之和,若该加权之和大于设定的阈值,则已加权之和 最大的需求类型作为查询指令的需求意图。所述结构分类模块104用于结合所述知识库106,对UI模块102输入查询指令进 行智能化变换后发送至所述搜索模块105,其中,所述智能化变换即是语义内容扩充,所述 的语义内容扩充包括了语义内容的归一化,以及语义类别的扩展。具体的,在所述查询指令 有同属关系(上位属性的知识片段+下位属性的知识片段)时,例如,所述查询指令为“手 机诺基亚”,此时,所述结构分类模块104在发送给所述搜索模块105时,即会在“手机”这 个上位属性的知识片段上加入“可以丢弃”的tag,这样,在搜索模块105对所述查询指令进 行搜索时,即可通过“手机诺基亚”进行搜索,也可通过“诺基亚”进行搜索,且还可认为带有 “手机诺基亚”文本信息的网页和只带有“诺基亚”文本信息的网页权值一样;另外,例如若 所述查询指令为“诺基亚”,则所述结构分类模块104在发送给所述搜索模块105时,还可根 据“诺基亚”对应其上位属性进行扩展,如扩展为“手机”,这样,在搜索模块105对“诺基亚” 进行搜索时,可根据结果的数量判断是否需要扩展到“手机”进行搜索,如通过“诺基亚”搜 索到的结果数量较小时,即可扩展到“手机”;又如若所述查询指令为“手机”,则所述结构 分类模块104可将“手机”对应其同位属性进行扩展,如扩展为“电脑”,这样的扩展可用于 广告的推广,如在搜索页面的右侧即可根据“手机”这个查询指令进行广告推广,又可根据 “电脑”这个查询指令进行广告推广;再如,若所述查询指令为“诺基亚”,则所述结构分类模 块104在发送给所述搜索模块105时,还可根据“诺基亚”对应其下位属性进行扩展,如扩 展为“N71”、“N72”等,这样,在搜索模块105在搜索到带有“N71”、“N72”等文本信息网页 时,也可根据这些网页的权值,判断是否作为搜索结果输出。这种权值判断可参现有搜索引 擎中的权值判断,在此不再赘述。总而言之,对所述查询指令进行扩展时,可根据搜索的策 略,即可扩展其上位属性的知识片段,也可扩展其同位属性的知识片段,也可扩展其下位属 性的知识片段。所述搜索模块105用于接收经过所述需求意图分析模块103或所述结构分类模块 104的智能化变换后的查询指令,并将该查询指令在多个垂直搜索数据库(第一垂直搜索
数据库111a、第二垂直搜索数据库Illb........第N垂直数据库llln)的其中之一,以及
所述网页存储库1110中搜索,以得到搜索结果,同时,所述搜索模块105还用于将所述搜索 结果返回至所述UI模块102。值得一提的是选择某个垂直搜索数据库进行垂直搜索是通 过查询指令的需求意图确定的,例如若查询指令的需求意图为“商品”,则在商品垂直搜索 数据库中进行搜索;所查询指令的需求意图为“图片”,则在图片垂直搜索数据库中进行搜 索,其中,在垂直搜索数据库中搜索到的一条或多条结果,会插入至在网页存储库中搜索到 的结果中,形成整体搜索结果。所述垂直搜索,即是在某个特定的类别下进行搜索,其具体 的搜索方法和系统在本领域中已多有现有技术揭示,在此不再赘述。所述知识库106用于存储先验知识。在本发明最佳实施方式中,所述知识库主要 存储为树形结构,对每一类知识库构建一棵知识库树,通过该知识库树的父亲节点标识其 上位属性,右兄弟节点表示其同位属性,左兄弟节点表示其下位属性,如此迭代,直至叶子 节点。如图6所示,“大众”为其最上位属性;其下位属性为“上海大众”;与所述“上海大众” 同位的有“一汽大众”;在所述“上海大众”下位的有“朗逸”,与所述“朗逸”同位的有“途 观”......这种知识库的构建方法,本领域的普通技术人员可参现有技术完成,在此不再赘述。用户历史行为库107用于存储用户历史搜索记录。优选地,其可包括查询指令、查 询次数,以及加权点击数等信息。表达模板挖掘模块108用于根据所述知识库106中的知识片段和所述用户历史 行为库107中的用户历史查询指令,挖掘出表达模板,并将所述表达模板存储于所述表达 模板库109中。相同需求的用户,在表达方式上会出现相似性,所述表达模板是指,一般用 户在有一定查询需求时,其输入的查询指令为何,例如,当用户在查询汽车相关信息时,表 达方式会有“速腾怎么样”、“马六动力如何”等,其中即可抽取出“汽车品牌/型号怎么 样”、“汽车品牌/型号动力如何”等表达汽车需求时常用的表达模板。在本发明的一实施 方式中,具体为首先在所述用户历史行为库107中包含知识库106知识片段的查询指令抽 取出来,如在“马六如何”、“斯柯达如何”、“速腾如何”的查询指令中,抽取出知识片段“马 六”、“斯柯达”、“速腾”,其次将知识库片段替换成“汽车品牌/型号”符号,即生成“汽车 品牌/型号如何”的候选表达模板;再次,统计生成的候选表达模板符合的知识库片段的 数量,若该数量大于设定的阈值,则将所述候选表达模板作为表达模板,存于所述表达模板 库109中;若该数量小于设定的阈值,则舍弃所述候选表达模板。所述表达模板库109用于存储由所述表达模板挖掘模块108挖掘出的表达模板。所述网页存储库110用于存储网页数据和该网页数据的索引信息。该数据库即是 普通搜索引擎常用的数据库,在此不再赘述。所述第一垂直搜索数据库111a、第二垂直搜索数据库Illb........第N垂直搜索
数据库Illn用于存储特定类别数据和该特定类别数据的索引信息,例如商品数据、商品索 引;新闻数据、新闻索引;图片数据、图片索引等。如图7所示,本发明第一实施方式的搜索方法包括以下步骤Si、接收查询指令;优选地,该查询指令是用户通过客户端上的浏览器输入的至 web服务模块101,该web服务模块101在得到所述查询命令后,会将该查询命令转到UI模 块 102 ;S2、基于知识库对所述查询指令进行需求意图分析,明确所述查询指令的需求意 图;优选地,该步骤是通过所述需求意图分析模块103完成的;S3、将带有需求意图的所述查询指令在数据库中搜索,得到搜索结果;优选地,该 步骤是通过所述搜索模块105完成的;S4、输出所述搜索结果。优选地,该步骤是在所述UI模块102和所述web服务模 块101中完成的,搜索结果从所述搜索模块104返回至所述UI模块102,并通过所述UI模 块102将所述搜索结果拼装为结果页面后,返回所述结果页面至所述web服务模块101,从 而通过所述web服务模块101返回至客户端浏览器。其中,在所述S3步骤中的数据库即可为网页存储库110,或与需求意图相对应的 垂直搜索数据库;当然,也可包括网页存储库110和与所述需求意图相对应的垂直搜索数 据库。在所述S2步骤和S3步骤之间,还包括语义扩充步骤基于所述知识库对接收到的查询指令进行语义扩充;优选地,该步骤是通过结构 分析模块104完成的。
如图8所示,本发明第二实施方式的搜索方法包括以下步骤Si’、接收查询指令;优选地,该查询指令是用户通过客户端上的浏览器输入的至 web服务模块101,该web服务模块101在得到所述查询命令后,会将该查询命令转到UI模 块 102 ;S2’、基于知识库对所述查询指令进行需求意图分析,明确所述查询指令的需求意 图,同时,基于所述知识库对接收到的查询指令进行语义扩充;优选地,该步骤是通过所述 需求意图分析模块103和所述结构分析模块104完成的;S3’、将带有需求意图并扩充语义的查询指令在数据库中搜索,得到搜索结果;优 选地,该步骤是通过所述搜索模块105完成的;S4’、输出所述搜索结果。优选地,该步骤是在所述UI模块102和所述web服务模 块101中完成的,搜索结果从所述搜索模块104返回至所述UI模块102,并通过所述UI模 块102将所述搜索结果拼装为结果页面后,返回所述结果页面至所述web服务模块101,从 而通过所述web服务模块101返回至客户端浏览器。其中,在所述S3’步骤中的数据库即可为网页存储库110,或与需求意图相对应的 垂直搜索数据库;当然,也可包括网页存储库110和与所述需求意图相对应的垂直搜索数 据库。如图9所示,本发明第三实施方式的搜索方法包括以下步骤S10、接收查询指令;优选地,该查询指令是用户通过客户端上的浏览器输入的至 web服务模块101,该web服务模块101在得到所述查询命令后,会将该查询命令转到UI模 块 102 ;S20、基于知识库和表达模板库对所述查询指令进行需求意图分析,明确所述查询 指令的需求意图;优选地,该步骤是通过所述需求意图分析模块103完成的;S30、将带有需求意图的所述查询指令在数据库中搜索,得到搜索结果;优选地,该 步骤是通过所述搜索模块105完成的;S40、输出所述搜索结果。优选地,该步骤是在所述UI模块102和所述web服务模 块101中完成的,搜索结果从所述搜索模块104返回至所述UI模块102,并通过所述UI模 块102将所述搜索结果拼装为结果页面后,返回所述结果页面至所述web服务模块101,从 而通过所述web服务模块101返回至客户端浏览器。其中,在所述S30步骤中的数据库即可为网页存储库110,或与需求意图相对应的 垂直搜索数据库;当然,也可包括网页存储库110和与所述需求意图相对应的垂直搜索数 据库。在所述S20步骤和S30步骤之间,还包括语义扩充步骤基于所述知识库对接收到的查询指令进行语义扩充;优选地,该步骤是通过结构 分析模块104完成的。如图8所示,本发明第四实施方式的搜索方法包括以下步骤S10’、接收查询指令;优选地,该查询指令是用户通过客户端上的浏览器输入的至 web服务模块101,该web服务模块101在得到所述查询命令后,会将该查询命令转到UI模 块 102 ;S20’、基于知识库和表达模板库对所述查询指令进行需求意图分析,明确所述查询指令的需求意图,同时,基于所述知识库对接收到的查询指令进行语义扩充;优选地,该 步骤是通过所述需求意图分析模块103和所述结构分析模块104完成的;S30’、将带有需求意图并扩充语义的查询指令在数据库中搜索,得到搜索结果;优 选地,该步骤是通过所述搜索模块105完成的;S40,、输出所述搜索结果。优选地,该步骤是在所述UI模块102和所述web服务 模块101中完成的,搜索结果从所述搜索模块104返回至所述UI模块102,并通过所述UI 模块102将所述搜索结果拼装为结果页面后,返回所述结果页面至所述web服务模块101, 从而通过所述web服务模块101返回至客户端浏览器。其中,在所述S30’步骤中的数据库即可为网页存储库110,或与需求意图相对应 的垂直搜索数据库;当然,也可包括网页存储库110和与所述需求意图相对应的垂直搜索 数据库。如图11所示,在本发明第一实施方式、第二实施方式、第三实施方式、第四实施方 式的搜索方法中,所述“基于知识库对所述查询指令进行需求意图分析,明确所述查询指令 的需求意图”步骤的一实施方式,包括以下流程S200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使 各个知识片段都具有相应的需求意图得分;具体的用户在查询某类需求时,会点击相应 的满足他需求的结果,如用户想获得汽车报价相关的信息,在搜索引擎输入查询指令“朗 逸”后,会点击搜索引擎返回的汽车网站的tol,如“网易车库”,此时用户输入的查询指令 “朗逸”片段以及用户点击的Url “网易车库”都隐含反映用户有找车相关信息的需求,基于 这一点,本发明在计算各个知识片段的需求意图时,根据某个知识片段点击某类tol的数 目/某个知识片段点击的总此1,来确定此知识片段需求意图的得分,如在所述用户历史行 为库107中得知,查询指令为“朗逸”,其点击的总Url数为10个,其中,商品类to 1为5个, 新闻类Url为3个,图片类Url为2个,则可计算出该查询指令的商品类的需求意图为0. 5, 新闻类的需求意图为0. 3,图片类的需求意图为0. 2 ;S201、在接收到用户输入的一个查询指令后,将所述查询指令与知识片段匹配,得 到与所述查询指令相匹配的至少一个知识片段;例如用户输入“上海大众朗逸报价”,则通 过知识库可获得“上海大众” “朗逸”的知识片段;S202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分数; 例如知识片段“上海大众”和“朗逸”各自的需求意图得分加总,得到第一分数;S203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减 所述第一分数,得到知识库整体需求得分;在本发明最佳实施方式中,若知识片段的关系为 同属关系,则加分;若知识片段为非同属关系,则减分;S204、判断所述知识库整体需求得分是否大于一设定阈值;S205、若大于所述设定阈值,则以所述知识库整体需求得分最高的需求类型作为 所述查询指令的需求意图;S206、若小于所述设定阈值,则判断所述查询指令无明显需求意图,按照普通搜索 引擎搜索方式进行搜索,在此不再赘述。如图12所示,在本发明第一实施方式、第二实施方式、第三实施方式、第四实施方 式的搜索方法中,所述“基于知识库和表达模板库对所述查询指令进行需求意图分析,明确所述查询指令的需求意图”步骤的另一实施方式,包括以下流程S200’、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使 各个知识片段都具有相应的需求意图得分;具体的用户在查询某类需求时,会点击相应 的满足他需求的结果,如用户想获得汽车报价相关的信息,在搜索引擎输入查询指令“朗 逸”后,会点击搜索引擎返回的汽车网站的tol,如“网易车库”,此时用户输入的查询指令 “朗逸”片段以及用户点击的Url “网易车库”都隐含反映用户有找车相关信息的需求,基于 这一点,本发明在计算各个知识片段的需求意图时,根据某个知识片段点击某类tol的数 目/某个知识片段点击的总此1,来确定此知识片段需求意图的得分,如在所述用户历史行 为库107中得知,查询指令为“朗逸”,其点击的总to 1数为10个,其中,商品类to 1为5个, 新闻类tol为3个,图片类tol为2个,则可计算出该查询指令的商品类的需求意图为0. 5, 新闻类的需求意图为0. 3,图片类的需求意图为0. 2 ;S201’、在接收到用户输入的一个查询指令后,将所述查询指令与知识片段和存储 于表达模板库中的表达模板匹配,得到与所述查询指令相匹配的至少一个知识片段和一个 表达模板;例如用户输入“上海大众朗逸报价”,则通过知识库可获得“上海大众” “朗逸”的 知识片段;通过表达模板库克获得查询指令中存在的“XX报价”的表达模板;S202’、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分 数;例如知识片段“上海大众”和“朗逸”各自的需求意图得分加总,得到第一分数;S203’、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减 所述第一分数,得到知识库整体需求得分;在本发明最佳实施方式中,若知识片段的关系为 同属关系,则加分;若知识片段为非同属关系,则减分;S204’、对所述查询指令在表达模板层面上进行打分,得到表达模板得分;S205’、将知识库整体需求得分与表达模板得分的加权之和作为查询指令需求强 度得分;S206’、判断所述查询指令需求强度得分是否大于一设定阈值;S207’、若大于所述设定阈值,则以查询指令需求强度得分最高的需求类型作为所 述查询指令的需求意图;S208’、若小于所述设定阈值,则判断所述查询指令无明显的需求意图。如图13所示,在本发明第三实施方式、第四实施方式的搜索方法中,所述表达模 板库的构建方法,包括以下流程S300、抽取在用户历史行为库中包含知识片段的查询指令;如在“马六如何”、“斯 柯达如何”、“速腾如何”的查询指令中,抽取出知识片段“马六”、“斯柯达”、“速腾”;S301、将所述知识库片段替换成通用符号,生成候选表达模板;例如“汽车品牌 /型号”符号,即生成“汽车品牌/型号如何”的候选表达模板;S302、统计生成的候选表达模板符合的知识库片段的数量;S303、判断所述数量是否大于设定的阈值;S304、若大于设定的阈值,则将所述候选表达模板作为表达模板,并存于数据库 中,生成表达模板库;S305、若小于设定阈值,则舍弃所述候选表达模板。通过上述的搜索方法及搜索引擎,本发明一种实施方式的在线界面如图14所示,用于在浏览器中打开本发明搜索引擎的在线界面,并在对话框中输入查询指令“手机诺基 亚”,通过上述的搜索方法及搜索系统,可判断出该查询指令包括了商品类的需求意图,故 在本发明的搜索方法及搜索系统中,可将“手机诺基亚”这个查询指令在商品垂直搜索数据 库中进行搜索,同时,插入该垂直搜索结果至网页存储库中搜索的结果中,如图的A部分, 当用户点击所述垂直搜索结果时,即可跳转至新页面中,如图15所示,该新页面中包含了 具有商品类需求意图的检索结果,从图中B部分可看出,这条检索结果中并未包括“手机” 这个文本信息,即是通过本发明的语义扩展得到的搜索结果。综上所述可知,本发明在知识库的基础上,更好的理解用户输入的查询指令,分析 查询指令的以图,解析查询指令的结构,对查询指令进行语义内容扩充,从而更好的指导搜 索引擎选择优质的资源满足用户的搜索需求,使得用户搜索效率提高,节约网络流量。应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一 个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说 明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以 理解的其他实施方式。上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说 明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式 或变更均应包含在本发明的保护范围之内。
权利要求
1.一种搜索方法,其特征在于,所述搜索方法包括以下步骤S1、接收查询指令;S2、基于知识库对所述查询指令进行需求意图分析,明确所述查询指令的需求意图;S3、将带有需求意图的所述查询指令在数据库中搜索,得到搜索结果;S4、输出所述搜索结果。
2.根据权利要求1所述的搜索方法,其特征在于,所述数据库为网页存储库或与所述 需求意图相对应的垂直搜索数据库。
3.根据权利要求1所述的搜索方法,其特征在于,在所述S2步骤和S3步骤间,还包括 语义扩充步骤基于所述知识库对所述查询指令进行语义扩充。
4.根据权利要求1所述的搜索方法,其特征在于,所述“基于知识库对所述查询指令进 行需求意图分析,明确所述查询指令的需求意图”具体包括以下流程S200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使各个 知识片段都具有相应的需求意图得分;S201、将所述查询指令与知识片段匹配,得到与所述查询指令相匹配的至少一个知识 片段;S202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分数;S203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减所述 第一分数,得到知识库整体需求得分;S204、判断所述知识库整体需求得分是否大于一设定阈值;S205、若大于所述设定阈值,则以所述知识库整体需求得分最高的需求类型作为所述 查询指令的需求意图;S206、若小于所述设定阈值,则判断所述查询指令无明显需求意图。
5.根据权利要求1所述的搜索方法,其特征在于,所述“基于知识库对所述查询指令进 行需求意图分析,明确所述查询指令的需求意图”具体包括以下流程S200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使各个 知识片段都具有相应的需求意图得分;S201、将所述查询指令与知识片段和表达模板匹配,得到与所述查询指令相匹配的至 少一个知识片段和一表达模板;S202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分数;S203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减所述 第一分数,得到知识库整体需求得分;S204、对所述查询指令在表达模板层面上进行打分,得到表达模板得分;S205、将知识库整体需求得分与表达模板得分的加权之和作为查询指令需求强度得分;S206、判断所述查询指令需求强度得分是否大于一设定阈值;S207、若大于所述设定阈值,则以查询指令需求强度得分最高的需求类型作为所述查 询指令的需求意图;S208、若小于所述设定阈值,则判断所述查询指令无明显需求意图。
6.一种搜索方法,其特征在于,所述搜索方法包括以下步骤51、接收查询指令;52、基于知识库对所述查询指令进行需求意图分析,明确所述查询指令的需求意图,同 时,基于所述知识库对所述查询指令进行语义扩充;53、将带有需求意图并扩充语义的查询指令在数据库中搜索,得到搜索结果;54、输出所述搜索结果。
7.根据权利要求6所述的搜索方法,其特征在于,所述数据库为网页存储库或与所述 需求意图相对应的垂直搜索数据库。
8.根据权利要求6所述的搜索方法,其特征在于,所述“基于知识库对所述查询指令进 行需求意图分析,明确所述查询指令的需求意图”具体包括以下流程5200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使各个 知识片段都具有相应的需求意图得分;5201、将所述查询指令与知识片段匹配,得到与所述查询指令相匹配的至少一个知识 片段;5202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分数;5203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减所述 第一分数,得到知识库整体需求得分;5204、判断所述知识库整体需求得分是否大于一设定阈值;5205、若大于所述设定阈值,则以所述知识库整体需求得分最高的需求类型作为所述 查询指令的需求意图;5206、若小于所述设定阈值,则判断所述查询指令无明显需求意图。
9.根据权利要求6所述的搜索方法,其特征在于,所述“基于知识库对所述查询指令进 行需求意图分析,明确所述查询指令的需求意图”具体包括以下流程5200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使各个 知识片段都具有相应的需求意图得分;5201、将所述查询指令与知识片段和表达模板匹配,得到与所述查询指令相匹配的至 少一个知识片段和一表达模板;5202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分数;5203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减所述 第一分数,得到知识库整体需求得分;5204、对所述查询指令在表达模板层面上进行打分,得到表达模板得分;5205、将知识库整体需求得分与表达模板得分的加权之和作为查询指令需求强度得分;5206、判断所述查询指令需求强度得分是否大于一设定阈值;5207、若大于所述设定阈值,则以查询指令需求强度得分最高的需求类型作为所述查 询指令的需求意图;5208、若小于所述设定阈值,则判断所述查询指令无明显需求意图。
10.一种搜索方法,其特征在于,所述搜索方法包括以下步骤Si、接收查询指令;.52、基于知识库和表达模板库对所述查询指令进行需求意图分析,明确所述查询指令 的需求意图;.53、将带有需求意图的所述查询指令在数据库中搜索,得到搜索结果;.54、输出所述搜索结果。
11.根据权利要求10所述的搜索方法,其特征在于,所述数据库为网页存储库或与所 述需求意图相对应的垂直搜索数据库。
12.根据权利要求10所述的搜索方法,其特征在于,在所述S2步骤和S3步骤间,还包 括语义扩充步骤基于所述知识库对所述查询指令进行语义扩充。
13.根据权利要求10所述的搜索方法,其特征在于,所述“基于知识库对所述查询指令 进行需求意图分析,明确所述查询指令的需求意图”具体包括以下流程.5200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使各个 知识片段都具有相应的需求意图得分;.5201、将所述查询指令与知识片段匹配,得到与所述查询指令相匹配的至少一个知识 片段;.5202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分数;.5203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减所述 第一分数,得到知识库整体需求得分;.5204、判断所述知识库整体需求得分是否大于一设定阈值;.5205、若大于所述设定阈值,则以所述知识库整体需求得分最高的需求类型作为所述 查询指令的需求意图;.5206、若小于所述设定阈值,则判断所述查询指令无明显需求意图。
14.根据权利要求10所述的搜索方法,其特征在于,所述“基于知识库对所述查询指令 进行需求意图分析,明确所述查询指令的需求意图”具体包括以下流程.5200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使各个 知识片段都具有相应的需求意图得分;.5201、将所述查询指令与知识片段和表达模板匹配,得到与所述查询指令相匹配的至 少一个知识片段和一表达模板;.5202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分数;.5203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减所述 第一分数,得到知识库整体需求得分;.5204、对所述查询指令在表达模板层面上进行打分,得到表达模板得分;.5205、将知识库整体需求得分与表达模板得分的加权之和作为查询指令需求强度得分;.5206、判断所述查询指令需求强度得分是否大于一设定阈值;.5207、若大于所述设定阈值,则以查询指令需求强度得分最高的需求类型作为所述查 询指令的需求意图;.5208、若小于所述设定阈值,则判断所述查询指令无明显需求意图。
15.根据权利要求10所述的搜索方法,其特征在于,所述表达模板库的构建方法,包括以下流程·5300、抽取在用户历史行为库中包含知识片段的查询指令;·5301、将所述知识库片段替换成通用符号,生成候选表达模板;·5302、统计生成的所述候选表达模板符合的知识库片段的数量;·5303、判断所述数量是否大于设定阈值;·5304、若大于设定阈值,则将所述候选表达模板作为表达模板,并存于数据库中,生成 表达模板库;·5305、若小于设定阈值,则舍弃所述候选表达模板。
16.一种搜索方法,其特征在于,所述搜索方法包括以下步骤·51、接收查询指令;·52、基于知识库和表达模板库对所述查询指令进行需求意图分析,明确所述查询指令 的需求意图,同时,基于所述知识库对接收到的查询指令进行语义扩充;·53、将带有需求意图并扩充语义的查询指令在数据库中搜索,得到搜索结果;·54、输出所述搜索结果。
17.根据权利要求16所述的搜索方法,其特征在于,所述数据库为网页存储库或与所 述需求意图相对应的垂直搜索数据库。
18.根据权利要求16所述的搜索方法,其特征在于,所述“基于知识库对所述查询指令 进行需求意图分析,明确所述查询指令的需求意图”具体包括以下流程·5200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使各个 知识片段都具有相应的需求意图得分;·5201、将所述查询指令与知识片段匹配,得到与所述查询指令相匹配的至少一个知识 片段;·5202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分数;·5203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减所述 第一分数,得到知识库整体需求得分;·5204、判断所述知识库整体需求得分是否大于一设定阈值;·5205、若大于所述设定阈值,则以所述知识库整体需求得分最高的需求类型作为所述 查询指令的需求意图;·5206、若小于所述设定阈值,则判断所述查询指令无明显需求意图。
19.根据权利要求16所述的搜索方法,其特征在于,所述“基于知识库对所述查询指令 进行需求意图分析,明确所述查询指令的需求意图”具体包括以下流程·5200、通过用户历史行为库给知识库中的各个知识片段的各个需求意图打分,使各个 知识片段都具有相应的需求意图得分;·5201、将所述查询指令与知识片段和表达模板匹配,得到与所述查询指令相匹配的至 少一个知识片段和一表达模板;·5202、将与所述查询指令相匹配的知识片段的需求意图得分加总,得到第一分数;·5203、通过与所述查询指令相匹配的知识片段在所述知识库中的从属关系,加减所述 第一分数,得到知识库整体需求得分;·5204、对所述查询指令在表达模板层面上进行打分,得到表达模板得分;·5205、将知识库整体需求得分与表达模板得分的加权之和作为查询指令需求强度得分;·5206、判断所述查询指令需求强度得分是否大于一设定阈值;·5207、若大于所述设定阈值,则以查询指令需求强度得分最高的需求类型作为所述查 询指令的需求意图;·5208、若小于所述设定阈值,则判断所述查询指令无明显需求意图。
20.根据权利要求16所述的搜索方法,其特征在于,所述表达模板库的构建方法,包括 以下流程5300、抽取在用户历史行为库中包含知识片段的查询指令;5301、将所述知识库片段替换成通用符号,生成候选表达模板;5302、统计生成的所述候选表达模板符合的知识库片段的数量;5303、判断所述数量是否大于设定阈值;5304、若大于设定阈值,则将所述候选表达模板作为表达模板,并存于数据库中,生成 表达模板库;5305、若小于设定阈值,则舍弃所述候选表达模板。
21.一种搜索引擎,其特征在于,所述搜索引擎包括UI模块,用于接收查询指令,且所述UI模块还用于接收搜索模块返回的搜索结果,并 将所述搜索结果拼装为结果页面后输出;需求意图分析模块,用于基于知识库对所述查询指令进行需求意图分析,明确所述查 询指令的需求意图;搜索模块,用于将带有需求意图的所述查询指令在数据库中搜索,得到搜索结果; 知识库,用于存储先验知识。
22.根据权利要求21所述的搜索引擎,其特征在于,所述搜索引擎还包括web服务模块,用于通过网络协议接收客户端发出的查询指令,并将所述查询指令转到 所述UI模块,且所述web服务模块还用于接收所述UI模块返回的结果页面,并将所述结果 页面返回至所述客户端。
23.根据权利要求21所述的搜索引擎,其特征在于,所述搜索引擎还包括 用户历史行为库,用于存储用户历史搜索记录。
24.根据权利要求23所述的搜索引擎,其特征在于,所述用户历史搜索记录包括查询 指令、查询次数,以及加权点击数。
25.根据权利要求23或24所述的搜索引擎,其特征在于,所述搜索引擎还包括表达模板挖掘模块,用于根据所述知识库中的知识片段和所述用户历史行为库中的用 户历史查询指令,挖掘表达模板,并将所述表达模板存储于表达模板库; 表达模板库,用于存储由所述表达模板挖掘模块挖掘出的表达模板。
26.根据权利要求21所述的搜索引擎,其特征在于,所述搜索引擎还包括 结构分类模块,用于基于所述知识库对所述查询指令进行语义扩充。
27.根据权利要求21所述的搜索引擎,其特征在于,所述数据库为网页存储库或与所 述需求意图相对应的垂直搜索数据库。
28.根据权利要求27所述的搜索引擎,其特征在于,所述网页存储库用于存储网页数据和该网页数据的索引信息;所述垂直搜索数据库用于存储特定类别数据和该特定类别数据的索引信息。
全文摘要
本发明提供一种搜索方法,包括以下步骤S1、接收查询指令;S2、基于知识库对所述查询指令进行需求意图分析,明确所述查询指令的需求意图;S3、将带有需求意图的所述查询指令在数据库中搜索,得到搜索结果;S4、输出所述搜索结果。与现有技术相比,本发明的有益效果是在知识库的基础上,更好的理解用户输入的查询指令,分析查询指令的以图,解析查询指令的结构,对查询指令进行语义内容扩充,从而更好的指导搜索引擎选择优质的资源满足用户的搜索需求,使得用户搜索效率提高,节约网络流量。
文档编号G06F17/30GK102096717SQ20111003843
公开日2011年6月15日 申请日期2011年2月15日 优先权日2011年2月15日
发明者刘建柱 申请人:百度在线网络技术(北京)有限公司