搜索方法和搜索装置制造方法
【专利摘要】本发明公开了一种搜索方法,包括:S1、搜索引擎获取搜索语句;S2、搜索引擎将搜索语句转化为结构化查询词;以及S3、搜索引擎根据结构化查询词进行查询以获取搜索结果。本发明实施例的搜索方法,实现了不管搜索语句的复杂程度均可将其转化为结构化查询词,并结合数据库信息进行知识推理以自动产生搜索语句对应的答案,提高了准确率,对于用户来说,得到了更为精确的搜索结果,提升了用户体验。本发明还公开了一种搜索装置。
【专利说明】搜索方法和搜索装置
【技术领域】
[0001] 本发明涉及互联网【技术领域】,尤其涉及一种搜索方法和搜索装置。
【背景技术】
[0002] 目前,互联网上的搜索引擎主要通过提供和用户Query (查询词)相关的网页信息 来满足获取信息的需求。如果用户的Query是一个特定信息的请求,如"谢霆锋是谁的儿 子",那么用户期望得到该Q uery对应的答案"谢贤",而不是相关的网页。
[0003] 相关技术中,有一些搜索引擎已经实现了上述功能,但是这些搜索引擎只能为简 单Query提供答案,而无法处理复杂Query,这里提到的复杂Query包括:(1)表达相似但语 义不同的Query,如"谢霆锋是谁的儿子?","谢霆锋的儿子是谁","谁是谢霆锋的儿子"等; (2)内容复杂的Query,如"刘德华和那些女演员演过电影?"、"演过还珠格格的女演员演过 的电视剧"等。这样,当用户输入的Query较为复杂时,搜索引擎就无法为用户提供其期望 的答案,导致准确率降低,用户体验变差。
【发明内容】
[0004] 本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
[0005] 为此,本发明的一个目的在于提出一种搜索方法。该方法实现了不管搜索语句的 复杂程度均可将其转化为结构化查询词,并结合数据库信息进行知识推理以自动产生搜索 语句对应的答案,提高了准确率。
[0006] 本发明的另一个目的在于提出一种搜索装置。
[0007] 为了实现上述目的,本发明一方面实施例的搜索方法,包括:S1、搜索引擎获取搜 索语句;S2、所述搜索引擎将所述搜索语句转化为结构化查询词;以及S3、所述搜索引擎根 据所述结构化查询词进行查询以获取搜索结果。
[0008] 本发明实施例的搜索方法,通过将搜索语句转化为结构化查询词,并根据结构化 查询词在结构化数据库中进行查询以获取对应的搜索结果,实现了不管搜索语句的复杂程 度均可将其转化为结构化查询词,并结合数据库信息进行知识推理以自动产生搜索语句对 应的答案,提高了准确率,对于用户来说,得到了更为精确的搜索结果,提升了用户体验。 [000 9]为了实现上述目的,本发明另一方面实施例的搜索装置,包括:获取模块,用于获 取搜索语句;转化模块,用于将所述搜索语句转化为结构化查询词;以及查询模块,用于根 据所述结构化查询词进行查询以获取搜索结果。
[0010]本发明实施例的搜索装置,通过获取模块获取搜索语句,转化模块将搜索语句转 化为结构化查询词,查询模块根据结构化查询词在结构化数据库中进行查询以获取对应的 搜索结果,实现了不管搜索语句的复杂程度均可将其转化为结构化查询词,并结合数据库 信息进行知识推理以自动产生搜索语句对应的答案,提高了准确率,对于用户来说,得到了 更为精确的搜索结果,提升了用户体验。
[0011]本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。
【专利附图】
【附图说明】
[0012]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解,其中,
[0013]图1是根据本发明一个实施例的搜索方法的流程图;
[0014]图2是根据本发明另一个实施例的搜索方法的流程图;
[0015]图3是根据本发明一个实施例的依存关系标签的示意图;
[0016]图4是根据本发明一个实施例的搜索语句中各个词之间的语义关系的示意图; [00Π ]图5是根据本发明一个实施例的结构化查询词以二叉树的形式进行表示的示意 图;
[0018]图6是根据本发明一个实施例的语义分析过程的示意图;
[0019]图7是根据本发明一个实施例的搜索装置的结构示意图;以及
[0020] 图8是根据本发明另一个实施例的搜索装置的结构示意图。
【具体实施方式】
[0021] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0022] 下面参考附图描述根据本发明实施例的搜索方法和搜索装置。
[0023] 本发明提出了一种搜索方法,包括:搜索引擎获取搜索语句;搜索引擎将搜索语 句转化为结构化查询词;以及搜索引擎根据结构化查询词进行查询以获取搜索结果。
[0024] 图1是根据本发明一个实施例的搜索方法的流程图。如图1所示,该搜索方法可 以包括:
[0025] S101,搜索引擎获取搜索语句。
[0026] 其中,在本发明的实施例中,搜索语句可以是各种语言的字符(如文字、拼音、符 号和/或数字等)中的一种或者它们的组合。
[0027] 例如,搜索引擎可获取用户在浏览器提供的输入框中输入的搜索语句。
[0028] S102,搜索引擎将搜索语句转化为结构化查询词。
[0029] 具体地,搜索引擎可对搜索语句进行解析,将解析之后的搜索语句进行排序或重 组等操作以生成结构化查询词。具体的实现方式可参照后续实施例。其中,在本发明的 实施例中,结构化查询词可理解是可以直接用来查询结构化数据(例如知识库)的逻辑表 达式,类似于 SQL 语言(Structured Query Language,结构化查询语言)、SPARQL(Simple Protocol and RDF Query Language,为RDF开发的一种查询语目和数据犾取协议)语目等。 这种逻辑表达式具有很强的结构化特点,所以计算机可以直接解析该表达式来查询结构化 数据从而获得答案。
[0030] S103,搜索引擎根据结构化查询词进行查询以获取搜索结果。
[0031] 具体而言,在本发明的实施例中,可根据结构化查询词进行查询结构化数据库以 获取搜索结果。其中,在本发明的实施例中,结构化数据库可为三元组数据库或 SQL数据库 等。
[0032] 其中,在本发明的实施例中,当结构化数据库为三元组数据库时,可根据结构化查 询词直接在三元组数据库中进行查询以查询出对应的搜索结果;当结构化数据库为SQL数 据库时,可先将结构化查询词转化为与其对应的SQL查询语句,之后可根据该SQL查询语句 在SQL数据库进行查询以得到对应的搜索结果。
[0033] 本发明实施例的搜索方法,通过将搜索语句转化为结构化查询词,并根据结构化 查询词在结构化数据库中进行查询以获取对应的搜索结果,实现了不管搜索语句的复杂程 度均可将其转化为结构化查询词,并结合数据库信息进行知识推理以自动产生搜索语句对 应的答案,提高了准确率,对于用户来说,得到了更为精确的搜索结果,提升了用户体验。
[0034]图2是根据本发明的另一个实施例的搜索方法的流程图。如图2所示,该搜索方 法可以包括:
[0035] S201,搜索引擎获取搜索语句。
[0036] 其中,在本发明的实施例中,搜索语句可以是各种语言的字符(如文字、拼音、符 号和/或数字等)中的一种或者它们的组合。
[0037] 例如,搜索引擎可获取用户在浏览器提供的输入框中输入的搜索语句。
[0038] S202,搜索引擎对搜索语句进行分词以生成多个词。
[0039] 例如,以搜索语句为"刘德华和哪些女演员演过电影"为例,可通过现有的分词技 术对该搜索语句进行分词,可得到多个词,即"刘德华"、"和"、"哪些""女""演员"、"演过"、 "电影"。应当理解,现有的分词技术可包括字符串匹配的分词技术等。
[0040] S203,搜索引擎对搜索语句进行词法分析以获取搜索语句中每个词对应的词性标 注标签。
[0041] 其中,应当理解,词性标注是指根据句子中的上下文信息给句中的每个词确定一 个最为合适的词性标记。可通过字符对每个词性进行标记,即如下面表1所示为词性标注 语料库中的一部分:
[0042]
【权利要求】
1. 一种搜索方法,其特征在于,包括以下步骤: 51、 搜索引擎获取搜索语句; 52、 所述搜索引擎将所述搜索语句转化为结构化查询词;以及 53、 所述搜索引擎根据所述结构化查询词进行查询以获取搜索结果。
2. 如权利要求1所述的搜索方法,其特征在于,所述步骤S2具体包括: 521、 对所述搜索语句进行分词以生成多个词; 522、 对所述搜索语句进行词法分析以获取所述搜索语句中每个词对应的词性标注标 签; 523、 对所述搜索语句进行句法分析以获取所述搜索语句中各个词之间的依存关系标 签;以及 524、 根据所述词性标注标签和所述依存关系标签生成所述结构化查询词。
3. 如权利要求2所述的搜索方法,其特征在于,所述步骤S24具体包括: 分别对所述词性标注标签所对应的词和所述依存关系标签所对应的词进行语义分析, 以生成所述搜索语句中各个词之间的语义关系; 根据所述语义关系生成所述结构化查询词。
4. 如权利要求1所述的搜索方法,其特征在于,所述步骤S3具体包括: 根据所述结构化查询词进行查询结构化数据库以获取所述搜索结果。
5. 如权利要求4所述的搜索方法,其特征在于,所述结构化数据库为三元组数据库或 结构化查询语言SQL数据库。
6. -种搜索装置,其特征在于,包括: 获取模块,用于获取搜索语句; 转化模块,用于将所述搜索语句转化为结构化查询词;以及 查询模块,用于根据所述结构化查询词进行查询以获取搜索结果。
7. 如权利要求6所述的搜索装置,其特征在于,所述转化模块包括: 分词单元,用于对所述搜索语句进行分词以生成多个词; 第一获取单元,用于对所述搜索语句进行词法分析以获取所述搜索语句中每个词对应 的词性标注标签; 第二获取单元,用于对所述搜索语句进行句法分析以获取所述搜索语句中各个词之间 的依存关系标签; 生成单元,用于根据所述词性标注标签和所述依存关系标签生成所述结构化查询词。
8. 如权利要求7所述的搜索装置,其特征在于,所述生成单元具体用于: 分别对所述词性标注标签所对应的词和所述依存关系标签所对应的词进行语义分析, 以生成所述搜索语句中各个词之间的语义关系; 根据所述语义关系生成所述结构化查询词。
9. 如权利要求6所述的搜索装置,其特征在于,所述查询模块具体用于: 根据所述结构化查询词进行查询结构化数据库以获取所述搜索结果。
10. 如权利要求9所述的搜索装置,其特征在于,所述结构化数据库为三元组数据库或 结构化查询语言SQL数据库。
【文档编号】G06F17/30GK104252533SQ201410466232
【公开日】2014年12月31日 申请日期:2014年9月12日 优先权日:2014年9月12日
【发明者】徐文智, 刘占一, 吴华, 王海峰 申请人:百度在线网络技术(北京)有限公司