一种相关实体推荐方法和系统的制作方法
【专利摘要】本发明实施例公开了一种相关实体推荐方法和系统,所述方法包括:接收用户输入的查询语句,提取出所述查询语句中包含的实体名称;根据预先利用语料库中的语句挖掘出的相关实体对,查询所述实体名称所对应实体的相关实体;将查询到的相关实体进行排序;按照排序结果将查询到的相关实体进行展现。该方法解决了现有技术中为用户展现的推荐实体与用户输入的搜索查询语句包含的实体的相关性较弱,用户不感兴趣的问题,提高了推荐实体与用户输入的搜索查询语句包含的实体的相关性,实现了引导用户进行再次搜索的目的。
【专利说明】一种相关实体推荐方法和系统
【技术领域】
[0001] 本发明实施例涉及互联网【技术领域】,尤其涉及一种相关实体推荐方法和系统。
【背景技术】
[0002] 目前为了引导用户进行再次搜索,在用户输入搜索查询语句后,搜索引擎除了将 搜索到的与该搜索查询语句相关的网页链接展现给用户外,还会将一些其他实体作为推荐 实体也展现给用户,比如将推荐实体显示在网页链接的右侧,使用户针对该相关实体进行 搜索。
[0003] 现有技术中存在以下问题:
[0004] 展现的一些推荐实体与搜索查询语句包含的实体完全无关联,该类推荐实体对用 户完全无意义甚至引起用户的反感,如图1所示,用户输入搜索查询语句"吃什么蔬菜补 钙",搜索结果右侧给出推荐的相关实体,这些实体中部分对补钙有帮助,可以引导用户确 认自己的需求,但部分实体例如"腐乳"和"动物性食品",与搜索查询语句包含的实体完全 无关联。图2中,推荐实体"毛新宇"与用户输入的搜索查询语句包含的实体"杨虎城"完 全无关联。
[0005] 展现的一部分推荐实体是另一部分推荐实体的相关实体,其与搜索查询语句包含 的实体的相关性较弱,用户很可能不会对其有兴趣。如图3所示,右侧给出的推荐实体"陈 道明",跟推荐实体"左小青"有关联,二者共同出演了另一部电视剧,但是跟用户输入搜索 查询语句直观的实体"爷们儿"关联程度非常小,还不如给出左小青的其他相关电视剧作 品。
[0006] 综上,现有技术中为用户展现的推荐实体与用户输入的搜索查询语句包含的实体 的相关性较弱,用户很可能不会对其有兴趣,不能达到引导用户进行再次搜索的目的,还有 可能引起用户反感从而导致用户体验下降。
【发明内容】
[0007] 本发明实施例提供一种相关实体推荐方法和系统,以提升推荐实体与用户输入的 查询语句包含实体的相关性,为用户推荐感兴趣的实体,达到引导用户进行再次搜索的目 的。
[0008] 第一方面,本发明实施例提供了一种相关实体推荐方法,包括:
[0009] 接收用户输入的查询语句,提取出所述查询语句中包含的实体名称;
[0010] 根据预先利用语料库中的语句挖掘出的相关实体对,查询所述实体名称所对应实 体的相关实体;
[0011] 将查询到的相关实体进行排序;
[0012] 按照排序结果将查询到的相关实体进行展现。
[0013] 第二方面,本发明实施例还提供了一种相关实体推荐系统,该系统包括:
[0014] 实体名称提取模块,用于接收用户输入的查询语句,提取出所述查询语句中包含 的实体名称;
[0015] 相关实体查询模块,用于根据预先利用语料库中的语句挖掘出的相关实体对,查 询所述实体名称所对应实体的相关实体;
[0016] 相关实体排序模块,用于将查询到的相关实体进行相关实体;
[0017] 相关实体展现模块,用于按照排序结果将查询到的相关实体进行展现。
[0018] 本发明实施例通过预先利用语料库中的语句挖掘相关实体对,根据挖掘出的相关 实体对确定查询语句中的实体所对应的相关实体,并对所述查询语句中的实体所对应的相 关实体进行排序后推荐展现,解决了现有技术中为用户展现的推荐实体与用户输入的搜索 查询语句包含的实体的相关性较弱,用户不感兴趣的问题,提高了推荐实体与用户输入的 搜索查询语句包含的实体的相关性,实现了引导用户进行再次搜索的目的。
【专利附图】
【附图说明】
[0019] 图1为现有技术中一种相关实体推荐结果展现示意图;
[0020] 图2为现有技术中另一种相关实体推荐结果展现示意图;
[0021] 图3为现有技术中另一种相关实体推荐结果展现示意图;
[0022] 图4为本发明实施例一提供的一种相关实体推荐方法的流程图;
[0023] 图5为本发明实施例二提供的一种相关实体推荐方法的流程图;
[0024] 图6为本发明实施例二提供的与杨虎城直接相关的实体及对应的关系和频次的 统计图;
[0025]图7为本发明实施例二提供的通过实体间关系关联度计算与杨虎城直接相关的 实体推荐排序列表;
[0026] 图8为本发明实施例二提供的与用户查询语句"杨虎城"所对应的直接相关实体 排序展现不意图;
[0027] 图9为本发明实施例三提供的一种相关实体推荐方法中利用语料库中的语句挖 掘相关实体对的流程图;
[0028]图10为本发明实施例三提供的语料库中的语句="在大坯山下颜良被关公突然 袭击快马奔到面前一刀杀死的",经过语法语义分析后,得到的句法结构示意图;
[0029]图11为本发明实施例三提供的对语句="在大坯山下颜良被关公突然袭击快马 奔到面前一刀杀死的"句法结构进行相关实体对挖掘示意图;
[0030] 图12为本发明实施例三提供的语料库中的语句="心雨是刘德华演唱的歌曲", 经过语法语义分析后,得到的句法结构示意图;
[0031] 图13为本发明实施例三提供的语料库中的语句="心雨是刘德华演唱的歌曲"句 法结构进行相关实体对挖掘示意图;
[0032] 图14为本发明实施例四提供的一种相关实体推荐方法的流程图;
[0033]图15为本发明实施例四提供的一种间接相关实体推导示意图;
[0034] 图16为本发明实施例四提供的一种相关实体推荐结果展现示意图;
[0035]图17为本发明实施例五提供的一种相关实体推荐系统的结构示意图。
【具体实施方式】
[0036] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便 于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0037] 实施例一
[0038] 图4为本发明实施例一提供的一种相关实体推荐方法的流程图,本实施例可适用 于各种搜索引擎,用于引导用户搜索,引导用户发现真正意图或引起用户的相关兴趣进行 再次搜索。本实施例的方法可以由相关实体推荐装置来执行,该装置可通过软件的方式实 现,并一般可集成于搜索引擎客户端(例如,百度搜索、360搜索等)所在的终端设备(例 如,台式机或者笔记本等)中,或作为搜索引擎客户端的子程序。本实施例的方法具体包括 如下操作:
[0039] 110、接收用户输入的查询语句,提取出所述查询语句中包含的实体名称;
[0040]用户向搜索引擎提交查询语句,搜索引擎一般在接受到用户查询语句后,要做一 些处理。所述处理就是提取出所述查询语句中包含的实体名称。其中用户输入的查询语句 可以是一个词语也可以是一个句子,该操作能够识别并提取出用户输入查询语句中所包含 的实体名称,例如采用分词技术获得所述查询语句中包含的各实体名称,需要注意的是本 发明对获得所述查询语句中包含的实体名称的方式不作限制。
[0041] 操作120、根据预先利用语料库中的语句挖掘出的相关实体对,查询所述实体名称 所对应实体的相关实体;
[0042] 预先利用语料库中的语句挖掘出的相关实体对,其中所述语料库可以是索引数据 库,还可以是用户行为数据库。通过对语料库中的语句进行基本的词法、句法分析,给出句 子的句法结构,然后基于此结构进行实体关系挖掘,确定相关实体对,所述相关实体对包括 相关实体和关联关系。根据上述操作获取的查询语句中的实体名称,从预先利用语料库中 的语句挖掘出的相关实体对中查找所对应实体的相关实体。
[0043] 130、将查询到的相关实体进行排序;
[0044] 根据查询到的相关实体与所述实体名称所对应实体的关联度值进行排序,生成推 荐实体列表,等待输出。
[0045] 140、按照排序结果将查询到的相关实体进行展现。
[0046] 按照排序结果将查询到的相关实体作为用户输入查询语句的推荐实体,进行输出 展现,例如在搜索结果的右侧给出与所述用户查询语句中实体名称所对应实体的相关实体 排序展现。本实施例中,也可以在搜索结果的左侧或者下方展示推荐的相关实体排序结果, 本实施例对展现形式并不做限制。
[0047] 本实施例的技术方案,通过提取出所述查询语句中包含的实体名称并在根据预先 利用语料库中的语句挖掘出的相关实体对中,查询所述实体名称所对应实体的相关实体, 将查询到的相关实体进行排序并将排序结果进行输出展现,解决了现有技术中为用户展现 的推荐实体与用户输入的搜索查询语句包含的实体的相关性较弱,用户不感兴趣的问题, 提高了推荐实体与用户输入的搜索查询语句包含的实体的相关性,达到了引导用户进行再 次搜索的效果。
[0048] 实施例二
[0049] 图5为本发明实施例二提供的一种相关实体推荐方法的流程图,本实施例以上述 实施例为基础进行优化。如图5所示,该方法具体包括如下操作:
[0050] 210、对语料库中的语句进行语法语义分析,得到所述语句的句法结构;
[0051] 该操作主要是对语料库中的语句进行基本的词法、句法分析,给出语句的句法结 构,然后基于此结构进行关系挖掘。这部分工作涉及:分词模块、实体识别模块、词性标注模 块和依存分析模块。其中,分词模块是其他模块对语句作进一步分析的基础,将一个语句切 分成一个一个单独的词,利用各种匹配方法将语句重新组合成词序列,例如可以是基于字 符串匹配的分词,或者基于统计模型的分词等;实体识别模块用于识别出待处理语句中描 述确切对象的词语;词性标注模块,用于将词语进行词性分类,可以将句子中具体词的组合 关系抽象成词类之间的组合关系,进而更容易得到句法结构的规律;依存分析模块用于将 语句分析成一颗依存句法树,描述出各个词语之间的依存关系,也即指出了词语之间在句 法上的搭配关系。
[0052] 同时为了提升基础模块的准确率,在调用词法和句法前,先进行语料预处理。语料 预处理的作用,一是去除杂乱无章的语句,二是进行指代消解。
[0053] 220、根据所述语句的句法结构,获得所述语句中具有直接关联关系的实体,将该 具有直接关联关系的实体以及所述直接关联关系作为相关实体对进行保存;
[0054] 在上述得到的句法结构基础上,确认语句所含有的实体,进行实体间关系挖掘,同 时补充构成关系的各个要素。其中,所述相关实体包括具有直接关联关系的实体以及所述 直接关联关系。
[0055] 230、接收用户输入的查询语句,提取出所述查询语句中包含的实体名称;
[0056] 240、将根据所述相关实体对查询到的所述实体名称所对应实体的相关实体作为 直接相关实体;
[0057] 所述直接相关实体,是与用户搜索查询语句中的实体具有直接关联关系的相关实 体。
[0058] 250、分别获得查询到的各直接相关实体与所述实体名称所对应实体的关联度值; 其中每两个实体的关联度值是根据包含该两个实体的相关实体对的关系强度值和出现频 次确定的;
[0059] 根据上述相关实体对挖掘结果,统计出两个实体之间关系种类数、每一个关系及 其对应的频次等信息,例如统计了与"杨虎城"直接相关的实体及对应的关系和频次等,结 果如图6所示。同时还可以计算关系强度(如"主演"强度大于"请")。针对每一对实体, 按照如下公式一获得两个实体的关联度值entity_relscore:
[0060]公式一:entity_relscore=ΣreRfreqqel,e2,r) r-welght;
[0061] 其中,(el,e2,r)表不包含两个实体的一个相关实体对,el、e2分别表不该两个实 体,r表示当前相关实体对中el与e2的关联关系;R表示el与e2的关系的集合;;r_weight 表示r的强度值;freq函数表示相关实体对(el,e2,r)的出现频次。
[0062] 按照如下公式二计算所述r_weight:
[0063]公式二:r_weight=ΣΓ=ιP(enti1;y_pair) *logp(entity_pair);
[0064]其中,entity_pair表示当前相关实体对(el,e2,r),p(entity_pair)表示当前 相关实体对(el,e2,r)在关系r所关联的全部相关实体对中的比例,η表示相关实体对 (el,e2,r)的总数量。
[0065] 260、根据获得的关联度值对查询到的直接相关实体进行排序。
[0066] 通过上述公式的计算,可以得出直接相关实体推荐排序列表,如图7所示。
[0067] 270、按照排序结果将查询到的直接相关实体进行展现。
[0068] 将操作260直接相关实体推荐排序列表在用户搜索结果中展现,如图8所示,本实 施例中示例性的在搜索结果的右侧给出与用户查询语句"杨虎城"所对应的直接相关实体 排序展现。与现有技术相关实体推荐结果(参见图2)相比,蒋介石、孙蔚如、谢葆真、宋绮 云、井岳秀等比毛新宇、毛泽民、津渊美智子等跟杨虎城的相关性更强。
[0069] 本实施例的技术方案,通过预先对语料库语句进行语法语义分析,相关实体对挖 掘,获取与用户查询语句中实体名称对应的实体具有直接关联关系的直接相关实体,并通 过计算实体间关联度值,对推荐的直接相关实体进行排序输出展示,解决了现有技术中为 用户展现的推荐实体与用户输入的搜索查询语句包含的实体的相关性较弱,用户不感兴趣 的问题,提高了推荐实体与用户输入的搜索查询语句包含的实体的相关性,提升了用户体 验,达到了引导用户进行再次搜索的效果。
[0070] 实施例三
[0071] 图9为本发明实施例三提供的一种相关实体推荐方法中利用语料库中的语句挖 掘相关实体对的流程图,如图9所示,利用语料库中的语句挖掘相关实体对具体包括:
[0072] 310、对语料库中的语句进行语法语义分析,得到所述语句的句法结构;
[0073] 320、提取所述语句的句法结构中的子结构;
[0074] 挖掘过程是一个自上而下的处理过程,首先根据句法结构,将句法结构中的所有 子结构进行提取。
[0075] 330、对提取到的子结构进行语句类型识别;
[0076] 例如识别所述子结构是正常语句还是被字句或逆序结构等,当所述子结构为正常 语句结构时,不做处理,直接保存;当所述子结构是被字句或逆序结构等时,调整所述子结 构为正常语句结构后保存。
[0077] 340、根据语句类型识别结果,对提取到的子结构进行合并后对合并得到的子结构 进行合理性验证,或者对提取到的子结构进行合理性验证;
[0078] 如果得到的子结构中含有无意义的连接节点(由于句子语法需求,一些虚词用来 协助构建整个句子),那么需要先对得到的子结构进行合并。然后对合并后得到的子结构 或者不需要进行合并的子结构再进行最后的合理性验证,将高质量结果作为最终的挖掘结 果。例如通过语料来源网站的质量(新闻网站质量高于贴吧等论坛网站)、网站数量等确定 语料语句的可靠性,将可靠性低的来源语料语句舍弃。
[0079] 350、将验证通过的子结构作为相关实体对进行保存。
[0080] 所述相关实体包括具有直接关联关系的实体(也即子结构中的子节点)以及所述 直接关联关系。
[0081] 下面通过两个具体的例子来说明本实施例的具体实现过程。
[0082]例如,语料库中的语句="在大坯山下颜良被关公突然袭击快马奔到面前一刀杀 死的",经过语法语义分析后,得到的句法结构如图10所示。
[0083] 根据得到的句法结构,进行相关实体对挖掘的过程如下:
[0084] 提取语句句法结构中的子结构,如图11所示,子结构1的根节点为"杀死",对应的 子节点为"大坯山"、"颜良"、"关公"、"一刀"、等;子结构2的根节点为"奔到",对应的子节 点为"快马"、"面前"等;对提取到的子结构进行语句类型识别,发现子结构1为被字句,子 结构2为正常语句。由于子结构是一个被字句,则真正主语是"被"字后面的实体(即依存 关系上为依存于"被"的子节点)"关公","颜良"为"杀死"的宾语,调整句子结构保存;子 结构2为正常语句则直接保存结果;由于两个子结构表示动作前后关系,不进行合并;例如 从其他语句中还挖掘到"刘备杀死颜良",通过挖掘到语料的网站质量(新闻网站质量高于 贴吧等论坛网站)、网站数目(如挖掘到"关公杀死颜良"的数量远大于"刘备杀死颜良"的 数量)等确定语句的可信性;最后,将验证通过的子结构作为相关实体对进行保存。
[0085] 又例如,语料库中的语句="心雨是刘德华演唱的歌曲",分析后得到的句法结构 如图12所示。
[0086] 根据得到的句法结构,进行相关实体对挖掘的过程如下:
[0087] 提取语句句法结构中的子结构,子结构1的根节点为"是",对应的子节点为"心 雨"、"歌曲";子结构2的根节点为"歌曲",对应的子节点为"演唱";识别子结构1为正常语 句,子结构2为动词修饰名词的逆序结构;直接提取子结构1的子节点信息;子结构2则需 转成正常结构,即将根节点改为"演唱","歌曲"作为其子节点,如图13所示。通过子结构1 得知"心雨"等价于歌曲(关系词为"是",表示等价),则将子结构2中的"歌曲"替换成"心 雨",进行两个子结构的合并,得到"刘德华演唱心雨";对最终结果进行验证,通过语料语句 来源网站的质量(新闻网站质量高于贴吧等论坛网站)、网站数量等确定语句的可信性。最 后,将验证通过的子结构作为相关实体对进行保存。
[0088] 本发明实施例通过对语料库中的语句进行语法语义分析获取句法结构,并根据获 取的句法结构挖掘相关实体对,得到所述用户查询语句中的实体名称所对应实体的直接相 关实体,以实现为用户查询结果推荐相关性高的相关实体。
[0089] 实施例四
[0090]本发明实施例提供的相关实体推荐方法为上述各实施例的进一步优化,优选地, 在根据预先利用语料库中的语句挖掘出的相关实体对查询所述实体名称所对应实体的相 关实体之后、将查询到的相关实体进行排序之前,还包括:
[0091] 查询与所述实体名称所对应实体的属性相匹配的、所述实体名称所对应实体的间 接相关实体;所述间接相关实体是根据挖掘出的相关实体对进行关系推导得到的、与实体 名称所对应实体具有间接关联关系的实体。
[0092] 在上述各实施例的基础上,本实施例对预先挖掘出的相关实体对进行关系推导及 部分属性值匹配,可以给出与实体名称所对应实体具有间接关联关系的间接相关实体。如 图14所示,该方法包括如下操作:
[0093] 410、接收用户输入的查询语句,提取出所述查询语句中包含的实体名称;
[0094] 420、根据预先利用语料库中的语句挖掘出的相关实体对,查询所述实体名称所对 应实体的相关实体;
[0095] 430、查询与所述实体名称所对应实体的属性相匹配的、所述实体名称所对应实体 的间接相关实体;这里的属性可以包括实体的类别、功效等。
[0096] 所述间接相关实体是根据挖掘出的相关实体对进行关系推导得到的、与实体名称 所对应实体具有间接关联关系的实体。
[0097] 440、分别获得查询到的各直接相关实体与所述实体名称所对应实体的关联度值; 其中每两个实体的关联度值是根据包含该两个实体的相关实体对的关系强度值和出现频 次确定的;
[0098] 450、分别获得查询到的各间接相关实体与所述实体名称所对应实体的关联度 值;
[0099] 任一间接相关实体与所述实体名称所对应实体的关联度值,是根据该任一间接相 关实体与中间关联实体的关联度值确定的,具体的,该任一间接相关实体与所述实体名称 所对应实体的关联度值,可以等于该任一间接相关实体与各中间关联实体的关联度值的平 均值,所述中间关联实体是与该任一间接相关实体有直接关联关系的实体;其中每两个实 体的关联度值是根据包含该两个实体的相关实体对的关系强度值和出现频次确定的;
[0100] 对于操作440和操作450,每一对实体,按照如下公式一获得两个实体的关联度值 entity-relscore:
[0101] 公式一 :entity-relscore=ΣreRfreqqel,e2,r)r-welght;
[0102] 其中,(el,e2,r)表示包含两个实体的一个相关实体对,el、e2分别表示该两个实 体,r表示当前相关实体对中el与e2的关联关系;R表示el与e2的关系的集合;;r_weight 表示r的强度值;freq函数表示相关实体对(el,e2,r)的出现频次。
[0103] 按照如下公式二计算所述r_weight:
[0104] 公式二:r-.weight=SILiP(entit:y_pair)*logp(entity-pair);
[0105]其中,entity_pair表示当前相关实体对(el,e2,r),p(entity_pair)表示当前 相关实体对(el,e2,r)在关系r所关联的全部相关实体对中的比例,n表示相关实体对 (el,e2,r)的总数量。
[0106] 460、根据获得的关联度值对查询到的直接相关实体和间接相关实体进行排序;
[0107] 470、按照排序结果将查询到的相关实体进行展现。
[0108] 本实施例提供的方法主要利用实体属性匹配(如类型相同)以及根据挖掘出的相 关实体对进行关系推导得到与查询语句中实体名称对应的实体具有间接关联关系的间接 相关实体。例如根据图15中语料库中数据,可以得出"悬崖"跟用户输入的搜索查询中"爷 们儿"属于同一类别(均为电视剧),且根据挖掘出的相关实体对(爷们儿的主演为宋佳和 张嘉译)进行关系推导得到宋佳和张嘉译也为"悬崖"的主演,故将"悬崖"作为搜索查询 "爷儿"的间接相关实体,"悬崖"与"爷儿"的关联度值可以取"悬崖"与"张嘉译"的关 联度值和"悬崖"与"宋佳"的关联度值的平均值。为用户搜索查询推荐"悬崖"作为候选推 荐实体,可以更好的引起用户兴趣。如图16所示,其中图中前两排表示跟用户搜索查询中 实体直接关联,第三排结果是通过挖掘出的相关实体对进行关系推导及属性匹配得到的具 有间接关联关系的推荐实体。
[0109] 本发明实施例通过根据挖掘出的相关实体对进行关系推导得到与查询语句中实 体名称对应的实体具有间接关联关系的间接相关实体,作为用户搜索结果的候选相关实 体,并根据各直接相关实体与所述实体名称所对应实体的关联度值以及各间接相关实体与 所述实体名称所对应实体的关联度值,对查询到的直接相关实体和间接相关实体进行排序 输出展示,由于推荐相关实体中增加了间接相关实体,能够更好的引起用户兴趣,吸引用户 好奇心,提升用户搜索量。
[0110] 实施例五
[0111] 图17所示为本发明实施例五提供的相关实体推荐系统的结构示意图,该系统的 具体结构如下:
[0112] 实体名称提取模块510,用于接收用户输入的查询语句,提取出所述查询语句中包 含的实体名称;
[0113] 相关实体查询模块520,用于根据预先利用语料库中的语句挖掘出的相关实体对, 查询所述实体名称所对应实体的相关实体;
[0114] 相关实体排序模块530,用于将查询到的相关实体进行排序;
[0115] 相关实体展现模块540,用于按照排序结果将查询到的相关实体进行展现。
[0116] 本实施例的技术方案,通过提取出所述查询语句中包含的实体名称并在根据预先 利用语料库中的语句挖掘出的相关实体对中,查询所述实体名称所对应实体的相关实体, 将查询到的相关实体进行排序并将排序结果进行输出展现,解决了现有技术中为用户展现 的推荐实体与用户输入的搜索查询语句包含的实体的相关性较弱,用户不感兴趣的问题, 提高了推荐实体与用户输入的搜索查询语句包含的实体的相关性,达到了引导用户进行再 次搜索的效果。
[0117] 在上述各实施例基础上,所述相关实体推荐系统,还包括:
[0118] 语法语义分析分析模块,用于对语料库中的语句进行语法语义分析,得到所述语 句的句法结构;
[0119] 相关实体对保存模块,用于根据所述语句的句法结构,获得所述语句中具有直接 关联关系的实体,将该具有直接关联关系的实体以及所述直接关联关系作为相关实体对进 行保存。将根据所述相关实体对查询到的所述实体名称所对应实体的相关实体作为直接相 关实体。
[0120] 进一步地,所述相关实体对保存模块,具体包括:
[0121] 子结构提取子单元,用于提取所述语句的句法结构中的子结构;
[0122] 语句类型识别子单元,用于对提取到的子结构进行语句类型识别;
[0123] 合理性验证子单元,用于根据语句类型识别结果,对提取到的子结构进行合并后 对合并得到的子结构进行合理性验证,或者对提取到的子结构进行合理性验证;
[0124] 相关实体对保存子单元,将验证通过的子结构作为相关实体对进行保存。
[0125] 在上述各实施例基础上,所述相关实体推荐系统还包括:间接相关实体查询模块, 用于查询与所述实体名称所对应实体的属性相匹配的、所述实体名称所对应实体的间接相 关实体;所述间接相关实体是根据挖掘出的相关实体对进行关系推导得到的、与实体名称 所对应实体具有间接关联关系的实体。
[0126] 进一步地,所述相关实体排序模块,具体包括:
[0127] 直接相关实体关联度值获取单元,用于分别获得查询到的各直接相关实体与所述 实体名称所对应实体的关联度值;其中每两个实体的关联度值是根据包含该两个实体的相 关实体对的关系强度值和出现频次确定的;
[0128] 直接相关实体排序单元,用于根据获得的关联度值对查询到的直接相关实体进行 排序。
[0129] 优选地,所述相关实体排序模块,具体还包括:
[0130] 直接相关实体关联度值获取单元,分别获得查询到的各直接相关实体与所述实体 名称所对应实体的关联度值;
[0131] 间接相关实体关联度值获取单元,分别获得查询到的各间接相关实体与所述实体 名称所对应实体的关联度值;任一间接相关实体与所述实体名称所对应实体的关联度值, 是根据该任一间接相关实体与中间关联实体的关联度值确定的,所述中间关联实体是与该 任一间接相关实体有直接关联关系的实体;其中每两个实体的关联度值是根据包含该两个 实体的相关实体对的关系强度值和出现频次确定的;
[0132] 相关实体排序单元,根据获得的关联度值对查询到的直接相关实体和间接相关实 体进行排序。
[0133] 其中,按照如下公式一获得两个实体的关联度值entity_relscore:
[0134]公式一:entity_relscore=ΣreRfreqqel,e2,r) r-welght;
[0135] 其中,(el,e2,r)表不包含两个实体的一个相关实体对,el、e2分别表不该两个实 体,r表示当前相关实体对中el与e2的关联关系;R表示el与e2的关系的集合;;r_weight 表示r的强度值;freq函数表示相关实体对(el,e2,r)的出现频次。
[0136] 按照如下公式二计算所述:r_weight:
[0137]公式二
【权利要求】
1. 一种相关实体推荐方法,其特征在于,包括: 接收用户输入的查询语句,提取出所述查询语句中包含的实体名称; 根据预先利用语料库中的语句挖掘出的相关实体对,查询所述实体名称所对应实体的 相关实体; 将查询到的相关实体进行排序; 按照排序结果将查询到的相关实体进行展现。
2. 根据权利要求1所述的方法,其特征在于,利用语料库中的语句挖掘相关实体对,具 体包括: 对语料库中的语句进行语法语义分析,得到所述语句的句法结构;根据所述语句的句 法结构,获得所述语句中具有直接关联关系的实体,将该具有直接关联关系的实体以及所 述直接关联关系作为相关实体对进行保存; 将根据所述相关实体对查询到的所述实体名称所对应实体的相关实体作为直接相关 实体。
3. 根据权利要求2所述的方法,其特征在于,所述根据所述语句的句法结构,获得所述 语句中具有直接关联关系的实体,将该具有直接关联关系的实体以及所述直接关联关系作 为相关实体对进行保存,具体包括: 提取所述语句的句法结构中的子结构; 对提取到的子结构进行语句类型识别; 根据语句类型识别结果,对提取到的子结构进行合并后对合并得到的子结构进行合理 性验证,或者对提取到的子结构进行合理性验证; 将验证通过的子结构作为相关实体对进行保存。
4. 根据权利要求2所述的方法,其特征在于,在根据预先利用语料库中的语句挖掘出 的相关实体对查询所述实体名称所对应实体的相关实体之后、将查询到的相关实体进行排 序之前,还包括: 查询与所述实体名称所对应实体的属性相匹配的、所述实体名称所对应实体的间接相 关实体;所述间接相关实体是根据挖掘出的相关实体对进行关系推导得到的、与实体名称 所对应实体具有间接关联关系的实体。
5. 根据权利要求2所述的方法,其特征在于,将查询到的相关实体进行排序,具体包 括: 分别获得查询到的各直接相关实体与所述实体名称所对应实体的关联度值;其中每 两个实体的关联度值是根据包含该两个实体的相关实体对的关系强度值和出现频次确定 的; 根据获得的关联度值对查询到的直接相关实体进行排序。
6. 根据权利要求4所述的方法,其特征在于,将查询到的相关实体进行排序,具体包 括: 分别获得查询到的各直接相关实体与所述实体名称所对应实体的关联度值; 分别获得查询到的各间接相关实体与所述实体名称所对应实体的关联度值;任一间接 相关实体与所述实体名称所对应实体的关联度值,是根据该任一间接相关实体与中间关联 实体的关联度值确定的,所述中间关联实体是与该任一间接相关实体有直接关联关系的实 体;其中每两个实体的关联度值是根据包含该两个实体的相关实体对的关系强度值和出现 频次确定的; 根据获得的关联度值对查询到的直接相关实体和间接相关实体进行排序。
7. 根据权利要求5或6所述的方法,其特征在于,按照如下公式一获得两个实体的关联 度值entity_relscore:
其中,(el,e2,r)表示包含两个实体的一个相关实体对,el、e2分别表示该两个实体,r表示当前相关实体对中el与e2的关联关系;R表示el与e2的关系的集合;;r_weight表 示r的强度值;freq函数表示相关实体对(el,e2,r)的出现频次。
8. 根据权利要求7所述的方法,其特征在于,按照如下公式二计算所述r_weight:
其中,entity_pair表示当前相关实体对(el,e2,r),p(entity_pair)表示当前相关实 体对(el,e2,r)在关系r所关联的全部相关实体对中的比例,n表示相关实体对(el,e2,r) 的总数量。
9. 一种相关实体推荐系统,其特征在于,包括: 实体名称提取模块,用于接收用户输入的查询语句,提取出所述查询语句中包含的实 体名称; 相关实体查询模块,用于根据预先利用语料库中的语句挖掘出的相关实体对,查询所 述实体名称所对应实体的相关实体; 相关实体排序模块,用于将查询到的相关实体进行排序; 相关实体展现模块,用于按照排序结果将查询到的相关实体进行展现。
10. 根据权利要求9所述的系统,其特征在于,还包括: 语法语义分析分析模块,用于对语料库中的语句进行语法语义分析,得到所述语句的 句法结构; 相关实体对保存模块,用于根据所述语句的句法结构,获得所述语句中具有直接关联 关系的实体,将该具有直接关联关系的实体以及所述直接关联关系作为相关实体对进行保 存; 将根据所述相关实体对查询到的所述实体名称所对应实体的相关实体作为直接相关 实体。
11. 根据权利要求10所述的系统,其特征在于,所述相关实体对保存单元,具体包括: 子结构提取子单元,用于提取所述语句的句法结构中的子结构; 语句类型识别子单元,用于对提取到的子结构进行语句类型识别; 合理性验证子单元,用于根据语句类型识别结果,对提取到的子结构进行合并后对合 并得到的子结构进行合理性验证,或者对提取到的子结构进行合理性验证; 相关实体对保存子单元,将验证通过的子结构作为相关实体对进行保存。
12. 根据权利要求10所述的系统,其特征在于,还包括: 间接相关实体查询模块,用于查询与所述实体名称所对应实体的属性相匹配的、所述 实体名称所对应实体的间接相关实体;所述间接相关实体是根据挖掘出的相关实体对进行 关系推导得到的、与实体名称所对应实体具有间接关联关系的实体。
13. 根据权利要求11所述的系统,其特征在于,所述相关实体排序模块,具体包括: 直接相关实体关联度值获取单元,用于分别获得查询到的各直接相关实体与所述实体 名称所对应实体的关联度值;其中每两个实体的关联度值是根据包含该两个实体的相关实 体对的关系强度值和出现频次确定的; 直接相关实体排序单元,用于根据获得的关联度值对查询到的直接相关实体进行排 序。
14. 根据权利要求12所述的系统,其特征在于,所述相关实体排序模块,具体包括: 直接相关实体关联度值获取单元,分别获得查询到的各直接相关实体与所述实体名称 所对应实体的关联度值; 间接相关实体关联度值获取单元,分别获得查询到的各间接相关实体与所述实体名称 所对应实体的关联度值;任一间接相关实体与所述实体名称所对应实体的关联度值,是根 据该任一间接相关实体与中间关联实体的关联度值确定的,所述中间关联实体是与该任一 间接相关实体有直接关联关系的实体; 其中每两个实体的关联度值是根据包含该两个实体的相关实体对的关系强度值和出 现频次确定的; 相关实体排序单元,根据获得的关联度值对查询到的直接相关实体和间接相关实体进 行排序。
15. 根据权利要求13或14所述的系统,其特征在于,按照如下公式一获得两个实体的 关联度值entity_relscore:
其中,(el,e2,r)表示包含两个实体的一个相关实体对,el、e2分别表示该两个实体,r表示当前相关实体对中el与e2的关联关系;R表示el与e2的关系的集合;;r_weight表 示r的强度值;freq函数表示相关实体对(el,e2,r)的出现频次。
16. 根据权利要求15所述的系统,其特征在于,按照如下公式二计算所述r_weight:
其中,entity_pair表示当前相关实体对(el,e2,r),p(entity_pair)表示当前相关实 体对(el,e2,r)在关系r所关联的全部相关实体对中的比例,n表示相关实体对(el,e2,r) 的总数量。
【文档编号】G06F17/30GK104484339SQ201410677385
【公开日】2015年4月1日 申请日期:2014年11月21日 优先权日:2014年11月21日
【发明者】王丽杰, 刘占一, 于佃海 申请人:百度在线网络技术(北京)有限公司