专利名称:一种基于语义的相似度计算方法和装置的制作方法
一种基于语义的相似度计算方法和装置
技术领域:
本发明涉及计算机技术领域,特别涉及一种基于语义的相似度计算方法和装置。背景技术:
随着计算机技术的不断发展,用户越来越依赖通过诸如搜索技术、问答平台或者热点新闻等获取信息。其中,会涉及到计算句子之间相似度的问题,例如,通过计算搜索结果与用户query之间的相似度确定搜索结果的排序;通过计算用户所输入问句与问答平台数据库中已有问题之间的相似度,找出用户所输入问句对应的答案;通过新闻页面的标题之间的相似度对各新闻页面进行聚类从而确定热点事件。在现有的相似度计算方式中,仅通过计算两个句子之间的字面相似程度,但实际上,两个句子之间的相似度更多的体现在语义上。例如句子“华中科技大学在湖北武汉那 个地方”和“华科大在武汉市什么位置”,这两个句子中字面仅有“在”和“武汉”存在重合,如果采用现有的相似度计算方式计算得到的这两个句子之间的相似度很低,但实际上这两个句子在语义上是一致的,相似度应该很高。可见,现有的相似度计算方式准确性较差。
发明内容有鉴于此,本发明提供了一种基于语义的相似度计算方法和装置,以便于提高所计算句子之间相似度的准确性。具体技术方案如下一种基于语义的相似度计算方法,该方法包括A、获取待比较的句子S1和S2 ;B、分别对所述S1和S2进行分词;C、对所述分词后得到的各词语中存在语义映射的词语映射为归一化的表述;D、计算经步骤C处理后的S1和S2之间的相似度SinKS1, S2)。所述步骤B中还包括对分词后得到的各词语赋予权值;所述步骤D具体包括将所述S1分词后得到的各词语与所述S2分词后得到的各词语分别进行匹配,利用匹配成功的词语的权值以及句子类型匹配程度,计算所述S1和S2之间的相似度SinKS1, S2);其中所述匹配成功为词语表述相同或者词语映射到相同的归一化表述。其中,所述步骤B具体包括BI、分别对所述S1和S2进行分词和词性标注;B2、对分词后得到的各词语进行基于停用词表的过滤;B3、对分词后得到的各词语赋予权值。具体地,所述对分词后得到的各词语赋予权值包括对所述分词后得到的各词语进行倒文档率的统计,按照预设的倒文档率与权值之间的对应关系,分别对所述分词后得到的各词语赋予权值;或者,
按照预设的词性与权值之间的对应关系,分别对所述分词后得到的各词语赋予权值。较优地,在所述步骤B之后且在所述步骤D之前还包括识别语义冗余的词语,并对语义冗余的词语进行降权处理;或者,在构成偏正结构的词语中,对作为中心词的词语进行提权处理或者对作为修饰词的词语进行降权处理。 其中,所述识别语义冗余的词语具体包括将所述S1分词后得到的各词语和所述 S2分词后得到的各词语分别与预设的语义模板进行匹配,通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语,将所述上位的词语识别为语义冗余的词语。更进一步地,该方法还包括预先将具有相同语义但不同表述的词语组成一个簇,并从该簇中选择一个词语作为该簇的归一化表述,该簇中所有的词语都语义映射到所述归一化表述。如果所述S1和S2均为问句,则在所述步骤D之前还包括识别所述S1和S2的问句类型;所述句子类型匹配程度体现所述S1和S2是否属于同一问句类型。其中,识别问句的问句类型的方式具体包括识别问句中的疑问词,按照预设的疑问词与问句类型之间的对应关系,确定问句的问句类型;或者,识别问句中的疑问词以及该疑问词上下文出现的名词,根据预设的名词和疑问词的组合与问句类型之间的对应关系,确定问句的问句类型。 具体地,所述步骤D可以包括D1、将所述S1和S2中最大分词粒度的词语以及该最大分词粒度的词语进一步划分的更小分词粒度的词语对应到同一个语义映射位;D2、将所述S1中各语义映射位逐一与所述S2中各语义映射位分别进行匹配;
权利要求
1.一种基于语义的相似度计算方法,其特征在于,该方法包括 A、获取待比较的句子S1和S2; B、分别对所述S1和S2进行分词; C、对所述分词后得到的各词语中存在语义映射的词语映射为归一化的表述; D、计算经步骤C处理后的S1和S2之间的相似度SinKS1,S2)。
2.根据权利要求I所述的方法,其特征在于,所述步骤B中还包括对分词后得到的各词语赋予权值; 所述步骤D具体包括 将所述S1分词后得到的各词语与所述S2分词后得到的各词语分别进行匹配,利用匹配成功的词语的权值以及句子类型匹配程度,计算所述S1和S2之间的相似度SinKS1, S2);其中所述匹配成功为词语表述相同或者词语映射到相同的归一化表述。
3.根据权利要求2所述的方法,其特征在于,所述步骤B具体包括 BI、分别对所述S1和S2进行分词和词性标注; B2、对分词后得到的各词语进行基于停用词表的过滤; B3、对分词后得到的各词语赋予权值。
4.根据权利要求2或3所述的方法,其特征在于,所述对分词后得到的各词语赋予权值包括 对所述分词后得到的各词语进行倒文档率的统计,按照预设的倒文档率与权值之间的对应关系,分别对所述分词后得到的各词语赋予权值;或者, 按照预设的词性与权值之间的对应关系,分别对所述分词后得到的各词语赋予权值。
5.根据权利要求2所述的方法,其特征在于,在所述步骤B之后且在所述步骤D之前还包括 识别语义冗余的词语,并对语义冗余的词语进行降权处理;或者, 在构成偏正结构的词语中,对作为中心词的词语进行提权处理或者对作为修饰词的词语进行降权处理。
6.根据权利要求5所述的方法,其特征在于,所述识别语义冗余的词语具体包括将所述S1分词后得到的各词语和所述S2分词后得到的各词语分别与预设的语义模板进行匹配,通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语,将所述上位的词语识别为语义冗余的词语。
7.根据权利要求I所述的方法,其特征在于,该方法还包括 预先将具有相同语义但不同表述的词语组成一个簇,并从该簇中选择一个词语作为该簇的归一化表述,该簇中所有的词语都语义映射到所述归一化表述。
8.根据权利要求2所述的方法,其特征在于,如果所述S1和S2均为问句,则在所述步骤D之前还包括识别所述S1和S2的问句类型; 所述句子类型匹配程度体现所述S1和S2是否属于同一问句类型。
9.根据权利要求8所述的方法,其特征在于,识别问句的问句类型的方式具体包括 识别问句中的疑问词,按照预设的疑问词与问句类型之间的对应关系,确定问句的问句类型;或者, 识别问句中的疑问词以及该疑问词上下文出现的名词,根据预设的名词和疑问词的组合与问句类型之间的对应关系,确定问句的问句类型。
10.根据权利要求2所述的方法,其特征在于,所述步骤D具体包括 D1、将所述SjP S2中最大分词粒度的词语以及该最大分词粒度的词语进一步划分的更小分词粒度的词语对应到同一个语义映射位; D2、将所述S1中各语义映射位逐一与所述S2中各语义映射位分别进行匹配; D3、按照公式
11.根据权利要求10所述的方法,其特征在于,如果一个句子中的一个语义映射位中存在多个词语与另一个句子的一个语义映射位的词语匹配,则从所述多个词语中选择分词粒度最大的词语作为匹配成功的词语。
12.一种基于语义的相似度计算装置,其特征在于,该装置包括 句子获取单元,用于获取待比较的句子S1和S2 ; 分词赋权单元,用于分别对所述S1和S2进行分词; 语义映射单元,用于对所述分词后得到的各词语中存在语义映射的词语映射为归一化的表述; 相似度计算单元,用于计算经所述语义映射单元处理后的S1和S2之间的相似度SinKS1, S2)。
13.根据权利要求12所述的装置,其特征在于,所述分词赋权单元还用于对分词后得到的各词语赋予权值; 所述相似度计算单元具体将所述S1分词后得到的各词语与所述S2分词后得到的各词语分别进行匹配,利用匹配成功的词语的权值以及句子类型匹配程度,计算所述S1和S2之间的相似度SinKS1, S2);其中所述匹配成功为词语表述相同或者词语映射到相同的归一化表述。
14.根据权利要求13所述的装置,其特征在于,所述分词赋权单元具体包括分词标注子单元、过滤子单元和赋权子单元;所述分词标注子单元,用于对所述S1和S2进行分词和词性标注; 所述过滤子单元,用于对分词后得到的各词语进行基于停用词表的过滤后发送给所述赋权子单元; 所述赋权子单元,用于将接收到的词语赋予权值。
15.根据权利要求14所述的装置,其特征在于,所述赋权子单元对接收到的词语进行倒文档率的统计,按照预设的倒文档率与权值之间的对应关系,分别对接收到的词语赋予权值;或者,按照预设的词性与权值之间的对应关系,分别对接收到的词语赋予权值。
16.根据权利要求13所述的装置,其特征在于,该装置还包括冗余处理单元或者结构处理单元; 所述冗余处理单元,用于识别所述分词处理后得到的词语中语义冗余的词语,并对语义冗余的词语进行降权处理; 所述结构处理单元,用于在所述分词处理后得到的词语中,对构成偏正结构的词语中的中心词进行提权处理,或者,对构成偏正结构的词语中的修饰词进行降权处理。
17.根据权利要求16所述的装置,其特征在于,所述冗余处理单元将所述S1分词后得到的各词语和所述S2分词后得到的各词语分别与预设的语义模板进行匹配,通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语,将所述上位的词语识别为语义冗余的词语。
18.根据权利要求12所述的装置,其特征在于,该装置还包括映射挖掘单元,用于预先将具有相同语义但不同表述的词语组成一个簇,并从该簇中选择一个词语作为该簇的归一化表述,该簇中所有的词语都语义映射到所述归一化表述。
19.根据权利要求13所述的装置,其特征在于,该装置还包括类型识别单元,用于在所述S1和S2为问句时,识别所述S1和S2的问句类型; 所述句子类型匹配程度体现所述S1和S2是否属于同一问句类型。
20.根据权利要求19所述的装置,其特征在于,所述类型识别单元识别问句中的疑问词,按照预设的疑问词与问句类型之间的对应关系,确定问句的问句类型;或者,识别问句中的疑问词以及该疑问词上下文出现的名词,根据预设的名词和疑问词的组合与问句类型之间的对应关系,确定问句的问句类型。
21.根据权利要求13所述的装置,其特征在于,所述相似度计算单元具体包括 映射位对应子单元,用于将所述SJP S2中最大分词粒度的词语以及该最大分词粒度的词语进一步划分的更小分词粒度的词语对应到同一个语义映射位; 匹配处理子单元,用于将所述S1中各语义映射位逐一与所述S2中各语义映射位分别进行匹配; 相似度计算子单元,用于按照公式
22.根据权利要求21所述的装置,其特征在于,如果一个句子中的一个语义映射位中存在多个词语与另一个句子的一个语义映射位的词语匹配,则所述匹配处理子单元从所述多个词语中选择分词粒度最大的词语作为匹配成功的词语。
全文摘要
本发明提供了一种基于语义的相似度计算方法和装置,其中方法包括获取待比较的句子S1和S2;分别对所述S1和S2进行分词;对所述分词后得到的各词语中存在语义映射的词语映射为归一化的表述;计算经步骤C处理后的S1和S2之间的相似度Sim(S1,S2)。本发明通过将句子中存在语义映射的词语映射到归一化的表述,并将其融入相似度的计算,从而在语义上体现句子之间的相似度而不仅仅是字面上的相似程度,提高了计算句子之间相似度的准确性。
文档编号G06F17/27GK102955772SQ20111023690
公开日2013年3月6日 申请日期2011年8月17日 优先权日2011年8月17日
发明者方高林, 王海峰 申请人:北京百度网讯科技有限公司