一种基于细粒度依存关系的中文长句相似度计算方法
【专利摘要】本发明公开了一种基于细粒度依存关系的中文长句相似度计算方法,基于依存关系对,将两个句子的依存关系对集合进行计算,选取使关系对相似度之和最大的对应关系,在对应关系的基础上,求出各关系对相似度之和的平均值,作为两个句子的句法结构相似度。本发明比较了依存关系中两个词汇的本身概念、词性、关系类别等五个特征量,衡量了句子的句法结构相似关系;实验结果已经凸显出语义分析在句子相似度计算中的优势;较之现有技术的相似度计算,在正确率上有一定的提高,考虑了在非中心词周围体现出的关键信息,而现有技术主要考虑依存句法树中的根节点?谓语中心词及其直接支配部分两层;该方法是一种以时间换正确率的方法。
【专利说明】
一种基于细粒度依存关系的中文长句相似度计算方法
技术领域
[0001] 本发明属于自然语言处理技术领域,尤其涉及一种基于细粒度依存关系的中文长 句相似度计算方法。
【背景技术】
[0002] 中文信息处理研究中,句子相似度计算是一个重要部分,在自动文摘、机器翻译、 信息检索、自动问答系统等方面有着广泛的应用。目前,句子相似度计算的研究大体可分为 基于词语的相似度、基于词义的相似度、基于句法结构的相似度、基于编辑距离、基于动态 规划的相似度等几种。这几种方法可以归纳为两类:一是不需要或仅需要浅层的语法结构 关系,二是需要深层的语法结构与语义分析。而在基于实例的机器翻译和语料库主题自动 分类中,语句相似度的衡量机制与对语句的分析深度是密切相关的。因此,结合语义的依存 分析为句子相似度计算提供了有力支持。依存句法是由法国语言学家L.Tesniere在其1959 年的著作《结构句法基础》中提出,对语言学的发展产生了深远的影响,特别是在计算语言 学界备受推崇。依存句法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张 动词中心论,即认为句子中的动词支配其他成分,而自身却不受其他任何成分的支配,所有 受支配成分都以某种依存关系从属于支配者。依存句法分析的常用方法有基于规则的、基 于统计的、规则与统计相结合的、基于树库等几种。目前针对汉语研究的树库主要有宾夕法 尼亚大学U-Penn树库、中国台北中研院Sinica树库、清华大学汉语句法树库、哈尔滨工业大 学依存树库等。依存句法在自然语言处理领域有着广泛的应用。胡宝顺等基于句法依存分 析计算语料的路径相似度,实现中文问答系统的答案提取。李欢等运用依存关系树比对来 检测文本中多语义约束的方法,通过定义部分依存关系树(PDT)核函数计算两个对象之间 的相似度。王步康等基于中文依存关系树,采用有效的剪枝算法和特征,使用最大熵分类器 实现了中文语义角色的识别和分类。古凌岚等利用语义角色标注和依存语法分析思想,研 究了中文本体学习中的非分类关系的抽取方法。大多数基于依存语法的研究及应用均考虑 其形式简洁、易于标注、便于应用等优点。由于依存句法可以描述句子的语法结构信息,从 而准确地刻画一个句子所表达的意思,因此用于句子相似度计算有较高的准确率。穗志方 等提出的骨架依存树仅限两层,用于基于实例的机器翻译中语句相似度的计算,降低了计 算复杂度。李彬等通过计算有效搭配对之间的相似度来降低计算复杂度。但是,这些方法用 于中文长难句的相似度计算时,可能会遗失一些重要的语义结构。
[0003] 综合目前基于依存句法的句子相似度方法发现均未对依存关系结构本身进行度 量,而是采用粗粒度的依存关系,有的甚至没有标注具体的依存关系。
【发明内容】
[0004] 本发明的目的在于提供一种基于细粒度依存关系的中文长句相似度计算方法,旨 在解决目前基于依存句法的句子相似度方法未充分考虑依存关系内部各元素的角色重要 程度,而仅仅将依存关系作为整体进行标注的问题。
[0005] 本发明是这样实现的,一种基于细粒度依存关系的中文长句相似度计算方法,所 述基于细粒度依存关系的中文长句相似度计算方法基于依存关系对,将两个句子的依存关 系对集合进行匹配,选取使关系对相似度之和最大的对应关系,在对应关系的基础上,求出 各关系对相似度之和的平均值,作为两个句子的句法结构相似度。该方案的目的是全面充 分考虑句子依存句法中的语义信息,不会因为选择有效搭配而丢失部分信息。
[0006] 进一步,所述基于细粒度依存关系的中文长句相似度计算方法比较了依存关系中 两个词汇的本身概念、词性、关系类别等五个特征量,综合衡量了句子的句法结构相似关 系。该方案的目的是全面充分依存关系内部各元素的在关系中扮演的角色及其重要性,最 大程度实现基于语义的相似度计算。
[0007] 进一步,所述基于细粒度依存关系的中文长句相似度计算方法通过计算两个依存 句法树的相似度,实现中文长句的相似度计算。该方案将整个句子的组成成分均列入相似 度计算的范围,最大程度保留句子的完整语义信息。
[0008] 进一步,所述依存关系对的结构相容度的获取方法包括:
[0009] 依存关系对〈1^,1?2>,分别对比仏((:1,厶 1,01,〇?1,厶?1)和1?2((: 2>,02,〇?2,厶?2)中的五 个特征量,相容取1,不相容取〇;
[0010]然后,按权重顺序从高位到低位排列这五个〇或1,得到一个二进制数(bbbbb)2,该 值的取值范围为0-31,其中0对应RjPR2完全不相等的情况,31对应RjPR2完全相等的情况; 在该二进制数的基础上,定义Ri和R 2的结构相容度如下:
[0011]
[0012 ]例如,假设在两个五元组 Ri (d,Ai,Di,CPi,APi)和 R2 (C2,A2,D2,CP2,AP2)中,&与&相 容,A^A2不相容,D^D2相容,CP^CP2相容,AP^AP 2不相容,则依照各特征权重顺序排列 得出二进制数为(10110) 2,则RdPR2的结构相容度为:
[0013]
[0014] 进一步,所述依存关系对的相似度计算方法包括:
[0015]依存关系对〈1^,1?2>中的元素存在语义相容,通过计算〈1^,1? 2>相对应的核心词和 支配词的语义相似度,度量依存关系对的语义相似度,采用基于知网的计算方法计算词的 语义相似度,并赋予不同的权值α和β,得到R4PR 2的语义相似度如下:
[0016] Ss(Ri,R2) = aSw(Ci, C2) +PSw(Αι, A2);
[0017] 式中,SdCi%)表示〈Rhfc〉中对应核心词的语义相似度表示对应支配 词的语义相似度,α>β且α+β = 1。
[0018] 进一步,基于5:揭為) = ^^χ100% = ||χ100% = 70.97%和式 +阳乂心,A2),得到依存关系对的相似度计算方法如下:
[0019] Ri|R2 = Sim(Ri,R2) = Sc(Ri,R2) · Ss(Ri,R2)。
[0020] 进一步,所述依存关系对集合相似度计算方法包括:
[0021] 存在依存关系对集合△=(&1,&^)和依存关系对集合8=(131,1^夂),不失一般 性,A中依存关系对的数目小于等于B,即n<m;对于每一个aie A,1 ,都可以找到若干 个b j e B,1 < j 与之对应,不同的ai对应不同b j,则集合A与集合B的对应关系总数如下:
[0022]
[0023] 集合A与B存在确定的对应关系,在,对于给定的ai都有一个 bj与之匹配,记作匕=Ω k(ai);则定义Ω k的相似度为:
[0024]
[0025] 两个依存关系对集合A与B的相似度取Ω k中的最大值,gp :
[0026]
[0027]
[0028] 本发明提供的基于细粒度依存关系的中文长句相似度计算方法,在充分保留句子 的组成成分前提下,聚焦于词汇的语义信息进行相似度计算,深入依存关系内部,充分考虑 各元素的角色及其重要性,避免丢失语义信息。基于依存关系对,将两个句子的依存关系对 集合进行匹配,选取使关系对相似度之和最大的对应关系;在该对应关系的基础上,求出各 关系对相似度之和的平均值,作为两个句子的句法结构相似度。本发明的算法比较了依存 关系中两个词汇的本身概念、词性、关系类别等五个特征量,综合衡量了句子的句法结构相 似关系。实验结果已经凸显出语义分析在句子相似度计算中的优势,而本发明算法较之现 有技术的基于语义的相似度计算,在正确率上有一定的提高,考虑了非中心词周围体现的 关键信息,而现有技术主要考虑依存句法树中的根节点-谓语中心词及其直接支配部分两 层。本发明是一种以时间换正确率的方法。
【附图说明】
[0029] 图1是本发明实施例提供的基于细粒度依存关系的中文长句相似度计算方法流程 图。
[0030] 图2是本发明实施例提供的句子依存关系对比示例示意图。
【具体实施方式】
[0031] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明 进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于 限定本发明。
[0032] 下面结合附图对本发明的应用原理作详细的描述。
[0033] 如图1所示,本发明实施例的基于细粒度依存关系的中文长句相似度计算方法包 括以下步骤:
[0034] S101:基于依存关系对,将两个句子的依存关系对集合进行匹配,选取使关系对相 似度之和最大的对应关系;
[0035] S102:在该对应关系的基础上,求出各关系对相似度之和的平均值,作为两个句子 的句法结构相似度。
[0036]下面结合具体实施例对本发明的应用原理作进一步的描述。
[0037] 1依存句法树相似度计算
[0038]定义1.定义依存关系以(:,4,0^?,4?)为一个五元组,其中(:为核心词4为依存词, D为依存关系的类型,CP为C的词性,AP为A的词性。R五元组中的各元素为特征量,其特征权 重各不相同。
[0039]由依存句法理论得知,依存句法树中一个节点(词)只能有一个支配节点(词),但 是可以有多个从属节点(词),所以在R中C的重要性要大于A。另外,一个词可有多种词性,而 每种词性包含许多词,所以词语本身的重要性大于词性。最后,两个特定词的依赖关系D既 与词本身有关,又与词性有关,所以D的重要性介于词本身与词性之间。由此依存关系R中各 特征权重顺序为:C>A>D>CP>AP。
[0040] 1.1依存关系对的结构相容度
[0041 ] 假设存在一个依存关系对〈Ri,R2>,分别对比心(Ci,Ai,Di,CPi,APi)和R2 (C2,A2,D2, CP2,AP2)中的五个特征量,相容取1(相容是指词性和语义类别上是兼容的,如ns与n相容, "动物"和"生物"是相容的),不相容取0。然后,按权重顺序从高位到低位排列这五个0或1, 得到一个二进制数(bbbbb) 2,该值的取值范围为0-31,其中0对应RjPR2完全不相等的情况, 31对应心和此完全相等的情况。在该二进制数的基础上,定义RjPR 2的结构相容度如下:
[0042]
[0043 ]例如,假设在两个五元组心(d,A!,D!,CP!,AP!)和R2 (C2,A2,D2,CP2,AP2)中,若&与C 2 相容,A^A2不相容,D^D2相容,CP^CP2相容,AP^AP 2不相容,则依照各特征权重顺序排 列得出二进制数为(1 〇 11 〇) 2,则RdPR2的结构相容度为:
[0044]
[0045] 1.2依存关系对的相似度
[0046]由于依存关系对〈Ri,R2>中的元素存在语义相容,则通过计算〈Ri,R2>相对应的核 心词和支配词的语义相似度,可以度量依存关系对的语义相似度。采用基于知网的计算方 法计算词的语义相似度,并赋予不同的权值α和β,得到RdPR 2的语义相似度如下:
[0047] Ss (Ri, R2) = a Sw (Ci, C2) +PSw (Ai, A2) (2)
[0048] 式⑵中,SW(&,C2)表示中对应核心词的语义相似度,Sw(Ai,A 2)表示对应支 配词的语义相似度,α>β且α+β=1。由于基于知网的词汇相似度计算中考虑了词性,因此对〈 Ri,R2>中的相容词性的度量不再计算。
[0049] 基于式(1)和式(2),得到依存关系对的相似度计算方法如下:
[0050] Ri|R2 = Sim(Ri,R2) = Sc(Ri,R2) · Ss(Ri,R2) (3)
[0051] 1.3关系对集合相似度计算
[0052] 假设存在依存关系对集合厶=(&1,&^)和依存关系对集合8=(13 1,1^_1^),不失 一般性,设A中依存关系对的数目小于等于B,即n<m。
[0053] 为了计算A与B的相似度,需要确定A中各依存关系对和B中各依存关系对的对应关 系。对于每一个ai e A,1彡i彡η,都可以找到若干个bj e B,1 < j彡m与之对应,假设不同的ai 对应不同bj,则集合A与集合B的对应关系总数如下:
[0054]
[0055] 定义2.若集合A与B存在确定的对应关系% ,在Ω k中,对于给定的ai 都有一个匕与之匹配,记作匕=Ω k(ai)。则定义Ω k的相似度为:
[0056]
[0057] 宙々3.西个依存关系对隼合A与R的相似庶取Ω k中的#女值,即:
[0058]
[0059] 式⑶中,
[0060] 为说明算法的计算过程,现以短句"安阳是甲骨文的故乡"和"安阳是中国八大古 都之一"为例分析,采用哈工大社会计算与信息检索研究中心的语言技术平台(Language Technology Platform,LTP)为工具,得到两句的依存关系如图2所示。
[00611图1对应的依存关系对如表1所示,其中忽略了由Root出发的HED关系。"ail bj(^j 可相等)"表示依存关系&1与匕的相似度,根据公式(3)计算,其中计算SU^Rs)时α和β按经 验取值为0 = 0.65,0 = 0.35,并取&#」的最大值作为5(1?1,1?2)最优值。
[0062]表1句子关系对集合
[0063]
[0064] 由此,利用公式(3)进行依存句法树的相似度计算如下:
[0065] &
[0066] 下面结合实验对本发明的应用效果作详细的说明。
[0067] 1实验及分析
[0068]从搜狗新闻语料中随机选择50个句子作为标准句子集,这些句子来自体育、政治、 环境、交通、教育、艺术等10个类别,每个类别5个句子,这些句子均是长句,平均词长为16.8 (即分词后的词语数量有16.8个)。另外选择1000个句子作为噪声集。对50个标准句子,逐一 选择某句作为参考句,计算该参考句与其它句子的相似度,并按数值递减顺序排列,取相似 度最高的前4个句子,若这些句子所属类别与参考句的类别一致,则认为相似度计算是正确 的。表2显示了几种句子相似度计算方法的正确率统计结果。
[0069]表2句子相似度计算正确率
[0070]
[0071]
[0072] 从实验结果可以看出,中文长句相似度算法正确率普遍不高,尤其是在开放测试 时,原因如下:
[0073] 1)实验过程中的分词采用的是LTP平台的分词算法,相似度计算与分词算法正确 率紧密相关;
[0074] 2)长句在句法分析上难度较大,容易出现歧义及分析错误;
[0075] 3)算法效果直接依赖于LTP平台的句法分析正确率;
[0076] 4)实验句子直接取自搜狗语料,存在部分病句或省略句,如"1999年日本计算机病 毒发病数是有纪录以来次数最多的一个。"
[0077] 5)相似度正确率的判断以句子类别为准,部分句子类别并不正确或并不唯一,如 "艺术人才的培养,是关乎艺术事业能否发展的大事。"在搜狗语料中的类别为教育类,而该 句归为艺术类也是合理的。
[0078] 6)基于知网进行词语语义相关度计算时,有一些词汇在知网中并未收录,导致计 算结果为〇。
[0079]实验结果已经凸显出语义分析在句子相似度计算中的优势,本发明在正确率上有 一定的提高,主要原因是有一些关键信息是在非中心词周围体现,本发明由于充分考虑了 句子成分的语义联系,增加了计算复杂度,但是获得了更高的正确率,因此是一种以时间换 正确率的方法。
[0080]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种基于细粒度依存关系的中文长句相似度计算方法,其特征在于,所述基于细粒 度依存关系的中文长句相似度计算方法基于依存关系对,将两个句子的依存关系对集合进 行匹配,选取使关系对相似度之和最大的对应关系,在对应关系的基础上,求出各关系对相 似度之和的平均值,作为两个句子的句法结构相似度。2. 如权利要求1所述的基于细粒度依存关系的中文长句相似度计算方法,其特征在于, 所述基于细粒度依存关系的中文长句相似度计算方法比较了依存关系中两个词汇本身的 概念、词性、关系类别五个特征量,综合衡量了句子的句法结构相似关系。3. 如权利要求1所述的基于细粒度依存关系的中文长句相似度计算方法,其特征在于, 所述基于细粒度依存关系的中文长句相似度计算方法对关注词语本身概念和词性、词间的 依存关系W及重要程度进行了度量;通过计算两个依存句法树的相似度,实现中文长句的 相似度计算。4. 如权利要求1所述的基于细粒度依存关系的中文长句相似度计算方法,其特征在于, 所述依存关系对的结构相容度的获取方法包括: 依存关系对 <Ri,R2〉,分别对比 Ri (。,Ai,Di,CPi,APi)和 R2 (C2,A2,,CP2,AP2)中的五个特 征量,相容取1,不相容取0; 然后,按权重顺序从高位到低位排列运五个0或1,得到一个二进制数(b化化)2,该值的 取值范围为0-31,其中0对应化和R2完全不相等的情况,31对应Ri和R2完全相等的情况;在该 二进制数的基础上,定义Ri和化的结构相容度如下:假设在两个五元组 Ri (Cl,Ai,Di,CPi,APi)和 R2 (C2,A2,〇2,CP2,AP2)中,Cl 与 C2 相容,Ai 与 A2 不相容,Di与化相容,CPi与CP2相容,APi与AP2不相容,则依照各特征权重顺序排列得出二进 制数为(10110) 2,贝化1和化的结构相容度为:5. 如权利要求1所述的基于细粒度依存关系的中文长句相似度计算方法,其特征在于, 所述依存关系对的相似度计算方法包括: 依存关系对<Ri,R2>中的元素存在语义相容,通过计算<Ri,R2>相对应的核屯、词和支配词 的语义相似度,度量依存关系对的语义相似度,采用基于知网的计算方法计算词的语义相 似度,并赋予不同的权值α和0,得到Ri和化的语义相似度如下: Ss(Ri,R2)=aSw(Ci,C2)+0Sw(Ai,A2); 式中,Sw(Cl,C2)表示<Ri,R2>中对应核屯、词的语义相似度,Sw(Ai,A2)表示对应支配词的 语义相似度,α〉0且0+0=1。6. 如权利要求4或5所述的基于细粒度依存关系的中文长句相似度计算方法,其特征在 于,基于阳式 Ss(Ri,R2)=aSw(Ci,C2)+eSw(Ai,A2), 得到依存关系对的相似度计算方法如下: Ri|R2 = Sim(化,R2)=Sc(Ri,R2) · Ss(Ri,I?2)。7. 如权利要求1所述的基于细粒度依存关系的中文长句相似度计算方法,其特征在于, 所述依存关系对集合相似度计算方法包括: 存在依存关系对集合A=(al,a2…an)和依存关系对集合B=(bl,b2…bm),不失一般性,A 中依存关系对的数目小于等于B,即n《m;对于每一个aieA,l《i《n,找到若干个b声B,l《 与之对应,不同的a拥应不同bj,贝蝶合A与集合B的对应关系总数如下:集合A与B存在确定的对应关系A>在Qk中,对于给定的ai都有一个bj与 之匹配,记作bj = Ω k(ai);则走义Ω k的相似度为:两个依存关系对集合A与B的相似度取Ω k中的最大值,即:
【文档编号】G06F17/27GK105975458SQ201610287388
【公开日】2016年9月28日
【申请日】2016年5月3日
【发明人】熊晶, 郭涛, 翟雪, 孙华, 王继鹏, 高峰, 袁冬
【申请人】安阳师范学院