基于互联网的术语定义辨析方法
【专利摘要】基于互联网的术语定义辨析方法,涉及自然语言处理领域。本发明主要解决一个术语多条定义,且定义规范性、准确性欠佳的问题。提出的技术方案要点包括:待辨析术语定义和参考释义获取、术语定义表示和相似度计算、术语定义模板获取、术语定义可信度计算和辨析结果选取。构建的参考释义兼顾术语定义准确性和专业性的特点,应用术语定义的五元组表示方法进行术语定义相似度计算,考虑了术语定义特征词之间的相似度和定义间语义相似度,更好地描绘了术语定义间的相似性;通过归纳术语定义的匹配模板以调整术语定义间相似度,使术语定义可信度更准确。本发明取得了很好的辨析效果,能够解决术语定义不规范、不准确的问题。
【专利说明】基于互联网的术语定义辨析方法
【技术领域】
[0001] 本发明属于自然语言处理领域,具体地说,是涉及一种基于互联网的术语定义辨 析方法。
【背景技术】
[0002] 随着Web2. 0的蓬勃发展,数据呈爆炸式增长趋势,一个术语具有多条定义的情况 越来越多,术语定义不正规性、不准确性的问题越来越突出,为此对术语定义进行抽取和辨 析显得非常紧迫。
[0003] 术语定义辨析是指对术语的多个定义进行比较,从中选取最能描述术语所指称概 念的定义的过程,它可以为术语定义抽取提供更准确的结果。目前还没有人将术语定义辨 析作为一个独立的研究点提出来专门研究。在术语抽取方法,主要有以下方法:通过人工归 纳术语定义的模板,利用术语定义模板获取候选术语定义,再针对候选术语定义使用统计 学的方法作进一步划分提高准确率,或者用排序的方法选出得分较高的句子作为给定术语 的定义。使用的匹配模板主要分为两类:硬匹配模板和柔性模板,这两类模板主要用于从 语料库中获取候选定义,但是术语定义有的含有明确的模板,有的则没有,这种方法获取候 选定义会导致召回率偏低。在使用的统计学方法中,包括了大多数已知的分类方法:K-临 近法、朴素贝叶斯法、支持向量机方法等。单纯使用统计的方法准确率很低,而综合了机器 学习和模板匹配的方法准确率能得到一定提高,但仍然不高。例如,在针对斯拉夫语的实验 中,单纯使用机器学习方法而不使用规则模式的时候,准确率最低只有不到9% (正例:反 例为1:1),而综合了规则模板和多分类器的方法也仅达到20%的准确率。
[0004] 本发明借鉴基于统计和模板匹配的术语定义抽取方法,术语定义辨析不等同于术 语定义抽取,术语定义抽取是从大规模语料中抽取解析术语概念的句子,而术语定义辨析 则是从术语的多条待辨析定义中选取最好定义,因此术语定义抽取应用模板匹配抽取候选 术语定义的方法不能完全适用于术语定义辨析;对抽取的候选定义进行排序的思想可以借 鉴到术语定义辨析,即对待辨析术语定义按照一定的策略进行排序。本发明借鉴术语定义 抽取的思想,结合待辨析术语定义的特点,提出从百度百科和百度搜索构建参考释义想法, 总结术语定义模板,设计参考释义和候选定义相似度计算方法,实现术语定义辨析,为术语 定义辨析提供了一个有效的途径。
【发明内容】
[0005] 本发明的目的是提供一种基于互联网的术语定义辨析方法,为术语定义辨析提供 一种有效的方法,为了达到上述目的,本发明的方法包含的步骤如下: 步骤A :待辨析术语定义获取 对于给定术语,若术语存在多条候选定义,则将该术语的所有候选定义作为待辨析定 义。中国知网概念知识元库中存有大量的术语及其定义,这些术语和定义主要来源于学术 期刊文献和工具书等,具有一定的权威性和参考意义。但是当查询某个术语定义时,检索出 的单个术语定义往往会存在准确率低、断章取义的现象。为此,本发明选取中国知网概念知 识元库中术语及定义作为辨析的对象。
[0006] 步骤B :基于互联网的参考释义获取 参考释义是指最能反映术语所指称概念的释义。互联网是个丰富的资源宝库,它蕴含 着大量的信息。而其中以搜索引擎所能获取的知识最为实时、丰富、便捷,以百科知识库所 涵盖的知识最为准确、全面,为此采用如下方式获取参考释义: 若百度百科中有该术语的定义,则取百度百科中的百度名片或百度百科简介等概述性 文本,作为该术语的参考释义文本;若其在百度百科中没有定义,则选取其在百度搜索引擎 中,该术语搜索结果的前η条摘要作为该术语的参考释义文本。
[0007] 步骤C :术语定义的表示 术语定义由描述该术语所指称概念的若干个句子(本发明中的句子指以中文标 点符号分割形成的短句),按照一定的顺序组成,其中每个句子中词与词之间通过一 定的关系联系在一起,且每个词都有固定的词性。由此,每个术语定义可以表示成:
【权利要求】
1. 一种基于互联网的术语定义辨析方法,其特征在于,包括步骤: A待辨析术语定义获取; B基于互联网的参考释义获取; C术语定义的表示; D术语定义相似度计算; E术语定义模板获取; F术语定义可信度计算和辨析结果选择。
2. 根据权利要求1所述的基于互联网的术语定义辨析方法,其特征在于,所述的术语 参考释义是指最能反映术语所指称概念的释义。
3. 根据权利要求1和权利要求2所述的基于互联网的术语定义辨析方法,其特征在于, 从互联网上获取参考释义: 获取术语在百度百科和百度搜索的前N条摘要信息作为构建术语参考释义的文本: 若百度百科中有该术语的定义,则取百度百科中的百度名片或百度百科简介等概述性文 本,作为该术语的参考释义文本;若其在百度百科中没有定义,则选取其在百度搜索引擎 中,该术语搜索结果的前N条摘要作为该术语的参考释义文本。
4. 根据权利要求1所述的基于互联网的术语定义辨析方法,其特征在于,术语定义的 特征: 术语定义由描述该术语所指称概念的若干个句子(本发明中的句子指以中文标点符号 分割形成的短句),按照一定的顺序组成,其中每个句子中词与词之间通过一定的关系联系 在一起,且每个词都有固定的词性。
5. 根据权利要求1和权利要求4所述的基于互联网的术语定义辨析方法,其特征在于, 根据术语定义的特征对术语定义进行表示: 每个术语定义可以表示成:,n为该定义中所含句子总数, 表示每条术语定义的第i个句子;术语定义文本中第i个句子
又可表示成一个五元组
,其中:
,为表征句子&意义的特征词集合,A为特征词总数;
,表不状态的集合,句子^中每个词的词性为一个状态,#表不词性的 总数;
,表示句子h中依存关系集合,如定中关系、并列关系、同位关系等,r 为句子中依存关系总数;
,表示特征词与词性之间的对应关系集合;
,表示特征词与特征词之间 的依存关系映射集合。
6. 根据权利要求1和权利要求5所述基于互联网的术语定义辨析方法,其特征在于,术 语定义相似度由特征词的相似度、特征词间关系的相似度和术语定义中句子出现的顺序来 反应,其计算方法为:
其中:
为基于特征权重的余弦相似度,
为术语定义间的基于句序的语义相似度。
7. 根据权利要求1和权利要求6所述的基于互联网的术语定义辨析方法,其特征在于, 术语定义间基于句序的语义相似度通过句子间相似度来计算,句子间相似度由句子的词形 相似度和语义相似度表征,句子间相似度计算方法:
其中,α"/? = 1,
为句子间的词形相似度大小
为句子间的 语义相似度大小。
8. 根据权利要求1和权利要求7所述的基于互联网的术语定义辨析方法,其特征在于, 句子间词形相似度计算方法为:
其中,表示句子\中特征词的个数;表示句子\和&含有相同特征词的个数。
9. 根据权利要求1和权利要求7所述的基于互联网的术语定义辨析方法,其特征在于, 句子间语义相似度只考虑两句子间有效搭配对之间的相似程度,其中有效搭配对是句子的 R2集合中的句子核心词和直接依存于其且词性为动词、名词、形容词、代词的搭配对;计算 方法为:
其中,
为句3
含有的有效搭配对数;
为句1
含有的有效搭配对数
『.为 句子\中有效搭配对匹配的总权重;搭配对匹配的权重定义如下: 假设有两个搭配对a
10. 若
或
,则搭配对a、b的匹配 权重为1 ;若
?
或
且
,匹配对的权重为 ο ;其余情况匹配对权重为0. 5 ;其中:表示两个特征词相同
表示两个特征词 不相同。
11. 根据权利要求1和权利要求6所述的基于互联网的术语定义辨析方法,其特征在 于,术语定J
|之间相似度的特征矩阵
3句子间 相似度构成,可形式化表示为:
其中
为术语定义中第i个出现的句子
为术语定义
中第J 个出现的句子;气>++&表示句子与句子间的相似度,即·
12. 根据权利要求1、权利要求6和权利要求10所述的基于互联网的术语定义辨析方 法,其特征在于,术语定义基于句序的语义相似度 : 句序是指在一段文本中,句子出现的先后顺序;从术语定义相似度矩阵Λ:中,选取矩 阵孕:的一行中的最大值Sma^,并将该值所在的行列删除;继续选取余下矩阵的第二行最 大值Smax:,并将该值所在的行列删除,以此类推,直至矩阵中元素个数为零;得到新的最 大值矩阵:
;则术语定义del和ref之间的的基于句序的语 义相似度为
13. 据权利要求1所述的基于互联网的术语定义辨析方法,其特征在于,人工归纳术语 定义模板,采用巴克斯范式表示为: 模板1::=[所谓]〈term>[,](是|即|就是|主要是指|是指) 模板2::=[我们把](称为|称之为|叫做|就是|即|定义为|叫|是)〈term〉 模板3::=〈仏1'!11>[主要](包含|包括))|((的一类)|(的一种)) 模板4: : =〈term > [又|也](称为|叫做) 据权利要求1所述的基于互联网的术语定义辨析方法,其特征在于,术语定义可信度 通过与参考释义的相似度和是否符合定义模板来衡量,其计算方法:
其中
为术语的第i个待辨析定义与其参考释义之间的相似度;
为调节 因子:
;选取可信度最大的值对应的定义为术语的最好定义。
【文档编号】G06F17/30GK104216880SQ201310206190
【公开日】2014年12月17日 申请日期:2013年5月29日 优先权日:2013年5月29日
【发明者】吕学强, 吴瑞红 申请人:北京信息科技大学