包含松散结构的汉语多词表达敏感特征的抽取方法与流程

文档序号:13642738阅读:162来源:国知局

本发明涉及计算机领域,特别是涉及一种包含松散结构的汉语多词表达敏感特征的抽取方法。



背景技术:

多词表达抽取过程中使用的特征对抽取结果有重大影响,汉语多词表达类型比较繁多,不同类型多词表达的敏感特征也不尽相同。

由于汉语语言现象比较复杂,汉语多词表达短语结构繁多(如表1所示),本项目研究最重要和典型的多词表达类型。

表1:本项目拟抽取的紧凑结构和松散结构多词表达类型

所谓“敏感特征”是指对语块识别起到决定性作用的特征。在大量的特征中,有可能只有几个特征对多词表达的抽取起到决定性的作用,而其它特征是多余的,这些多余的特征不仅占据内存空间,而且还影响查询的效率。所以特征数量多并不一定会取得好的效果,关键是该特征是否是敏感特征,因此,敏感特征的选择是影响高效多词表达抽取的关键问题。紧凑结构的多词抽取过程中,需要关联性、共现信息、可替代性、分布相似性等统计特征,在大量的特征中找出对抽取效果有重要影响的敏感特征需要设计适宜的算法并进行大量的计算。

紧凑结构和松散结构的多词表达在结构上和语义上都存在很大差别,它们的敏感特征也会存在差异。 松散结构的多词表达抽取比紧凑结构的要难,主要是因为松散结构中存在很多不确定和灵活的因素。

现有算法中,具有代表性的距离-权重最近邻算法(Sriram Venkatapathy等 2005)。[Sriram Venkatapathy等]指出:在使用的多种特征中,可能只有几种特征对识别某种类型的多词表达有效,而其他不相关特征不仅对抽取正确率的提升没有作用,还会增加计算的复杂度和降低效率,为了避免这种情况的发生,他采用了给每种特征加上权重信息的方法,当识别不同类型的多词表达时根据不同特征对要抽取的多词表达类型的作用灵活调整特征的权重信息。带有权重信息的距离函数如下:

其中d(xi,xj)是两个矢量xi 和 xj的距离,Zr是第r个特征的权重,ar(xi)是第r个特征的值。

以上算法存在一个问题,那就是即使某一个属性在抽取某一多词表达没有作用(权重为0),也要计算该特征的值,这样势必造成计算效率的下降和复杂性的增加。



技术实现要素:

本发明主要解决的技术问题是提供一种包含松散结构的汉语多词表达敏感特征的抽取方法,能够采用统计信息和人工总结的词表、规则、模版以及语义特征相结合的多种特征结合的策略,并将对紧凑结构和松散结构多词表达的敏感特征分别研究,进而得到适合不同结构的敏感特征集,提高计算效率和降低复杂性。

为解决上述技术问题,本发明采用的一个技术方案是:提供一种包含松散结构的汉语多词表达敏感特征的抽取方法,其步骤如下:

1)、紧凑结构多词表达的敏感特征集,只要某个特征能提升该多词表达抽取的结果,就认为它是该多词表达的特征集,特征集用Φ(gi)表示;

2)、松散结构多词表达的敏感特征集,将采用统计信息和人工总结的词表、规则、模版以及语义特征相结合的多种特征作为松散结构的特征集,特征集用Φs(gi)表示;

3)、敏感特征选择算法,敏感特征选择是从所有特征中选择出一组最有效、对分类效果影响最大的特征子集。

优选的是,所述步骤1)中的紧凑结构的Φ(gi)共包含9种特征,分别是:共现频率(fi)、互信息(MIi)、最大似然值(LHi)、可替代性(Subi)、χ2函数(pxi)、分布相似性(dfi)、是否作为动词出现(asvi)、组成多词表达的词性串(ps)和多词表达的边界概率(pb)。

优选的是,所述步骤2)中松散结构多词表达的敏感特征集将采用统计信息和人工总结的词表、规则、模版以及语义特征相结合的多种特征作为松散结构的特征集,松散结构多词表达的敏感特征集增加了一个子特征集Φs(gi),它包含以下6种特征:动词词表(vpd)、方位词词表(loation)、处所词词表(place)、规则(rules)、模版(model)和语义(sema),松散结构的多词表达的总特征集Φtotal=Φ(gi)+Φs(gi)。

优选的是,所述步骤3)中敏感特征选择算法,收集被分词程序错分的分词结果,并提取其特征包括词性、上下文信息等,把这部分错分的分词结果作为多词表达的候选,通过代价函数计算错分代价,并把该值加入多词表达敏感特征选择的考量中;为减少所选特征的个数, 提高所选特征子集的有效性,采用后向添加特征逐个添加方法筛选特征。。

本发明的有益效果是:本发明包含松散结构的汉语多词表达敏感特征的抽取方法,能够采用统计信息和人工总结的词表、规则、模版以及语义特征相结合的多种特征结合的策略,并将对紧凑结构和松散结构多词表达的敏感特征分别研究,进而得到适合不同结构的敏感特征集,提高计算效率和降低复杂性。

具体实施方式

下面对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。

本发明实施例包括:

一种包含松散结构的汉语多词表达敏感特征的抽取方法,其步骤如下:

(1)紧凑结构多词表达的敏感特征集

研究者们对紧凑结构已经进行了较充分的研究,本项目综合前人研究中使用的紧凑结构特征来确定紧凑结构的敏感特征集,然后再从这个特征集中选出对紧凑结构抽取敏感的特征。特征集用Φ(gi)表示。当前词性已经默认为是多词表达敏感特征,本项目中紧凑结构的Φ(gi)共包含9种特征,分别是:共现频率(fi)、互信息(MIi)、最大似然值(LHi)、可替代性(Subi)、χ2函数(pxi)、分布相似性(dfi)、是否作为动词出现(asvi)、组成多词表达的词性串(ps)和多词表达的边界概率(pb)。即Φ(gi)={fi,MIi,LHi,subi,pxi,dfi,asvi,ps,pb}。一般情况下,使用较多的特征会取得较好的效果,所以本文敏感特征选择宗旨是:只要某个特征能提升该多词表达抽取的结果,就认为它是该多词表达的敏感特征。

(2)松散结构多词表达的敏感特征集

松散结构比较灵活,而且松散结构的动词短语中,是和某些固定的动词(如,看、洗,睡等)有关,如:

●动宾结构:洗了个澡,洗不洗澡、洗过澡、洗洗澡、洗了两次澡、见了几次面

●述补结构:动趋式(动+趋势):进来,出去,下来

动结式(动+结果):看见、听懂、看准

●述补式复合词:看得很准,看不准,进得来,进不来

介宾结构的松散结构与处所词和方位词都有关联。如:为人民服务,从北京出发,跟他去,来自新加坡。涉及的处所词和方位词如下:

●处所词:在……,到……去;方位词:在……上等。

●单纯方位词:上、下、前、后、左、右、里、外、东、南、西、北

●合成方位词:在单纯方位词前加上“之”,“以”,后者在后面加上“面”,“边”,“头”, “方”,“部”等,或者,单纯方位词对举,就构成复合方位词,如“以上”,“之前”,“里面”。“外边”,“后头”,“前面”。“西部”,“左右”,“内外”。

通过以上分析我们发现,单纯使用和紧凑结构相同的统计信息对抽取松散结构的多词表达是不够的,它还需要像“看、洗、睡”等这些动词和处所词以及方位词的词表。对一些有固定组成的松散结构(如“睡了一觉”)还需要总结一些规则和模版(如“睡+了+数词+名词宾语”),另外,还将通过查询语义知识库(Hownet)获取语义信息来辅助松散结构的多词表达抽取。因此,本项目将采用统计信息和人工总结的词表、规则、模版以及语义特征相结合的多种特征作为松散结构的特征集。故而,我们在包含紧凑结构特征集Φ(gi)外,另外增加了一个子特征集Φs(gi),它包含以下6种特征:动词词表(vpd)、方位词词表(loation)、处所词词表(place)、规则(rules)、模版(model)和语义(sema)。这样,抽取松散结构的多词表达的总特征集Φtotal=Φ(gi)+Φs(gi)。

(3)敏感特征选择算法

特征选择是从所有特征中选择出一组最有效、对分类效果影响最大的特征子集。在多词表达抽取过程中,我们发现很多的多词表达在分词过程中都被错分,如果把这些错分的部分作为多词表达的候选,并分析它们错分的代价和周围的特征,将对多词表达的特征选择和抽取提供有益的借鉴。为此,本项目提出基于代价反馈的后向添加特征的敏感特征选择方法,其基本思想是:收集被分词程序错分的分词结果,并提取其特征(包括词性、上下文信息等),把这部分错分的分词结果作为多词表达的候选,通过代价函数计算错分代价,并把该值加入多词表达敏感特征选择的考量中。为减少所选特征的个数, 提高所选特征子集的有效性,采用后向添加特征(逐个添加)方法筛选特征。本项目中,紧凑结构和松散结构敏感特征的抽取算法一致,只是使用的特征集不同而已。

假设包含N个特征,F={F1,F2,…,Fn},验证集包含n个训练样本,其对应的期望输出为T=[t1,t2,…,tn],其中ti∈{-1,1}(i=1,2,3,…,n)。设由第i个特征所学的分类器为Gi,fi表示分类器Gi的实际输出,fi=[fi1,fi2,…,fin],其中, fij∈{-1,1}(i-1,2,…N,j=1,2,…n)表示在第j个样本上的实际输出。显然,若第i个分类器在第j个样本上的输出是正确的,则有fijtj=1,否则fijtj=-1。假设第j个样本错分的代价为Cj,则第i个分类器在整个样本集上的错分代价为

其中Error(x)定义为:

定义

假设Ω为选择所得特征的下标集合,定义,向量Sum={sum1,sum2,…,sumn}T,其中sumj代表所选特征所对应的学习器在第j个样本上的实际输出之和,即,则在第第j个样本上的集成输出为,其中。如果在j个样本上的实际集成输出与期望输出一致,则,如果不一致,则,如果无法判别,则,即在第j个样本上各个特征所设计的分类器结果上出现了平局。因此,在整个验证样本集上的错分代价为。假设在选择的特征子集中加入第k个特征,这时的泛化误差就变成

其中,。显然要求特征子集加入第k个特征后推广误差要小于原来的推广误差, 即要求, 以保证得到更小的泛化误差

由Error(x)和Sgn(x)的定义,可得如下性质:

其中,x∈{-1,0,1},y∈{-1,1}。则相应地,选择的特征子集中加入特征Fk所要满足的约束条件(7)可简化为:

当|sumi|>1时,在选择的特征子集中添加第k个特征不会影响第i个样本上的输出, 因此式(8)修改为:

通过分析可以看出, 通过代价敏感分析可得到特征的优化。为了控制特征的个数,获得最小的错分代价,我们引入错分代价阈值θ。

通过前期半指导学习算法构建一定规模的汉语多词表达标注语料的前提下,对汉语紧凑结构(复合名词和习语)和松散结构(动词短语和介宾结构)多词表达类型进行分析,以事先确定不同类型多词表达敏感特征,在识别不同类型的多词表达时只使用对它敏感的特征,减少无关特征的计算,提高效率和准确率。在抽取多词表达过程中需要动态选择各自的敏感特征。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1