一种专利文献领域术语抽取方法与流程

文档序号:15462419发布日期:2018-09-18 18:29阅读:214来源:国知局

本发明属于术语抽取技术领域,具体涉及一种专利文献领域术语抽取方法。



背景技术:

专利是具有新颖性、创造性和实用性并且受到法律保护的发明创造,属于 知识产权的一种。专利是科技信息有效的载体,是保护科研成果的最佳方式之 一。随着社会发展和科技进步,人们对科研成果的保护意识逐渐加强,专利申 请的数量也逐年上升,这也为专利审查带来了挑战。专利审查的关键一步是相 关领域文献的有效检索,而从申请专利中提取有效的领域术语作为检索关键词 是进行有效检索的前提。专利领域术语自动抽取的研究受到越来越多学者的重 视。同时,抽取专利文献中的领域术语是文本分词、依存句法分析、语法分析 等工作的前提,对领域本体构建、知识图谱构造以及潜在语义分析等工作有着 重要作用。

目前,国内外学者对领域术语的抽取做了大量的工作以期望能够从大量文 本信息中自动获取有效的术语。所采用的方法主要包括基于规则的方法、基于 统计的方法以及规则与统计两者相结合的方法。

基于规则的方法主要是根据领域术语的构词特点、句法特点以及领域特点 建立特征模板,然后从语料中抽取与模板相匹配的词语。利用规则的方法实现 简单,抽取术语准确率较高,但该方法对规则制定和模板质量要求较高,不能 涵盖特定领域的所有语言现象,导致召回率不高。

基于统计的方法主要包括数理统计上统计量的计算和机器学习的方法。基 于统计量的方法不依赖于特定的领域,具有通用性,但各种统计量的计算,包 括词频、互信息、信息熵等需要大规模语料库的支撑,对语料的质量也有较高 的要求。基于机器学习的方法主要是在已标注的大规模语料上训练模型,然后 通过训练的模型对未标注的语料进行预测,将术语抽取问题转为序列标注问题 或者分类问题。基于机器学习的方法可移植性较强,能够取得较高的准确率和 召回率,学习的效果一方面依赖于大规模语料的标注,另一方面依赖于特征的 选择与提取。

规则与统计相结合的方法主要有两方面应用,一方面利用机器学习强大的 学习预测能力可以召回更多候选的领域术语,然后利用规则以及统计量的计算 可以过滤掉明显的非术语,提高准确率;另一方面是运用语言学规则匹配出候 选术语,然后利用机器学习算法将术语筛选转为概率预测问题。

目前,大多数研究把术语抽取任务转化为序列标注任务,而条件随机场作 为典型的序列标注判别模型在术语抽取、命名实体识别等自然语言处理任务中 得到了广泛的应用。现有技术利用条件随机场模型对专利文献中的术语进行抽 取存在的缺陷有:条件随机场模型特征的选取与计算建立在分词的基础上,分 词错误会对选取的特征带来干扰,使得部分术语因分词原因识别错误,规则的 制定需要领域专家的参与,且人工标注耗时耗力,不利于在大规模语料上进行 术语抽取,导致准确率、召回率和F值较低,不能很好地满足实际应用的需要。



技术实现要素:

针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现 上述技术缺陷的专利文献领域术语抽取方法。

为了实现上述发明目的,本发明提供的技术方案如下:

一种专利文献领域术语抽取方法,包括:术语标注、字序列标注、语料划 分和CRFs模型训练及预测。

进一步地,所述专利文献领域术语抽取方法包括:专利文本预处理、术语 标注、字序列标注、语料划分和CRFs模型训练及预测。

进一步地,专利文本预处理的步骤包括:将PDF文本转为纯文本,并去除 图片以及转换过程中产生的乱码。

进一步地,所述术语标注的步骤具体为:根据手工构建的领域术语表自动 标注语料中相同的词语,然后采用人工校对的方式修改在上下文语境中与新能 源汽车领域不相关词语的标注。

进一步地,采用CRFs模型进行字序列标注:对标注术语后的语料进行以 字为单位的序列标注,同时处理成CRFs模型所要求的格式。

进一步地,将语料按照六词位的方式进行标注。

进一步地,所述语料划分的步骤为:将语料按照比例划分为训练语料和测 试语料。

进一步地,将语料按照4∶1的比例划分为训练语料和测试语料。

进一步地,CRFs序列标注形式化描述如下:

给定观察序列(输入序列),O={o1,o2,o3,…,ot},状态序列(输出序列), S={s1,s2,s3,…,st},每个状态均与一个标记相关联。在给定观察序列O的条件 下,求解状态序列S出现概率的计算如式(1)所示:

其中,fk为二值特征函数,由CRFs模型的特征模板生成;λk为模型需要通 过训练数据求解的对应fk的参数;Z(O)为全局归一化因子,如式(2)所示:

该模型的参数估计采用L-BFGS算法求解,得到CRFs模型后可通过Viterbi算 法求出给定观察序列最可能的状态序列,即求条件概率P(S/O)最大时对应的状 态序列。

进一步地,CRFs模型特征是原子特征,即字特征,采用的特征模板包含一 元特征和二元特征,构建的特征模板集如下所示:

本发明提供的专利文献领域术语抽取方法,利用条件随机场模型对专利文 献中的术语进行抽取,采用字序列标注的方法,建立字级层面的特征来抽取术 语,减少了分词对特征提取带来的噪音干扰,同时,基于构建的领域核心词典 自动标注训练语料和测试语料中的术语,减少了人工标注的成本,在不同词位 类别标注下训练的模型的抽取效果好,准确率、召回率和F值较高,可以很好 地满足实际应用的需要。

附图说明

图1为实施例1的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具 体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以 解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保 护的范围。

实施例1

利用本发明提供的一种专利文献领域术语抽取方法,对新能源汽车领域的 415篇专利文献进行专利文献领域术语抽取,如图1所示,包括以下步骤:

步骤1)对专利文本进行预处理,将PDF文本转为纯文本,并去除图片以 及转换过程中产生的乱码等内容;

步骤2)术语标注:根据手工构建的领域术语表自动标注语料中相同的词 语,然后采用人工校对的方式修改在上下文语境中与新能源汽车领域不相关词 语的标注;

步骤3)采用CRFs模型进行字序列标注:对标注术语后的语料进行以字 为单位的序列标注(例如可以将语料按照三词位、四词位或六词位的方式标注), 同时处理成CRFs模型所要求的格式;

步骤4)语料划分:将语料按照4∶1的比例划分为训练语料和测试语料;

经统计发现,训练语料中有术语2415个,重复术语118517个,共1773755 字;测试语料中有术语1074个,重复术语22795个,共355429字;

步骤5)模型训练及预测:采用CRFs模型(利用工具CRF++0.58)进行 模型训练以及预测。

条件随机场模型(Conditional Random Fields,CRFs)是一种基于概率图的统 计模型。CRFs无须满足隐马尔科夫模型所要求的独立性假设条件,并且采用 全局归一化的方法,也解决了最大熵马尔科夫模型存在的标记偏置问题。CRFs 可以根据构造的特征利用丰富的上下文信息来解决分词、关键词标引、术语抽 取等一系列序列标注问题。

采用CRFs模型将术语抽取任务转为序列标注问题。CRFs序列标注形式化 描述如下:

给定观察序列(输入序列),O={o1,o2,o3,…,Ot},状态序列(输出序列), S={s1,s2,s3,…,st},每个状态均与一个标记相关联。在给定观察序列O的条 件下,求解状态序列S出现概率的计算如式(1)所示:

其中,fk为二值特征函数,由CRFs模型的特征模板生成;λk为模型需 要通过训练数据求解的对应fk的参数;Z(O)为全局归一化因子,如式(2)所 示:

该模型的参数估计一般采用L-BFGS算法求解。得到CRFs模型后可通过Viterbi 算法求出给定观察序列最可能的状态序列,即求条件概率P(S/O)最大时对应的 状态序列。

术语是指在某个专业领域代表特定概念的词或者词组,具有领域性特征。 例如,新能源汽车领域专利术语有如下几个特点:

(1)术语具有很强的领域性和专业性,即术语包含的某些词或字在其他领域 很少出现甚至不出现,还有一些常见通用词不会出现在术语中。例如“异步 电动机”、“轮毂电机”等词一般只会出现在汽车领域中,其他领域很少涉及 到。

(2)领域术语具有规范性。由于专利文献是规范化文本,用词要求严谨,专 利中的术语很少会在该领域产生歧义。

(3)领域术语组成多样,有两个字的“电机”,也有多字的“混合动力传动系 统”、“电机驱动系统控制器”等等;且存在中英文混合组成现象,如“DC/DC 变换器”、“D2T式制动器”等。

(4)领域术语存在术语嵌套现象,如术语“质子交换膜燃料电池”,其中“质 子交换膜”和“燃料电池”本身可作为两个单独术语存在。

专利是一种结构层次分明的规范化文本。专利术语通常会在标题、摘要、 权利要求、说明书中重复出现,且在一些突出专利技术的词中一般会出现术语, 比如“涉及”、“一种”等。

在步骤3)中,采用CRFs模型实现序列标注任务时,特征的选择是关键 的一步。选取有效的特征集能够减少噪声干扰,提高术语抽取模型的性能。通 常选取的特征有词本身、词性、词长、左右信息熵、TF_IDF、互信息、领域词 典位置等等,这些统计特征的选取一般都是基于分词和词性标注的前提下进行 的。特征选择的数量并非越多越好,一般是利用术语抽取的结果来筛选最优的 特征组合。

随着专利申请数量的逐渐增加,专利新生词也会不断出现,相关的领域术 语会不断丰富,已有的领域词表很难适应分词词典的需要;并且领域术语中长 术语居多,与普通词汇差距大,一般的分词工具很难实现对专业领域语料的准 确分词,这些都为术语中的词语正确切分带来了挑战。由于分词的影响,导致 某些统计特征的计算也存在误差。鉴于以上原因以及结合领域术语的特点,在 本发明中采用基于字级特征的CRFs术语抽取方法,把术语抽取过程看作对每 个字的词位标注过程。

为探讨不同词位标注集对抽取效果的影响,分别采用三词位、四词位和六 词位标注集对字进行标注,各词位标注集定义如表1所示。在确定了每个字的 词位标注后即可识别得到相应的术语,例如:“一种制备燃料电池催化剂方法” 基于六词位可以标注为“一/O 种/O 制/O 备/O 燃/B 料/S 电/T 池/I 催/I 化/I 剂/E 方/O 法/O”,从中可以识别得到的术语为“燃料电池催化剂”。经过对比发现, 在4字以上较长术语抽取效果方面,基于六词位字标注的模型优于三词位和四 词位字标注,原因是长术语中嵌套术语的情况较多,比如“位移传感器”、“感 应电动机”、“电机冷却散热器”等内部嵌套术语的词在六词位标注中能够被有 效识别,而另外两种词位标注由于缺乏更加丰富的词位表示信息,导致嵌套术 语抽取性能下降,不能完整地识别出整个长术语。因此在采用CRFs模型进行 字序列标注时,优选将语料按照六词位的方式标注。

表1 三类词位标注集定义

特征模板是根据所选取的特征构建的,CRFs模型会根据模板生成特征函 数。模板反映了文本中上下文特定位置的信息,模板的质量影响着实验的结果。 因此,模板的选取与模型特征组合的选取一样需要大量实验确定。特征模板文 件中的每一行代表一个template。每一个template中,专门的宏%x[row,col]用 于确定输入数据中的一个token。row用于确定与当前的token的相对行数,col 用于确定绝对行数。常用的特征模板有两种类型,第一种是一元特征模板 (Unigram template),该特征模板只使用当前token的特征;第二种是二元特征 模板(Bigram template),使用该模板系统会自动产生当前token与前一个token 的组合,能够提高术语识别性能。

本发明采用的CRFs模型特征主要是原子特征,即字特征,采用的特征模 板包含一元特征和二元特征,构建的特征模板集如表2所示:

表2 特征模板及含义

一般采用准确率(P)、召回率(R)以及F值作为术语抽取方法的评价指 标(术语数包含重复个数),计算公式如下:

采用CRFs模型,选取词本身、词长、词性、依存句法分析关系、术语在 词典中的位置以及是否为停用词等多个特征抽取专利术语。

基于字特征标注的CRFs模型相比于词特征能够获取更为丰富的上下文特 征,并且能够改善分词、词性标注等错误对特征提取带来的噪声干扰。

本发明提供的专利文献领域术语抽取方法,利用条件随机场模型(即CRFs 模型)对专利文献中的术语进行抽取,采用字序列标注的方法,建立字级层面 的特征来抽取术语,减少了分词对特征提取带来的噪音干扰,同时,基于构建 的领域核心词典自动标注训练语料和测试语料中的术语,减少了人工标注的成 本,在不同词位类别标注下训练的模型的抽取效果好,准确率、召回率和F值 较高,可以很好地满足实际应用的需要。

以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但 并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的 普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改 进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权 利要求为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1