一种基于深度边界组合的生物医学命名实体识别方法与流程

文档序号:20687747发布日期:2020-05-08 18:57阅读:233来源:国知局
一种基于深度边界组合的生物医学命名实体识别方法与流程

本发明涉及一种生物医学命名实体识别方法,尤其涉及一种基于深度边界组合的生物医学命名实体识别方法,属于自然语言处理和机器学习技术领域。



背景技术:

当前,能够及时、有效的预防、改变或治疗疾病的生物医学的研究已经得到了许多人的重视,其社会价值和商业价值也愈加突出。其中,许多研究需要大量的投资和较长的研究周期,高效地检索生物医学文献是保障研究进展的重要手段。然而,大量的生物医学知识都是以非结构化文本的形式存储于数据库中。据统计,pubmed中央文献数据库中包含了超过2900多万条文献引用,几乎涵盖了所有的生物医学领域知识。即使只专注于某一个非常专业的研究领域,绝大多数生物学家也很难跟上这个领域的研究进展。因此,从大量文献中准确提取知识变得至关重要。生物医学文本挖掘有望实现这一目标,在某些情况下还可以降低成本,从而提供对所需知识的及时利用以及发现知识之间的显式和隐式关联。

生物医学信息抽取提供了一种面向内容的方法来处理生物医学文献,而不是简单地通过文档相似性对相关生物医学文献进行排名。生物医学命名实体识别(biomedicalnamedentityrecognition,bioner)是生物医学文本挖掘的基本任务之一,旨在识别涉及特定感兴趣实体的文本块,在疾病治疗关系提取,基因功能识别等任务中发挥着关键作用。通常所指的命名实体识别任务是从文本中识别出对应的人名、地名、组织名等,然而,在生物医学领域,生物学家更加关注的是诸如dna、rna、蛋白质等实体。bioner作为生物医学文献处理的第一步,在处理过程中产生的错误会导致级联错误,从而影响后续的任务,如关系识别和事件识别。鉴于bioner所扮演的重要语言及语义角色,其更加有效的识别和分类将对生物医学研究有着重大的理论意义和实用价值。

相比于通用领域的命名实体,生物医学命名实体(biones)主要有以下几个特点:(1)biones有许多前置修饰语,如majorhistocompatibility(mhc)classiigenes(dna),使得实体长度变化大,实体边界难以确定。(2)biones中有许多的连接词或析取词,即两个或两个以上的实体名称使用连接词或析取词共享同一个前缀(后缀)名词。如,句子humantandnaturalkillercells中包含了两个命名实体,humantcell(cell_type)和humannaturalkillercell(cell_type)。(3)实体嵌套现象广泛。如,在实体duffyantigen/chemokinereceptorgene(dna)中,duffyantigen/chemokinereceptor也是一种需要被识别的蛋白质类型。(4)在biones中,存在许多简称实体。这些简称实体还可能存在歧义,不利于使用神经网络模型获取语义信息。如,“tcf”,既可以指代t细胞因子(tcellfactor)也可以指代组织培养液(tissueculturefluid)。这些实体根据现有的字典也是很难识别的,需要根据上下文才能准确地推断出实体类型。(5)在生物医学文献中没有严格的命名规范,同一实体可能存在不同的表示方式。如,cholesterol,5-cholesten-3beta-ol和(3beta)-cholest-5-en-3-ol表示的都是同一种化学物质。已有的许多工作都是将现有的通用领域的命名实体识别方法直接应用于生物医学领域,然而,由于上述的生物医学命名实体的特殊性,很少能达到令人满意的效果,因此生物医学命名实体识别(bio-ner)仍然是一个具有挑战性的课题。为此,本发明拟针对bioner相关方法开展研究。

命名实体识别(ner)任务通常被看作是序列标注问题,将一句话中的每个单词赋予相对应的标签(beginoftheentity(b)、insideoftheentity(i)、outoftheentity(o)),以此表示其语义信息。经过多年的发展,bioner主要经历了三个阶段:基于字典的方法、基于规则的方法、基于机器学习的方法。

基于字典的方法就是将所有已知的命名实体存储在数据库中,使用数据库对文本进行简单、精确(或模糊)的匹配。然而,与生物医学文献的快速增长相比,要建立一个包含所有类别实体的数据库词典是不可能的。基于规则的方法通过人工设计启发式规则匹配命名实体。budi等人使用了语法(如词性)、句法(如词性)和正字法模式(如大小写)组成的规则进行命名实体识别。fukuda等人使用了诸如大小写、符号、数字等组成的规则提取蛋白质。etzioni等人提出了一种半监督框架,将命名实体识别过程划分为三个步骤:模式学习、子类提取、列表提取。利用此框架自动生成新的提取规则,完成命名实体识别任务。然而,这些规则的制定需要耗费大量的人力、物力。基于机器学习的方法具有自动从标注数据中提取决策边界的优点。它被广泛用于解决ner问题。通常情况下,ner都被视为多分类任务或序列标记任务。许多监督算法都被应用于ner,如决策树(dt)、最大熵(me)、支持向量机(svm)、隐马尔可夫(hmm)、条件随机场(crf)。使用基于机器学习的算法,研究人员不必手动编写复杂的规则。此外,这些算法还可以识别标准字典中没有出现过的新命名实体和类别,在ner任务上得到广泛的应用。

近年来,随着神经网络的发展,使得自然语言处理(nlp)任务具有更大的发展潜力,深度神经网络已被应用于各项nlp任务中,且都获得了巨大的成功。与传统的基于人工构造特征的机器学习方法相比,神经网络可以自动从原始输入中提取高阶抽象特征。还具有组织不同层(如卷积层、递归层、池化层和全连接层)实现复杂非线性特征转换的优点。许多神经网络模型都被应用于ner任务,如,卷积神经网络(cnn)、长短时记忆神经网络(lstm)、lstm-cnns、lstm-crf等。在生物医学数据集(jnlpba语料库和biocreativeiigenemention(gm)语料库)中,gridach等人将深度神经网络与crf、词嵌入表示和字符级词表示相结合,在bioner中表现出良好的性能。然而,这些方法几乎无法识别biones中广泛存在的嵌套实体,这对于提升bioner任务的性能造成了极大的阻碍。

相比于平面实体识别的研究,对于含有嵌套结构的命名实体识别的研究是比较少的。最早对嵌套式nes进行研究的是alex等人,他们比较了三种经典的嵌套命名实体识别方法:分层方法、级联方法和联合方法。基于相同的数据集(genia语料库),finkel等人使用更扁平的解析树来识别嵌套的nes。在此模型中,规则用于将实体候选项附加到解析树中。然后,在该树上实现crf模型,输出归一化的标记序列。chen等人使用一个级联框架来识别嵌套的命名实体,该过程可划分为三个步骤:边界检测、边界组合、实体筛选。在该模型中,使用了一个crf模型来检测实体边界。实体候选集合完成后,采用最大熵模型寻找实体正例。lu等人设计了一种提及超图方法来识别嵌套的命名实体。超图是可能的实体的所有概率组合的紧凑表示。基于该表示,使用对数线性方法来标记每个子超图以识别嵌套的ne。由于此模型需要大量手动定义的特征,基于此模型,muis等人提出了一种基于神经网络的超图模型来实现嵌套ne识别。ju等人通过从前一个lstm层的输出中生成一个扁平的ner层来识别嵌套实体。该模型动态堆叠平坦的ner层,直到没有外部实体被提取为止。即使bioner已经得到了广泛的研究,其性能仍然有很大的改进空间。



技术实现要素:

本发明要解决的技术问题是:提供一种基于深度边界组合的生物医学命名实体识别方法,首先,将生物医学文本中存在的不连续性实体建模为嵌套结构,使用神经网络模型,构建边界检测分类器,识别出实体的开始边界和结束边界,然后经过边界组合策略,产生候选实体集。最后,训练一个分类器对候选的命名实体进行筛选,有效的解决了生物医学实体识别性能较差的问题。

本发明的技术方案为:一种基于深度边界组合的生物医学命名实体识别方法,所述方法包括如下步骤:步骤一、将生物医学实体中的不连续性实体建模为嵌套实体结构;步骤二、使用字符级embedding和词级别embedding表示生物医学词汇信息;步骤三、基于步骤二获得的词向量,使用神经网络模型识别生物医学实体边界;步骤四、使用边界组合策略,产生候选实体集;步骤五、构建神经网络分类器,对候选实体集进行筛选。

所述步骤三中,所述神经网络模型为bi-lstm+crf模型。

所述步骤四中,所述边界组合策略是贪婪匹配策略。

所述步骤五中,以候选实体为中心,将句子划分为四部分:实体左边部分、实体正序、实体逆序、实体右边部分,分四个通道传入神经网络中,利用卷积神经网络模型进一步挖掘潜在局部语义信息,后接入全连接层,获取句子全局信息,完成命名实体的识别。

本发明的有益效果是:与现有技术相比,采用本发明的技术方案,本发明针对生物医学命名实体特点,采用基于深度边界组合框架,结合可利用的外部资源,更加准确的表示生物医学词汇,解决生物医学文本中不连续实体识别问题,完成bioner任务。为bioner提供更加有力的理论和技术支撑,进一步地为生物医学领域的研究者提供便捷、高效的实体识别工具,有效的提高了生物医学实体识别的性能。

深度边界组合框架主要有以下几个优点:(1)实体边界的粒度较小,不依赖于任何nlp任务。与nes相比,边界信息是明确的,更容易被识别。(2)该框架灵活性高。该框架是一个级联框架,边界检测、边界组合、实体筛选都可以使用不同的模型。(3)可以有效利用外部资源。训练前的词嵌入可以从大规模的原始数据中获得,这有利于神经网络模型更好地理解语义信息,因此可以利用外部资源提升实验性能。

附图说明

图1为本发明的嵌套实体及不连续性实体示例图;

图2为本发明的规则优化边界检测模型图;

图3为本发明的深度边界组合模型图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将参照本说明书附图对本发明作进一步的详细描述。

实施例1:如附图1~3所示,一种基于深度边界组合的生物医学命名实体识别方法,所述方法包括如下步骤:步骤一、将生物医学实体中的不连续性实体建模为嵌套实体结构;步骤二、使用字符级embedding和词级别embedding表示生物医学词汇信息;步骤三、基于步骤二获得的词向量,使用神经网络模型识别生物医学实体边界;步骤四、使用边界组合策略,产生候选实体集;步骤五、构建神经网络分类器,对候选实体集进行筛选。

在步骤一中,本步骤旨在建模不连续性实体的表示。不连续性实体示例如图1所示。针对生物医学文本中较难表示的不连续性实体,由于识别非连续变量的过程难以建模,因此几乎所有的相关研究都忽略了这一过程。本发明将不连续性实体转换为嵌套结构,如,短句“hel,ku812andk562cells”中,具有三个biones:“helcells”、“ku812cells”和“k562cells”,使用这种表示法,可以将前面的示例转换为三个嵌套的命名实体:“hel、ku812andk562cells”、“ku812andk562cells”、“k562cells”。

在步骤二中,本步骤针对生物医学词汇特点,使用更加准确的词向量来表示生物医学词汇语义、句法信息,有效地进行生物医学文本挖掘任务。本发明将字符级的embedding向量和词级别的embedding向量进行拼接,更好地表示生物医学词汇的语义信息。字符级的embedding向量是再单词的每个字符基础上使用bi-lstm训练生成的,词级别的embedding向量使用的是由斯坦福大学在60亿单词的基础上训练得来的glove向量表示。

步骤三中,所述神经网络模型为bi-lstm+crf模型。通过构建bi-lstm+crf模型,用于识别句中的生物医学实体。根据实体边界特征,寻求泛化、准确和统一的实体边界表示方法,基于神经网络模型,加入具有生物医学领域实体特点的规则,优化实体边界检测性能,使得实体边界信息在原始语料转化为高级特征的过程中得到最大的保留,以实现边界语义信息的高效提取和充分利用。

步骤四中,所述边界组合策略是贪婪匹配策略。在实体边界识别的基础上,实施边界组装策略,将包含多层嵌套结构的实体结构转化为互相独立的扁平化实体结构,准确地表示句中包含的嵌套实体或不连续性实体。根据已进行统一表示的实体边界信息,利用合适的方式进行组合,产生候选实体,以便于找出实体中包含的嵌套实体和不连续性实体。

步骤五中,在边界信息组合的基础上,利用卷积神经、lstm等模型筛选出正确的实体,并采用准确率(p值)、召回率(r值)及f1值作为性能指标。以候选实体为中心,将句子划分为四部分:实体左边部分、实体正序、实体逆序、实体右边部分,分四个通道传入神经网络中,利用卷积神经网络模型进一步挖掘潜在局部语义信息,后接入全连接层,获取句子全局信息,完成命名实体的识别。

下面结合本实施例对本发明作进一步说明:

为实行本发明的方法,首先执行步骤一,将生物医学实体中存在的不连续性实体建模为嵌套结构。针对生物医学文本中较难表示的不连续性实体,由于识别非连续变量的过程难以建模,因此几乎所有的相关研究都忽略了这一过程。本发明将不连续性实体转换为嵌套结构,如,短句“hel,ku812andk562cells”中,具有三个biones:“helcells”、“ku812cells”和“k562cells”,使用这种表示法,可以将前面的示例转换为三个嵌套的命名实体:“hel、ku812andk562cells”、“ku812andk562cells”、“k562cells”。

进一步的,执行步骤二,获取生物医学词汇的语义信息。本发明将字符级的embedding向量和词级别的embedding向量进行拼接,以此表示生物医学词汇。词级别的embedding向量是通过查找表生成的。查找表可以随机初始化,也可以使用预先训练的值进行初始化。在本发明中,使用的是由斯坦福大学在60亿单词的基础上训练得来的glove词向量进行初始化。字符级的embedding向量是由bi-lstm模型训练得来。将单词的每个字母(固定每个单词的长度为20个字母)映射到一个30维的随机向量中,使用bi-lstm模型进行训练,将模型的输出作为该单词的字符级向量表示。最后,将产生的字符级embedding向量和词级别的embedding向量进行拼接,作为该单词最后的词向量表示。

获取生物医学词汇的向量表示后,执行步骤三,构建bi-lstm+crf+规则的模型检测实体边界。模型框架如附图3(边界分类器)所示。其中,本发明使用的边界检测模型是一个经典的bi-lstm+crf结构。将步骤二中获取的生物医学词汇的向量表示传入神经网络模型,后接入全连接层和crf层,输出概率最大的归一化序列。另外,本发明使用了两种方式,将生物医学领域的规则引入边界检测模型中。第一种方式,在上述的模型输出后,使用一系列的规则(如,具有三个及以上连续大写的单词、具有“-”、“/”等连接符号的单词、具有“dna”、“rna”等词缀的单词,等)对可能的实体边界进行筛选。第二种方式,将生物医学领域中一系列的规则映射为一个查找表,通过查找表生成每个词汇的规则向量,并将此规则向量与词向量进行拼接,生成一个维度更大的词向量,并传入模型中,完成实体边界的检测。

进一步的,执行步骤四。使用边界组合策略,产生候选实体集。本发明使用了贪婪匹配策略。将每个结束边界和左端边界之间范围内的前n个(n=1,2,3…)可能的起始边界进行匹配。通过此策略,找出句中存在的可能的平面实体、嵌套实体和不连续性实体(以建模为嵌套结构),产生候选的实体集。

进一步的,执行步骤五,使用神经网络模型,构建一个实体分类器,筛选候选实体集中的正确实体,过滤错误实体。此过程可以使用的模型有很多,如,卷积神经网络(cnn)、长短时记忆神经网络(rnn)、条件随机场(crf)、最大熵(svm)等,本发明采用的是卷积神经网络(cnn)模型。这一步骤的输入是包含标记了候选实体的句子,每个候选实体都有一个标签标明是否为正确的实体。因此,输入可以表示为集合:

其中,代表的是在句子sk的第i个位置至第k位置组成的候选实体,它的标签是lk。简单的说,此步骤可以描述为,输入一个句子,其中包含一个被标记的候选实体,需要训练一个分类器,区分当前实体是否为正确实体。本发明具体做法如下:将一个句子以实体为界限,划分为四个通道:实体左边部分、实体正序、实体逆序、实体右边部分。每个通道的长度固定为80。每个通道由一个神经网络处理,该神经网络由一个embedding层、一个卷积层和一个最大池化层组成。在embedding层使用bert模型,将每个通道映射为768维的词向量。后接入卷积层和最大池化层,获取代表高阶抽象特征的向量,并传入全连接层,最后经过softmax激活函数,输入代表各自类别的one-hot向量。

最后,本发明在真实数据集genia数据集上验证其有效性。genia数据库是genia项目为开发和评估分子生物学信息检索和文本挖掘系统而建立的。数据集来自于生物医学文献,其中包含pubmed基于三个医学主题术语:人、血细胞和转录因子,共2000篇medline摘要。该数据集包含36个细粒度实体类别。总共有94584实体。其中,包含嵌套和不连续性实体的比例为35.27%。表1展示的是使用深度边界组合方法识别genia数据集中的实体性能。layering方法是分别计算最内层和最外层的性能,将两次识别的结果记性对比,可以识别两层嵌套实体,但同样无法捕捉到不同类别提供的语义信息。cascading方法是基于lstm序列模型每次识别一个类别的实体,分别构建10个相互独立的模型,在10次识别结果之上综合得出上述性能,很显然这种方法无法考虑不同类别之间的联系,在一定程度上也无法识别多层嵌套实体;

表1:genia数据集上各类实体性能

为了将本发明与相关工作进行对比,我们将实验设置与lu等人相同,表2是本发明与相关工作的实验对比。

表2:实验性能对比

由表1和表2可知,本发明有效的建模了不连续性实体表示,能够准确地识别生物医学文献中存在的不连续性实体。此外,本发明能够克服传统序列标记方法的缺点,更加高效地识别嵌套实体,综上,本发明提出的基于深度边界组合的生物医学命名实体识别方法具有优良的性能。

深度边界组合框架主要有以下几个优点:(1)实体边界的粒度较小,不依赖于任何nlp任务。与nes相比,边界信息是明确的,更容易被识别。(2)该框架灵活性高。该框架是一个级联框架,边界检测、边界组合、实体筛选都可以使用不同的模型。(3)可以有效利用外部资源。训练前的词嵌入可以从大规模的原始数据中获得,这有利于神经网络模型更好地理解语义信息,因此可以利用外部资源提升实验性能。

本发明未详述之处,均为本技术领域技术人员的公知技术。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1