一种结合MiniRBT、BiGRU-ATT和GlobalPointer的法律实体识别方法

文档序号:36090130发布日期:2023-11-18 08:33阅读:66来源:国知局
一种结合

本发明属于法律实体识别,具体地说是一种结合minirbt、bigru-att和globalpointer的法律实体识别方法。


背景技术:

1、命名实体识别又称作“专名识别”,是自然语言处理中的一项基础任务,应用非常广泛,命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、机构名、日期时间、专有名词等,近些年,随着社会法律制度的完善,实体识别在法律中的应用变得越来越广泛;

2、现有的命名实体识别方法主要有基于规则和词典的方法、基于统计机器学习的方法和基于深度学习的方法,下面分别对三种方法的研究现状进行介绍:

3、(1)基于规则和词典的方法:早期的命名实体识别方法主要是先由领域知识专家预先定义和归纳出规则模板和词典,然后利用规则和词典与文本字符串进行匹配,识别出实体名称并进行归类,质量越好的规则模板和词典,在目标文本上匹配的程度也更高,但同时也需要耗费更多的人力物力。collins等人提出了dl-cotrain算法,在种子规则集合基础上进行无监督训练对现有规则进行扩充,并将最终的规则集合用于命名实体分类。grishman等人开发了基于规则和词典的命名实体识别系统,内置了包括国家名称、城市名称和公司名称等专业词典;基于规则和词典的方法在数据量较少的情况下可以有很高的精确率和召回率,但是随着数据规模的扩大,人工总结各类规则模板和词典的成本越来越大,并且可移植性较差,一旦出现了新的实体特征,就需要对规则模板和词典进行更新,这些瓶颈问题的存在导致其逐渐被淘汰;

4、(2)基于统计机器学习的方法:随着21世纪初机器学习在自然语言处理领域的兴起,对命名实体识别的研究逐渐转向了统计学和机器学习相结合的方法;这种方法一方面借助机器学习模型来进行特征提取和分类,能够更有效的处理大规模复杂语料,并得到更为精确的识别效果,另一方面不再需要人工构建规则,大大减少了人工成本;此类方法主要通过在完全标注或部分标注的语料数据集上进行模型训练,常见模型包括隐马尔可夫模型(hidden markov models,hmm),最大熵模型(maximum entropy,me),决策树(decisiontrees,dt)模型,支持向量机(support vector machines,svm)模型以及条件随机场(conditional random fields,crf)模型;bikel等人首次将隐马尔可夫模型引入到命名实体识别任务中,用于名称、日期、时间、数值等实体的识别和分类;zhou等人在马尔可夫模型基础上,引入大量的内部语义特征和外部上下文特征,分别在muc-6和muc-7数据集上取得了96.6%和94.1%的f1值;isozaki等人基于支持向量机设计了一个命名实体识别工具,用于在文档中提取人物、组织和日期等专有名词和数字信息;hu等人使用条件随机场作为中文命名实体识别模型,比较了字符级和词语级两种不同级别模型在人名、地名和组织实体上的性能表现;zhang等人在条件随机场基础上结合多个局部特征和全局特征模板来提高命名实体识别的鲁棒性和准确性,在《人民日报》语料库中也取得了不错的效果。在基于统计机器学习的方法被提出后,研究学者开始尝试将其与规则相结合用于命名实体识别;向晓雯等人采用隐马尔可夫模型对文本进行词性标注,然后通过制定的规则对标注结果进行修正和转换;lin等人提出了最大熵模型结合词典和规则的生物医学命名实体识别方法,先使用最大熵模型进行实体识别,再根据构建的规则和词典对识别错误的实体进行纠正,有效提高的实体识别的准确性。基于统计机器学习的方法在命名实体识别领域取得了很大突破,但是这类方法依赖于复杂的特征工程,仍然需要大量的人工和时间成本;

5、(3)基于深度学习的方法:近年来,随着神经网络的快速发展,深度学习方法被广泛应用于图像识别、语音识别和自然语言处理等领域,基于深度学习的命名实体识别方法也逐渐成为了相关研究学者的研究重点;这种方法直接通过深度神经网络从输入文本中自动学习句子特征,实现了端到端的命名实体识别,节省了词典和特征构建的人力成本;深度神经网络在命名实体识别模型中主要用作特征编码,结合输入序列的上下文信息,对词向量进行进一步编码,并在神经网络输出端加入条件随机场作为标签解码器进行序列标注;lample等人在命名实体识别任务中创新性地提出了双向长短期记忆神经网络(bidirectional long short–term memory,bilstm)结合条件随机场的模型方案,采用bilstm获取丰富的上下文特征信息,对于后续很多模型的改进都很有启发性;chiu等人在长短期记忆神经网络前加入卷积神经网络获取字符级特征,在conll-2003数据集上的取得了91.26%的f1值;luo等人基于注意力机制改进了bilstm-crf模型,在biocreativeiv数据集上取得了91.14%的f1值。除了对作为编码器的神经网络进行改进外,众多研究学者的另一个重要研究方向就是丰富输入到编码器中的特征表示;santos等人通过使用卷积神经网络对英文字符进行编码,并结合词向量和字符向量应用到了英文命名实体识别任务中,有效提升了实体识别的效果;dong等人在bilstm-crf模型基础上,融合字符和字形级别特征进行模型训练,同样提高了模型识别效果;cao等人提出一种新的中文词嵌入方法,将笔画级别的信息融入到词向量表示中,更有利于捕获输入文本的语义和形态特征;zhang等人提出了栅格化长短期记忆神经网络模型(lattice lstm),在以字符嵌入的基础上显式地利用了词和词序之间的关系,同时避免了由分词错误而导致的误差传递问题;

6、因此,目前的法律实体识别方法的词向量的表征能力较差,无法代替了bert,roberta等大的预训练模型;同时保留法律文本中长距离词之间的语义关联的效果较差,进而影响法律实体识别的效果。

7、为此,本领域技术人员提出了一种结合minirbt、bigru-att和globalpointer的法律实体识别方法来解决背景技术提出的问题。


技术实现思路

1、为了解决上述技术问题,本发明提供一种结合minirbt、bigru-att和globalpointer的法律实体识别方法,以解决现有技术中存在的问题。

2、一种结合minirbt、bigru-att和globalpointer的法律实体识别方法,包括以下步骤:

3、s1、首先选择法律文本数据集,然后对所选的法律文本数据集进行标注;

4、s2、接着对已经标注好的法律文本数据进行特征提取,利用minirbt预训练语言模型对法律文本进行句子层面的特征表示,得到法律文本特征;

5、s3、然后将minirbt层输出的专利文本特征作为bigru-att层的输入,分别传给前向gru层和后向gru层,然后再经过多个gru隐藏单元的训练以及一个多头自注意力机制层,最终得到两个文本向量表示,分别记作和

6、s4、将两个文本向量在第一个维度进行叠加,得到向量fg,fg的维度为2h,h为隐藏单元个数,然后通过全连接层对fg进行两次全连接,其中第一次全连接的输出维度为h,第二次全连接的输出维度为n,n表示标签的个数;

7、s5、将经过双向gru训练得出的特征向量作为attention层的输入,对特征向量进行加权操作后,获得特征向量h=[h1,h2,…,hn-1,hn];

8、s6、对attention层的输出结果进行全局指针打分,得到token-pair解决三元组重叠的问题,其中全局指针的打分函数的计算公式为qi,l=wq,lhi+bq,l、ki,l=wk,lhi+bk,l、

9、优选的,所述的s1中标注是司法文本数据集,其中标注的实体类型分别为犯罪嫌疑人(nhcs)、受害人(nhvi)、被盗货币(ncsm)、物品价值(ncgv)、盗窃获利(ncsp)、被盗物品(nasi)、作案工具(nats)、时间(nt)、地点(ns)、组织机构(no)。

10、优选的,所述的s2中的minibrt是基于minirbt模型的一种轻量级预训练语言模型,采用了6层transformer的基本结构,基于hfl自主设计研发的只是蒸馏工具textbrewer进行训练,融合了全词掩码和两段式知识蒸馏等核心技术,实现了在中文roberta的十分之一的参数量下达到约七倍的极速比,以进一步满足预训练模型在实际任务中的应用。

11、优选的,所述的s3中的gru是lstm的一个变体,并在lstm的基础之上进行了简化,只由zt和rt两个门控单元组成,其中,zt表示更新门,用于控制前一时刻的状态信息被带入到当前状态中的程度,zt的值越大说明前一时刻的状态信息带入越多;rt表示重置门,用于控制忽略前一时刻的状态信息的程度,rt的值越小说明忽略的越多。

12、与现有技术相比,本发明具有如下有益效果:

13、本方法使用minirbt预训练的动态词向量不仅代替传统的word2vec等方式训练的静态词向量,提升了词向量的表征能力,还代替了bert,roberta等大的预训练模型,在尽可能保留性能的同时,大幅度缩小了自身体积;并使用bigru神经网络模型进行训练,最大程度保留了法律文本中长距离词之间的语义关联,提升了法律实体识别的效果,并在多项评价指标中有着较好的表现。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1