本发明属于数据处理,具体为一种基于中医词典的交叉融合命名实体识别方法。
背景技术:
1、随着互联网技术的发展和普及,电子文本等可用信息资源得到了极大的丰富。人们迫切需要从海量非结构文本中获取有用的信息,命名实体作为一个明确的概念和研究对象,是目标文本中基本的信息元素,是正确理解目标文本的基础。中文命名实体识别是关系提取、句法分析、情感识别、智能问答等文本应用领域的重要基础工具,在自然语言处理技术中占有重要地位。
2、目前大多数的命名实体识别任务是基于字符特征的神经网络模型bilstm-crf,其原理是把句子拆分为字符,根据word2vec等训练模型在语料库中训练每个字符的向量,获得词嵌入作为bi-lstm模型的输入,通过神经网络获得隐含特征,最后通过crf来实现序列的标注。基于词语特征的神经网络模型与基于字符嵌入的模型类似,都是基于bilstm-crf结构,主要区别在于词嵌入层是把句子拆分为词语,基于语料库训练每个词语的向量获得词嵌入作为bi-lstm模型的输入,通过神经网络获得隐含特征,最后通过crf来实现序列的标注。这些模型都采用单一网络结构,虽然能够完成命名实体识别任务,但是受模型网络结构单一影响,命名实体识别仍然存在准确度低的问题。
技术实现思路
1、本发明的目的在于:提供一种基于中医词典的交叉融合命名实体识别方法,以提升命名实体识别准确度和鲁棒性。
2、为实现上述目的,本发明采用如下技术方案:
3、一种基于中医词典的交叉融合命名实体识别方法,包括以下步骤:
4、步骤1、将给出的文档作为数据集,把数据集划分为数据子集,数据子集划分为初始训练集和待识别数据集;每个初始训练集和待识别数据集均被拆分成n个句子,再将每个句子拆分成字符序列和词汇序列;
5、步骤2.用初始训练集构建字符级模型、词级模型和中医词典模型;字符级模型的输入为初始训练集中的字符序列,输出为与每个字符对应的实体临时标签预测结果;词级模型的输入为词汇序列,输出为与每个词汇对应的实体临时标签预测结果;中医词典模型的输入为句子与预设的中医领域的标准化专有术语词典,输出为两者的匹配结果;
6、步骤3、将字符级模型和词级模型作为基本模型,结合中医词典构建融合模型;融合模型包括第一融合模型和第二融合模型,其中第一融合模型由词级模型与中医词典融合而成,第二融合模型由字符级模型与中医词典融合而成;
7、步骤4、用待识别数据对字符级模型、词级模型、中医词典模型、第一融合模型、第二融合模型进行多轮训练,得到标注后的待识别数据集;在多轮训练中,将字符级模型与第一融合模型看成一组,词级模型对应第二融合模型看成第二组,两组交替与中医词典模型组合训练。
8、步骤5、利用标注后的待识别数据,采用标注融合策略生成最终预测序列。
9、进一步的,所述标注融合策略生成最终预测序列的方法为:
10、若一个实体同时被基本模型、中医词典模型和融合模型标注,则将该实体保留在最终的预测序列中;
11、若两个模型均标注同一个实体,另一个模型预测另一个不同的实体,且两个实体并不冲突,则保留两个预测的实体;若两个实体冲突,则保留同时被两个模型标注的实体;
12、若三个模型分别标注三个不同实体:三个实体之间不存在冲突,则保留三个实体;三个实体中有两个实体冲突,保留不冲突的实体,对冲突的另外两个实体按优选级从高到低保留其中一个实体;若三个实体相互存在冲突,按优选级从高到低保留一个实体;实体保留的优先级顺序同上;优先级从高到低为:融合模型、中医词典模型、基本模型。
13、进一步的,所述中医词典模型采用了动态滑动窗口,对句子与预设的中医领域的标准化专有术语词典进行匹配处理;所述动态滑动窗口是指窗口长度动态改变,窗口长度初始长度为1,从1增加至外部词典中最大词汇长度;匹配时,滑动窗口头部,从句子的第一个字符开始,每次移动一个字符大小,直到窗口尾部达到语句末尾为止;每次移动窗口就匹配当前窗口在词典中出现的词汇;最后把所有的词汇收集为当前语句的集合。
14、进一步的,所述预设的中医领域的标准化专有术语词典包括《中医病证分类与代码》、《中医临床诊疗术语》,根据需求选择。
15、本发明提供的一种基于中医词典的交叉融合命名实体识别方法,通过构建字符级模型、词级模型、中医词典模型、融合模型,利用上述模型完成命名实体识别任务。其中融合模型是在原有字符级模型和词级模型的基础上,引入中医领域的标准化专有术语词典,并基于该术语词典衍生的两个包含外部词汇的融合模型,通融合模型的引入丰富了模型多样性。将字符级模型与第一融合模型看成一组,词级模型与对应第二融合模型看成第二组,在多轮训练时,两组模型交替与中医词典模型组合训练,完善标注结果;并融合所有标注结果来获取最终预测序列,完成命名实体识别。
16、与现有技术相比,本发明在融合模型与融合所有模型标注结果的协同下,提升了识别准确度和鲁棒性。
1.一种基于中医词典的交叉融合命名实体识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于中医词典的交叉融合命名实体识别方法,其特征在于,所述标注融合策略生成最终预测序列的方法为:
3.根据权利要求1所述的一种基于中医词典的交叉融合命名实体识别方法,其特征在于,所述中医词典模型采用了动态滑动窗口,对句子与预设的中医领域的标准化专有术语词典进行匹配处理;所述动态滑动窗口是指窗口长度动态改变,窗口长度初始长度为1,从1增加至外部词典中最大词汇长度;匹配时,滑动窗口头部,从句子的第一个字符开始,每次移动一个字符大小,直到窗口尾部达到语句末尾为止;每次移动窗口就匹配当前窗口在词典中出现的词汇;最后把所有的词汇收集为当前语句的集合。
4.根据权利要求1~3任一项所述的一种基于中医词典的交叉融合命名实体识别方法,其特征在于,所述预设的中医领域的标准化专有术语词典包括《中医病证分类与代码》、《中医临床诊疗术语》,根据需求选择。