中文舰船实体识别方法与流程

文档序号:37033609发布日期:2024-02-20 20:25阅读:13来源:国知局
中文舰船实体识别方法与流程

本发明涉及自然语言处理领域,具体涉及一种中文舰船实体识别方法。


背景技术:

1、为了构建舰船领域知识图谱,首先需要识别舰船领域相关实体,舰船领域实体存在大量的嵌套实体和缩写形式。例如,某国家的人名命名规则为姓·名,则该国家的航空母舰可以采用该国领导人的名字而命名,即为“姓·名号航空母舰”,这类舰船名称中存在嵌套人名,此外,上述舰船通常也可以被简称为“名号航空母舰”或“姓·名号”,目前的分词模型适用于通用领域,在舰船领域,遇到如上述情况时,分词准确性不高,容易引起由于分词错误导致的误差传播进而引起实体识别精确度降低。此外,由于中文的拼音特征和结构特征蕴含了丰富的实体信息,例如,拼音jian chuan一般和舰船实体相关联,且舰船两个字均有舟字边。

2、中文舰船领域,既有上述舰船领域分词困难的特点,也有中文的字符和词汇特点,因此,目前针对中文舰船缺乏一种通用且识别准确率高的实体识别算法。


技术实现思路

1、本发明的目的是提供一种融合拼音特征和结构特征的中文中文舰船实体识别方法,可准确地识别舰船实体,避免了分词模型带来的分词错误导致的识别精确度下降,且利用了中文的词汇、拼音和结构特点,有效的提高了中文舰船实体识别的精确率,召回率和f1值(f1=2*正确率*召回率/(正确率+召回率))。

2、为实现上述目的,本发明实施例提出一种中文舰船实体识别方法,包括:

3、s1,根据原始输入文本构建词汇和二元词汇作为输入词汇信息;

4、s2,将所述输入词汇信息输入预训练层,得到预训练的字符词汇特征向量;

5、s3,构建所述词汇的拼音特征向量,并通过词汇向量词典和二元词汇向量词典构建词汇向量和二元词汇向量,将所述字符词汇特征向量、所述拼音特征向量、所述词汇向量和所述二元词汇向量进行连接并将连接之后的向量作为词汇输入向量;

6、s4,通过结构拆字词典获得字符的结构特征;

7、s5,根据s4中字符的结构特征确定结构特征输入向量;

8、s6,将所述词汇输入向量和所述结构特征输入向量输入交叉变换网络分别得到词汇和字符结构的注意力特征;

9、s7,将词汇和字符结构的注意力特征进行全连接并输入条件随机场得到标注序列,从而确定舰船实体。

10、进一步地,所述s1中的所述根据原始输入文本构建词汇,具体包括根据原始输入文本挖掘相关联的潜在词汇。

11、进一步地,所述s2中,预训练模型采用chinesebert模型,且所述预训练模型在预训练阶段选择全词掩码策略。

12、进一步地,所述s3中,对所述词汇进行拼音标注,将拼音转化为张量,并输入卷积层进行卷积操作,然后进入最大池化层和全连接层,从而得到拼音特征向量为pinyin_embedding;

13、通过词汇向量词典构建词汇向量为lattice_embedding,通过二元词汇向量词典构建二元词汇向量为bigram_embedding,则所述词汇输入向量为:

14、char_input=bert_embedding+bigram_embedding+lattice_embedding+pinyin_embedding

15、其中,bert_embedding为所述s2中的字符词汇特征向量。

16、进一步地,所述s4中,使用中文字符的拆字词典得到所述输入词汇信息中的每一个中文字符的结构信息。

17、进一步地,所述s5中,将所述s4中得到的字符的结构特征转化为结构编码向量radical embedding,然后输入卷积神经网络,从而得到所述结构特征输入向量为radical_level embedding。

18、进一步地,所述s6中,使用交叉变换网络获取汉字结构的语义信息,利用上下文和词汇信息丰富汉字的语义,且在交叉变换网络中使用随机注意力优化词汇和结构的注意力特征。

19、进一步地,所述s7中,将词汇和字符结构的注意力特征进行全连接为:

20、

21、其中,是词汇的注意力特征,是字符的注意力特征,wo和b是待学习的参数,为异或运算符;

22、最后使用条件随机场得到最优标注序列,进而得到舰船实体。

23、综上所述,本发明实施例采用上述的针对舰船领域的中文实体识别方法,克服了中文舰船识别中分词模型导致分词错误引起的误差传播问题,并融合了中文的词汇特征﹑拼音特征和结构特征,从而有效提高实体识别准确率和f1值。



技术特征:

1.一种中文舰船实体识别方法,其特征在于,包括:

2.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述s1中的所述根据原始输入文本构建词汇,具体包括根据原始输入文本挖掘相关联的潜在词汇。

3.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述s2中,预训练模型采用chinesebert模型,且所述预训练模型在预训练阶段选择全词掩码策略。

4.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述s3中,对所述词汇进行拼音标注,将拼音转化为张量,并输入卷积层进行卷积操作,然后进入最大池化层和全连接层,从而得到拼音特征向量为pinyin_embedding;

5.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述s4中,使用中文字符的拆字词典得到所述输入词汇信息中的每一个中文字符的结构信息。

6.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述s5中,将所述s4中得到的字符的结构特征转化为结构编码向量radical embedding,然后输入卷积神经网络,从而得到所述结构特征输入向量为radical_level embedding。

7.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述s6中,使用交叉变换网络获取汉字结构的语义信息,利用上下文和词汇信息丰富汉字的语义,且在交叉变换网络中使用随机注意力优化词汇和结构的注意力特征。

8.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述s7中,将词汇和字符结构的注意力特征进行全连接为:


技术总结
本发明涉及中文舰船实体识别方法,包括:根据原始输入文本构建词汇和二元词汇作为输入词汇信息,输入预训练层,得到预训练的字符词汇特征向量;构建词汇的拼音特征向量,并通过词汇向量词典和二元词汇向量词典构建词汇向量和二元词汇向量,将字符词汇特征向量、拼音特征向量、词汇向量和二元词汇向量连接得到词汇输入向量;通过结构拆字词典获得字符的结构特征并确定结构特征输入向量;将词汇输入向量和结构特征输入向量输入交叉变换网络分别得到词汇和字符结构的注意力特征;将词汇和字符结构的注意力特征进行全连接并输入条件随机场,从而确定舰船实体。本发明避免了分词问题并融合了中文的拼音和结构特征,有效提高中文舰船实体识别精确度。

技术研发人员:王昱,周庆瑞
受保护的技术使用者:中国空间技术研究院
技术研发日:
技术公布日:2024/2/19
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1