技术特征:
1.一种基于预训练模型语义理解的多语言缩写消歧义算法,其特征在于,包括如下步骤:s1:在知识语料上进行持续预训练,学习其文本的语义关系和背景知识;s2:将预训练好的模型迁徙到上述构造的二分类任务进行微调训练;s3:对于同一个缩写的不同解释替换后的句子在微调模型上的输出,通过投票的策略,将具有最大概率的句子的所替换的解释作为该缩写的预测解释。2.根据权利要求1所述的基于预训练模型语义理解的多语言缩写消歧义算法,其特征在于,在步骤s1中:面向消歧义任务的语义特征学习分为数据构造、筛选和预训练:原始的语句为x={w1,w2…
w
i-1
,a
i
,w
i+1
…
w
n
},w
i
表示语句的词语,a
i
表示句子中的缩写词;将该对应缩写词的解释插入到语句单中得到替换后的语句其中e
i
表示缩写的可能的解释的单词;筛选出那些使用正确解释进行替换的语句,因为错误的替换会造成语义学习的错误,故舍去;得到替换后的句子按照一定的概率随机选取一定数量的词语进行遮盖,基于mlm预测遮盖处的正确词语;在此过程中,模型自主学习上下文知识以达到正确预测被遮盖住的词汇。3.根据权利要求1所述的基于预训练模型语义理解的多语言缩写消歧义算法,其特征在于,所述步骤s2包括:经过步骤s1获得了充分学习背景知识和语义的持续预训练语言模型,基于该模型利用构造好的二分类任务数据进行微调;该过程旨在寻找目标函数其中y∈{ture,false},优化的目标为其中y
i
表示真实标签,而p(y
i
)表示模型预测的值。4.根据权利要求1所述的基于预训练模型语义理解的多语言缩写消歧义算法,其特征在于,步骤s1具体包括:手工设计多个语言提示模板将原来文本x转化为t
i
,将缩写词消歧义转为模型预测mlm问题。5.根据权利要求1所述的基于预训练模型语义理解的多语言缩写消歧义算法,其特征在于,步骤s2具体包括:在带有提示模板的文本数据上,对预训练模型进行持续预训练,目的是为了模型能够在特定领域上理解文本语义,同时该预训练的操作也能够让模型学习消歧义这个高级任务。6.根据权利要求1所述的基于预训练模型语义理解的多语言缩写消歧义算法,其特征在于,步骤s3具体包括:在模型当中加入残差单元,并设置了超参数s,k,其中s表示残差单元插入的位置,k表示残差单元跨越的隐藏层数;通过调节这两个超参数,能够控制对隐藏层的利用以及模型参数量的大小;
表示预训练模型各层的hidden states,而表示当前残差单元的输入,t
i
表示加入提示模板后文本中的<mask>所在位置,fc表示线性层,relu表示在残差模块中的激活函数。7.根据权利要求1所述的基于预训练模型语义理解的多语言缩写消歧义算法,其特征在于,步骤s4具体包括:通过直接把mask位置的hidden states直接送入分类器映射到标签,以替换pt方法把hidden states转为具体的词再利用verbalizer映射到标签。
技术总结
本发明提供一种基于预训练模型语义理解的多语言缩写消歧义算法,包括如下步骤:S1:在知识语料上进行持续预训练,学习其文本的语义关系和背景知识;S2:将预训练好的模型迁徙到上述构造的二分类任务进行微调训练;S3:对于同一个缩写的不同解释替换后的句子在微调模型上的输出,通过投票的策略,将具有最大概率的句子的所替换的解释作为该缩写的预测解释。该方法基于具备强大的先验知识的预训练语言模型完成对于专业领域复杂缩写词的消歧义,有效地促进了科研人员及语言模型对于复杂文本的正确理解。的正确理解。的正确理解。
技术研发人员:何攀 张彦如 洪峰 庄岩 黄承浩
受保护的技术使用者:成都包被科技有限公司
技术研发日:2022.07.27
技术公布日:2022/11/3