一种长尾工艺实体识别方法与设备

文档序号:36294533发布日期:2023-12-07 04:10阅读:22来源:国知局
一种长尾工艺实体识别方法与设备

本发明属于制造工艺实体识别相关,更具体地,涉及一种长尾工艺实体识别方法与设备。


背景技术:

1、实体是知识最基本的表现形式之一,也是结构化的知识图谱的基本组成要素之一。在生产制造和管理中,会积累多种来源、不同结构的工艺规程、工艺标准文件。这些文件中含有大量半结构化、非结构化的文本数据,蕴含着大量实体。在这些文本数据中蕴含着大量经过实践验证的工艺实体知识,为工艺人员提供了可靠、有效的参考。然而,随着零件种类、文件形式不断积累,这些工艺实体知识分布在多源异构的文件中,不便整合。未整合的实体难以形成结构化的数据,因而很难被工艺人员检索、参考、利用。使制造工艺实体知识从多源异构的文件准确、快捷地流入结构化的数据,是制造业转型升级中的一个重要目标。随着数据、算力、算法的发展,实体识别技术也取得了长足的进步。如今,基于深度学习的实体识别技术,已经可以在数据充足的通用领域实现较准确、快捷的应用,并且可以应对困扰传统方法的实体重叠与嵌套等现象。

2、然而,在制造工艺领域,不够充足的数据,以及细粒度的实体类别划分,会导致长尾问题。长尾问题,即大部分样本集中在少量实体类别中,其它实体类别样本稀少,存在严重的样本不平衡。比如,一个八分类实体识别任务中,90%以上的实体样本都属于其中的四个甚至更少的实体类别。在长尾问题中,深度学习模型学习到的充足类的特征空间通常会比稀有类的特征空间更大,决策边界会更偏向对充足类有利的方向。长尾问题带来的后果是,稀有类的实体识别效果远远落后于充足类。由于稀有类的样本有限,长尾问题通常不会对总体实体识别指标产生灾难性的影响,但如果考虑每一类的实体识别指标,与充足类相比,稀有类的性能通常是达不到实用要求的。

3、通用领域中,提升稀有类比例与提升稀有类权重,是缓解长尾问题的常用方法。提升稀有类比例的一种主要方式是数据增强,即由现有数据,根据一定的规则人为生成更多的数据,以缓解类别之间样本比例的差异;提升稀有类权重的一种主要方式是重加权,即根据一定的规则赋予不同类别不同的权重,以调节训练损失,使得稀有类在训练中占有更大的权重。

4、然而,与通用领域的长尾分类问题相比,长尾工艺实体识别存在更多的技术难点:

5、(1)针对提升稀有类比例,在数据增强中,工艺领域有标签语句扩充的选择范围小。先进的掩码语言模型数据增强方法,已经可以针对实体识别字符级别的标签,根据有标签语句,通过对实体字符掩码后重新给出概率较高且与原字符不相同的预测,生成更多新的实体,例如在学习过“北京市”、“南宁市”的情况下,在相似的上下文中生成“南京市”、“北宁市”等新的实体,这些新的实体可能在现有的训练数据中并不存在,由此,实体多样性得到了提升。这种数据增强方法需要有标签语句有丰富的数据,例如大量类似“北京市”、“南宁市”的实体,以微调出泛化能力良好的模型,而这一条件在工艺领域是无法得到满足的,因此要生成更多语义正确的语句,对有标签语句进行扩充。然而,工艺领域生成语义正确的语句,难度远大于通用领域。例如,通用领域,将一个城市类的实体替换为任何一个真实存在或是虚构的城市名,不仅数据得到了扩充,而且在上下文语境中都不会有语义问题,选择范围极大;而工艺领域的设备工具等类别的实体本身就很有限,并且直接替换可能会造成语义不正确的问题,例如“用铣床铣盖板下陷”,如果直接将设备工具类的实体“铣床”替换为另一种设备工具来扩充数据,会带来不符合上下文的风险,比如“用百分表铣盖板下陷”。这种扩充后的语句会使得模型学习到不符合专业常识的知识,给出不合理的预测。

6、(2)针对提升稀有类权重,在重加权中,长尾工艺实体识别各类实体的权重难以确定。通用领域的长尾分类问题通常可以直接根据样本出现频次来确定权重,某类样本出现频次越高,其权重越小;而在长尾工艺实体识别中,一些实体类别实体重名现象严重,出现频次较低的实体类别并不一定需要高权重,例如,检测方式类实体出现频次并不高,但是存在大量的实体重名现象,“测量”、“检查”等实体名高度重复。重名实体的编码中,虽然与位置、上下文相关的编码有差异,但是字符编码部分完全相同,这会一定程度上削弱识别难度,模型记住实体名就可以识别出大部分此类实体,所以此类实体可以被看作“伪”稀有类,如何综合考虑出现频次和实体重名来调节权重,是待解决的问题。


技术实现思路

1、针对现有技术的以上缺陷或改进需求,本发明提供了一种长尾工艺实体识别方法与设备,其从提升稀有类比例及提升稀有类权重两个角度来提升稀有类的实体识别性能。

2、为实现上述目的,按照本发明的一个方面,提供了一种长尾工艺实体识别方法,该方法包括以下步骤:

3、s1,将所有工艺文件中包含的工艺语句划分为两部分,一部分不进行实体标注,作为预训练语料;另一份进行实体标注以形成工艺实体识别数据集,所述工艺实体识别数据集划分为训练集、验证集及测试集;

4、s2,基于预训练语料对掩码语言模型进行领域自适应预训练,训练掩码语言模型还原被掩码的字符,以实现共现、词汇、语法、语义多角度的工艺语句字符编码;

5、s3,基于工艺语句字符编码对实体进行编码表示与聚类,并通过聚类到同一簇中实体的相互替换来扩充训练集;

6、s4,用扩充后的训练集作为微调数据对掩码语言模型进行微调,仅训练掩码语言模型还原被掩码的实体字符,实现工艺语句实体字符的预测;

7、s5,基于经微调后的掩码语言模型通过替换实体字符来对训练集中的稀有类进行数据增强以提高稀有类比例,得到数据增强后的工艺实体识别训练集;

8、s6,利用数据增强后的工艺实体识别训练集及验证集来训练工艺实体识别模型,并采用所述工艺实体识别模型进行长尾工艺实体识别。

9、进一步地,s2中,预训练任务为加入领域词汇的整词掩码语言模型任务,以比例η对原始工艺语句x进行整词掩码得到

10、x=x1,x2,…,xn;∑ib(xi=[mask])=0

11、

12、其中,b(·)将真实的表述映射到1,将错误的表述映射到0;表示向下取整;模型学习最大化被掩码字符的预测概率,从而还原被掩码的字符,由掩码后的语句重建出原始语句:

13、

14、其中,θ是模型参数;为掩码符号[mask],则mi为1,否则mi为0。

15、进一步地,领域词汇是基于在预训练语料中的出现频次确定的,采样预训练语料中所有长度在[lengthmin,lengthmax]的片段,形成片段集合s,每一个片段si∈s的出现频次记为ni,从集合s中选取出现频次大于等于阈值threshold的片段,形成高频片段集合记中文通用领域语言模型公开词汇集合为g,si<sj表示片段si是sj的子片段且不与sj相同,!表示逻辑非运算,card(·)表示有限集合元素数运算符,若片段满足下列条件的一个及以上,则被确定为领域词汇并记录相应频次:

16、(1)

17、(2)

18、进一步地,s3包括以下子步骤:

19、s3-1:用掩码语言模型对训练集中的所有实体进行编码,每一类所有实体的编码形成该类的实体编码集合;

20、s3-2:通过聚类算法,根据每一类的实体编码集合,将该类中包含的所有实体划分为若干个簇;

21、s3-3:对训练集中的每个工艺语句,将其中每个实体替换为同类同簇的实体得到新的工艺语句,形成扩充后的训练集。

22、进一步地,实体的编码是由掩码语言模型对该实体首尾字符的编码表示拼接而成,或对该实体首尾或全部字符的编码取平均值;

23、进一步地,采用层次聚类算法,不同实体类别分别采取不同层次聚类阈值,每个样本都会被聚类到一个簇;采用主成分分析去噪后,使用欧氏距离作为层次聚类算法中对两个向量的距离度量:

24、

25、进一步地,s4中,首先在每个实体字符前后显式地插入该实体类别符号:

26、

27、其中,ej表示工艺语句位置j处的实体字符,oj表示工艺语句位置j处的非实体字符,和分别表示位置j处的实体字符所属实体类别的起始符号和非起始符号,若实体字符是当前实体的起始字,则在其前后插入若实体字符是当前实体的非起始字,则在其前后插入

28、接下来对x进行掩码,只掩码实体字符:

29、

30、其中,ne表示实体字符数,ηe表示实体字符掩码比例;

31、根据实体掩码语言模型训练轮数e,确认由一个x生成的的数目e,同一个x生成不同用于不同轮的训练;得到掩码后的后,训练目标为还原被掩码的实体字符,从而重建出掩码前的语句。

32、进一步地,s5中,对包含稀有类的句子,显式插入所有实体的实体类别符号,得到x;然后,对其中长度为length的实体,以高斯分布n(μ,1/length2)采样得到掩码比例,对实体字符进行掩码;每个x重复r次,得到r个掩码后的即每个稀有类句子,将要生成r个增强数据;对每个实体语言模型对其中每个[mask]位置处的原始字符进行预测,按预测概率从高到低排序,随机选取预测概率排序区间[rankbottom,ranktop]的字符来替换[mask],从而得到由x增强后的工艺语句

33、进一步地,s6中,工艺实体识别模型训练的损失函数为:

34、

35、其中,τ是设定的放大系数,确定了对不同类样本数量差异的重视程度;α是设定的类别基准权重,确定了每一类实体在计算损失时的最小权重;py是模型将当前片段预测为其标签y的概率;ay是类别y的充足系数,amin和amax分别为y包含的实体类的最小充足系数与最大充足系数。ay越大,表示类别y样本越充足:

36、

37、其中,numy是训练集中类别为y的实体出现的次数,实体重名计多次;unumy是训练集中类别为y的不重名实体出现的次数,实体重名计一次;β为人为设定的重名权重,代表当前任务对实体重名现象的重视程度,从编码的角度,则代表对字符编码的重视程度,β越大,在ay的计算中就越重视重名现象对实体识别难度的降低。可见,充足系数ay的设计考虑了实体重名现象;对类别y,β不为0的情况下,固定numy,实体重名现象越严重,其充足系数越高。损失的(1-py)项则赋予了简单样本低重要性,赋予了困难样本高重要性。

38、本发明还提供了一种长尾工艺实体识别系统,所述系统包括存储器及处理器,所述存储器储存有计算机程序,所述处理器执行所述计算机程序时执行如上所述的长尾工艺实体识别方法。

39、本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现如上所述的长尾工艺实体识别方法。

40、总体而言,通过本发明所构思的以上技术方案与现有技术相比,本发明提供的长尾工艺实体识别方法与设备主要具有以下有益效果:

41、1.基于工艺语句字符编码对实体进行编码表示与聚类,并通过聚类到同一簇中实体的相互替换来扩充训练集,这一操作是为了使掩码语言模型在后序步骤的微调中接触到更多样化,并且无明显语义问题的工艺语句,例如原句“内窥镜检查壳体内腔,保证无脏污。”与替换后的“探头勘探外框架内壁,保证没有铁屑。”等语句之间存在差异,体现出了多样性,但后者并没有体现出明显的语义问题。这样,后序步骤中掩码语言模型的微调不仅会更多地增强泛化性能,而且能尽量避免学习到不符合专业常识的知识。由此,在后序步骤中对训练集中的稀有类进行数据增强时,用非最大概率的预测字符来作为新的字符,有更大概率获得逻辑更清晰、更通顺的增强数据。

42、2.考虑实体重名的类别权重计算方法来设计的损失函数,进行工艺实体识别模型的训练与测试,权重的计算充分考虑到了实体重名对预测难度的衰减,且将充足类映射到了接近最小值α的权重,将稀有类映射到了高权重。

43、3.本发明可以实现长尾问题下,各类制造工艺实体知识从工艺文件向结构化数据准确、快捷的流动,从而有效降低人工成本,提高制造工艺实体知识整合的自动化、智能化水平。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1