术语在上下文中的语义一致性识别方法、存储介质及设备与流程

文档序号:32713803发布日期:2022-12-28 01:51阅读:24来源:国知局
术语在上下文中的语义一致性识别方法、存储介质及设备与流程

1.本发明属于语言处理的技术领域,涉及一种语义一致性识别方法,特别是涉及一种术语在上下文中的语义一致性识别方法、存储介质及设备。


背景技术:

2.目前,在语言书写过程中,人们所期望表达的对象,有时会因输入错误或习惯表达差异等各种原因,而存在拼写、错写或用词不规范等情况。对于这些以短语为表现形式的目标术语,识别其在句子上下文中的语义一致性,对于发现并纠正这些错误具有非常重要的作用。
3.通常情况下,术语的语义一致性可以通过分类问题解决,即对于给定的一组目标术语集合,收集包含目标术语的句子集合,作为有标记数据,通过训练文本分类器解决,或者针对每一个目标术语构建二分类器实现。
4.因此,如何提供一种术语在上下文中的语义一致性识别方法、存储介质及设备,以解决现有技术无法进一步提高语义一致性识别准确度等缺陷,成为本领域技术人员亟待解决的技术问题。


技术实现要素:

5.鉴于以上所述现有技术的缺点,本发明的目的在于提供一种术语在上下文中的语义一致性识别方法、存储介质及设备,用于解决现有技术无法进一步提高语义一致性识别准确度的问题。
6.为实现上述目的及其他相关目的,本发明一方面提供一种术语在上下文中的语义一致性识别方法,所述术语在上下文中的语义一致性识别方法包括:获取预设规模的文本数据;将所述文本数据分割处理为数据集,按照正例和负例的区分标记所述数据集;对所述数据集进行句子遮掩处理,将目标术语与所述数据集进行拼接;拼接所述目标术语后的各个句子构成训练样本集;按照正例和负例的区分识别所述训练样本集中的句子;根据所述训练样本集中各个句子的识别结果,确定术语一致性识别模型。
7.于本发明的一实施例中,所述获取预设规模的文本数据的步骤,包括:由人物、事件的评论数据中或利用网络爬虫抓取方式获取预设规模的文本数据。
8.于本发明的一实施例中,所述将所述文本数据分割处理为数据集,按照正例和负例的区分标记所述数据集的步骤,包括:对所述文本数据进行数据清洗,移除不利于训练的特殊符号;按照启发式规则,将清洗后的文本数据分割为句子集合;对所述句子集合中每一个句子,按照给定的术语集进行扫描,查看所述句子是否存在完全匹配的术语字符串,或者存在术语近似串;响应于存在完全匹配的术语字符串,则将所述句子作为正例记录到训练数据库中;响应于存在术语近似串,则将所述句子作为负例记录到所述训练数据库中。
9.于本发明的一实施例中,所述对所述数据集进行句子遮掩处理,将目标术语与所述数据集进行拼接的步骤,包括:在所述数据集的上下文句子中,对所述目标术语对应的字
符串或所述目标术语相关的变形字符串,利用遮掩符号进行遮掩;将所述目标术语对应的字符串和遮掩后的上下文句子对应的字符串,通过分隔符进行拼接。
10.于本发明的一实施例中,所述按照正例和负例的区分识别所述训练样本集中的句子的步骤,包括:响应于所述训练样本集中的当前句子为正例,将所述当前句子标记为0;响应于所述训练样本集中的当前句子为负例,将所述当前句子标记为1。
11.于本发明的一实施例中,所述根据所述训练样本集中各个句子的识别结果,确定术语一致性识别模型的步骤之后,所述术语在上下文中的语义一致性识别方法还包括:对所述训练样本集进行随机排序;根据各次随机排序后的训练样本集,生成不同的模型参数;选择最佳结果对应的模型参数,生成所述术语一致性识别模型。
12.于本发明的一实施例中,在所述根据所述训练样本集中各个句子的识别结果,确定术语一致性识别模型的步骤之后,所述术语在上下文中的语义一致性识别方法还包括:输入待检测句子;通过模式匹配识别所述待检测句子中的术语及变形术语;在所述待检测句子中,对所述术语和所述变形术语进行遮掩处理;将遮掩处理后的待检测句子与所述术语和所述变形术语进行拼接;将拼接后的待检测句子输入所述术语一致性识别模型中进行一致性识别。
13.于本发明的一实施例中,在所述将拼接后的待检测句子输入所述术语一致性识别模型中进行一致性识别的步骤之后,所述术语在上下文中的语义一致性识别方法还包括:判断一致性识别结果与预期结果是否一致;响应于所述一致性识别结果与所述预期结果不一致,对不一致情况进行记录,报告所述术语或所述变形术语使用存在错误。
14.为实现上述目的及其他相关目的,本发明另一方面提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的术语在上下文中的语义一致性识别方法。
15.为实现上述目的及其他相关目的,本发明最后一方面提供一种电子设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行所述的术语在上下文中的语义一致性识别方法。
16.如上所述,本发明所述的术语在上下文中的语义一致性识别方法、存储介质及设备,具有以下有益效果:
17.本发明采用深度学习技术,基于基础语言模型,通过风险字符移除并通过拼接构建上下文与术语对的方式,强制模型学习上下文特征判别能力,实现风险位置的术语上下文语义一致性识别。本发明通过正例和负例的判断构建出了现有识别方式中不存在的目标术语的负例样本;本发明通过术语字符串和术语变形字符串的共同识别与训练,支持动态扩展术语集,实现了多术语分类效果;本发明通过句子遮掩避免术语本身对上下文的干扰,强制模型学习到上下文对术语的一致性识别能力。进而可以针对文本校对中术语书写存在的潜在错误进行识别,作为术语是否存在不规范表达的判断依据,解决纯规则替换方式导致的术语检测误报难题。
附图说明
18.图1显示为本发明的术语在上下文中的语义一致性识别方法于一实施例中的原理流程图。
19.图2显示为本发明的术语在上下文中的语义一致性识别方法于一实施例中的训练数据构造流程图。
20.图3显示为本发明的术语在上下文中的语义一致性识别方法于一实施例中的训练预测流程图。
21.图4显示为本发明的术语在上下文中的语义一致性识别方法于一实施例中的术语一致性识别模型示意图。
22.图5显示为本发明的电子设备于一实施例中的结构连接示意图。
23.元件标号说明
[0024]5ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
电子设备
[0025]
51
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
处理器
[0026]
52
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
存储器
[0027]
s11~s15
ꢀꢀꢀꢀꢀꢀꢀꢀ
步骤
具体实施方式
[0028]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0029]
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0030]
本发明所述的术语在上下文中的语义一致性识别方法、存储介质及设备采用深度学习技术,实现了风险位置的术语上下文语义一致性识别。
[0031]
以下将结合图1至图5详细阐述本实施例的一种术语在上下文中的语义一致性识别方法、存储介质及设备的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的术语在上下文中的语义一致性识别方法、存储介质及设备。
[0032]
请参阅图1,显示为本发明的术语在上下文中的语义一致性识别方法于一实施例中的原理流程图。如图1所示,所述术语在上下文中的语义一致性识别方法具体包括以下几个步骤:
[0033]
s11,获取预设规模的文本数据。
[0034]
于一实施例中,由人物、事件的评论数据中或利用网络爬虫抓取方式获取预设规模的文本数据。
[0035]
s12,将所述文本数据分割处理为数据集,按照正例和负例的区分标记所述数据集。
[0036]
请参阅图2,显示为本发明的术语在上下文中的语义一致性识别方法于一实施例中的训练数据构造流程图。如图2所示,s12具体包括以下步骤:
[0037]
(1)对所述文本数据进行数据清洗,移除不利于训练的特殊符号。
[0038]
具体地,获取大数据原始文本,对所述文本数据进行数据清洗,移除不利于训练的特殊符号,例如网页标签等特殊符号。
[0039]
(2)按照现有技术中的启发式规则,将清洗后的文本数据分割为句子集合。
[0040]
(3)对所述句子集合中每一个句子,按照给定的术语集进行扫描,查看所述句子是否存在完全匹配的术语字符串,或者存在术语近似串。
[0041]
(4)响应于存在完全匹配的术语字符串,则将所述句子作为正例记录到训练数据库中;响应于存在术语近似串,则将所述句子作为负例记录到所述训练数据库中。
[0042]
具体地,近似串的计算可以根据是否拼音完全相同、是否存在近似拼音、是否存在多字、少字、错别字以及顺序交换的一种情况或多种情况的组合进行判断。
[0043]
由此,为支持动态扩展术语集合,无需针对每个术语单独设计分类器,本发明设计的术语一致性识别模型,应用时只需要按照术语字符串和术语近似串的方式准备新术语关联的正例和负例样本,即可通过训练让模型在已有能力基础上,具备新术语识别能力。而现有的常规的分类任务将整个句子作为预训练模型的输入,并需要提前给定所有的术语集合,作为学习目标,显然识别和训练的数据量较大。
[0044]
s13,对所述数据集进行句子遮掩处理,将目标术语与所述数据集进行拼接;拼接所述目标术语后的各个句子构成训练样本集。
[0045]
于一实施例中,s13具体包括以下步骤:
[0046]
(1)在所述数据集的上下文句子中,对所述目标术语对应的字符串或所述目标术语相关的变形字符串,利用遮掩符号进行遮掩。
[0047]
具体地,为强制模型能够利用上下文预测指定位置的术语是否语义一致,在输入时将术语或其变形字符串,以遮掩符号[mask]进行遮掩,由此,模型避免过度记忆了术语在句子本身中的字符串信息,而是只能使用术语所在的上下文信息,以及术语在句子中的位置这两部信息。从而保证句子级别的术语语义一致性能够充分学到上下文的语义。
[0048]
(2)将所述目标术语对应的字符串和遮掩后的上下文句子对应的字符串,通过分隔符进行拼接。
[0049]
具体地,将目标术语所在的上下文和目标术语本身的字符串,通过分隔符[sep]进行拼接。
[0050]
s14,按照正例和负例的区分识别所述训练样本集中的句子。
[0051]
于一实施例中,s14具体包括以下步骤:
[0052]
响应于所述训练样本集中的当前句子为正例,将所述当前句子标记为0;响应于所述训练样本集中的当前句子为负例,将所述当前句子标记为1。
[0053]
s15,根据所述训练样本集中各个句子的识别结果,确定术语一致性识别模型。
[0054]
于一实施例中,在步骤s15之后,所述术语在上下文中的语义一致性识别方法还包括:
[0055]
(1)对所述训练样本集进行随机排序。
[0056]
(2)根据各次随机排序后的训练样本集,生成不同的模型参数。
[0057]
(3)选择最佳结果对应的模型参数,生成所述术语一致性识别模型。
[0058]
具体地,在训练时,利用前面步骤获取得到的标记数据集,读取其中的数据,进行术语遮掩,将遮掩后的文本与相关联的术语进行拼接,再根据样本的正负设置学习标签,通
过标准的tokenizer模块,将拼接后的文本转换为token序列和对应的id序列,连同位置嵌入和分段嵌入,形成预训练基础模型的输入向量,经过roberta网络模型的transformer变化,最终输出每个原始token对应的隐向量。对于[cls]token,将其对应的隐向量经全连接层,得到所属类别的概率值,并通过输出值与实际取值计算损失,经反向传播和随机梯度下降,调整网络参数,实现大规模预训练模型的微调,先后训练10个epoch后,选择最佳结果作为最终的术语语义一致性识别模型。其中,1个epoch等于使用训练集中的全部样本训练一次,epoch的数量值则是整个数据集被随机排序后训练了几次。
[0059]
于一实施例中,在步骤s15之后,所述术语在上下文中的语义一致性识别方法还包括:
[0060]
(1)输入待检测句子。
[0061]
(2)通过模式匹配识别所述待检测句子中的术语及变形术语。
[0062]
(3)在所述待检测句子中,对所述术语和所述变形术语进行遮掩处理。
[0063]
(4)将遮掩处理后的待检测句子与所述术语和所述变形术语进行拼接。
[0064]
(5)将拼接后的待检测句子输入所述术语一致性识别模型中进行一致性识别。
[0065]
进一步地,在所述将拼接后的待检测句子输入所述术语一致性识别模型中进行一致性识别的步骤之后,所述术语在上下文中的语义一致性识别方法还包括:判断一致性识别结果与预期结果是否一致;响应于所述一致性识别结果与所述预期结果不一致,对不一致情况进行记录,报告所述术语或所述变形术语使用存在错误。
[0066]
具体地,在模型应用阶段,对于给定的待检测句子,首先通过模式匹配,发现句子中存在的术语及其变形,当发现术语或其变形时,对原始句子进行遮掩和术语拼接,以训练阶段的同样方式,生成输入网络的嵌入向量,输入网络经过运算后,得到最终的一致性结果。如果术语是不规范的变形形式,而当前术语的上下文一致性判别成果,则表明术语书写不够规范,可以采用规范形式予以替换,从而实现了将术语上下文语义一致性判别,应用于文本校对过程中的规范性检测处理中。
[0067]
由此,对于模型来说,简单的任务具有更高的识别准确率,本发明将多术语的分类,转换为术语在上下文指定位置出现的语义一致性问题,从而具有比多标签分类具有更好的分类效果,并且可以根据业务需求,随时扩充术语数据,而无需调整网络模型的架构,也无需部署多个识别模型。
[0068]
请参阅图3,显示为本发明的术语在上下文中的语义一致性识别方法于一实施例中的训练预测流程图。如图3所示,本发明所述的术语在上下文中的语义一致性识别方法在一实施例中的完整流程如下:标记数据集,进行句子遮掩,把术语或术语变形近似串用[mask]替换,用遮掩后的句子拼接目标术语,如当前句子为正例,标记为0,否则标记为1,形成一条学习样本,对形成的学习样本集进行随机排序,按批次训练模型,例如保留10个epoch,选择最佳结果对应的模型参数,生成术语一致性模型。进而进行模型应用,给定待检测句子,通过模式匹配识别句子找那个的术语及其变形,对术语或其变形进行遮掩,遮掩后的句子拼接正确目标术语,之后输入术语一致性模型进行一致性识别,对预期结果不一致情况进行记录,报告术语使用存在错误。
[0069]
请参阅图4,显示为本发明的术语在上下文中的语义一致性识别方法于一实施例中的术语一致性识别模型示意图。如图4所示,将术语所在的上下文和术语本身的字符串,
通过分隔符[sep]进行拼接,并在开始附加[cls]标记,通过这种方式把输入上下文与模型要识别的目标对象一并输入到预训练模型中,模型只需要输出目标术语和上下文是否一致即可,从而将多标签分类问题,转换成了更为简单的二分类问题。
[0070]
其中,输入一行中,[cls]表示classification token,作为语义一致性的判别token,[sep]代表separation token,作为输入文本之间的分隔符。
[0071]
位置嵌入表示输入序列的位置向量,以便模型能够区分词语在不同位置时的语义差异,在计算过程中,采用sin和cos函数进行计算,sin和cos的值域是[-1,1],可以很好地限定位置编码的大小,使得训练过程更稳定,其计算公式如下:
[0072][0073][0074]
其中,d
model
表示位置向量的长度,pos为词语的位置,i表示词语的维度,本质是将一个句子中位置为pos的词语转换为一个d
model
的位置向量。
[0075]
分段嵌入代表输入中的段落语义块信息,如图4所示,术语所在的上下文句子与[cls]和第一个[sep]符号一起,构成了第一个段落,而术语本身的字符串以及第二个[sep]符号,则构成了要判别的目标术语所在的段落。因此,图4中分段嵌入一行的前6个用ea表示,而后三个用eb表示,在模型实际运行中,分别用0和1表示ea和eb。
[0076]
token嵌入表示输入句子中以字为单位的embedding映射,模型将遇到的所有字符进行搜集,形成词汇表vocab,token嵌入利用词汇表,将token字符映射为一个唯一的数字代号,从而能够以数值形式嵌入到网络中进行运算。词汇表维系了一些特殊符号与数字id的映射关系,例如,将从未遇到的符号统一转换为unknown符号:[unk]。[mask]符号为遮盖符号,表示此处有字符出现,需要模型依据上下文进行推测。
[0077]
本发明所述的术语在上下文中的语义一致性识别方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
[0078]
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述术语在上下文中的语义一致性识别方法。
[0079]
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的计算机可读存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的计算机存储介质。
[0080]
请参阅图5,显示为本发明的电子设备于一实施例中的结构连接示意图。如图5所示,本实施例提供一种电子设备5,具体包括:处理器51及存储器52。所述存储器52用于存储计算机程序,所述处理器51用于执行所述存储器52存储的计算机程序,以使所述电子设备5执行所述术语在上下文中的语义一致性识别方法的各个步骤。
[0081]
上述的处理器51可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器
(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field programmable gatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0082]
上述的存储器52可能包含随机存取存储器(random access memory,简称ram),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
[0083]
于实际应用中,所述电子设备可以是包括存储器、存储控制器、一个或多个处理单元(cpu)、外设接口、rf电路、音频电路、扬声器、麦克风、输入/输出(i/o)子系统、显示屏、其他输出或控制设备,以及外部端口等组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、个人数字助理(personal digital assistant,简称pda)等个人电脑。在另一些实施方式中,所述电子设备还可以是服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以是由分布的或集中的服务器集群构成的云服务器,本实施例不作限定。
[0084]
综上所述,本发明所述术语在上下文中的语义一致性识别方法、存储介质及设备采用深度学习技术,基于基础语言模型,通过风险字符移除并通过拼接构建上下文与术语对的方式,强制模型学习上下文特征判别能力,实现风险位置的术语上下文语义一致性识别。本发明通过正例和负例的判断构建出了现有识别方式中不存在的目标术语的负例样本;本发明通过术语字符串和术语变形字符串的共同识别与训练,支持动态扩展术语集,实现了多术语分类效果;本发明通过句子遮掩避免术语本身对上下文的干扰,强制模型学习到上下文对术语的一致性识别能力。进而可以针对文本校对中术语书写存在的潜在错误进行识别,作为术语是否存在不规范表达的判断依据,解决纯规则替换方式导致的术语检测误报难题。本发明有效克服了现有技术中的种种缺点而具有高度产业利用价值。
[0085]
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1