文本数据增强处理方法、装置、电子设备和可读存储介质与流程

文档序号:25281812发布日期:2021-06-01 17:28阅读:50来源:国知局
文本数据增强处理方法、装置、电子设备和可读存储介质与流程

本申请涉及自然语言处理技术领域,具体而言,涉及一种文本数据增强处理方法、装置、电子设备和可读存储介质。



背景技术:

自然语言处理领域(naturallanguageprocessing,nlp)中文本分类时,普遍存在标注数据量较少及标准数据不平衡等问题,会导致所训练得到的模型泛化性较差。然而,人工标注新的数据费事费力,且无法规模化。因此,通过文本数据增强处理是一种有效的扩展样本的方式。

现有技术中所使用的文本数据增强方式主要包括如词汇替换方法、反向翻译方法以及随机加入噪音等方法。其中,词汇替换方法则是随机从句子中提取一个或多个词汇,使用同义词词典将提取的词汇替换为其同义词。反向翻译方法则是将句子翻译为另一语言,例如将中文翻译为英文,再将翻译后的英文再反向翻译为中文。如此,翻译得到的中文和原本的中文句子将存在差异,从而达到扩展样本的目的。而随机加入噪音的方式则是将一些停用词或者符号随机加入句子中,或者随机打乱长句中各分句的顺序。

现有技术中所采用的方法均是没有针对性的替换、变换或删除方式,这种无针对性、无依据性的文本增强方式难以有效的针对句子情感类别进行文本增强,难以有针对性地提高模型的泛化性。



技术实现要素:

本申请的目的包括,例如,提供了一种文本数据增强处理方法、装置、电子设备和可读存储介质,其能够有针对性地进行文本增强,满足文本增强处理需求、有效提高模型泛化性。

本申请的实施例可以这样实现:

第一方面,本申请提供一种文本数据增强处理方法,所述方法包括:

将待处理的文本数据导入预先训练得到的识别模型,获得所述文本数据包含的每个词汇的词标签,所述词标签表征所述词汇对所述文本数据的句标签产生影响,或所述词汇对所述文本数据的句标签不产生影响,所述识别模型为利用包含多个训练文本的训练集训练得到;

根据所述文本数据中的各个词汇的词标签对所述文本数据进行转换处理;

将处理前后的文本数据添加至所述训练集中,再基于所述训练集对所述识别模型进行训练,得到满足预设要求的识别模型。

在可选的实施方式中,所述根据所述文本数据中的各个词汇的词标签对所述文本数据进行转换处理的步骤,包括:

筛选出所述文本数据中词标签表征所述词汇对所述文本数据的句标签不产生影响的所有词汇;

将筛选出的词汇替换为与其匹配的预设词汇,或删除筛选出的词汇。

在可选的实施方式中,所述将待处理的文本数据导入预先训练得到的识别模型,获得所述文本数据包含的每个词汇的词标签的步骤,包括:

获得待处理的文本数据包含的各个词汇的词向量;

将多个词向量导入预先训练得到的识别模型,获得各所述词汇对应的权重值;

根据各所述词汇的权重值为对应词汇进行词标签设置。

在可选的实施方式中,所述方法还包括预先利用所述训练集训练获得所述识别模型的步骤,该步骤包括:

针对所述训练集中的每个训练样本,将所述训练样本拆分为多个训练词汇,所述训练样本具有真实标签向量;

获得各所述训练词汇的词向量,构建包含多个词向量的数值型矩阵;

将所述数值型矩阵导入构建的神经网络模型中,输出所述训练样本的分类标签向量;

基于所述真实标签向量和所述分类标签向量进行构建的损失函数的最小化处理,并调整所述神经网络模型的模型参数,直至所述损失函数的函数值满足预设条件时,得到所述识别模型。

在可选的实施方式中,所述神经网络模型包括双向记忆网络层、多层感知器和分类层;

所述将所述数值型矩阵导入构建的神经网络模型中,输出所述训练样本的分类标签向量的步骤,包括:

将所述数值型矩阵导入所述双向记忆网络层,得到学习有各所述训练词汇的上下文信息的输出矩阵;

将所述输出矩阵导入所述多层感知器,输出包含各所述训练词汇的权重值的注意力矩阵;

结合所述数值型矩阵和所述注意力矩阵,并通过所述分类层,输出表征训练样本的分类信息的分类标签向量。

在可选的实施方式中,所述多层感知器包括第一感知层和第二感知层,所述第一感知层和所述第二感知层通过激活函数连接;

所述将所述输出矩阵导入所述多层感知器,输出包含各所述训练词汇的权重值的注意力矩阵的步骤,包括:

将所述输出矩阵导入所述第一感知层,输出包含各所述训练词汇的第一权重值的第一注意力矩阵;

将所述输出矩阵导入所述第二感知层,输出包含各所述训练词汇的第二权重值的第二注意力矩阵;

基于所述激活函数、所述第一注意力矩阵和所述第二注意力矩阵,得到所述注意力矩阵。

在可选的实施方式中,所述分类层包括全连接层和输出层;

所述结合所述数值型矩阵和所述注意力矩阵,并通过所述分类层,输出表征训练样本的分类信息的分类标签向量的步骤,包括:

将所述数值型矩阵和所述注意力矩阵相乘得到结合矩阵;

通过所述全连接层将所述结合矩阵的特征信息映射至样本标记空间;

通过所述输出层对映射后的标签信息进行归一化处理,得到表征训练样本的分类信息的分类标签向量。

第二方面,本申请提供一种文本数据增强处理装置,所述装置包括:

标签获得模块,用于将待处理的文本数据导入预先训练得到的识别模型,获得所述文本数据包含的每个词汇的词标签,所述词标签表征所述词汇对所述文本数据的句标签产生影响,或所述词汇对所述文本数据的句标签不产生影响,所述识别模型为利用包含多个训练文本的训练集训练得到;

处理模块,用于根据所述文本数据中的各个词汇的词标签对所述文本数据进行转换处理;

训练模块,用于将处理前后的文本数据添加至所述训练集中,再基于所述训练集对所述识别模型进行训练,得到满足预设要求的识别模型。

第三方面,本申请提供一种电子设备,包括一个或多个存储介质和一个或多个与存储介质通信的处理器,一个或多个存储介质存储有处理器可执行的机器可执行指令,当电子设备运行时,处理器执行所述机器可执行指令,以执行前述实施方式中任意一项所述的方法步骤。

第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有机器可执行指令,所述机器可执行指令被执行时实现前述实施方式中任意一项所述的方法步骤。

本申请实施例的有益效果包括,例如:

本申请实施例提供一种文本数据增强处理方法、装置、电子设备和可读存储介质,通过将待处理的文本数据导入预先训练得到的识别模型,以获得文本数据包含的各个词汇的词标签,其中,词标签可表征词汇对文本数据的句标签是否产生影响,而识别模型为利用包含多个训练文本的训练集训练得到。再根据各个词汇的词标签对文本数据进行转换处理,将转换前后的文本数据添加至训练集中,再基于训练集对识别模型进行训练,得到满足预设要求的识别模型。该方案可结合词标签所表征的词汇对于文本整体的影响进行转换处理,有针对性地进行文本增强处理,可满足文本增强处理的具体需求,有效提高模型的泛化性。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备的结构框图;

图2为本申请实施例提供的文本数据增强处理方法的流程图;

图3为本申请实施例提供的文本数据增强处理方法中,预先训练识别模块方法的流程图;

图4为图3中步骤s230的子步骤的流程图;

图5为本申请实施例提供的神经网络模型的架构示意图;

图6为图4中步骤s232的子步骤的流程图;

图7为本申请实施例提供的多层感知器的架构示意图;

图8为图4中步骤s233的子步骤的流程图;

图9为图2中步骤s110的子步骤的流程图;

图10为图2中步骤s120的子步骤的流程图;

图11为本申请实施例提供的文本数据增强处理装置的功能模块框图。

图标:110-处理器;120-存储器;130-通信模块;140-文本数据增强处理装置;141-标签获得模块;142-处理模块;143-训练模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

此外,需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。

请参阅图1,为本申请实施例提供的电子设备的结构图,该电子设备可以包括但不限于计算机、服务器等设备。该电子设备可包括存储器120、处理器110及通信模块130。所述存储器120、处理器110以及通信模块130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中,存储器120用于存储程序或者数据。所述存储器120可以是,但不限于,随机存取存储器(randomaccessmemory,ram),只读存储器(readonlymemory,rom),可编程只读存储器(programmableread-onlymemory,prom),可擦除只读存储器(erasableprogrammableread-onlymemory,eprom),电可擦除只读存储器(electricerasableprogrammableread-onlymemory,eeprom)等。

处理器110用于读/写存储器120中存储的数据或程序,并执行本申请任意实施例提供的文本数据增强处理方法。

通信模块130用于通过网络建立电子设备与其它通信终端之间的通信连接,并用于通过网络收发数据。

应当理解的是,图1所示的结构仅为电子设备的结构示意图,所述电子设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请参阅图2,图2示出了本申请实施例提供的文本数据增强处理方法的流程示意图,该文本数据增强处理方法可由图1中所示的电子设备执行。应当理解,在其它实施例中,本实施例的文本数据增强处理方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该文本数据增强处理方法的详细步骤介绍如下。

步骤s110,将待处理的文本数据导入预先训练得到的识别模型,获得所述文本数据包含的每个词汇的词标签。

所述词标签表征所述词汇对所述文本数据的句标签产生影响,或所述词汇对所述文本数据的句标签不产生影响,所述识别模型为利用包含多个训练文本的训练集训练得到。

步骤s120,根据所述文本数据中的各个词汇的词标签对所述文本数据进行转换处理。

步骤s130,将处理前后的文本数据添加至所述训练集中,再基于所述训练集对所述识别模型进行训练,得到满足预设要求的识别模型。

在自然语言处理领域中,往往涉及到文本的情感分类问题。想要实现该目的,首先需要进行可用于实现分类识别的识别模型的训练,进而基于训练得到的识别模型进行分类识别。想要进行识别模型的训练,则需要用到大量的训练样本,训练样本需要具有相关的情感分类标注,这样就存在一个问题,具有标准的情感分类标注的样本数量可能较少,导致训练得到的识别模型的泛化性低。因此,如何对训练文本进行扩展的问题在自然语言处理领域中很重要。

对于文本情感分类任务来说,句子中一般包含有对于句子的情感分类起到很大影响的词汇以及对句子的情感分类几乎不产生影响的非重要词汇。如果想要对文本数据进行扩展转换处理之后,不影响到句子的情感分类,则需要避免对句子中的对句子的情感分类起很大影响的词汇进行转换,可着重对其中对句子的情感分类不产生影响的词汇进行处理。

当然,在有些场景下,有可能具有其他不同的需求,例如可能有需要对其中不重要的词汇进行转换处理的需求。

因此,需要识别出句子中哪些词汇是重要词汇、哪些词汇是非重要词汇。

本实施例中,待处理的文本数据可以是标记有句标签的文本数据,文本数据的句标签可以表征该文本数据的情感分类,例如,情感类别可包括褒义和贬义。

将待处理的文本数据导入预先训练得到的识别模型,该识别模型是预先利用训练样本训练得到的,该识别模型的最终输出可以是识别的文本数据的情感分类,此外,识别模型也可以得到文本数据中各个词汇的词标签。各个词汇的词标签可以表征该词汇对于文本数据的句标签是否产生影响。也即,文本数据的情感类别最终是由文本数据中多个对于其句标签产生影响的词汇所综合确定的。而对于文本数据的句标签不产生影响的词汇可以是如句子中的副词、语气助词等词汇。

在确定文本数据中各个词汇的词标签后,则可确定哪些词汇是重要词汇、哪些词汇是非重要词汇。如此,在对文本数据进行转换处理时,则可基于各个词汇的词标签以执行。此种情形下,可有依据性地、有针对性地执行文本数据的转换处理,可以根据对文本数据转换的需求执行转换处理。转换处理后得到的文本数据,则是对应于原待处理的文本数据的扩展文本。

通过上述处理之后,相当于在原有的文本数据的基础上,实现了文本数据的扩展,增加了文本数据的数量。基于扩展处理处的文本数据再继续对识别模型进行训练,则识别模型可以学习到更多的不同文本数据的特征信息,从而提高得到的识别模型的泛化性。

在本实施例中,以下首先对预先训练得到识别模型的过程进行详细说明。

请参阅图3,本实施例中,预先可通过以下方式训练得到上述识别模型:

步骤s210,针对所述训练集中的每个训练样本,将所述训练样本拆分为多个训练词汇,所述训练样本具有真实标签向量。

步骤s220,获得各所述训练词汇的词向量,构建包含多个词向量的数值型矩阵。

步骤s230,将所述数值型矩阵导入构建的神经网络模型中,输出所述训练样本的分类标签向量。

步骤s240,基于所述真实标签向量和所述分类标签向量进行构建的损失函数的最小化处理,并调整所述神经网络模型的模型参数,直至所述损失函数的函数值满足预设条件时,得到所述识别模型。

本实施例中,训练集中包含多个训练样本,可以包括情感类别为褒义的样本以及情感类别为贬义的样本。各个训练样本的真实标签向量可用于体现各个训练样本的真实情感类别。

每个训练样本可包含多个训练词汇,例如,训练样本可如“你让我很无奈,也很受伤”,该训练样本的情感类别可为贬义。将该训练样本拆分之后,得到的训练词汇可如:[“你”,“让”,“我”,“很”,“无奈”,“,”,“也”,“很”,“受伤”]。

由于机器学习方法无法直接处理文本数据,需要将文本数据转换为数值型数值。因此,在拆分得到多个训练词汇后,可获得各个训练词汇的词向量,从而可得到由多个词向量所拼接构成的数值型矩阵。可选地,可采用wordembedding方法实现训练词汇到词向量的转换,得到的数值型矩阵可以是二维数值型矩阵,可表示如下:

s=(w1,w2,...,wi,...,wn)

其中,wi表示第i个训练词汇的词向量,s可以理解为包含的各个训练词汇以词向量形式所表示时的训练样本。

通过构建的神经网络模型,可对该数值型矩阵进行处理,从而得到对应的训练样本的分类标签向量。该分类标签向量为神经网络模型对该训练样本的情感类别的判断结果。

通过训练样本本身的真实标签向量和模型输出的分类标签向量,以进行损失函数的计算。通过对损失函数进行最小化处理,从而可以调整神经网络模型的模型参数,以对模型进行优化。

其中,所述的满足预设条件可以是损失函数的函数值低于设定值,或者是得到的相关指标满足要求,例如,平衡f分数(也即精确率和召回率的调和平均数)达到一定数值并不再增长时,则可以确定训练满足预设条件。

本实施例中,构建的神经网络模型包括双向记忆网络层、多层感知器和分类层。其中,上述通过神经网络模型得到训练样本的分类标签向量的步骤,可以通过以下方式实现,请参阅图4:

步骤s231,将所述数值型矩阵导入所述双向记忆网络层,得到学习有各所述训练词汇的上下文信息的输出矩阵。

步骤s232,将所述输出矩阵导入所述多层感知器,输出包含各所述训练词汇的权重值的注意力矩阵。

步骤s233,结合所述数值型矩阵和所述注意力矩阵,并通过所述分类层,输出表征训练样本的分类信息的分类标签向量。

本实施例中,将上述的数值型矩阵s导入至双向记忆网络层(bi-lstm),该双向记忆网络层可以基于训练文本中各个词汇的前后顺序,以及结合词汇的上下文信息进行处理,可表示如下:

其中,wt为第t个词向量,为bi-lstm中的前一个隐含层单元,为bi-lstm中的后一个隐含层单元,为当前隐含层单元。其中,处理逻辑可参见图5中所示。

通过bi-lstm得到的输出矩阵可为h,表示如下:

h=(h1,h2,...,hi,...,hn)

在此基础上,可利用多层感知器得到输出矩阵对应的注意力矩阵,该注意力矩阵中包含各个训练词汇的权重值,权重值的大小表征各个训练词汇对于训练文本的句标签的重要程度。

本实施例中,多层感知器可包括第一感知层和第二感知层,第一感知层和第二感知层通过激活函数连接,激活函数可为tanh函数。可选地,请参阅图6,本实施例中,可通过以下方式得到训练样本的注意力矩阵。

步骤s2321,将所述输出矩阵导入所述第一感知层,输出包含各所述训练词汇的第一权重值的第一注意力矩阵。

步骤s2322,将所述输出矩阵导入所述第二感知层,输出包含各所述训练词汇的第二权重值的第二注意力矩阵。

步骤s2323,基于所述激活函数、所述第一注意力矩阵和所述第二注意力矩阵,得到所述注意力矩阵。

本实施例中,采用self-attention机制,将上述得到的输出矩阵h导入多层感知器以对h进行编码。请结合参阅图7,其中,第一感知层得到的第一注意力矩阵可为ws1,第二感知层得到的第二注意力矩阵可为ws2。结合激活函数和矩阵ws1、ws2,可以得到如下所示的最终的注意力矩阵a:

a=softmax(ws2tanh(ws1ht))

在上述基础上,以构建文本情感分类任务为目的,通过模型的分类层得到训练样本的分类标签向量,其中,分类层可包括全连接层和输出层,请参阅图8,该步骤可通过以下方式实现:

步骤s2331,将所述数值型矩阵和所述注意力矩阵相乘得到结合矩阵。

步骤s2332,通过所述全连接层将所述结合矩阵的特征信息映射至样本标记空间。

步骤s2333,通过所述输出层对映射后的标签信息进行归一化处理,得到表征训练样本的分类信息的分类标签向量。

本实施例中,通过将数值型矩阵h与编码得到的注意力矩阵相乘,可以实现增强训练样本中重要词汇的权重,弱化非重要词汇的权重的目的。得到的结合矩阵可表示如下,该结合矩阵表征添加有词汇权重的句子表示:

m=ah

上述对训练样本的处理可以实现将原始数据映射到特征空间的目的,在此基础上,可以通过全连接层将特征信息映射值样本标记空间。并且,为了统一标准,可再利用输出层对映射后的标签信息进行归一化处理,得到训练样本的分类标签向量,该分类标签向量可为离散概率向量y^。

结合训练样本本身的真实标签向量y和离散概率向量y^,计算两者的交叉熵以构建损失函数,例如,构建的损失函数可如下式所示:

其中,上述损失函数中增加了l2正则化,以减缓模型的过拟合问题。表示l2正则化的参数,θ表示模型的模型参数集合,k表示分类的类别量,n表示待分类的数据量。

进一步地,在本实施例中,还可对损失函数关于模型变量进行求导处理,将得到的导数导入至优化器中,使用优化器在进行模型参数的调整后进行损失函数的最小化处理。该优化器可以是sgd模型、adam模型或者是rmsprop模型等。

通过以上过程,则可利用已有的训练样本进行识别模型的训练,得到可以用于进行训练样本的分类标签识别的模型。而该识别模型也可以用于得到文本的注意力矩阵,基于注意力矩阵则中包含的权重值则可以为各个词汇设置词标签。

因此,在预先训练得到识别模型的基础上,为了进一步扩大训练样本集,可以利用识别模型进行文本数据的转换处理。

请参阅图9,本实施例中,上述步骤s110中,获得文本数据包含的每个词汇的词标签,可以通过以下方式实现:

步骤s111,获得待处理的文本数据包含的各个词汇的词向量。

步骤s112,将多个词向量导入预先训练得到的识别模型,获得各所述词汇对应的权重值。

步骤s113,根据各所述词汇的权重值为对应词汇进行词标签设置。

本实施例中,待处理的文本数据可以是上述训练集中的任一训练文本,也可以另外采集的文本数据,本实施例中不作具体限制。例如,待处理的文本数据为上述列举的训练文本为例进行说明。对该待处理的文本数据进行分词处理后可以得到分词结果:[“你”,“让”,“我”,“很”,“无奈”,“,”,“也”,“很”,“受伤”]。

同理,对分词后的词汇进行向量化后,可以得到文本对应的包含多个词向量的矩阵。将矩阵导入到上述得到的识别模型中,通过上述的识别模型中的双向记忆网络层可得到文本数据的输出矩阵,再通过多层感知器得到文本数据的注意力矩阵。该注意力矩阵则包含文本数据中各个词汇的权重值。基于权重值则可为对应词汇进行词标签的设置。

例如,经过处理之后,文本数据中权重值超过一定数值的两个词汇为“无奈”和“受伤”,则该两个词汇的词标签可设置为1,表征该两个词汇对文本数据的句标签产生影响,即为重要词汇。而文本数据中的其他词汇的词标签可设置为0,表征其他词汇对文本数据的句标签不产生影响,即为非重要词汇。

在此基础上,在上述步骤s120中对基于各个词汇的词标签对文本数据进行转换处理时,则可以通过以下方式实现,请参阅图10:

步骤s121,筛选出所述文本数据中词标签表征所述词汇对所述文本数据的句标签不产生影响的所有词汇。

步骤s122,将筛选出的词汇替换为与其匹配的预设词汇,或删除筛选出的词汇。

由上述可知,则筛选出的词汇可以是文本数据中的除“无奈”和“受伤”两个词汇之外的其他词汇。其中,所述的匹配的预设词汇可以是词汇的同义词。即可以利用同义词替换筛选出的词汇,或者也可以删除筛选出的词汇。例如,对文本数据进行转换处理后得到的文本数据可以是:[“我”,“很”,“无奈”,“,”,“也”,“很”,“受伤”]。

可选地,在对文本数据进行处理时,可以仅对筛选出的部分词汇进行处理。

如此,则在原本的文本数据的基础上进行转换处理,生成新的文本数据,而该新的文本数据可保持处理前的文本数据的句标签,在不影响文本数据的情感类别的情况下,增加了新的文本,弥补了训练数据少的缺点,并且,符合实际场景下的文本的真实情感类别。

本实施例中,将转换处理前后的文本数据加入到训练集中,相当于在增强训练集的情况下,继续对识别模型进行训练。实验证明,在增强训练集的情况下所训练得到的识别模型,相比仅基于已有的训练集进行训练得到的识别模型,在平衡f分数上提升了3%。

请参阅图11,为本申请另一实施例提供的文本数据增强处理装置140的功能模块框图,该文本数据增强处理装置140包括标签获得模块141、处理模块142和训练模块143。

标签获得模块141,用于将待处理的文本数据导入预先训练得到的识别模型,获得所述文本数据包含的每个词汇的词标签,所述词标签表征所述词汇对所述文本数据的句标签产生影响,或所述词汇对所述文本数据的句标签不产生影响,所述识别模型为利用包含多个训练文本的训练集训练得到;

可以理解,该标签获得模块141可以用于执行上述步骤s110,关于该标签获得模块141的详细实现方式可以参照上述对步骤s110有关的内容。

处理模块142,用于根据所述文本数据中的各个词汇的词标签对所述文本数据进行转换处理;

可以理解,该处理模块142可以用于执行上述步骤s120,关于该处理模块142的详细实现方式可以参照上述对步骤s120有关的内容。

训练模块143,用于将处理前后的文本数据添加至所述训练集中,再基于所述训练集对所述识别模型进行训练,得到满足预设要求的识别模型。

可以理解,该训练模块143可以用于执行上述步骤s130,关于该训练模块143的详细实现方式可以参照上述对步骤s130有关的内容。

作为一种可能的实现方式,上述处理模块142可以用于通过以下方式对文本数据进行处理:

筛选出所述文本数据中词标签表征所述词汇对所述文本数据的句标签不产生影响的所有词汇;

将筛选出的词汇替换为与其匹配的预设词汇,或删除筛选出的词汇。

作为一种可能的实现方式,上述标签获得模块141可以用于通过以下方式获得每个词汇的词标签:

获得待处理的文本数据包含的各个词汇的词向量;

将多个词向量导入预先训练得到的识别模型,获得各所述词汇对应的权重值;

根据各所述词汇的权重值为对应词汇进行词标签设置。

作为一种可能的实现方式,上述训练模块143还可以用于预先基于训练集训练得到识别模型,该训练模块143具体可以用于:

针对所述训练集中的每个训练样本,将所述训练样本拆分为多个训练词汇,所述训练样本具有真实标签向量;

获得各所述训练词汇的词向量,构建包含多个词向量的数值型矩阵;

将所述数值型矩阵导入构建的神经网络模型中,输出所述训练样本的分类标签向量;

基于所述真实标签向量和所述分类标签向量进行构建的损失函数的最小化处理,并调整所述神经网络模型的模型参数,直至所述损失函数的函数值满足预设条件时,得到所述识别模型。

作为一种可能的实现方式,所述神经网络模型包括双向记忆网络层、多层感知器和分类层;

训练模块143可用于通过以下方式得到分类标签向量:

将所述数值型矩阵导入所述双向记忆网络层,得到学习有各所述训练词汇的上下文信息的输出矩阵;

将所述输出矩阵导入所述多层感知器,输出包含各所述训练词汇的权重值的注意力矩阵;

结合所述数值型矩阵和所述注意力矩阵,并通过所述分类层,输出表征训练样本的分类信息的分类标签向量。

作为一种可能的实现方式,所述多层感知器包括第一感知层和第二感知层,所述第一感知层和所述第二感知层通过激活函数连接;

上述训练模块143可以用于通过以下方式获得注意力矩阵:

将所述输出矩阵导入所述第一感知层,输出包含各所述训练词汇的第一权重值的第一注意力矩阵;

将所述输出矩阵导入所述第二感知层,输出包含各所述训练词汇的第二权重值的第二注意力矩阵;

基于所述激活函数、所述第一注意力矩阵和所述第二注意力矩阵,得到所述注意力矩阵。

作为一种可能的实现方式,所述分类层包括全连接层和输出层,上述训练模块143具体可以用于:

将所述数值型矩阵和所述注意力矩阵相乘得到结合矩阵;

通过所述全连接层将所述结合矩阵的特征信息映射至样本标记空间;

通过所述输出层对映射后的标签信息进行归一化处理,得到表征训练样本的分类信息的分类标签向量。

进一步地,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有机器可执行指令,机器可执行指令被执行时实现上述实施例提供的文本数据增强处理方法。

其中,前述计算机程序运行时执行的各步骤,在此不再一一赘述,可参考前文对所述文本数据增强处理方法的解释说明。

综上所述,本申请实施例提供的文本数据增强处理方法、装置、电子设备和可读存储介质,通过将待处理的文本数据导入预先训练得到的识别模型,以获得文本数据包含的各个词汇的词标签,其中,词标签可表征词汇对文本数据的句标签是否产生影响,而识别模型为利用包含多个训练文本的训练集训练得到。再根据各个词汇的词标签对文本数据进行转换处理,将转换前后的文本数据添加至训练集中,再基于训练集对识别模型进行训练,得到满足预设要求的识别模型。该方案可结合词标签所表征的词汇对于文本整体的影响进行转换处理,有针对性地进行文本增强处理,可满足文本增强处理的具体需求,有效提高模型的泛化性。

在本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1