预测模型的训练方法、文本处理方法及相关设备与流程

文档序号:31530562发布日期:2022-09-14 20:09阅读:96来源:国知局
预测模型的训练方法、文本处理方法及相关设备与流程

1.本发明涉及通信技术领域,特别是涉及一种预测模型的训练方法、文本处理方法及相关设备。


背景技术:

2.在智能客服、智能会议系统等应用场景中,语音识别技术的应用越来越广泛。当前,语音识别技术主要着眼于将音频数据转录为文本数据,实现语音识别。
3.在文本中添加标点符号有利于用户对文本所表征的信息有更深一步的了解,现有技术中,通过上述语音识别技术将音频数据转录为文本数据,将上述文本数据作为标点预测模型的训练数据,对标点预测模型进行训练。在标点预测模型训练完成后,使用该标点预测模型对输入文本的标点符号进行预测,进而得到包括标点符号的文本。
4.然而,上述训练数据可能并不是基于真实的转录环境对音频数据进行转录得到的,也就是说,训练数据缺乏真实性,这降低了标点预测模型输出的预测结果的准确性。


技术实现要素:

5.本发明实施例的目的在于提供一种预测模型的训练方法、文本处理方法及相关设备,解决训练数据缺乏真实性,进而降低了标点预测模型输出的预测结果的准确性的技术问题。具体技术方案如下:
6.在本发明实施例的第一方面,首先提供了一种预测模型的训练方法,包括:
7.获取预设的第一文本语料;
8.对所述第一文本语料进行特征提取,得到所述第一文本语料对应的n个第一词向量序列和所述n个第一词向量序列对应的第一符号序列,n为大于1的正整数;
9.基于预设的目标参数更新m个第一词向量序列得到m个第二词向量,并更新所述第一符号序列得到目标符号序列,m为小于n的正整数;
10.将所述目标符号序列、所述m个第二词向量序列和n-m个第一词向量序列,确定为训练数据;
11.将所述训练数据输入至待训练的预测模型中进行迭代训练,得到目标预测模型。
12.在本发明实施例的第二方面,还提供了一种文本处理方法,包括:
13.获取第二文本语料;
14.对所述第二文本语料进行特征提取,得到所述第二文本语料对应的第二词向量序列集合;
15.将所述第二词向量序列集合输入至目标预测模型,得到目标文本;
16.其中,所述目标文本基于所述第二词向量序列集合和第二符号序列确定,所述第二符号序列用于表征所述第二词向量序列集合中每个词向量关联的符号。
17.在本发明实施例的第三方面,还提供了一种预测模型的训练装置,包括:
18.获取模块,用于获取预设的第一文本语料;
19.提取模块,用于对所述第一文本语料进行特征提取,得到所述第一文本语料对应的n个第一词向量序列和所述n个第一词向量序列对应的第一符号序列,n为大于1的正整数;
20.更新模块,用于基于预设的目标参数更新m个第一词向量序列得到m个第二词向量,并更新所述第一符号序列得到目标符号序列,m为小于n的正整数;
21.确定模块,用于将所述目标符号序列、所述m个第二词向量序列和n-m个第一词向量序列,确定为训练数据;
22.训练模块,用于将所述训练数据输入至待训练的预测模型中进行迭代训练,得到目标预测模型。
23.在本发明实施例的第四方面,还提供了一种文本处理装置,包括:
24.获取模块,用于获取第二文本语料;
25.提取模块,用于对所述第二文本语料进行特征提取,得到所述第二文本语料对应的第二词向量序列集合;
26.处理模块,用于将所述第二词向量序列集合输入至目标预测模型,得到目标文本;
27.其中,所述目标文本基于所述第二词向量序列集合和第二符号序列确定,所述第二符号序列用于表征所述第二词向量序列集合中每个词向量关联的符号。
28.在本发明实施例的第五方面,还提供了一种电子设备,所述电子设备中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述任一实施例所述的预测模型的训练方法,或者上述任一实施例所述的文本处理方法。
29.在本发明实施例的第六方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一实施例所述的预测模型的训练方法,或者上述任一实施例所述的文本处理方法。
30.在本发明实施的第七方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一实施例所述的预测模型的训练方法,或者上述任一实施例所述的文本处理方法。
31.本发明实施例中,获取预设的第一文本语料;对第一文本语料进行特征提取,得到第一文本语料对应的n个第一词向量序列和n个第一词向量序列对应的第一符号序列;基于预设的目标参数更新m个第一词向量序列得到m个第二词向量,并更新第一符号序列得到目标符号序列;将目标符号序列、m个第二词向量序列和n-m个第一词向量序列,确定为训练数据;将训练数据输入至待训练的预测模型中进行迭代训练,得到目标预测模型。本发明实施例中,基于预设的目标参数对m个第一词向量序列进行更新,以此模拟第一文本语料在语音转录过程中可能存在的误差,调整预测模型的训练数据,进而提高训练数据的真实性,并使用该训练数据对预测模型进行训练,提高预测模型输出的结果的准确性。
附图说明
32.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
33.图1为本发明实施例中预测模型的训练方法的流程示意图;
34.图2为本发明实施例中对原始文本进行预处理的应用流程图;
35.图3为本发明实施例中文本处理方法的流程示意图;
36.图4为本发明实施例中预测模型的训练装置的结构示意图;
37.图5为本发明实施例中文本处理装置的结构示意图;
38.图6为本发明实施例中一种电子设备的结构示意图。
具体实施方式
39.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
40.请参阅图1,图1为本发明实施例中预测模型的训练方法的流程图。本发明实施例提供的预测模型的训练方法包括:
41.s101,获取预设的第一文本语料。
42.上述第一文本语料为文本数据,可选地,可以预先对原始文本进行预处理,得到第一文本语料,上述原始文本可以是对音频数据进行语音识别得到的文本。
43.具体的,请参阅图2,如图2所示,对原始文本进行预处理的过程为,对原始文本进行归一化处理,对归一化处理后的原始文本进行分词并进行去停用词操作,得到第一文本语料。可选地,若原始文本为中文数据,则可以使用jieba工具执行分词操作。
44.在一可选地实施例中,上述第一文本语料为标准数据集中的文本语料,上述标准数据集还包括第一符号序列,上述第一符号序列包括至少一个符号,该符号又称为标签,且第一符号序列中的每个符号与第一文本语料中的每个文本一一对应,应理解,一个符号用于表征对应的文本的标点符号。
45.可选地,上述第一符号序列包括四个标签,逗号标签、句号标签、问号标签和特殊标签,示例性的,第一符号序列可以表示为:{o,《。》,《,》,《?》},其中,“o”为特殊标签,“,”为逗号标签,“。”为句号标签,“?”为问号标签。
46.可选地,上述逗号标签用于表征逗号、冒号和破折号,上述句号标签用于表征句号、感叹号和分号,上述问号标签用于表征问号,上述特殊标签用于表征其他标记。
47.s102,对所述第一文本语料进行特征提取,得到所述第一文本语料对应的n个第一词向量序列和所述n个第一词向量序列对应的第一符号序列。
48.本步骤中,可以对第一文本语料进行全局特征提取,得到第一文本语料对应的n个第一词向量序列和n个第一词向量序列对应的第一符号序列,n为大于1的正整数。应理解,第一符号序列包括至少一个符号,且第一符号序列中的每个符号与一个第一词向量序列对应。应理解,每个第一词向量序列包括至少一个词向量,且一个词向量与第一文本语料中的一个文本对应;每个第一词向量序列包括两个序列标记,其中一个序列标记为序列起始标记,另一个序列标记为序列结尾标记。
49.可选地,可以使用glove模型对第一文本语料进行特征提取,得到第一文本语料对应的n个第一词向量序列和第一符号序列。需要说明的是,glove模型具备全局矩阵分解的特点,并且在特征提取的过程中使用局部上下文窗口方法,进而可以利用整个语料库(即第一文本语料)的统计信息,全面的对第一文本语料进行特征提取,得到n个第一词向量序列和第一符号序列。
50.s103,基于预设的目标参数更新m个第一词向量序列得到m个第二词向量,并更新所述第一符号序列得到目标符号序列。
51.本步骤中,可以对n个第一词向量序列进行数据增强处理。
52.具体而言,在得到n个第一词向量序列之后,基于预设的目标参数对该n个第一词向量序列中的至少部分第一词向量序列进行更新,即对m个第一词向量序列进行更新,得到m个第二词向量序列,其中,m为小于或等于n的正整数。
53.具体的如何对n个第一词向量序列进行数据增强处理的技术方案,请参阅后续实施例。
54.本步骤中,对m个第一词向量序列中的至少部分词向量更新后,同步更新第一符号序列,得到目标符号序列。应理解,上述目标符号序列用于表征训练数据中每个词向量对应的符号。
55.s104,将所述目标符号序列、所述m个第二词向量序列和n-m个第一词向量序列,确定为训练数据。
56.s105,将所述训练数据输入至待训练的预测模型中进行迭代训练,得到目标预测模型。
57.一种可能存在的情况为,m等于n,即第二词向量序列的数量与第一词向量序列的数量相同,表示在步骤s103中,更新了全部的第一词向量序列,这种情况下,确定训练数据包括m个第二词向量序列。
58.另一种可能存在的情况为,m小于n,也就是说,在步骤s103中,更新了部分第一词向量序列,这种情况下,确定训练数据包括m个第二词向量序列和n-m个第一词向量序列。
59.本步骤中,将训练数据输入至待训练的预测模型中,对预测模型进行迭代训练,得到训练完成的预测模型,将上述训练完成的预测模型称为目标预测模型。其中,上述预测模型又称为标点预测模型,可选地,上述预测模型包括blstm层和crf层。
60.在其他实施例中,可以使用精准率、召回率和f值这三个指标进行模型评估。
61.上述精准率为模型预测正确为正样本的个数与模型预测为正样本的个数的除法结果。上述召回率为模型预测正确的正样本的个数与训练数据中正样本的个数的除法结果。上述f值为精准率和召回率的调和平均值。
62.可选地,可以采用one-vs-rest算法计算上述精准率、召回率和f值,得到预测模型的模型评估结果。
63.本发明实施例中,获取预设的第一文本语料;对第一文本语料进行特征提取,得到第一文本语料对应的n个第一词向量序列和n个第一词向量序列对应的第一符号序列;基于预设的目标参数更新m个第一词向量序列得到m个第二词向量,并更新第一符号序列得到目标符号序列;将目标符号序列、m个第二词向量序列和n-m个第一词向量序列,确定为训练数据;将训练数据输入至待训练的预测模型中进行迭代训练,得到目标预测模型。本发明实施例中,基于预设的目标参数对m个第一词向量序列进行更新,以此模拟第一文本语料在语音转录过程中可能存在的误差,调整预测模型的训练数据,进而提高训练数据的真实性,并使用该训练数据对预测模型进行训练,提高预测模型输出的结果的准确性。
64.需要说明的是,在使用语音识别技术对音频数据转录得到文本语料的过程中,通常存在以下三种主要误差:
65.1、删除错误
66.在语音识别过程中遗漏了字词。
67.2、替换错误
68.在语音识别过程中识别为其他的字词。
69.3、插入错误
70.在语音识别过程中由于噪音或口语,而生成了语气词。
71.由于上述误差的存在,导致训练数据可能并不是基于真实的转录环境对音频数据进行转录得到的,进而降低了训练数据的真实性和标点预测模型输出的预测结果的准确性。
72.为了解决上述可能存在的技术问题,需要对n个第一词向量序列进行数据增强处理,以在训练数据中模拟语音识别过程中可能存在的误差。
73.以下,具体阐述如何对n个第一词向量序列进行数据增强处理:
74.可选地,所述基于预设的目标参数更新m个第一词向量序列得到m个第二词向量,包括:
75.基于预设的目标参数,对所述m个第一词向量序列执行目标操作,得到m个第二词向量序列。
76.上述目标操作包括第一操作、第二操作和第三操作中的至少一项。
77.其中,上述第一操作包括删除第一词向量序列中的至少一个词向量,即第一操作用于模拟上述删除错误,上述第二操作包括将至少一个第一预设词向量添加至第一词向量序列,即第二操作用于模拟上述插入错误。上述第三操作包括使用至少一个第二预设词向量替换第一词向量序列中对应的词向量,即第三操作用于模拟上述替换错误。
78.可选地,对m个第一词向量序列中的全部第一词向量执行第一操作,得到m个第二词向量序列。
79.可选地,对m个第一词向量序列中的全部第一词向量执行第二操作,得到m个第二词向量序列。
80.可选地,对m个第一词向量序列中的全部第一词向量执行第三操作,得到m个第二词向量序列。
81.可选地,对m个第一词向量序列中的部分第一词向量执行第一操作,对部分第一词向量执行第二操作,得到m个第二词向量序列。
82.可选地,对m个第一词向量序列中的部分第一词向量执行第一操作,对部分第一词向量执行第三操作,得到m个第二词向量序列。
83.可选地,对m个第一词向量序列中的部分第一词向量执行第二操作,对部分第一词向量执行第三操作,得到m个第二词向量序列。
84.可选地,对m个第一词向量序列中的部分第一词向量执行第一操作,对部分第一词向量执行第二操作,对部分第一词向量执行第三操作,得到m个第二词向量序列。
85.可选地,所述基于预设的目标参数,对所述m个第一词向量序列执行目标操作,得到m个第二词向量序列,包括以下至少一项:
86.在所述第一参数用于表征执行第一操作的情况下,根据所述第一参数,删除所述m个第一词向量序列中与所述第一参数关联的第一词向量序列中的i个词向量;
87.在所述第二参数用于表征执行第二操作的情况下,根据所述第二参数,在所述m个第一词向量序列中与所述第二参数相关联的第一词向量序列中添加k个第一预设词向量;
88.在所述第三参数用于表征执行第三操作的情况下,根据所述第三参数,将所述m个第一词向量序列中与所述第三参数关联的第一词向量序列中的l个词向量替换为l个第二预设词向量。
89.上述目标参数包括第一参数、第二参数和第三参数,且第一参数、第二参数和第三参数均为概率值,并且,第一参数的值、第二参数的值与第三参数的值的和值为1。
90.应理解,第一参数又称为删除概率,在第一参数的值不为0的情况下,表示第一参数用于表征执行第一操作,则可以根据该第一参数,删除m个第一词向量序列中与第一参数关联的第一词向量序列的i个词向量,其中,i的数值与第一参数相关联。
91.第二参数又称为插入概率,在第二参数的值不为0的情况下,表示第二参数用于表征执行第二操作,则可以根据该第二参数,在m个第一词向量序列中与第二参数相关联的第一词向量序列中添加k个第一预设词向量,其中,k的数值与第二参数相关联。
92.第三参数又称为替换概率,在第三参数的值不为0的情况下,表示第三参数用于表征执行第三操作,则可以根据第三参数,将m个第一词向量序列中与第三参数关联的第一词向量序列的l个词向量替换为l个第二预设词向量,其中,l的数值与第三参数相关联。
93.为便于理解,请参阅以下示例:
94.m个第一词向量序列中存在一个第一词向量序列与第一参数、第二参数和第三参数关联,该第一词向量序列包括10个词向量,且该第一参数的值为0.5,第二参数的值为0.3,第三参数的值为0.2。这种情况下,根据该第一参数,随机删除该第一词向量序列中的5个词向量;根据该第二参数,将3个第一预设词向量添加至该第一词向量序列;根据第三参数,使用2个第二预设词向量随机替换该第一词向量序列中的2个词向量;得到第二词向量序列。
95.再例如,m个第一词向量序列中存在一个第一词向量序列与第一参数和第二参数关联,该第一词向量序列包括10个词向量,且该第一参数的值为0.6,第二参数的值为0.4。这种情况下,根据该第一参数,随机删除该第一词向量序列中的6个词向量;根据该第二参数,将4个第一预设词向量添加至该第一词向量序列,得到第二词向量序列。
96.本实施例中,通过对n个第一词向量序列进行数据增强处理,即对n个第一词向量执行目标操作,模拟语音识别过程中可能存在的误差,以此提高训练数据的真实性和标点预测模型输出的预测结果的准确性。
97.可选地,所述基于预设的目标参数更新m个第一词向量序列得到m个第二词向量之后,所述方法还包括:
98.对于所述m个第二词向量序列中的任一第二词向量序列,在所述第二词向量序列的序列长度小于对应的第一词向量序列的序列长度的情况下,对所述第二词向量序列进行词向量填充,以使得所述第二词向量序列的序列长度等于对应的第一词向量序列的序列长度;
99.在第二词向量序列的序列长度大于对应的第一词向量序列的序列长度的情况下,对所述第二词向量序列进行词向量截断,以使得所述第二词向量序列的序列长度等于对应的第一词向量序列的序列长度。
100.需要说明的是,在对第一词向量序列执行第一操作和第二操作之后,删除了第一词向量序列中的部分词向量,或者在第一词向量序列中插入了部分词向量,这样,更新后的
第一词向量序列(即第二词向量序列)的序列长度与更新前的第一词向量序列(即该第二词向量序列对应的第一词向量序列)的序列长度不一致。当更新后的第一词向量序列的序列长度高于更新前的第一词向量序列的序列长度时,可能导致预测模型计算次数过多;当更新后的第一词向量序列的序列长度低于更新前的第一词向量序列的序列长度时,可能导致预测模型欠拟合。
101.本实施例中,在得到第二词向量序列之后,对于每个第二词向量序列,判断该第二词向量序列的序列长度与对应的第一词向量序列的序列长度之间的大小关系。
102.若第二词向量序列的序列长度小于对应的第一词向量序列的序列长度,则对该第二词向量序列进行词向量填充,以使得第二词向量序列的序列长度等于对应的第一词向量序列的序列长度。
103.可选地,可以向第二词向量序列添加交互式特征向量、多项式特征向量等特征向量进行扩充。
104.若第二词向量序列的序列长度大于对应的第一词向量序列的序列长度,则对该第二词向量序列进行词向量截取,以使得第二词向量序列的序列长度等于对应的第一词向量序列的序列长度。
105.可选地,可运用数据方法对第二词向量序列进行降维处理,例如主成分分析(principle component analysis,pca)技术或线性判别分析(linear discriminant analysis,lda)技术或其他技术进行降维处理。
106.本实施例中,通过对第二词向量序列进行词向量填充或词向量截取,使得第二词向量序列的序列长度与对应的第一词向量序列的序列长度相同,进而保证训练数据符合预测模型的要求,避免在训练过程中,预测模型计算次数过多或者预测模型欠拟合。
107.可选地,所述更新所述第一符号序列得到目标符号序列,包括:
108.基于所述m个第一词向量序列中更新的至少部分词向量,对所述第一符号序列进行更新,得到目标符号序列。
109.其中,第一符号序列中的每个符号与n个第一词向量序列中的每个词向量一一对应,目标符号序列中的每个符号与第一词向量序列集合中的每个词向量一一对应,第一词向量序列集合包括m个第二词向量序列和n-m个第一词向量序列。
110.如上所述,标准数据集包括第一文本语料和第一符号序列,上述第一符号序列包括至少一个符号,且第一符号序列中的每个符号与第一文本语料中的每个文本一一对应。
111.上述更新第一符号序列的具体过程是指,在对第一词向量序列执行第一操作,删除第一词向量序列中的部分词向量的过程中,同步在第一符合序列中删除该部分词向量对应的符号。在对第一词向量序列执行第二操作,将部分词向量添加至第一词向量序列的过程中,同步将特殊标签添加至第一符号序列。
112.示例性的,在m为1的情况下,第一词向量序列包括4个词向量,且第一符号序列为{o,《。》,《,》,《?》}。若对该第一词向量序列执行了第一操作,删除了第3个词向量,并对该第一词向量序列执行了第二操作,新增了一个词向量,则更新后的第一符号序列,即目标符号序列为{o,《。》,《,》,o}。
113.示例性的,在m为2的情况下,第一个第一词向量序列包括4个词向量,第二个第一词向量序列包括3个词向量,且第一符号序列为{o,《。》,《,》,《?》,o,《,》}。若对该第一个第
一词向量序列执行了第一操作,删除了第2个词向量,并对该第二个第一词向量序列执行了第二操作,新增了一个词向量,则更新后的第一符号序列,即目标符号序列为{o,《,》,《?》,o,《,》,o}
114.可选地,所述将所述训练数据输入至待训练的预测模型中进行迭代训练,得到目标预测模型,包括:
115.将训练数据输入至待训练的预测模型中进行迭代训练;
116.在所述预测模型的迭代参数表征的数值等于预设阈值的情况下,将所述预测模型确定为目标预测模型。
117.可选地,上述预测模型包括blstm和crf层,blstm可以理解为包括两个不同预测方向的lstm,以此充分利用训练数据中的上下文信息。然而,blstm虽然考虑到了训练数据中的上下文信息,但blstm中softmax层的输出是相互独立的,softmax层只用于输出概率值最大的符号,通过在预测模型中引入crf层,充分考虑softmax层输出的各个符号之间的顺序性。
118.可选地,上述迭代参数为epochs参数,该迭代参数用于表征预测模型的训练次数。本实施例中,在该预测模型的训练次数达到预设阈值的情况下,即预测模型的迭代参数表征的数值等于预设阈值,确定预测模型训练完成,得到目标预测模型。
119.在其他实施例中,在预测模型每次迭代训练之后,输出预测模型在这次迭代训练中得到的符号序列,计算目标符号序列与该符号序列之间的相似度,可选地,可以使用马氏距离、欧氏距离等距离公式来计算两个序列之间的相似度,或者使用位方差、位均差来计算两个序列之间的相似度,或者使用其他方式,在此不做具体限定。
120.在上述相似度大于或等于预设相似度的情况下,表示预测模型输出的符号序列与目标符号序列之间较为相似,则将该预测模型确定为目标预测模型。
121.请参阅图3,图3为本发明实施例中文本处理方法的流程图。本发明实施例提供的文本处理方法包括:
122.s201,获取第二文本语料。
123.本步骤中,上述第二文本语料可以是对音频数据进行语音识别得到的文本数据,可选地,上述第二文本语料也可以是用户输入的文本数据。
124.s202,对所述第二文本语料进行特征提取,得到所述第二文本语料对应的第二词向量序列集合。
125.本步骤中,可以对第二文本语料进行全局特征提取,得到第二文本语料对应的第二词向量序列集合。应理解,上述第二词向量序列集合包括至少一个词向量序列,且该至少一个词向量序列中的每个词向量与第二文本语料中的每个文本一一对应。
126.可选地,可以使用glove模型对第二文本语料进行特征提取,得到第二词向量序列集合。
127.s203,将所述第二词向量序列集合输入至目标预测模型,得到目标文本。
128.本步骤中,将上述第二词向量序列集合输入至训练完成的目标训练模型中,得到第二符号序列,其中,第二符号序列用于表征第二词向量序列集合中每个词向量关联的符号,进一步的,根据第二符号序列中每个符号与第二词向量序列集合中每个词向量之间的对应关系,确定每个文本对应的标点符号,得到目标文本。应理解,上述目标文本为包括标
点符号的文本。
129.本发明实施例中,获取第二文本语料;对第二文本语料进行特征提取,得到第二文本语料对应的第二词向量序列集合;将第二词向量序列集合输入至目标预测模型,得到目标文本。本发明实施例中,通过将对第二文本语料进行特征提取得到的第二词向量序列集合输入至目标预测模型,得到包括标点符号的目标文本,以使得用户对文本所表征的信息有更深一步的了解,提高目标文本的内容丰富程度。
130.如图4所示,本发明实施例还提供了一种预测模型的训练装置300,所述预测模型的训练装置300包括:
131.获取模块301,用于获取预设的第一文本语料;
132.提取模块302,用于对所述第一文本语料进行特征提取,得到所述第一文本语料对应的n个第一词向量序列和所述n个第一词向量序列对应的第一符号序列;
133.更新模块303,用于基于预设的目标参数更新m个第一词向量序列得到m个第二词向量,并更新所述第一符号序列得到目标符号序列;
134.确定模块304,用于将所述目标符号序列、所述m个第二词向量序列和n-m个第一词向量序列,确定为训练数据;
135.训练模块305,用于将所述训练数据输入至待训练的预测模型中进行迭代训练,得到目标预测模型。
136.可选地,所述更新模块303,具体用于:
137.基于预设的目标参数,对所述m个第一词向量序列执行目标操作,得到m个第二词向量序列。
138.可选地,所述更新模块303,还具体用于:
139.在第一参数用于表征执行第一操作的情况下,根据所述第一参数,删除所述m个第一词向量序列中与所述第一参数关联的第一词向量序列中的i个词向量;
140.在第二参数用于表征执行第二操作的情况下,根据所述第二参数,在所述m个第一词向量序列中与所述第二参数相关联的第一词向量序列中添加k个第一预设词向量;
141.在第三参数用于表征执行第三操作的情况下,根据所述第三参数,将所述m个第一词向量序列中与所述第三参数关联的第一词向量序列中的l个词向量替换为l个第二预设词向量。
142.可选地,所述预测模型的训练装置300,还包括:
143.第一处理模块,用于对于所述m个第二词向量序列中的任一第二词向量序列,在所述第二词向量序列的序列长度小于对应的第一词向量序列的序列长度的情况下,对所述第二词向量序列进行词向量填充;
144.第二处理模块,用于在第二词向量序列的序列长度大于对应的第一词向量序列的序列长度的情况下,对所述第二词向量序列进行词向量截断。
145.可选地,所述更新模块303,还包括:
146.基于所述m个第一词向量序列中更新的至少部分词向量,对所述第一符号序列进行更新,得到目标符号序列。
147.可选地,所述训练模块305,具体用于:
148.将训练数据输入至待训练的预测模型中进行迭代训练;
149.在所述预测模型的迭代参数表征的数值等于预设阈值的情况下,将所述预测模型确定为目标预测模型。
150.本技术实施例中,获取预设的第一文本语料;对第一文本语料进行特征提取,得到第一文本语料对应的n个第一词向量序列和n个第一词向量序列对应的第一符号序列;基于预设的目标参数更新m个第一词向量序列得到m个第二词向量,并更新第一符号序列得到目标符号序列;将目标符号序列,m个第二词向量序列和n-m个第一词向量序列,确定为训练数据;将训练数据输入至待训练的预测模型中进行迭代训练,得到目标预测模型。本发明实施例中,基于预设的目标参数对m个第一词向量序列进行更新,以此模拟第一文本语料在语音转录过程中可能存在的误差,调整预测模型的训练数据,进而提高训练数据的真实性,并使用该训练数据对预测模型进行训练,提高预测模型输出的结果的准确性。
151.如图5所示,本发明实施例还提供了一种文本处理装置400,所述文本处理装置400包括:
152.获取模块401,用于获取第二文本语料;
153.提取模块402,用于对所述第二文本语料进行特征提取,得到所述第二文本语料对应的第二词向量序列集合;
154.处理模块403,用于将所述第二词向量序列集合输入至目标预测模型,得到目标文本。
155.本发明实施例中,获取第二文本语料;对第二文本语料进行特征提取,得到第二文本语料对应的第二词向量序列集合;将第二词向量序列集合输入至目标预测模型,得到目标文本。本发明实施例中,通过将对第二文本语料进行特征提取得到的第二词向量序列集合输入至目标预测模型,得到包括标点符号的目标文本,以使得用户对文本所表征的信息有更深一步的了解,提高目标文本的内容丰富程度。
156.本发明实施例还提供了一种电子设备,如图6所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器505通过通信总线504完成相互间的通信。
157.其中,存储器505,用于存放计算机程序;
158.处理器501,用于执行存储器505上所存放的程序时,所述计算机程序被所述处理器501执行时,用于获取预设的第一文本语料;
159.对所述第一文本语料进行特征提取,得到所述第一文本语料对应的n个第一词向量序列和所述n个第一词向量序列对应的第一符号序列;
160.基于预设的目标参数更新m个第一词向量序列得到m个第二词向量,并更新所述第一符号序列得到目标符号序列;
161.将所述目标符号序列、所述m个第二词向量序列和n-m个第一词向量序列,确定为训练数据;
162.将所述训练数据输入至待训练的预测模型中进行迭代训练,得到目标预测模型。
163.所述计算机程序被所述处理器501执行时,还用于基于预设的目标参数,对所述m个第一词向量序列执行目标操作,得到m个第二词向量序列。
164.所述计算机程序被所述处理器501执行时,还用于在第一参数用于表征执行第一操作的情况下,根据所述第一参数,删除所述m个第一词向量序列中与所述第一参数关联的
第一词向量序列中的i个词向量;
165.在第二参数用于表征执行第二操作的情况下,根据所述第二参数,在所述m个第一词向量序列中与所述第二参数相关联的第一词向量序列中添加k个第一预设词向量;
166.在第三参数用于表征执行第三操作的情况下,根据所述第三参数,将所述m个第一词向量序列中与所述第三参数关联的第一词向量序列中的l个词向量替换为l个第二预设词向量。
167.所述计算机程序被所述处理器501执行时,还用于对于所述m个第二词向量序列中的任一第二词向量序列,在所述第二词向量序列的序列长度小于对应的第一词向量序列的序列长度的情况下,对所述第二词向量序列进行词向量填充;
168.在第二词向量序列的序列长度大于对应的第一词向量序列的序列长度的情况下,对所述第二词向量序列进行词向量截断。
169.所述计算机程序被所述处理器501执行时,还用于基于所述m个第一词向量序列中更新的至少部分词向量,对所述第一符号序列进行更新,得到目标符号序列。
170.所述计算机程序被所述处理器501执行时,还用于将训练数据输入至待训练的预测模型中进行迭代训练;
171.在所述预测模型的迭代参数表征的数值等于预设阈值的情况下,将所述预测模型确定为目标预测模型。
172.本技术实施例中,获取预设的第一文本语料;对第一文本语料进行特征提取,得到第一文本语料对应的n个第一词向量序列和n个第一词向量序列对应的第一符号序列;基于预设的目标参数更新m个第一词向量序列得到m个第二词向量,并更新第一符号序列得到目标符号序列;将目标符号序列,m个第二词向量序列和n-m个第一词向量序列,确定为训练数据;将训练数据输入至待训练的预测模型中进行迭代训练,得到目标预测模型。本发明实施例中,基于预设的目标参数对m个第一词向量序列进行更新,以此模拟第一文本语料在语音转录过程中可能存在的误差,调整预测模型的训练数据,进而提高训练数据的真实性,并使用该训练数据对预测模型进行训练,提高预测模型输出的结果的准确性。
173.所述计算机程序被所述处理器501执行时,还用于获取第二文本语料;
174.对所述第二文本语料进行特征提取,得到所述第二文本语料对应的第二词向量序列集合;
175.将所述第二词向量序列集合输入至目标预测模型,得到目标文本。
176.本发明实施例中,获取第二文本语料;对第二文本语料进行特征提取,得到第二文本语料对应的第二词向量序列集合;将第二词向量序列集合输入至目标预测模型,得到目标文本。本发明实施例中,通过将对第二文本语料进行特征提取得到的第二词向量序列集合输入至目标预测模型,得到包括标点符号的目标文本,以使得用户对文本所表征的信息有更深一步的了解,提高目标文本的内容丰富程度。
177.上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
178.通信接口用于上述终端与其他设备之间的通信。
179.存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
180.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
181.在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一实施例所述的预测模型的训练方法,或者执行上述实施例中任一实施例所述的文本处理方法。
182.在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一实施例所述的预测模型的训练方法,或者执行上述实施例中任一实施例所述的文本处理方法。
183.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
184.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
185.本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
186.以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在
本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1