同声传译模型的训练方法、同声传译方法、设备和存储介质与流程

文档序号:29611306发布日期:2022-04-13 09:04阅读:172来源:国知局
同声传译模型的训练方法、同声传译方法、设备和存储介质与流程

1.本技术涉同声传译以及人工智能技术领域,尤其涉及一种同声传译模型的训练方法、调用方法、设备和存储介质。


背景技术:

2.同声传译,简称“同传”,又称“同声翻译”、“同步口译”,是指译员在不打断讲话者讲话的情况下,不间断地将内容口译给听众的一种翻译方式,同声传译员通过专用的设备提供即时的翻译,这种方式适用于大型的研讨会和国际会议,通常情况下会由两名到三名译员轮换进行,以实现同传。
3.而随着同传需求的不断扩大,同传技术成本的不断提升,越来越多的场景下,需要人工智能的同传系统去代替人力,这样不仅可以节省人力成本,更加可以实现同传的智能化。因此,越来越多的基于各种人工智能技术的同传系统也慢慢出现在市场上。
4.目前市面上所存在的同传系统,在实现同传时通常是将整个同传任务分解,如分解成语音识别、机器翻译和文字转语音,再比如语音识别和机器翻译,然而实践证明,由于在实际应用场景下的各种噪音以及演讲者的很多不规范发音,使得这样系统会存在一定的同传误差,使得最终的效果并不理想。


技术实现要素:

5.本技术实施例的主要目的在于提出一种同声传译模型的训练方法、调用方法、设备和存储介质,旨在实现提高同声传译模型的使用效果,以及提高了同声传译模型的鲁棒性。
6.为实现上述目的,本技术实施例提供了一种同声传译模型的训练方法,所述方法包括以下步骤:加载待训练的同声传译模型,并获取进行训练的初始数据,以根据所述初始数据对所述同声传译模型进行训练得到基础模型;接收模型微调语料,并基于所述模型微调语料对所述基础模型进行微调,以得到训练好的同声传译模型。
7.为实现上述目的,本技术实施例提供了一种同声传译方法,所述方法包括以下步骤:接收输入的语音信息,并加载训练好的同声传译模型,其中所述同声传译模型基于上述所描述的同声传译模型的训练方法所得到;将所述语音信息输入至所述训练好的同声传译模型中,以将输出得到的文本信息展示在相应的展示框内。
8.为实现上述目的,本技术实施例还提出了一种计算机设备,所述设备包括存储器以及处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如前述所述的同声传译模型的训练方法和/或同声传译方法的步骤。
9.为实现上述目的,本技术提供了一种存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述所述的同声传译模型的训练方法和/或同声传译方法的步骤。
10.本技术提出的同声传译模型的训练方法、同声传译方法、设备以及存储介质中,在对同声传译模型进行训练时,首先获取进行预训练的初始数据,以根据初始数据对待训练的同声传译模型进行训练,以得到相应的基础模型,而对于基础模型而言,可以实现同声传译,只是对并没有进行定制化,而是一个可以适用于所用场景的同声传译模型,而为了挺高同声传译的准确性和效率,在得到基础模型之后,将会对基础模型进行微调,通过接收微调语料,进而根据所得到的微调语料对基础模型进行定向微调,以得到最终所训练好的同声传译模型。实现了在对同声传译模型进行训练时,通过定向的微调,使得所得到的同声传译模型可以在特定的场景下具有更好的使用效果,同时微调的二次训练也更好的提高了模型的鲁棒性。
附图说明
11.为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
12.图1为本技术一实施例提供的一种同声传译模型的训练方法的流程示意图;
13.图2为本技术一实施例提供的训练得到基础模型的步骤的流程示意图;
14.图3为本技术一实施例提供的学习率变化趋势的曲线示意图;
15.图4为本技术一实施例提供的根据训练样本得到基础模型的步骤的流程示意图;
16.图5为本技术一实施提供的进行验证以得到基础模型的步骤的流程示意图;
17.图6为本技术一实施例提供的对基础模型进行微调的步骤的流程示意图;
18.图7为本技术一实施例提供的模型训练过程的流程框图示意图;
19.图8为本技术一实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
20.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
21.附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或分合并,因此实际执行的顺序有可能根据实际情况改变。
22.如图1所示,图1为本技术一实施例提供的一种同声传译模型的训练方法的流程示意图,该方法包括以下步骤:
23.步骤s101、加载待训练的同声传译模型,并获取进行训练的初始数据,以根据所述初始数据对所述同声传译模型进行训练得到基础模型。
24.对于实现同声传译功能的系统或者设备而言,需要具备有进行同声传译的装置,进而在相关的演讲者进行演讲或者讲话的时候,可以快速准确的将演讲者的话语进行同声传译,以展示在相应的显示界面上。
25.在实际应用中,对于同声传译的使用场景而言,一般是在进行远程直播或者播放
的情况下,对于进行观看的人员,并不一定能够很好的理解演讲者所说的话,比如演讲者在使用中文演讲时,对于不懂中文的外国人是听不懂的,那么需要进行同声传译,以对演讲者的话语进行翻译,并在进行转播的界面上显示进行翻译后的的英文内容,因此需要有着能更加准确的实现同声传译的设备。
26.在一实施例中,在检测到模型训练指令时,进行模型训练的设备或者服务器或加载需要进行训练的待训练的同声传译模型,同时还将获取进行训练的初始数据,进而利用所得到的初始数据对待训练的同声传译模型进行训练。模型训练指令用于触发对应的模型训练功能,以使得设备或者服务器可以训练相应的同声传译模型,其中,模型训练指令可以是用户进行相应的操作而触发的,也可以服务器自动触发的,在此不做具体限制。
27.需要说明的是,所加载的待训练的同声传译模型是基于transformer网络架构所生成的。
28.在实际的同声传译的场景中,通常伴随着语音信息以及文本信息的同时展示,演讲者直接的语音信息的输出,伴随着在显示界面上文本信息的输出,而文本信息的获取是基于所训练好的同声传译模型所得到的,在演讲者输出语音信息时,通过将语音信息输入至训练好的同声传译模型中,以输出得到此时所对应的进行展示的文本信息。
29.在根据所得到接收到的初始数据对待训练的同声传译模型进行训练时,将会在训练之后得到相应的基础模型,对于此时所得到的基础模型而言,本身可以直接被应用于进行同声传译,但是由于并没有对基础模型进行进一步的优化,使得基础模型在进行同声传译时,可能会存在效果不够好的情况,比如传译的不准确或者传译效率低等。因此,在一般情况下,在得到基础模型之后,并不会直接将基础模型进行使用,而是会进行进一步的模型优化,以使得最终优化后的模型具有更好的效果。
30.参照图2,图2为本技术一实施例提供的训练得到基础模型的步骤的流程示意图。
31.在一实施例中,在加载了待训练的同声传译模型,以及获取进行训练的初始数据之后,将会对所加载的待训练的同声传译模型进行训练。因此,如图2所示,对待训练的同声传译模型进行训练的步骤包括步骤s201至步骤s204。
32.步骤s201、获取携带有文本信息的视频数据,并对所述视频数据进行音频提取得到音频信息。
33.在利用初始数据对待训练的同声传译模型进行训练时,将会对初始数据进行相应的预处理,进而利用预处理后的数据对待训练的同声传译模型进行训练。在实际应用中,对于所输入的进行训练的初始数据而言,是同声传译的相关数据,如各同声传译场景下的视频数据,且视频数据中包含有相应的文本信息,其中音频数据为演讲者所输入的数据,文本信息是进行展示的数据,比如展示在显示界面上的文字信息。
34.因此,在接收输入的携带有文本信息的视频数据时,将会对视频数据进行音频提取,以得到视频数据所对应的音频信息。同时,所携带的文本信息是与音频信息相对应的,而具体的对应关系可以根据时间戳来确定。
35.在实际应用中,对于进行训练的初始数据,通常是含有目标语言字幕源语言语音的视频数据,目标语言为演讲者所使用的语言,如中文或者英文等,目标语言字幕即为在显示界面上所显示的文本信息,比如一个中文或者英文语句,而在大多数的情况下,都是演讲者使用语言1进行演讲,而在相应的显示界面上则需要使用语言2进行文本展示,比如使用
中文演讲的同时在显示界面上显示所演讲的内容所对应的英文文字,源语言语音即为音频信息,也就是对于初始数据而言,包含有数据所有的信息,以便于利用初始数据进行模型的训练。
36.需要说明的是,对于初始数据而言,其数据量级为gb级别,通常情况下,为了保证训练样本的充足以及训练的准确,可以将初始数据的数据量设置为10gb或者20gb。同时,对于视频信息中所包含的音频信息和文本信息,可以是基于同一语种所得到的,比如中文演讲同时中文展示,还可以是基于两种不同的语种所得到的,比如中文演讲同时英文展示。
37.在接收到视频信息之后,对视频信息进行音频提取,以得到视频数据中所包含的音频信息,而音频信息即为在进行同声传译时演讲者所输入的语音信息,同时视频信息中还包含有文本信息,也就是传译之后语音信息所对应的文本信息,同时语音信息与文本信息之间存在有关联对应关系,进而利用所得到的音频信息和所携带的文本信息实现对待训练的同声传译模型的训练,而无需进行语音转化等操作。
38.步骤s202、根据所述文本信息对所述音频信息进行时间校准和关联,以得到所述文本新与所述音频信息关联的训练样本。
39.在对视频数据中所包含的音频信息进行提取之后,由于对于视频数据而言,音频信息是与所携带的文本信息之间存在有相应的对应关系的,但是在进行音频信息的提取时,对于音频信息与文本信息之间的对应关系是并未提取的,因此在完成对音频信息的提取之后,将会重新建立音频信息与文本信息之间的关联关系。
40.对于文本信息而言,在得到文本信息时也需要对文本信息进行相应的处理,以将文本信息中的无用信息进行剔除和清洗,而在对文本信息进行处理时,包括标点归一、全角半角归一、除杂等操作,同时还将对文本信息利用亚词技术进行分词等,而在进行分词时,还可以建立相应的亚词词表,其中亚词的思想是用较小的亚词组合形式来表示出现次数少,结构复杂的词,实现缩短词表,优化oov(out-of-word)问题。
41.亚词词表形式如下表1:
42.表1
43.亚词词频c@@352824account351725groups351454framework351102capac@@20984rever@@20983......
44.由表1可以看出,词表中含有“@”字符,表示该词为“亚词”即对于一个3个字母的单词,第一个为c,后面两个可以为任意字母,比如caa和cdd同样属于c@@,词表的顺序自上而下由词频决定。
45.示例性的,对于视频数据而言,每播放一天音频信息便会在显示界面上显示一条相对应的文本信息,因此在对视频数据进行音频信息的提取之后,将会根据文本信息对音频信息进行时间校准,以得到对待训练的同声传译模型进行训练的训练样本。
46.另外,在提取得到音频信息之后,将会将音频信息与文本信息进行对齐,因此需要获取进行对齐的参考信息,而在一实施例中,在进行对齐时是根据时间戳来实现的,因此在提取音频信息时,将对音频信息所包含的时间戳信息进行提取,以得到包含有时间戳的音频信息。
47.因此,在进行时间校准时,是利用文本信息所包含的时间戳建立与所提取的音频信息之间的对应关系,通过文本信息与音频信息所包含的时间戳,将相同时间戳所对应的文本信息和音频信息进行关联对齐,如时间戳相同,即说明两者是对齐关联的。进而将关联后的文本信息和音频信息作为一个训练样本,通过对所有音频信息与文本信息进行对齐,以得到最终进行模型训练的训练样本。
48.步骤s203、接收基础参数,并基于所述基础参数对所述待训练的同声传译模型进行参数设定。
49.对于所进行训练的待训练的同声传译模型,在训练之前需要进行相应的基础参数的设定,以使得模型训练能够更好的完成,因此,在完成训练样本的生成获取时,还会接收输入的基础参数,进而根据所输入的基础参数对待训练的同声传译模型进行参数设定,最后利用所得到的训练样本对完成参数设定之后的模型进行训练。
50.由上述描述可知,所加载的待训练的同声传译模型是基于transformer网络架构所得到的,因此在进行基础参数的设定时,所设定的基础参数包括:encoder层数、decoder层数、隐藏层神经元个数、learning rate(学习率)、batch size以及decoder长度等,在训练之前通过对各基础参数进行设定,可以更加快速准确的完成对模型的训练。
51.在实际应用中,对于基础参数的设定可以根据实际的需求进行设定,一般情况下,在进行基础参数的设定时,具体的设置方式可以如下表2所示:
52.表2
53.参数名称参数值encoder层数6层decoder层数6层隐藏层神经元个数512muti-head attention多头数8learning rate带warm_up的衰减学习率batch size固定词数4096decoder长度256
54.在实际应用中,对于encoder层数和decoder层数,通常可以所设置的数量为6至10层,对于隐藏层神经元个数,通常可以设定的范围为512至1024,而在考虑实际的训练成本以及训练的效率和准确性,将其可以设置为如表2中所记录的数据。
55.对于所设置的参数,learning rate学习率设置为带warm_up的衰减学习率,warm_up是一种学习率预热的方法,使用warm_up_lr的更新方法,具体更新方式如下公式所示:
[0056][0057]
其中,hidden_size为隐藏层神经元节点个数,是一个常量;warm_up_steps为一个
所设置的常量,且通常设置为10000;step为训练的训练步数。
[0058]
由于该公式中只有训练步数step为变量,训练过程中使用warm_up_lr作为学习率,每经过一个step就改变warm_up_lr的值,并使用新的warm_up_lr进行下一步的训练,而在step达到设定的warm_up_steps值时,学习率开始平滑衰减。其中,具体地的变化趋势如图3所示。
[0059]
步骤s204、根据所述训练样本对完成参数设定后的所述待训练的同声传译模型进行训练,以得到基础模型。
[0060]
在完成对待训练的同声传译模型的参数设定之后,将会根据预先所得到的训练样本对完成参数设置之后的带训俩的同声传译模型中进行训练,进而通过训练得到基础模型。
[0061]
其中,基础模型是基于初始数据训练所得到的,在实际使用过程中,基础模型也是可以作为训练好的同声传译模型所被使用的,只是可能会存在效果不佳的问题。因此,在一实施例中,并非直接将所得到的基础模型作为最终训练好的同声传译模型所被使用,而在在得到基础模型之后,还需要进行对基础模型进行进一步的调整和训练,以使得最终所得到的模型满足实际的应用需求。
[0062]
在一实施例中,在将所得到的训练样本输入到完成参数设定到的待训练的同声传译模型中时,通过训练样本完成对同声传译模型的训练,而在进行训练过程中,在训练达到一定的程度时,将会得到当前训练所得到的基础模型。
[0063]
而在进行模型训练时,是对模型的不断调整,如模型的某些训练参数,随着训练的不断进行,模型中的训练参数会不断的进行优化和调节,使得模型最终趋于一个合理的状态。通常情况下,在模型训练时,会在模型出现收敛时确定模型训练完成,而在实际应用过程中,对于模型是否收敛的判断方式有很多种,比如在模型训练的次数达到预先所设定的次数时确定模型收敛,再比如在模型中的某一或者某些特定参数满足预设条件时确定模型收敛,还比如模型在基于训练集和验证集进行输出时模型的损失值满足预设条件时确定模型收敛。由于确定模型收敛的方式有很多,选择合适的方式即可,因此对模型收敛的判断方式不做限制。
[0064]
示例性的,在利用训练样本对完成基础参数的设定之后的待训练的同声传译模型进行训练,以得到基础模型时,可以利用最小风险训练的思想实现基础模型的获取。而在确定什么时候完成当前的训练时,实际上还是依据损失函数来计算当前所对应的损失值的方式来确定。
[0065]
参照图4,图4为本技术一实施例提供的根据训练样本得到基础模型的步骤的流程示意图。
[0066]
在根据对初始数据进行处理得到训练样本之后,将会根据训练样本对完成参数的设置之后的待训练的同声传译模型进行训练,在实际的模型训练过程中,通过训练和测试完成最终模型的获取,因此,步骤s204包括步骤s401至步骤s403。
[0067]
步骤s401、在所述训练样本中获取训练集样本,以将所述训练集样本输入至完成参数设定后的所述待训练的同声传译模型中。
[0068]
在得到训练样本时,首先对训练样本进行相应的划分,比如将训练样本划分为训练集样本、验证集样本以及测试集样本,而对于不同的样本类型,在模型训练过程中的使用
也会有所不同,如训练集样本是用来对需要进行训练的模型进行训练时所使用的样本,而验证集样本和测试集样本则是使用对训练之后的模型进行验证和测试时所使用的样本,因此对于不同类型的样本,其所对应的样本数量会有所不同,而通常情况下,训练集样本的样本数量会远远高于验证集样本和测试集样本的样本数量,比如训练集样本与验证集样本和测试集样本的样本数量的比值为9:0.5:0.5,在没有测试集时,训练集样本与验证集样本的样本数量的比值为9:1。
[0069]
在一实施例中,在对完成参数设定后的待训练的同声传译模型进行训练时,在训练样本中获取训练集样本,以将训练集样本输入至此时所需要进行训练的模型中,即完成参数设定后的同声传译模型中,通过不断的训练使得模型的模型参数不断的进行自我调节,以使得可以得到满足需求的模型。
[0070]
示例性的,模型的训练是一个不断的自我调节的过程,通过对模型参数的不断调整,使得模型可以适合于所有的用于进行训练的样本数据,对应进行训练的样本数据而言,本身会具有一定的数据标识或者标签,比如数据a对应着标签a,数据b对应着标签b,通过一个个进行训练的样本数据的输入,一次次的进行模型参数的调节,使得最终所得到的模型可以在输入数据a时可以输出标签a,并且在输入数据b时可以输出标签b,同样的,在进行训练的数据更多时,可以实现对更多数据的标签的输出。
[0071]
步骤s402、在所述训练样本中获取验证集样本,并确定训练后的同声传译模型是否收敛。
[0072]
对于训练样本而言,可以按照一定的比例将其划分为不同类别的样本,用于实现不同的作用,如上述描述一般。因此,在根据训练样本中的训练集样本对同声传译模型进行训练时,对训练样本中的验证集样本进行获取,另外,在对同声传译模型进行训练时,训练过程并不是无止境的进行的,因此,在训练过程中需要确定训练所得到的同声传译模型是否收敛,而在确定模型收敛时确定当前训练完成,而在确定模型未收敛时确定还需要继续进行训练。
[0073]
在一实施例中,在确定训练后的同声传译模型是否收敛时,利用最小风险训练的思想来判断,对于最小风险训练,是使用损失函数来描述标准与模型之间的差异程度,以试图寻找一组参数使得模型的损失的期望值(即风险)最小,即通过模型的损失的期望值来确定模型是否收敛。
[0074]
假如,模型输入为x(n),标准为y(n),模型的预测输出为y,对应的损失的期望值(风险)为:
[0075][0076]
其中,y(x
(n)
)表示x
(n)
对应的所有可能的输出集合。
[0077]
在一个最小风险案例中,如下表2所示,假定对于输入x
(n)
,输出y(x
(n)
)包括y1,y2,y3。对于每个候选输出都可以计算与标准答案的损失,这个例子里,三个候选的损失分别是-1.0、-0.3和-0.5。也就是说,标准答案认为y1最好,y3次之,y2最差。而最小风险训练的目标是找到一组模型参数,使得损失的期望值最小。在表3中给出了四组概率分布:
[0078]
表3
[0079][0080]
第一组概率分布认为y2>y3>y1,这与标准答案相违背,因此得出很高的风险值-0.50。
[0081]
第二组概率分布认为y3>y1>y2,相对于第一组概率分布而言,提高了与标准答案的相关度,因而获得了比第一组更低的风险值-0.61。
[0082]
第三组概率分布与标准答案一致的排序y1>y3>y2,因而将风险值进一步降低为-0.71。
[0083]
第四组概率分布在保证排序一致的情况下,同时提高了最优输出y1的概率,从而将风险值降为-0.83。
[0084]
由此可以看出,最小风险训练认为一组好的参数应当尽可能在对所有候选元素的排序上与标准答案一致,而损失函数则定义了排序的计算方法。
[0085]
而在确定模型是否收敛时,可以通过当前训练所得到的模型所对应的损失的期望值来确定,比如设定一个期望值阈值a,通过将当前训练所得到的模型所对应的损失的期望值x与期望值阈值a进行比较,在x小于或者等于a时确定此时所得到的模型收敛,反之则不收敛。
[0086]
步骤s403、当确定训练后的同声传译模型收敛时,根据所述验证集样本对所述训练后的同声传译模型进行验证,并在验证通过时得到基础模型。
[0087]
在确定训练后的同声传译模型收敛时,确定当前阶段的模型训练完成,此时将会根据预先所得到的验证集样本对此时训练所得到的同声传译模型进行进一步的验证,并且在确定验证通过时,得到当前训练后所对应的基础模型。
[0088]
通常情况下,在进行模型的验证时,是来确定此时所进行验证的模型是否可以准确的完成数据的输出,因此在进行验证时,使用相应的验证数据对需要进行验证的模型进行验证。示例性的,在得到根据训练集样本训练之后的同声传译模型之后,利用验证集样本对所得到的模型进行训练,以对训练所得到的同声传译模型进行验证。
[0089]
参照图5,图5为本技术一实施提供的进行验证以得到基础模型的步骤的流程示意图;其中,步骤s403包括步骤s501至步骤s503。
[0090]
步骤s501、当确定训练后的同声传译模型收敛时,获取基于所述训练集样本进行训练时处于收敛状态时的若干同声传译模型所对应的若干组模型参数;
[0091]
步骤s502将所述验证集样本输入至训练后的同声传译模型中,并记录所述验证集样本对应的bleu值,以根据所述bleu值确定所述训练后的同声传译模型是否稳定;
[0092]
步骤s503、当确定所述训练后的同声传译模型稳定时,对所述若干组模型参数进行权重融合,以根据权重融合后的模型参数得到基础模型。
[0093]
在确定训练后的同声传译模型收敛时,说明当前阶段完成模型的训练,但是并不一定确定此时所得到的模型是满足实际的使用需求的,因此,在确认收敛时对所此时所得到的同声传译模型进行验证。
[0094]
在一实施例中,在确定训练后的同声传译模型收敛时,获取若干组模型参数,其中所获取的若干组模型参数是在模型收敛之后的一段时间内若干模型所对应的模型参数,比如在确定模型收敛时,依旧对模型训练10次,然后获取10次训练所得到的模型分别对应的模型参数,以汇总得到当前所得到的若干模型参数,同时在进行验证时,将验证集样本输入到训练后的同声传译模型中,并基于验证集样本所对应的bleu值,进而根据所得到的bleu值确定模型是否稳定,最后在确定模型稳定时根据预先所获取的若干组模型参数进行权重融合,进而根据权重融合之后的模型参数得到基础模型。
[0095]
bleu的全名为:bilingual evaluation understudy,即:双语互译质量评估辅助工具。它是用来评估机器翻译质量的工具。在同声传译时,会存在有需要进行翻译的过程,而bleu值可以很好的对翻译质量进行判定。在整个模型的训练的过程中,除了需要考虑语言表达的准确定,还需要可以准确的实现对语句的翻译,通过模型收敛使得模型具有更好的语言表达能力,在确定模型具有较好的语言表达能力之后,将对模型的翻译能力进行优化,以使得最终所得到的同声传译模型在具有较好的语言表达能力的同时,还具有更好的翻译能力。
[0096]
在最终得到基础模型时,是根据处于稳定周期内的若干模型所对应的模型参数所得到的,而并不是直接将第一个稳定的模型作为基础模型。对于一个模型而言,通过对模型所包含的参数进行训练和调整,使得所得到的模型满足实际的应用需求,而在得到基础模型时,将收敛且处于稳定状态的若干模型的模型参数进行权重融合,以得到基础模型所对应的模型参数。而在进行权重融合时具体方式不做限制,比如可以对模型参数计算平均值,以将所得到的每个模型参数的平均值作为基础模型的模型参数。
[0097]
步骤s102、接收模型微调语料,并基于所述模型微调语料对所述基础模型进行微调,以得到训练好的同声传译模型。
[0098]
在完成对待训练的同声传译模型的预训练,以得到基础模型之后,由于基础模型依旧会存在一定的问题,比如同声传译的不准确或者效率不高的问题,因此在得到基础模型之后,需要对基础模型进行进一步的处理,如模型的进一步调整,以使得最终所得到的模型能够更好的实现同声传译。
[0099]
在实际应用中,对于同声传译所使用的场景来说会有一定的局限性,且场景一般是会有限制的,或者说所使用的场景是有限的,同时一般情况下并不是所有的人都会使用到相关的设备,而更有可能使用到同声传译的人员可能是新闻发言人或者国家领导人,比如在新闻发布会上,对于新闻发布会中的发言人的说话内容需要实时的进行翻译并显示在电视界面上,再比如国家领导人在会见外国领导人时,在进行直播时同样需要进行翻译和展示。因此,对于同声传译模型而言,可以根据不同的场景和不同的人员进行相应的微调,以使得最终所得到的同声传译模型能够更好的实现翻译表达。
[0100]
在一实施例中,为了使得训练之后的同声传译模型具有更好的同传效果,在得到基础模型之后,将会接收输入的模型微调语料,然后根据所接收到的模型微调语料对预训练后的基础模型进行训练微调,最终以得到训练好的同声传译模型。
[0101]
在对基础模型进行微调时,可以根据不同的需求进行若干次的微调,其中进行微调的次数不限,根据实际的需求所确定。
[0102]
示例性的,在对基础模型进行微调时,可以依据不同的场景对基础模型进行微调,
还可以依据不同的人对基础模型进行微调,也可以依据场景和个人对基础模型进行训练,也就是在对基础模型进行训练时,可以依据一个条件进行微调,还可以根据若干不同的条件组合进行微调。通过不同条件的设定以对基础模型进行微调,以使得最终所得到的模型能够更好的完成同传。
[0103]
参照图6,图6为本技术一实施例提供的对基础模型进行微调的步骤的流程示意图。
[0104]
在对基础模型进行微调时,是根据不同的需求进行定制化的微调,以使得最终所得到的模型具有更好的使用效果。因此,在对基础模型进行微调时,并不局限于下述所提及的基于第一微调语料和第二微调语料对基础模型进行两次微调,在实际应用中,对基础模型的微调的次数不做限制,同样对于进行微调的方向也不做限制。
[0105]
在一实施例中,在对基础模型进行微调时,步骤s102包括步骤s601至步骤s602。
[0106]
步骤s601、接收模型微调语料,并对所述模型微调语料进行预处理,以得到模型微调样本;
[0107]
步骤s602、将所述模型微调样本输入至所述基础模型中进行训练,并在确定训练后的基础模型收敛时,得到训练好的同声传译模型。
[0108]
在得到基础模型之后,将会根据实际的应用需求对基础模型进行定制化的微调,以使得微调之后的基础模型能更好的满足实际需求。因此,在接收到模型微调语料时,对模型微调语料进行预处理,以得到模型微调样本,然后将所得到的模型微调样本输入至预先所得到的基础模型中,以对基础模型进行训练,进而在训练过程中确定训练后的模型收敛时得到训练好的同声传译模型。
[0109]
在一实施例中,在接收到对基础模型进行微调的模型微调语料时,首先对模型微调语料进行相应的预处理,以使得预处理后所得到的数据可以用于进行模型的训练。需要说明的是,模型微调语料可以包含有若干组不同的语料,以针对不同的微调方向进行微调。
[0110]
在对模型微调语料进行预处理时,是将模型微调语料中的无用信息进行剔除,以使得进行训练时没有无用信息对模型训练进行干扰,因此在对模型微调语料进行预处理时,包括:提取所述模型微调语料所对应的音频信息和文本信息,以基于所述音频信息和文本信息得到模型微调样本。示例性的,在对模型微调语料进行预处理时,通过提取语音特征以得到音频信息,其中,最常用到的语音特征就是梅尔倒谱系数(mel-scale frequency cepstral coefficients,简称mfcc),同时通过对模型微调语料中的文本数据进行清洗和除杂,以得到不包含有无用信息的文本信息,进而通过音频信息和文本信息所对应的时间戳进行信息对齐,以得到对基础模型进行训练的模型微调样本。
[0111]
在得到进行训练微调的模型微调样本之后,将模型微调样本输入至基础模型中,以对基础模型进行训练和微调,并在确定训练和微调之后的基础模型收敛时,将此时所得到的收敛的基础模型输出为训练好的同声传译模型。
[0112]
在确定训练后的基础模型是否收敛时,可以通过获取训练后的基础模型所输出的bleu值来确定,比如在所得到的bleu值大于预设的阈值时确定收敛,反之则确定不收敛,而在不收敛时,将会继续利用模型微调样本对基础模型进行训练,直至最终所得到的模型收敛。
[0113]
示例性的,在利用模型微调样本对基础模型进行训练时,包括:将所述模型微调样
本中的第一模型微调样本输入至所述基础模型中,并在确定基于所述第一模型微调样本训练后的基础模型收敛时,得到中间模型;将所述模型微调样本中的第二微模型调样本输入至所述中间模型中,并在确定基于所述第二模型微调样本训练后的中间模型收敛时,得到训练好的同声传译模型。
[0114]
在实际应用中,对于模型微调语料,可以包含有多个不同类别的语料,用于针对不同的场景或者个人,因此,在对模型微调语料进行预处理得到模型微调样本时,模型微调样本可以包含第一模型微调样本和第二模型微调样本,其中第一模型微调样本和第二模型微调样本仅所包含的语料不同,比如第一微调语料为场景语料,第二微调语料为人物语料,也就是利用不同的场景和不同的人对基础模型进行微调,以使得最终所得到的模型可以更好的符合特定的场景和特定的人。
[0115]
对于人物预料而言,针对于语音信息实现对人物的区分,为了确定人物的唯一性,可以利用人的音色作为第二模型微调样本实现对模型的进一步的微调,使得最中所得到的模型可以更加适合当前所使用的人。
[0116]
在实际训练时,每次训练都需要确定收敛时才会进入下一次的训练,也就是在基础模型根据第一模型微调样本进行训练时,在确定此次训练收敛之后,将会接着根据第二模型微调样本进行第二次的训练和微调,最后在收敛时得到训练好的同声传译模型。
[0117]
示例性的,在基于模型微调样本对基础模型进行训练时,会对基础模型中的基础参数进行相应的调节,比如对所设定的学习率进行调整和修改,如将基础模型的学习率调整为当前学习率的0.5倍,而对于其他的基础参数而言,也可以根据实际的需求进行相应调节,还可以不进行调节,具体根据实际的需求所设定。
[0118]
在实际应用中,在进行定制化的微调时,通常会根据实际的不同场景和不同的人进行定制化的微调,因此模型微调样本包括场景微调样本和人物微调样本,针对于场景而言,结合同声传译的具体应用场景,实际的场景包括会议室场景、室外场景和回音较大场景等,具体可以根据实际的应用场景获取相应的语料信息。
[0119]
示例性的,若第一次微调是针对场景微调,且第二次微调是针对个人微调,在进行第一次微调时,首先获取进行第一次微调的第一模型微调样本,而对于第一模型微调样本具体包括:特定领域含有噪声的语料(如,本同传系统是在室外用,并且该地区风很大,且人流量大,则在第一模型微调样本中加入有风声噪音的数据)、残缺语料以及部分优质样本。
[0120]
其中,残缺语料可以理解为人为做的负样本,增加系统对残缺语料还原的能力,比如对一段正常的语音故意进行漏采样,然后给予正确的标签,训练模型在以后遇到类似的残缺情况的反应能力,也增加了系统整体的稳定性和抗干扰能力,残缺可以通过对语音漏采样、使部分语音重复的方式实现,残缺语料为从通用优质语料中随机选取的语料进行残缺得到。
[0121]
对于这三部分语料,可以按照一定的比例进行混合,如按照1:0.5:1的比例进行混合,其中,残缺语料比例较小,因为根据机器翻译模型经验,适当的残缺数据可以增加模型泛化能力,如果残缺数据太多会影响效果。将混合后的第一模型微调样本整体投入至基础模型中进行训练,同时将学习率调到基础模型收敛完全时所对应的学习率的0.5倍。最后,在训练收敛时得到中间模型,以用于第二次微调进行使用。
[0122]
在进行第二次微调时,同样的,对于第二模型微调样本同样按照得到第一模型微
调样本的方式进行处理。其中,第二模型微调样本包括:待演讲者的历史语音信息、定领域含有噪声的语料以及部分优质样本。而对于这三部分样本,可以按照1:1:1的比例进行混合,进而将进行混合所得到的第二模型微调样本整体投入中间模型中继续训练,同时,学习率可以调到基础模型收敛完全时所用的学习率的0.5倍。
[0123]
在完成对基础模型的模型微调之后,在微调之后的模型满足所设定的条件时,如收敛时,将会输出得到训练好的同声传译模型,进而在后续的使用过程中被调用以及使用。
[0124]
在一实施例中,在完成同声传译模型的训练之后,在使用训练好的同声传译模型时,包括:接收输入的语音信息,并加载训练好的同声传译模型;将所述语音信息输入至所述训练好的同声传译模型中,以得到所述语音信息对应的文本信息。
[0125]
在接收到语音信息时,加载需所训练好的同声传译模型,然后将所接收到的语音信息输入至所加载的同声传译模型中,以输出得到相应的文本信息,最后可以将所输出的文本信息展示在相应的文本展示框内。
[0126]
在实际应用中,对于一个训练好的模型,在被使用的会预先嵌入或者导入至相应的设备或者装置中,以使得用户在使用设备或者装置时实现对训练好的模型的调用。因此,对于预先所训练好的同声传译模型,将会融合到相关的设备中,比如同声传译设备,以使得在使用同声传译设备时可以实现同声传译。由于所训练好的同声传译模型,是基于场景和个人所定向定制训练的,因此在使用时会给特定的人以及特定的场景所使用,比如对于用户1,在室外场景时,将会使用导入了基于用户1和室外场景的相关数据所训练的得到的同声传译模型的设备,再比如对于用户2,在室内场景时,将会使用导入了基于用户2和室内场景的相关数据所训练得到的同声传译模型的设备。
[0127]
在一实施例中,在进行模型的调用时,接收用户输入的语音信息,由于所调用的同声传译模型时已经确定了当前所使用的场景和人,因此在将语音信息输入时,直接可以根据场景和人物实现定制化且准确的同声传译。
[0128]
在一实施例中,在对待训练的同声传译模型进行训练的,整体的训练过程可以如图7所示,图7为本技术一实施例提供的模型训练过程的流程框图示意图。
[0129]
在对待训练的同声传译模型进行续训练时,包括:
[0130]
步骤701、模型预训练;
[0131]
步骤702、模型微调。
[0132]
在进行模型预训练时,首先获取进行模型预训练的初始数据,以对所得到的进行模型训练的初始数据进行预处理,得到进行模型训练的训练数据,进而根据训练数据对待训练的同声传译模型进行预训练,以得到基础模型。而在得到基础模型之后,将会根据实际的需求对基础模型进行微调,以实现对基础模型的定向微调,得到更加优质的同声传译模型。
[0133]
对于所获取的初始数据,包括源语言数据以及目标语言文本数据,在获取了初始数据之后,对语言数据和文本数据进行处理,比如语言数据进行嵌入和文本信息进行bpe分词,进而将数据预处理之后的初始数据作为模型训练的输入,以在训练完成时得到基础模型。
[0134]
对于构建同声传译模型而言,是基于transformer架构进行优化设计所得到的,因此在进行训练时,还需要对模型的基础参数进行相应的设定。
[0135]
在进行模型微调时,通常模型微调的次数是不作限制的,具体根据实际的使用需求所设定。在对基础模型进行微调时,首先获取进行模型微调的微调数据,然后对微调数据进行数据处理,进而进行相应的处理得到进行微调的微调样本,比如通过比例混合得到微调样本,最后根据所得到的微调样本对基础模型进行训练。在微调次数为1时,按照所描述的方式实现模型微调,而在微调次数大于1时,将需要在完成一次微调之后,进而后续的微调,比如进行第二次微调以及第三次微调等。
[0136]
若进行微调的次数为2,在完成第一次微调之后,将会根据基础模型得到中间模型,而在进行第二次微调时,将第二次微调所得到的微调样本输入至中间模型中,以为中间模型的微调输入,实现对中间模型的训练,以在最终微调完成时得到最终的同声传译模型。
[0137]
在上述描述的同声传译模型的训练方法、同声传译方法、设备以及存储介质中,在对同声传译模型进行训练时,首先获取进行预训练的初始数据,以根据初始数据对待训练的同声传译模型进行训练,以得到相应的基础模型,而对于基础模型而言,可以实现同声传译,只是对并没有进行定制化,而是一个可以适用于所用场景的同声传译模型,而为了挺高同声传译的准确性和效率,在得到基础模型之后,将会对基础模型进行微调,通过接收输入的微调语料,进而根据所得到的微调语料对基础模型进行定向微调,以得到最终所训练好的同声传译模型。实现了在对同声传译模型进行训练时,通过定向的微调,使得所得到的同声传译模型可以在特定的场景下具有更好的使用效果,同时微调的二次训练也更好的提高了模型的鲁棒性。
[0138]
参照图8,图8为本技术一实施例提供的一种计算机设备的结构示意性框图。
[0139]
示例性的,该设备可以为平板电脑、笔记本或者台式机等。
[0140]
该设备还包括处理器、存储器,所述存储器用于存储计算机程序。
[0141]
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现本技术实施例提供的任一项同声传译模型的训练方法和/或同声传译方法。
[0142]
应当理解的是,处理器可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0143]
本技术的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,使所述处理器实现本技术实施例提供的任一项同声传译模型的训练方法和/或同声传译方法。
[0144]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机可读存储介质
(或非暂时性介质)和通信介质(或暂时性介质)。
[0145]
如本领域普通技术人员公知的,术语计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机可读存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0146]
示例性的,所述计算机可读存储介质可以是前述实施例所述的电子设备的内部存储单元,例如所述电子设备的硬盘或内存。所述计算机可读存储介质也可以是所述电子设备的外部存储设备,例如所述电子设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。
[0147]
前述各实施例提供的电子设备和计算机可读存储介质,通过在用户输入信息时,在显示屏上不同的显示区域显示至少两个虚拟键盘,使得可以通过至少两个虚拟键盘输入信息;提高恶意软件通过监听传感器的状态推测输入信息的难度,增强了信息输入的安全性。
[0148]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1