多模态语音分离方法、训练方法及相关装置与流程

文档序号:32993498发布日期:2023-01-17 23:51阅读:36来源:国知局
多模态语音分离方法、训练方法及相关装置与流程

1.本技术涉及语音识别技术领域,特别是涉及一种多模态语音分离方法、训练方法及相关装置。


背景技术:

2.随着人机交互方式的不断发展,从传统的触控交互,到语音交互,再到现在的多模态人机交互,其所带来的高效、便捷、舒适、安全等特点成为用户新的追求。多模态语音分离作为多模态前段最重要的技术之一,成为相关领域研究人员研究的热点。多模态语音分离通过提取说话人的唇形,更进一步识别出干扰语音以及说话人的语音。然而,多模态信号之间的时间偏差以及说话人唇形信号被遮挡等因素,容易对多模态语音分离的结果的准确性产生影响。


技术实现要素:

3.本技术主要解决的技术问题是提供一种多模态语音分离方法、训练方法及相关装置,能够提高多模态语音分离的准确性。
4.为解决上述技术问题,本技术采用的一个技术方案是:提供一种多模态语音分离方法,包括:获得包含目标对象的音视频数据;其中,所述音视频数据包含所述目标对象的唇部视频数据;将所述音视频数据输入至训练后的多模态语音分离网络中,获得与所述目标对象的唇部视频数据相关的音频数据;其中,训练所述多模态语音分离网络的多个训练样本基于其经过所述多模态语音分离网络后获得的第一损失被划分为多个子集,且基于至少部分所述子集对所述多模态语音分离网络再次进行训练。
5.为解决上述技术问题,本技术采用的另一个技术方案是:提供一种多模态语音分离网络训练方法,包括:利用多个第一训练样本训练多模态语音分离网络;其中,每个所述第一训练样本具有真实值标签;响应于所述多个第一训练样本在训练所述多模态语音分离网络时的第一损失之间的差值大于或等于第一阈值,基于多个所述第一损失将多个所述第一训练样本划分为多个子集;其中,同一所述子集内的多个所述训练样本的所述第一损失之间的差值小于所述第一阈值;基于至少部分所述子集对所述多模态语音分离网络再次进行训练。
6.为解决上述技术问题,本技术采用的另一个技术方案是:提供一种多模态语音分离装置,包括:第一获得模块,用于获得包含目标对象的音视频数据;其中,所述音视频数据包含所述目标对象的唇部视频数据;第二获得模块,用于将所述音视频数据输入至训练后的多模态语音分离网络中,获得与所述目标对象的唇部视频数据相关的音频数据;其中,训练所述多模态语音分离网络的多个训练样本基于其经过所述多模态语音分离网络后获得的第一损失被划分为多个子集,且基于至少部分所述子集对所述多模态语音分离网络再次进行训练。
7.为解决上述技术问题,本技术采用的另一个技术方案是:提供一种电子设备,包括
相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现上述技术方案中的多模态语音分离方法或上述技术方案中的多模态语音分离网络训练方法。
8.为解决上述技术问题,本技术采用的另一个技术方案是:提供一种计算机可读存储介质,存储有能够被处理器运行的程序指令,所述程序指令用于实现上述技术方案中的多模态语音分离方法或上述技术方案中的多模态语音分离网络训练方法。
9.本技术的有益效果是:区别于现有技术的情况,本技术根据多个训练样本的第一损失将多个训练样本划分为多个子集。并针对不同的子集,利用不同的训练方式对多模态语音分离网络进行训练,以提高多模态语音分离网络的训练速度。并且,训练后的多模态语音分离网络对包含目标对象的音视频数据进行语音分离的准确性较高。
附图说明
10.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
11.图1是本技术中多模态语音分离方法一实施方式的流程示意图;
12.图2是图1中多模态语音分离网络一实施方式的网络结构示意图;
13.图3是本技术多模态语音分离网络训练方法一实施方式的流程示意图;
14.图4是本技术多模态语音分离装置一实施方式的结构示意图;
15.图5是本技术电子设备一实施方式的结构示意图;
16.图6是本技术提出的计算机可读存储介质一实施方式的结构示意图。
具体实施方式
17.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
18.请参阅图1,图1是本技术中多模态语音分离方法一实施方式的流程示意图,该方法包括:
19.s101:获得包含目标对象的音视频数据。其中,音视频数据包含目标对象的唇部视频数据。
20.具体地,在本实施例中,上述步骤s101的具体实现过程可以包括:获得包含目标对象的视频数据以及包含目标对象语音的混合音频数据。其中,视频数据可以由摄像头对目标对象进行采集获得,以及同时由麦克风对目标对象的语音进行采集,以得到混合音频数据。然而,由于目标对象所处的环境内可能包含除目标对象以外的人,因此混合音频数据中可能包含目标对象的音频数据、噪声数据以及非目标对象的音频数据。
21.s102:将音视频数据输入至训练后的多模态语音分离网络中,获得与目标对象的唇部视频数据相关的音频数据。其中,训练多模态语音分离网络的多个训练样本基于其经
过多模态语音分离网络后获得的第一损失被划分为多个子集,且基于至少部分子集对多模态语音分离网络再次进行训练。
22.具体地,本实施方式中,上述步骤s102的具体实现过程可以为:
23.a:根据视频数据、混合音频数据和训练后的多模态语音分离网络获得目标对象的第一语音存在概率。
24.请参阅图2,图2为图1中多模态语音分离网络一实施方式的网络结构示意图。具体地,将目标对象的音视频数据输入至训练后的多模态语音分离网络10中,多模态语音分离网络10目标对象的视频数据进行唇部特征提取,得到目标对象的唇部视频特征;以及对上述混合音频数据进行fft变换(fast fourier transformation,快速傅里叶变换),得到混合音频数据的幅度谱和相位谱,并将该幅度谱和相位谱作为混合音频数据对应的音频特征。进一步地,将唇部视频特征和音频特征同时输入至unet网络20中,unet网络20包括特征提取分支和上采样分支。特征提取分支对视频数据和音频特征进行多次特征提取,并且将每次特征提取后的视频特征和音频特征进行融合,得到多个融合特征。其中,特征提取的深度随着特征提取的次数的增加而增加。本实施方式中,进行多次特征提取后,将最终得到的融合特征输入瓶颈层,以减少模型后续的计算量。其中,瓶颈层可以为lstm(long short-term memory,长短期记忆)网络。进一步地,结合特征提取分支获得的多个融合特征,将lstm网络输出的融合特征进行上采样,并通过一个1
×
1的卷积,最终得到目标对象的第一语音存在概率。
25.在一实施方式中,可以通过唇部特征提取网络对目标对象的视频数据进行唇部特征提取。其中,可以通过利用残差神经网络构建唇部特征提取网络,并获取多个带有标签的训练数据,对该唇部特征提取网络进行特征提取。具体训练过程本技术对此不进行详细阐述。
26.b:根据第一语音存在概率从混合音频数据中获得与目标对象的唇部视频数据相关的语音数据。具体地,将第一语音存在概率与混合音频数据相乘,并进行反短时傅里叶变化,获得分离后与目标对象的语音。
27.本技术根据多个训练样本的第一损失将多个训练样本划分为多个子集。并针对不同的子集,利用不同的训练方式对多模态语音分离网络进行训练,以提高多模态语音分离网络的训练速度。并且,训练后的多模态语音分离网络对包含目标对象的音视频数据进行语音分离的准确性较高。
28.上述步骤s101-步骤s102主要是对应用层面进行描述,下面对训练过程进行描述。请参阅图3,图3为本技术多模态语音分离网络训练方法一实施方式的流程示意图,该训练过程主要包括:
29.s201:利用多个第一训练样本训练多模态语音分离网络。其中,每个第一训练样本具有真实值标签。
30.具体地,步骤s201的实施过程包括:获取多个带有真实值标签的第一训练样本,该真实值标签对应目标对象的音频数据,即目标对象的语音。
31.在一实施方式中,第一训练样本包含视频数据和混合音频数据。其中,混合音频数据包含目标对象的语音、非目标对象的语音以及噪声等。获得第一训练样本的真实值标签的过程包括:获得第一训练样本中样本对象语音的能量、非样本对象语音的能量以及噪声
语音的能量的和值,并将样本对象语音的能量与上述和值的比值作为真实值标签。具体地,真实值标签的计算公式如下:
[0032][0033]
其中,label表示真实值标签,s
12
表示样本对象语音的能量,s
22
表示非样本对象语音的能量,n2表示噪声语音的能量。
[0034]
进一步地,构建如图2所示的多模态语音分离网络,并利用多个第一训练样本对多模态语音分离网络进行初步训练。其中,训练过程包括:将多个第一训练样本输入至构建的多模态语音分离网络中,以得到第一训练样本对应的第二语音存在概率,利用第一损失函数获得每个第一训练样本对应的第一损失,并利用第一损失对多模态语音分离网络的参数进行调节。具体地,第一损失函数loss可以为均方差损失函数,具体如下所示:
[0035]
loss=∑(mask-label)2[0036]
其中,mask表示第二语音存在概率,label表示第一训练样本的真实值标签。
[0037]
s202:响应于多个第一训练样本在训练多模态语音分离网络时的第一损失之间的差值大于或等于第一阈值,基于多个第一损失将多个第一训练样本划分为多个子集。其中,同一子集内的多个训练样本的第一损失之间的差值小于第一阈值。
[0038]
具体地,步骤s202的实施过程包括:响应于步骤s101中多个第一训练样本的第一损失之间的差值大于或等于第一阈值,则基于多个第一损失将多个第一训练样本划分为多个子集。具体地,针对多个第一损失,获取任意两个第一损失之间的差值。响应于存在上述差值大于或等于第一阈值,则认为多个第一训练样本以及多个第一训练样本对应的真实值标签在经过多模态分离网络后得到的第一损失之间的相差值较大,即部分第一训练样本对应的第一损失较大,部分第一训练样本对应的第一损失较小,若利用第一损失较大的第一训练样本以及对应的真实值标签对多模态语音分离网络进行有监督训练,容易对多模态语音分离网络的可靠性产生影响。因此,需要对多个第一训练样本划分为多个子集,且同一子集内的多个第一训练样本的第一损失之间的差值小于第一阈值。其中,上述第一阈值可以是多次试验反推获得的,也可以是相关研究人员预估获得的。
[0039]
在其他实施方式中,为避免数据的偶然性,针对所有第一损失之间的差值,若大于或等于第一阈值的差值的数量超过预设数量,则将多个第一训练样本划分为多个子集,且同一子集内的多个第一训练样本的第一损失之间的差值小于第一阈值。
[0040]
在一实施方式中,基于多个第一损失将多个第一训练样本划分为多个子集的步骤包括:基于多个第一损失将多个第一训练样本划分为第一子集和第二子集。
[0041]
可选地,将每个第一训练样本对应的第一损失与第三阈值进行对比,以将多个第一训练样本分为第一子集和第二子集。其中,第一子集内的多个第一训练样本的第一损失小于第三阈值,第二子集内的多个第一训练样本的第一损失大于或等于第三阈值。本实施方式中,上述第三阈值可以是多次试验反推获得的,也可以是相关技术人员预估获得的。
[0042]
在另一实施方式中,也可以通过构建gmm模型来将多个第一训练样本划分为第一子集和第二子集。具体地,将所有第一训练样本对应的第一损失输入至构建的gmm模型中,以将多个第一损失分为多个类别,以及得到每个类别对应的高斯分布直方图。进一步地,针对每个类别对应的高斯分布直方图,将该类别中所有小于门限值的第一损失对应的第一训
练样本作为第一子集,以及将该类别中所有大于门限值的第一损失对应的第一训练样本作为第二子集。即第一子集中的多个第一训练样本对应的第一损失较小,第二子集中的多个第一训练样本对应的第一损失较大。在本实施方式中,可以根据多个第一训练样本对应的第一损失的均值和方差来确定上述门限值。通过将多个第一训练样本划分为多个第一子集和多个第二子集有利于根据不同的数据集确定不同的训练方法对多模态语音分离网络进行训练,从而提高多模态语音分离网络的分离效果。另外,在获得多个第一子集和多个第二子集后,可以将多个第一子集合并为一个第一子集,将多个第二子集合并为一个第二子集。
[0043]
s203:基于至少部分子集对多模态语音分离网络再次进行训练。
[0044]
具体地,步骤s203的实施过程包括以下步骤:
[0045]
a:将至少部分子集重新输入至多模态语音分离网络中以对多模态语音分离网络再次进行训练。具体地,响应于部分子集中所有第一训练样本对应的第一损失较小,将这些子集中的第一训练样本以及对应的真实值标签重新输入至多模态语音分离网络中进行有监督训练。
[0046]
在一实施方式中,响应于步骤s202中将多个第一训练样本划分为第一子集和第二子集,将第一子集中的至少部分第一训练样本以及对应的真实值标签输入至多模态语音分离网络中,根据第一训练样本中的视频数据获得对应的唇部视频特征,以及根据第一训练样本中的混合音频数据获得音频特征。进一步地,将唇部视频特征和音频特征输入unet网络中,从而获得第一训练样本中目标对象的第二语音存在概率。利用第二语音存在概率和第一训练样本对应的真实值标签获得第一训练样本对应的第一损失,并根据第一损失对多模态语音分离网络中的参数进行调整。
[0047]
可选地,也可以对第一子集中的第一训练样本进行数据增广,并将数据增广后的第一训练样本以及对应的真实值标签输入至多模态语音分离网络中。其中,数据增广后的第一训练样本对应的真实值标签与数据增广前对应第一训练样本的真实值标签相同。另外,对第一训练样本进行数据增广的步骤可以包括:对第一训练样本对应的视频数据进行反转、平移、加噪声、调整亮度等处理,以及对第一训练样本对应的混合音频数据进行插入噪声、变速等处理。
[0048]
b:利用至少部分子集中的多个第一训练样本构建多个第二训练样本。具体地,响应于部分子集中所有第一训练样本对应的第一损失大于第三阈值,从这些子集中获取任意两个第一训练样本以及对应的真实值标签进行融合,以得到第二训练样本和对应的真实值标签。其中,第二训练样本的真实值标签由构建第二训练样本的第一训练样本的真实值标签决定。
[0049]
在一实施方式中,响应于步骤s202将多个第一训练样本划分为第一子集和第二子集,可以通过第二子集中的多个第一训练样本构建多个第二训练样本。具体地,可以对第二子集中的多个第一训练样本进行数据增广,并基于数据增广后的第一训练样本获得第二训练样本,以及获得第二训练样本对应的真实值标签。可选地,可以从第二子集中任意获取两个第一训练样本以及对应的真实值标签进行融合,以得到融合训练样本和融合标签,并将融合训练样本作为第二训练样本,将融合标签作为第二训练样本的真实值标签。其中,将任意两个第一训练样本以及对应的真实值标签进行混合之前,对选中的第一训练样本进行数据增强。例如,对第一训练样本对应的视频数据进行反转、平移、加噪声、调整亮度等处理,
以及对第一训练样本对应的混合音频数据进行插入噪声、变速等处理。当然,在其他实施方式中,也可以选取其他数量的第一训练样本以及真实值标签进行融合,得到第二训练样本以及对应的真实值标签。本实施方式中,可以通过mixmatch算法对多个第一训练样本进行处理以得到第二训练样本以及对应的真实值标签,具体过程在此不进行详细阐述。
[0050]
可选地,也可以利用mixmatch算法,基于第一子集中的第一训练样本以及对应的真实值标签,对第二子集中的第一训练样本进行预测,以得到预测标签,并将预测标签作为第二子集中第一训练样本的真实值标签。
[0051]
进一步地,在获得多个第二训练样本之后,将获得的多个第二训练样本以及对应的真实值标签输入至多模态语音分离网络中以对多模态语音分离网络进行再次训练。具体地,根据输入的第二训练样本以及对应的真实值标签,获得第二训练样本对应的第三语音存在概率,并利用第三语音存在概率和对应的真实值标签获得对应的第三损失,根据第三损失对多模态语音分离网络中的参数进行调整。
[0052]
需要说明的是,步骤s203可以包括步骤a和步骤b,即先执行步骤a再执行步骤b,或者,步骤s203也可以仅包括步骤a或步骤b。
[0053]
在一实施方式中,在将多个第一训练样本划分为多个子集,且基于至少部分子集对多模态语音分离网络再次进行训练的步骤之后,重新获取多个第一训练样本,并利用重新获取的多个第一训练样本对多模态语音分离网络进行新一轮的训练。其中,重新获取的每个第一训练样本标注同样具有对应的真实值标签。进一步地,响应于重新获取的多个第一训练样本在训练多模态语音分离网络时的第一损失之间的差值大于或等于第一阈值,则基于多个第一损失将重新获得的多个第一训练样本划分为多个子集,并基于至少部分子集对多模态语音分离网络再次进行训练,具体过程可参照步骤s202-s203。
[0054]
在又一实施方式中,响应于重新获取的多个第一训练样本在训练多模态语音分离网络时的第一损失之间的差值小于第一阈值,将多个第一训练样本进行偏移处理以获得相应的第三训练样本。其中,第三训练样本对应的第一训练样本的真实值标签相同。具体地,从多个第一训练样本以及重新获取的多个第一训练样本中选取至少部分第一训练样本以及对应的真实值标签,将选取的第一训练样本的视频数据和音频数据相对偏移预设时间,并将进行偏移后的视频数据和音频数据作为第三训练样本。
[0055]
可选地,在利用gmm模型对多个第一训练样本进行划分时,由于在对不同第一损失组成的数据集进行划分的过程中,gmm模型的参数不断迭代,使得最终gmm模型无法对第一损失进行区分,即gmm模型无法根据输入的第一损失将多个第一训练样本划分为多个子集。因此,将重新获取的多个第一训练样本输入至多模态语音分离网络中,得到重新获取的多个第一训练样本对应的第一损失,并且多个第一损失输入至gmm模型中后,所有第一损失都小于门限值,无法通过门限值来对多个第一损失进行划分。因此,本实施方式将多个第一训练样本进行偏移处理以获得相应的第三训练样本。
[0056]
进一步地,利用多个第三训练样本训练多模态语音分离网络。具体地,将第三训练样本输入多模态语音分离网络中,得到第三训练样本对应的第四语音存在概率,并利用第二损失函数获得第四语音存在概率与对应的真实值标签之间的第二损失。响应于多个第三训练样本在训练多模态语音分离网络时的第二损失之间的差值大于或等于第二阈值,基于多个第二损失将多个第三训练样本划分为多个集合。其中,同一集合内的多个第三训练样
本的第二损失之间的差值小于第二阈值。进一步地,基于至少部分集合对多模态语音分离网络再次进行训练。其中,利用多个第三训练样本训练多模态语音分离网络的过程可参照步骤s201-步骤s203。
[0057]
另外,上述第二损失函数loss

具体如下:
[0058]
loss

=∑αi(mask(ti)-label)2[0059]
其中,ti表示视频数据和音频数据相对偏移的预设时间,mask(ti)表示第三训练样本对应的第四语音存在概率。αi表示加权系数,其可以是经过多次试验反推获得的,也可以是相关研究人员预估获得的。
[0060]
可选地,在其他实施方式中,利用多个第三训练样本训练多模态语音分离网络的过程也可以为:将多个第三训练样本输入至多模态语音分离网络中,以得到第三训练样本对应的第四语音存在概率,利用上述第二损失函数获得每个第一训练样本对应的第二损失,并利用第二损失对多模态语音分离网络的参数进行调节。
[0061]
进一步地,响应于利用第三训练样本对多模态语音分离网络进行训练的过程中获得的损失收敛、或者训练次数达到预设轮次等,对多模态语音分离网络停止训练。本技术提出的多模态语音分离网络训练方法通过将多个训练样本划分为不同的训练样本子集,并针对不同的训练样本子集制定相应的训练方法,提高了多模态语音分离网络的训练速度,并且使得训练后的多模态语音分离网络具有较高的鲁棒性。
[0062]
请参阅图4,图4为本技术多模态语音分离装置一实施方式的结构示意图,该多模态语音分离装置包括第一获得模块40和第二获得模块50。
[0063]
具体而言,第一获得模块40用于获得包含目标对象的音视频数据。其中,音视频数据包含目标对象的唇部视频数据。
[0064]
第二获得模块50用于将音视频数据输入至训练后的多模态语音分离网络中,获得与目标对象的唇部视频数据相关的音频数据。其中,训练多模态语音分离网络的多个训练样本基于其经过多模态语音分离网络后获得的第一损失被划分为多个子集,且基于至少部分子集对多模态语音分离网络再次进行训练。
[0065]
在另一个实施方式中,请继续参阅图4,该多模态语音分离装置还可以包括训练模块60,训练模块60与第二获得模块50连接。训练模块60包含第一训练子模块、划分模块、第二训练子模块。其中,第一训练子模块用于利用多个第一训练样本训练多模态语音分离网络。其中,每个第一训练样本具有真实值标签。
[0066]
划分模块用于响应于多个第一训练样本在训练多模态语音分离网络时的第一损失之间的差值大于或等于第一阈值,基于多个第一损失将多个第一训练样本划分为多个子集。其中,同一自己内的多个第一训练样本的第一损失之间的差值小于第一阈值。
[0067]
第二训练子模块用于基于至少部分子集对多模态语音分离网络再次进行训练。
[0068]
在一实施方式中,获得第一训练样本中样本对象语音的能量、非样本对象语音的能量以及噪声语音的能量的和值,并将样本对象语音的能量与上述和值的比值作为真实值标签。
[0069]
在一实施方式中,将至少部分子集重新输入至多模态语音分离网络中以对多模态语音分离网络再次进行训练;和/或,利用至少部分子集中的多个第一训练样本构建多个第二训练样本,将多个第二训练样本输入至多模态语音分离网络中以对多模态语音分离网络
再次进行训练;其中,第二训练样本的真实值标签由构建第二训练样本的第一训练样本的真实值标签决定。
[0070]
在一个应用场景中,基于多个第一损失将多个第一训练样本划分为第一子集和第二子集,且第一子集内的多个第一训练样本的第一损失小于门限值,第二子集内的多个第一训练样本的第一损失大于或等于门限值。将至少部分子集重新输入至多模态语音分离网络中以对多模态语音分离网络再次进行训练的步骤,包括:将第一子集输入至多模态语音分离网络中,获得第一子集中每个第一训练样本对应的第一损失,根据第一损失调整多模态语音分离网络中的参数。利用至少部分子集中的多个第一训练样本构建多个第二训练样本的步骤,包括:基于第二子集中任意两个第一训练样本及其对应的真实值标签,得到第二训练样本以及第二训练样本对应的真实值标签。
[0071]
在一实施方式中,响应于与多个第一损失之间的差值小于第一阈值,将多个第一训练样本进行偏移处理以获得相应的第三训练样本。其中,第三训练样本对应的第一训练样本的真实值标签相同。利用多个第三训练样本训练多模态语音分离网络。
[0072]
进一步地,响应于多个第三训练样本在训练多模态语音分离网络时的第二损失之间的差值大于或等于第二阈值,基于多个第二损失将多个第三训练样本划分为多个集合。其中,同一集合内的多个第三训练样本的第二损失之间的差值小于第二阈值。基于至少部分集合对多模态语音分离网络再次进行训练。
[0073]
请参阅图5,图5为本技术电子设备一实施方式的结构示意图,该电子设备包括相互耦接的存储器70和处理器80,存储器70中存储有程序指令,处理器80用于执行程序指令以实现上述实施方式中的多模态语音分离方法以及多模态语音分离网络训练方法的步骤。具体地,电子设备包括但不限于:台式电脑、笔记本电脑、平板电脑、服务器等,在此不做限定。此外,处理器80还可以称为cpu(center processing unit,中央处理单元)。处理器80可能是一种集成电路芯片,具有信号处理能力。处理器80还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga),或者其他可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器80可以由集成电路芯片共同实现。
[0074]
请参阅图6,图6为本技术提出的计算机可读存储介质一实施方式的结构示意图,该计算机可读存储介质90存储有能够被处理器运行的程序指令95,程序指令95用于实现上述任一实施方式中的多模态语音分离方法以及多模态语音分离网络的训练方法。
[0075]
以上所述仅为本技术的实施方式,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1