高频信号重建模型的训练方法和高频信号重建方法及装置与流程

文档序号:24444029发布日期:2021-03-27 02:55阅读:95来源:国知局
高频信号重建模型的训练方法和高频信号重建方法及装置与流程

1.本发明涉及信号处理技术领域,尤其涉及一种高频信号重建模型的训练方法和高频信号重建方法及装置。


背景技术:

2.骨传导传感器获得的信号不受气导噪声的干扰,可以在复杂噪声条件下表现出很好的鲁棒性。但是骨传导得到的信号带宽主要限制在低频,人声信号的质量受到一定程度的限制。
3.现有的骨传导传感器采集的声音信号存在高频信号缺失影响声音信号完整性的技术问题。


技术实现要素:

4.本发明实施例提供了一种高频信号重建模型的训练方法及高频重建方法及装置,至少解决上述部分技术问题。
5.第一方面,本公开实施例提供了一种高频信号重建模型的训练方法,包括:
6.将用于模型训练的音频信号分别进行第一频率和第二频率的低通滤波,获得对应所述第一频率的样本信号和对应所述第二频率的目标信号,其中,所述第一频率小于所述第二频率;
7.根据所述样本信号获得样本特征参数,以及,根据所述目标信号获得目标特征参数;
8.将所述样本特征参数输入神经网络,以所述目标特征参数为输出目标训练所述神经网络,直至获得满足收敛条件的神经网络,并将满足收敛条件的神经网络作为高频重建模型。
9.根据本公开的一种具体实施方式,所述根据所述样本信号获得样本特征参数,以及,根据所述目标信号获得目标特征参数的步骤,包括:
10.根据所述样本信号获得样本相位谱,以及,根据所述目标信号获得目标相位谱;
11.所述将所述样本特征参数输入神经网络,以所述目标特征参数为输出目标训练所述神经网络,直至获得满足收敛条件的神经网络的步骤,包括:
12.将所述样本相位谱输入所述神经网络,以所述目标相位谱为输出目标训练所述神经网络,直至获得满足相位谱对应收敛条件的神经网络。
13.根据本公开的一种具体实施方式,所述根据所述样本信号获得样本特征参数,以及,根据所述目标信号获得目标特征参数的步骤,还包括:
14.根据所述样本信号获得样本幅度谱,以及,根据所述目标信号获得目标幅度谱;
15.所述将所述样本特征参数输入神经网络,以所述目标特征参数为输出目标训练所述神经网络,直至获得满足收敛条件的神经网络的步骤,包括:
16.将所述样本幅度谱输入所述神经网络,以所述目标幅度谱为输出目标训练所述神
经网络,直至获得满足幅度谱对应的收敛条件的神经网络。
17.根据本公开的一种具体实施方式,所述将所述样本相位谱输入所述神经网络,以所述目标相位谱为输出目标训练所述神经网络,直至获得满足相位谱对应收敛条件的神经网络的步骤,以及,将所述样本幅度谱输入所述神经网络,以所述目标幅度谱为输出目标训练所述神经网络,直至获得满足幅度谱对应的收敛条件的神经网络的步骤,包括:
18.将所述样本相位谱输入第一神经网络,以所述目标相位谱为输出目标训练所述第一神经网络,直至获得满足相位谱对应收敛条件的第一神经网络,以及,将所述样本幅度谱输入第二神经网络,以所述目标幅度谱为输出目标训练所述第二神经网络,直至获得满足幅度谱对应的收敛条件的第二神经网络。
19.根据本公开的一种具体实施方式,所述根据所述样本信号获得样本特征参数,以及,根据所述目标信号获得目标特征参数的步骤,包括:
20.根据所述样本信号获得实部和虚部,以及,根据所述目标信号获得所述目标信号对应的实部和虚部;
21.所述将所述样本特征参数输入神经网络,以所述目标特征参数为输出目标训练所述神经网络,直至获得满足收敛条件的神经网络的步骤,包括:
22.将所述样本信号对应的实部和虚部输入所述神经网络,以所述目标信号对应的实部和虚部为输出目标训练所述神经网络,直至获得满足收敛条件的神经网络。
23.根据本公开的一种具体实施方式,所述将所述样本幅度谱输入第二神经网络,以所述目标幅度谱为输出目标训练所述第二神经网络,直至获得满足幅度谱对应的收敛条件的第二神经网络的步骤,包括:
24.计算每次将所述样本幅度谱输入所述第二神经网络训练后输出的预测幅度谱与所述目标幅度谱的平均绝对误差;
25.若所述平均绝对误差大于或者等于预设误差值,利用所述预测幅度谱与所述目标幅度谱的误差幅度谱调整所述第二神经网络;
26.若所述平均绝对误差小于所述预设误差值,将此时的所述第二神经网络作为满足预设收敛条件的第二神经网络。
27.根据本公开的一种具体实施方式,所述将所述样本相位谱输入第一神经网络,以所述目标相位谱为输出目标训练所述第一神经网络,直至获得满足相位谱对应收敛条件的第一神经网络的步骤,包括:
28.计算每次将所述样本相位谱输入所述第一神经网络训练后输出的预测相位谱与所述目标相位谱的加权余弦距离;
29.若所述加权余弦距离大于或者等于预设距离值,利用所述加权余弦距离作为损失函数调整所述第一神经网络的网络参数;
30.若所述加权余弦距离小于所述预设距离值,将此时的所述第一神经网络作为满足预设收敛条件的神经网络。
31.根据本公开的一种具体实施方式,所述根据所述样本信号获得样本特征参数,以及,根据所述目标信号获得目标特征参数的步骤,包括:
32.将所述样本信号进行短时傅里叶变换,获得所述样本幅度谱和所述样本相位谱;
33.以及,
34.所述根据所述目标信号获得目标幅度谱和目标相位谱的步骤,包括:
35.将所述目标信号进行短时傅里叶变换,获得所述目标幅度谱和所述目标相位谱。
36.根据本公开的一种具体实施方式,所述根据所述样本信号获得样本特征参数,以及,根据所述目标信号获得目标特征参数的步骤,包括:
37.将所述样本信号进行短时傅里叶变换,获得所述样本信号对应的实部和虚部,以及,将所述目标信号进行短时傅里叶变换,获得所述目标信号对应的实部和虚部。
38.根据本公开的一种具体实施方式,所述第一神经网络和所述第二神经网络的结构均包括:
39.对称布局的卷积编码器和反卷积解码器,所述卷积编码器和所述反卷积解码器之间连接有两个带归组策略的递归长短期记忆层;其中,
40.所述卷积编码器的卷积层特征数按预设倍数递减,所述反卷积解码器的反卷积层特征数按预设倍数递增,特征数相同的卷积层和反卷积层跳跃连接。
41.根据本公开的一种具体实施方式,所述将用于模型训练的音频信号分别进行第一频率和第二频率的低通滤波,获得对应所述第一频率的样本信号和对应所述第二频率的目标信号的步骤,包括:
42.将所述音频信号输入对应所述第一频率的第一低通滤波器,得到所述样本信号,以及,将所述音频信号输入对应所述第二频率的第二低通滤波器,得到所述目标信号。
43.根据本公开的一种具体实施方式,所述音频信号的频率范围包括:2千赫兹至8千赫兹;
44.所述第一频率的范围包括:0.5千赫兹至1.5千赫兹;
45.所述第二频率的范围包括:2千赫兹至8千赫兹。
46.第二方面,本公开实施例还提供了一种高频信号重建方法,应用于计算机设备,所述计算机设备加载有第一方面中任一项所述的高频信号重建模型的训练方法训练得到的高频信号重建模型,所述方法包括:
47.接收待处理的音频信号;
48.将所述音频信号输入高频信号重建模型,利用所述高频信号重建模型重建所述音频信号的高频时域信号。
49.第三方面,本公开实施例还提供了一种高频信号重建模型的训练装置,包括:
50.采样模块,用于将用于模型训练的音频信号分别进行第一频率和第二频率的低通滤波,获得对应所述第一频率的样本信号和对应所述第二频率的目标信号,其中,所述第一频率小于所述第二频率;
51.变换模块,用于根据所述样本信号获得样本特征参数,以及,根据所述目标信号获得目标特征参数;
52.训练模块,用于将所述样本特征参数输入神经网络,以所述目标特征参数为输出目标训练所述神经网络,直至获得满足收敛条件的神经网络,并将满足收敛条件的神经网络作为高频重建模型。
53.第四方面,本公开实施例还提供了一种高频信号重建装置,应用于计算机设备,所述计算机设备加载有第一方面中任一项所述的高频信号重建模型的训练方法训练得到的高频信号重建模型,所述装置包括:
54.接收模块,用于接收待处理的音频信号;
55.重建模块,用于将所述音频信号输入高频信号重建模型,利用所述高频信号重建模型重建所述音频信号的高频时域信号。
56.第五方面,本公开实施例还提供了一种计算机设备,包括存储器以及处理器,所述存储器与所述处理器连接,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算机设备执行第一方面中任一项所述的高频信号重建模型的训练方法,或者,执行第二方面所述的高频信号重建方法。
57.第六方面,本发明实施例还提供了一种骨传导耳机,包括骨传导传感器、存储器以及处理器,所述骨传导传感器、存储器均与所述处理器连接,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述骨传导耳机执行第二方面所述的高频信号重建方法。
58.第七方面,本发明实施例还提供了一种计算机可读存储介质,其存储有第五方面所述的计算机设备中所用的计算机程序计算机程序,所述计算机程序在处理器上运行时执行第一方面中任一项所述的高频信号重建模型的训练方法,或者,执行第二方面所述的高频信号重建方法。
59.上述本公开实施例提供的高频信号重建模型的训练方法和高频信号重建方法、装置及计算机设备,在进行高频信号重建时,预先利用神经网络训练一个高频重建信号重建模型。将音频信号分别进行高低频率的低通滤波得到样本信号和目标信号,将低频的样本信号的样本特征参数作为神经网络的输入,将高频的目标信号的目标特征参数作为目标训练神经网络,即可训练满足预设收敛条件的神经网络,作为高频信号重建模型。这样,可以有效提升骨传导传感器采集的声音信号的人声质量。
附图说明
60.为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
61.图1示出了本公开实施例提供的一种高频信号重建模型的训练方法的流程示意图;
62.图2示出了本公开实施例提供的高频信号重建模型的训练方法的过程示意图;
63.图3a至图3c示出了本公开实施例提供的高频信号重建模型的训练方法所涉及的信号示意图;
64.图4示出了本公开实施例提供的高频信号重建模型的训练方法所应用的神经网络的结构示意图;
65.图5示出了本公开实施例提供的一种高频信号重建方法的流程示意图;
66.图6示出了本公开实施例提供的一种高频信号重建模型的训练装置的模块框图;
67.图7示出了本公开实施例提供的一种高频信号重建装置的模块框图。
具体实施方式
68.下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整
地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
69.通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
70.在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
71.此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
72.除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
73.实施例1
74.参见图1,为本公开实施例提供的一种高频信号重建模型的训练方法的流程示意图。如图1所示,所述方法主要包括以下步骤:
75.s101,将用于模型训练的音频信号分别进行第一频率和第二频率的低通滤波,获得对应所述第一频率的样本信号和对应所述第二频率的目标信号,其中,所述第一频率小于所述第二频率。
76.本实施例提供的训练方法,用于训练能够重建信号高频部分的高频信号重建模型。所提供的高频信号重建模型可以适用于重建人声信号的高频部分,尤其是骨传导传感器采集和/或传播的人声信号。骨传导传感器采集的声音信号不受气导噪声的干扰,可以在复杂噪声条件下表现出很好的鲁棒性。但是骨传导得到的信号带宽主要限制在低频,人声信号的质量受到一定程度的限制。通过利用深度神经网络,对骨传导传感器采集的音频信号缺失的高频段信号进行重建,从而在保持噪声鲁棒性优势的同时,提升骨传导设备的人声质量。
77.在进行模型训练时,先准备用于模型训练的音频信号。将该音频信号分别进行不同频率的信号采样,分别用作低频的样本信号和高频的目标训练。具体的,将音频信号进行低通滤波,得到第一频率的样本信号。还将该音频信号进行低通滤波,得到第二频率的目标信号,第一频率小于第二频率。利用同一音频信号分别采样得到低频信号和高频信号,可以保证信号在其他部分的一致性,降低深度学习过程中的无关变量,提高模型训练的准确度和训练效率。
78.具体实施时,所述音频信号的频率范围可以包括:2千赫兹至8千赫兹;
79.所述第一频率的范围可以包括:0.5千赫兹至1.5千赫兹;
80.所述第二频率的范围可以包括:2千赫兹至8千赫兹。
81.考虑到骨传导传感器采集到的低频的人声信号一般为1千赫兹(khz)内的人声,需要重建的高频部分的频率可能为2千赫兹或者4千赫兹。设置用于训练的音频信号为8千赫兹,第一频率范围可以为0.5千赫兹至1.5千赫兹,第二频率范围可以为2千赫兹至8千赫兹,适应常规的骨传导音频信号的低频范围,又能重建到人声需求的合适高频段。
82.另外,根据本公开的一种具体实施方式,所述将用于模型训练的音频信号分别进行第一频率和第二频率的低通滤波,获得对应所述第一频率的样本信号和对应所述第二频率的目标信号的步骤,可以具体包括:
83.将所述音频信号输入对应所述第一频率的第一低通滤波器,得到所述样本信号,以及,将所述音频信号输入对应所述第二频率的第二低通滤波器,得到所述目标信号。
84.信号低通滤波的过程为,通过对应工作频点的低通滤波器,获得对应频率的信号。
85.s102,根据所述样本信号获得样本特征参数,以及,根据所述目标信号获得目标特征参数。
86.在依据上述步骤获得样本信号和目标信号之后,需要提取用作神经网络输入的特征参数,使得神经网络对信号的特征参数进行深度学习和归纳。信号的特征参数有多种,适于高频重建的特征参数可以包括相位、幅度或者其他能够表征相位或者幅度的参数,例如实部和虚部。针对不同类型的特征参数,其获取方式不同。
87.s103,将所述样本特征参数输入神经网络,以所述目标特征参数为输出目标训练所述神经网络,直至获得满足收敛条件的神经网络,并将满足收敛条件的神经网络作为高频重建模型。
88.将样本特征参数输入到神经网络进行训练,将对应的目标特征参数作为该神经网络训练的输出目标,持续训练所述神经网络,直至得到满足收敛条件的神经网络,将此时训练得到神经网络即可作为所需的高频重建模型。
89.需要说明的是,所使用的神经网络的类型可以有多种,例如卷积递归神经网络(convolutional recurrentneural network,简称crn或者crnn)、长短期神经网络、深度全卷积网络等结构,不作限定。
90.训练模型中预设的收敛条件根据所使用的特征参数的不同以及模型精度需求的不同,收敛条件可能会不同,具体可根据需求设置。
91.上述本公开实施例提供的方案,将音频信号分别进行低频率和高频率的低通滤波得到样本信号和目标信号,将低频的样本信号的样本特征参数作为神经网络的输入,将高频的目标信号的目标特征参数作为训练神经网络的目标输出,即可训练满足预设收敛条件的神经网络,作为高频信号重建模型。这样,可以有效提升声音信号的人声质量。
92.在上述实施例的基础上,考虑到信号的特征参数有多种,不同类型的特征参数决定了神经网络的训练过程及模型性能。下面将分别针对不同类型的特征参数的获取及训练过程进行具体说明。
93.第一方面,根据本公开的一种具体实施方式,选择相位谱作为信号的特征参数。
94.所述根据所述样本信号获得样本特征参数,以及,根据所述目标信号获得目标特征参数的步骤,可以包括:
95.根据所述样本信号获得样本相位谱,以及,根据所述目标信号获得目标相位谱;
96.所述将所述样本特征参数输入神经网络,以所述目标特征参数为输出目标训练所
述神经网络,直至获得满足收敛条件的神经网络的步骤,包括:
97.将所述样本相位谱输入所述神经网络,以所述目标相位谱为输出目标训练所述神经网络,直至获得满足相位谱对应收敛条件的神经网络。
98.本实施方式中,利用信号的相位进行深度学习。具体的,先根据样本信号获得相位谱,定义为样本相位谱,作为神经网络的输入。同时,根据目标信号获得对应的相位谱,定义为目标相位谱,作为神经网络的目标输出。根据信号获得对应的相位谱的方式可以为短时傅里叶变换(short

time fourier transform,或者short

term fourier transform,简称stft)。
99.将获取的样本相位谱输入神经网络进行深度学习,将输出的预测相位谱跟目标相位谱进行比较后进行反馈迭代运算,直至收敛。此时的收敛条件可以为相位谱对应的收敛条件。
100.利用相位作为信号的特征参数进行深度学习,输入能够针对高频部分的相位进行重建的高频信号重建模型,由此可以单独进行高频相位重建,但也可以再结合其他的高频幅度重建方案实现高频信号的多特征参数重建。
101.现有的频带拓宽技术大多应用于窄带(8khz)到宽频(16khz),通过重建高频的幅度信息,结合低频的相位信息来重建高频信号。由于谐波模式的不同,简单的相位重建应用于骨传导得到的低频信号效果并不理想。与现有频域的频带拓宽技术相比,本申请提供的相位重建模型可以有效提升重建信号的质量。
102.第二方面,根据本公开的一种具体实施方式,还可以选择幅度谱作为信号的特征参数。
103.所述根据所述样本信号获得样本特征参数,以及,根据所述目标信号获得目标特征参数的步骤,还包括:
104.根据所述样本信号获得样本幅度谱,以及,根据所述目标信号获得目标幅度谱;
105.所述将所述样本特征参数输入神经网络,以所述目标特征参数为输出目标训练所述神经网络,直至获得满足收敛条件的神经网络的步骤,包括:
106.将所述样本幅度谱输入所述神经网络,以所述目标幅度谱为输出目标训练所述神经网络,直至获得满足幅度谱对应的收敛条件的神经网络。
107.本实施方式中,利用信号的幅度作为特征参数进行深度学习。具体的,先根据样本信号获得幅度谱,定义为样本幅度谱,作为神经网络的输入。同时,根据目标信号获得对应的幅度谱,定义为目标幅度谱,作为神经网络的目标输出。根据信号获得对应的幅度谱的方式可以为短时傅里叶变换(short

time fourier transform,或者short

term fourier transform,简称stft)。
108.将获取的样本幅度谱输入神经网络进行深度学习,将输出的预测幅度谱跟目标幅度谱进行比较后进行反馈迭代运算,直至收敛。此时的收敛条件可以为幅度谱对应的收敛条件。
109.利用幅度作为信号的特征参数进行深度学习,输入能够针对高频部分的幅度进行重建的高频信号重建模型,由此可以单独进行高频幅度重建。
110.第三方面,在使用时,还可以将上述的相位和幅度同时作为特征参数进行训练,以同时对信号的相位和幅度进行深度学习,获取特征丰富的高频信号重建模型。
111.所述根据所述样本信号获得样本特征参数,以及,根据所述目标信号获得目标特征参数的步骤,包括:
112.将所述样本信号进行短时傅里叶变换,获得所述样本幅度谱和所述样本相位谱;
113.所述根据所述目标信号获得目标幅度谱和目标相位谱的步骤,包括:
114.将所述目标信号进行短时傅里叶变换,获得所述目标幅度谱和所述目标相位谱。
115.将样本信号和目标信号分别进行短时傅里叶变换,即可得到对应的相位谱和幅度谱,用于后续针对这两类特征学习的过程。
116.针对既对相位,又对幅度进行学习的方案,有两种主要实施方式,其一是分别利用两个神经网络针对这两类特征参数进行深度学习,其二是利用同时表征这两类特征参数的实部和虚部进行深度学习,下面将分别说明。
117.其一,利用两个神经网络分别训练的方案。上述将所述样本相位谱输入所述神经网络,以所述目标相位谱为输出目标训练所述神经网络,直至获得满足相位谱对应收敛条件的神经网络的步骤,以及,将所述样本幅度谱输入所述神经网络,以所述目标幅度谱为输出目标训练所述神经网络,直至获得满足幅度谱对应的收敛条件的神经网络的步骤,可以包括:
118.将所述样本相位谱输入第一神经网络,以所述目标相位谱为输出目标训练所述第一神经网络,直至获得满足相位谱对应收敛条件的第一神经网络,以及,将所述样本幅度谱输入第二神经网络,以所述目标幅度谱为输出目标训练所述第二神经网络,直至获得满足幅度谱对应的收敛条件的第二神经网络。
119.本实施方式中需要两个神经网络,分别定义为第一神经网络和第二神经网络,第一神经网络和第二神经网络的类型可以相同也可以不同。具体实施时,所使用的神经网络可以选择crn。
120.一方面,将样本相位谱输入第一神经网络,以目标相位谱为输出目标进行训练,直至满足收敛条件。另一方面,将样本幅度谱输入第二神经网络,以目标幅度谱为输出目标进行训练,直至满足收敛条件。
121.根据本公开的另一种具体实施方式,所述将所述样本相位谱输入第一神经网络,以所述目标相位谱为输出目标训练所述第一神经网络,直至获得满足相位谱对应收敛条件的第一神经网络的步骤,包括:
122.计算每次将所述样本相位谱输入所述第一神经网络训练后输出的预测相位谱与所述目标相位谱的加权余弦距离;
123.若所述加权余弦距离大于或者等于预设距离值,利用所述加权余弦距离作为损失函数调整所述第一神经网络的网络参数;
124.若所述加权余弦距离小于所述预设距离值,将此时的所述第一神经网络作为满足预设收敛条件的神经网络。
125.如图2所示,第一神经网络的训练的过程如下:
126.1)使用高频语音相位信息作为训练目标。首先将高频语音进行小于1千赫兹的低通滤波得到模拟的骨传导传感器信号,即样本信号,然后经过短时傅里叶变换(stft),将得到的低频相位信息作为神经网络的输入;
127.2)将相位谱输入卷积递归神经网络(crn)。
128.3)卷积递归神经网络输出预测相位谱(estimated phase);
129.4)将预测的相位谱与目标相位谱(labelphase)计算加权余弦距离(weighted cosine distance)作为损失函数(loss function),使用高频语音的幅度值作为权重。此外,也可以使用均方误差(mean

square error,简称mse)作为损失函数(loss function);
130.5)训练过程采用反向传播

梯度下降的方式更新网络参数,根据验证数据集的表现调整学习率,直到模型收敛。
131.具体实施时,如图2所示,取得训练样本,先经过一个1khz低通滤波器,得到模拟的骨传导信号(sensor speech),将训练样本再经过一个2khz低通滤波器,得到重建目标信号(label speech)。对sensor speech和label speech分别进行stft,得到各自相位(phase)和幅度(magnitude)。
132.进一步的,所述将所述样本幅度谱输入第二神经网络,以所述目标幅度谱为输出目标训练所述第二神经网络,直至获得满足幅度谱对应的收敛条件的第二神经网络的步骤,包括:
133.计算每次将所述样本幅度谱输入所述第二神经网络训练后输出的预测幅度谱与所述目标幅度谱的平均绝对误差;
134.若所述平均绝对误差大于或者等于预设误差值,利用所述预测幅度谱与所述目标幅度谱的误差幅度谱调整所述第二神经网络;
135.若所述平均绝对误差小于所述预设误差值,将此时的所述第二神经网络作为满足预设收敛条件的第二神经网络。
136.如图2所示,第二神经网络的训练过程如下:
137.1)使用高频语音幅度谱作为训练目标。首先将高频语音进行小于1khz低通滤波得到模拟的骨传导传感器信号,即样本信号,然后经过短时傅里叶变换(stft),将得到的低频幅度谱作为神经网络的输入;
138.2)将幅度谱数据输入卷积递归神经网络(crn)。
139.3)卷积递归神经网络输出预测幅度谱(estimated magnitude);
140.4)利用预测幅度谱与目标幅度谱(label magnitude)计算平均绝对误差(mean absolute error,简称mae);
141.5)训练过程可采用反向传播

梯度下降的方式更新网络参数,根据验证数据集的表现调整学习率,直到模型收敛。
142.上述推理过程(inference)使用神经网络预测出来的幅度和相位结合,进行高频语音的重建,主要是经过逆向短时傅里叶变换(inverse short

time fourier transform,简称istft),得到重建后的音频,如图3a至图3c所示为重建前后的信号示意图,其中图3a为0.5千赫兹的骨传导信号,图3b所示为2千赫兹的目标信号,图3c为进行高频重建后的信号。另外,上述高频信号重建过程可以进行多步推理,比如对1khz的骨传导语音进行两次高频拓展,从1khz拓展到2khz,再进一步拓展到4khz,具体可以根据需求设定,不作限定。
143.其二,利用信号的实部和虚部进行深度学习的方案。所述根据所述样本信号获得样本特征参数,以及,根据所述目标信号获得目标特征参数的步骤,包括:
144.将所述样本信号进行短时傅里叶变换,获得所述样本信号对应的实部和虚部,以及,将所述目标信号进行短时傅里叶变换,获得所述目标信号对应的实部和虚部。
145.上述根据所述样本信号获得样本特征参数,以及,根据所述目标信号获得目标特征参数的步骤,包括:
146.根据所述样本信号获得实部和虚部,以及,根据所述目标信号获得所述目标信号对应的实部和虚部;
147.所述将所述样本特征参数输入神经网络,以所述目标特征参数为输出目标训练所述神经网络,直至获得满足收敛条件的神经网络的步骤,包括:
148.将所述样本信号对应的实部和虚部输入所述神经网络,以所述目标信号对应的实部和虚部为输出目标训练所述神经网络,直至获得满足收敛条件的神经网络。
149.本实施方式中,限定将幅度谱和相位谱叠加在一起输入到同一个神经网络进行高频信号重建。针对此类情况,送入神经网络的是输入信号经过短时傅里叶变化后得到的低频的实部和虚部,网络的输出是预测高频的实部和虚部,将预测的实部和虚部与所述目标信号对应的实部和虚部进行比较后反馈训练神经网络,以得到高频重建模型。将高频重建模型输出的高频实部虚部和输入的低频实部虚部拼接后,再经过逆向短时傅里叶变化即为重建后的语音。
150.在上述各实施方式的基础上,根据本公开的另一种具体实施方式,如图4所示,所述第一神经网络和/或所述第二神经网络的结构,或者上述过程中使用的一个神经网络均可以包括:
151.对称布局的卷积编码器和反卷积解码器,所述卷积编码器和所述反卷积解码器之间连接有两个带归组策略的递归长短期记忆层;其中,
152.所述卷积编码器的卷积层特征数按预设倍数递减,所述反卷积解码器的反卷积层特征数按预设倍数递增,特征数相同的卷积层和反卷积层跳跃连接。
153.本实施方式所选用的神经网络由五层卷积神经网络(cnn)、两层长短期记忆网络(lstm)、五层反卷积网络构成,通过残差链接避免梯度爆炸和更好的重建信号。
154.如图4所示,conv表示卷积编码器的卷积层,deconv模块表示反卷积解码器的反卷积层,跳跃连接用来连接处于相同级别相同特征数的功能层。crn输入和输出是定义在复数的stft域。
155.crn是一种编码

解码的结构。其中编码器和解码器可以分别包含5个卷积层和5个反卷积层。在它们之间有2个带有归组策略的递归长短期记忆(long short

term memory,简称lstm)层,其中归组数设置为2。编码

解码结构是以对称的方式设计的,其中特征数在编码阶段逐渐减少,在解码阶段逐渐增加,而通道数在编码阶段逐渐增多,在解码阶段逐渐减小。为了结合周围频谱的信息,在所有的卷积和反卷积层使用一个沿频率轴且步长数为2的操作来获取上下频谱信息。即频率维度的特征映射在编码层逐层减半,在解码层逐层加倍,这样可以保证输出和输入有一样的形式。此外,在crn中用了跳跃连接,可以把每个编码层的输出与对应的解码层连接起来。在cnr中所有的卷积和反卷积都是因果关系,这样系统不需要用到后续步骤的信息,可以方便实时处理。
156.在除了输出层的其他卷积层和反卷积层都使用指数线性单元(exponential linear units,简称elus),输出层则使用线性激活函数来估计频谱。此外在每个卷积或者反卷积之后,使用批量归一化。在使用激活函数之前,卷积递归神经网络通过使用amsgrad最优器训练,学习步长可以设置为0.001,通过30次训练全部的样本音频信号。
157.在低功耗的嵌入式设备进行部署,为使得神经网络足够轻量化,引入卷积神经网络(convolutional neural networks,简称cnn)的网络结构,该结构大量采用cnn及反卷积神经网络(de

convolutional neural networks,简称dcnn),cnn与dcnn具有参数共享的特点,能够大幅度压缩模型规模。
158.本申请的技术方案中,crn结构中rnn优选采用分组的lstm结构,而非标准lstm,分组的lstm相比标准的lstm结构能够减少数倍参数量。在经过以上模型结构设计后,模型参数可大幅度减少,最终可将参数规模控制在17k左右(17*1024个),完全能够满足低端嵌入式设备的计算要求。
159.综上所述,本公开实施例提供的高频信号重建模型的训练方法,通过利用深度神经网络,对骨传导信号缺失的高频段信号进行重建,从而在保持噪声鲁棒性优势的同时,提升骨传导设备的人声质量。同时本技术采用了参数量较小的实时网络,例如17k可训练参数,可以用于计算力内存有限的移动端设备上的语音处理。
160.实施例2
161.图5为本公开实施例提供的一种高频信号重建方法的流程示意图。本实施例提供的高频信号重建方法应用于计算机设备,所述计算机设备加载有上述实施例所述的高频信号重建模型的训练方法训练得到的高频信号重建模型。如图5所示,所述方法主要包括以下步骤:
162.s501,接收待处理的音频信号;
163.s502,将所述音频信号输入高频信号重建模型,利用所述高频信号重建模型重建所述音频信号的高频时域信号。
164.本实施方式对利用上述实施例训练得到的高频信号重建模型进行高频信号重建的过程作了进一步限定,所提供的方法尤其适用于骨传导耳机等计算机设备。骨传导耳机上设置有骨传导传感器,用于传播音频信号。
165.控制器接收骨传导传感器传播的音频信号,输入预先加载好的高频信号重建模型,即可重建该音频信号的高频部分,得到对应的高频时域信号。
166.本公开实施例提供的高频信号重建方法的具体实施过程可以参见上述图1所示的实施例提供的高频信号重建模型的训练方法的具体实施过程,不再赘述。
167.实施例3
168.与上述图1所示的方法实施例相对应,图6为本公开实施例提供的一种高频信号重建模型的训练装置的模块框图。如图6所示,所述高频信号重建模型的训练装置600包括:
169.采样模块601,用于将用于模型训练的音频信号分别进行第一频率和第二频率的低通滤波,获得对应所述第一频率的样本信号和对应所述第二频率的目标信号,其中,所述第一频率小于所述第二频率;
170.变换模块602,用于根据所述样本信号获得样本特征参数,以及,根据所述目标信号获得目标特征参数;
171.训练模块603,用于将所述样本特征参数输入神经网络,以所述目标特征参数为输出目标训练所述神经网络,直至获得满足收敛条件的神经网络,并将满足收敛条件的神经网络作为高频重建模型。
172.实施例4
173.与上述方法实施例相对应,参见图7,为本公开实施例提供的一种高频信号重建装置的模块框图。所提供的高频信号重建装置应用于计算机设备,所述计算机设备加载有第一方面中任一项所述的高频信号重建模型的训练方法训练得到的高频信号重建模型.如图7所示,所述高频信号重建装置700包括:
174.接收模块701,用于接收待处理的音频信号;
175.重建模块702,用于将所述音频信号输入高频信号重建模型,利用所述高频信号重建模型重建所述音频信号的高频时域信号。
176.此外,本公开实施例还提供了一种计算机设备,包括存储器以及处理器,所述存储器与所述处理器连接,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算机设备执行上述的高频信号重建模型的训练方法或者高频信号重建方法。
177.另外,本发明实施例还提供了一种骨传导耳机,包括骨传导传感器存储器以及处理器,所述骨传导传感器、存储器均与所述处理器连接,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算机设备执行上述的高频信号重建方法。
178.以及,本发明实施例还提供了一种计算机可读存储介质,其存储有第五方面所述的计算机设备中所用的计算机程序。
179.在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
180.另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
181.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
182.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1