本发明属于计算机信息处理和医学病理嗓音交叉,尤其是涉及一种基于g-lpc的病理嗓音增强方法及装置。
背景技术:
1、语音是人类传递信息最直接的方式。近年来,发声器官器质性或神经性的病变使得嗓音疾病发病率越来越高,嗓音含混不清会影响人们的沟通效率,采用非侵入式的信号处理方式对病理嗓音进行增强修复,能提高受损语音的可懂度,增强人们的沟通效率。此外,病理嗓音增强在语音识别、机器导航、语音增强、语音通信系统、军事刑侦和隐蔽监听等领域都有着很广泛的应用前景。
技术实现思路
1、有鉴于此,本发明旨在克服现有技术中上述问题的不足之处,通过研究分析病理嗓音的可懂度影响因素,基于正常和病理嗓音音频数据声学特征在不同频域段存在差异的特性,设计实现了一种基于伽马通线性预测编码(g-lpc,gammatone-linear predictivecoding)的病理嗓音增强方法及装置,旨在保留原发声者个性化特征同时,提升受损语音的可懂度,解决因发声器官器质性或神经性的病变而导致嗓音含混不清人们的沟通效率低的问题。
2、为达到上述目的,本发明的技术方案是这样实现的:
3、一种基于g-lpc的病理嗓音增强方法,包括如下步骤:
4、步骤1:输入正常嗓音音频数据和病理嗓音音频数据,对正常嗓音音频数据和病理嗓音音频数据进行截断处理,使正常嗓音音频数据和病理嗓音音频数据长度保持一致,对正常嗓音音频数据和病理嗓音音频数据进行预处理操作;
5、步骤2:使用gammatone滤波器组对预处理的正常嗓音音频数据和病理嗓音音频数据进行gammatone逐个频段的滤波,分别获得从低频到高频呈不同频段分布的正常嗓音滤波信号和病理嗓音滤波信号;
6、步骤3:对使用gammatone滤波器组滤波后得到的正常嗓音滤波信号和病理嗓音滤波信号进行mcs参数计算,计算mcs参数的均值,得到低于mcs均值的信号索引;
7、步骤4:采用线性预测编码(lpc,linear predictive coding)交叉合成算法对低于mcs均值的病理嗓音音频数据进行增强修复。
8、进一步的,所述步骤1中,对正常嗓音音频数据和病理嗓音音频数据进行预处理操作包括:
9、对正常嗓音音频数据和病理嗓音音频数据进行消除直流分量、归一化和预加重操作。
10、进一步的,所述步骤2中,gammatone滤波器组包括24个gammatone滤波器,频率范围 0~12.5 khz。
11、进一步的,所述步骤4具体包括如下步骤:
12、步骤41:对正常嗓音音频数据和病理嗓音音频数据分别进行lpc分析得到对应的线性预测系数和相应的预测误差;
13、步骤42:对mcs小于均值的病理嗓音音频数据和正常嗓音音频数据进行处理:采用正常嗓音音频数据的lpc误差函数和病理嗓音音频数据的线性预测系数进行交叉合成,得到交叉合成后的嗓音信号;
14、步骤43:对交叉合成后的嗓音信号和mcs大于均值的病理嗓音信号分别进行归一化操作;
15、步骤44:将交叉合成的归一化嗓音信号与mcs大于均值的归一化病理嗓音信号进行合并相加,得到最终的增强嗓音信号。
16、进一步的,还包括从主客观角度综合评价增强效果,客观方面从时域波形、频谱图进行分析对比;主观方面引入stoi指标进行评价。
17、本发明还提供了一种基于g-lpc的病理嗓音增强装置,包括:
18、数据预处理模块:用于输入正常嗓音音频数据和病理嗓音音频数据,然后对正常嗓音音频数据和病理嗓音音频数据进行截断处理,使正常嗓音音频数据和病理嗓音音频数据长度保持一致,最后对正常嗓音音频数据和病理嗓音音频数据进行预处理操作;
19、滤波模块:使用gammatone滤波器组对预处理的正常嗓音音频数据和病理嗓音音频数据进行gammatone逐个频段的滤波,分别获得从低频到高频呈不同频段分布的正常嗓音滤波信号和病理嗓音滤波信号;
20、参数计算模块:对使用gammatone滤波器组滤波后得到的正常嗓音滤波信号和病理嗓音滤波信号进行mcs参数计算,计算mcs参数的均值,得到低于mcs均值的信号索引;
21、增强模块:用于采用lpc交叉合成算法对低于mcs均值的病理嗓音音频数据进行增强修复。
22、相对于现有技术,本发明所述的一种基于g-lpc的病理嗓音增强方法及装置具有以下优势:
23、本发明通过对嗓音信号进行gammatone滤波,实现了对嗓音数据的分级分频处理,以便更好地从频域角度分析正常和病理嗓音的差异;
24、本发明引入mcs指标衡量频谱差异度,通过对正常和病理嗓音gammatone滤波后的信号进行mcs计算,科学衡量两者的频谱差异度,为后续病理嗓音频谱修复提供指导;
25、本发明采用lpc分析方法进行嗓音信号的交叉合成,以正常嗓音为参照进行增强处理过程中更好地保留病理患者个性发声特点;
26、本发明从主客观角度综合进行增强效果的评价,客观方面从时域波形、频谱图进行对比分析;主观方面引入stoi来衡量语音可懂度。
1.一种基于g-lpc的病理嗓音增强方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的一种基于g-lpc的病理嗓音增强方法,其特征在于:所述步骤1中,对正常嗓音音频数据和病理嗓音音频数据进行预处理操作包括:
3.根据权利要求1所述的一种基于g-lpc的病理嗓音增强方法,其特征在于:所述步骤2中,gammatone滤波器组包括24个gammatone滤波器,频率范围 0~12.5 khz。
4.根据权利要求1所述的一种基于g-lpc的病理嗓音增强方法,其特征在于:所述步骤4具体包括如下步骤:
5.根据权利要求1所述的一种基于g-lpc的病理嗓音增强方法,其特征在于:还包括从主客观角度综合评价增强效果,客观方面从时域波形、频谱图进行分析对比;主观方面引入stoi指标进行评价。
6.一种基于g-lpc的病理嗓音增强装置,其特征在于:包括: