一种语音与电声门图多模态数据集的生成方法

文档序号：40268539发布日期：2024-12-11 13:02阅读：158来源：国知局

本发明属于信息，特别是涉及一种语音与电声门图多模态数据集的生成方法。

背景技术：

1、语音包含了人类言语的丰富信息，包括语音内容、音调、语速、身份信息等，可以用于语音识别、语义理解、声纹识别以及语音情感识别等任务。电声门图是一种记录声带振动的图形化表示，与语音相比，它具有以下优点：首先，电声门图数据提供了声带振动的可视化表示，能够直观地展现音调的特征和波形；其次，电声门图数据不受语音质量和环境噪音的影响，具有较高的稳定性和可靠性；最后，电声门图数据的存储和传输成本更低，更易于处理和分析。语音数据集在语音识别、语音合成、情感识别等领域有着广泛的应用，可以应用于智能助手、智能客服、语音翻译等场景。电声门图数据集则不仅可以用于语音识别和情感识别，还可以应用于说话人识别、语音质量评估等领域。

2、现有的语音数据集往往多样性不足，这限制了语音识别系统在极低信噪比场景和多名说话者下的泛化能力和鲁棒性，此外，大多数数据集缺乏与语音同步的电声门图信息，这限制了对语音产生机制深层次理解的可能性。

技术实现思路

1、本发明的目的是提供一种语音与电声门图多模态数据集的生成方法，以解决上述现有技术存在的问题。

2、为实现上述目的，本发明提供了一种语音与电声门图多模态数据集的生成方法，包括：

3、获取由若干预设人员根据预设文本进行朗读的原始多模态数据，所述原始多模态数据包括语音数据和电声门图数据；

4、对各所述原始多模态数据进行混合操作，得到不同信噪比条件下的混合多模态数据；

5、为各所述原始多模态数据和各所述混合多模态数据生成对应的标签信息，基于预设文件存储结构对各多模态数据及对应的标签信息进行存储，得到多模态数据集。

6、可选的，获取由若干预设人员根据预设文本进行朗读的原始多模态数据，具体包括：

7、基于预设划分规则对各预设人员和各所述预设文本分别进行编号分组，得到具有相同组数的预设人员组和预设文本组；

8、根据分组顺序使各预设人员组和各预设文本组一一对应，使各组预设人员按照预设停顿间隔进行文本朗读，得到若干双通道音频文件，所述双通道音频文件包括左声道音频文件和右声道电声门图文件；

9、基于预设停顿间隔对各所述双通道音频文件进行文本分段，得到若干分段文本，对各所述分段文本进行命名，得到所述原始多模态数据。

10、可选的，在使各组预设人员按照预设停顿间隔进行文本朗读的过程中，基于预设音频采集设备采集各所述双通道音频文件，所述预设音频采集设备包括麦克风和电声门图仪器。

11、可选的，在基于预设停顿间隔对各所述双通道音频文件进行文本分段之前，还包括基于经验模态分解方法对各所述双通道音频文件进行降噪处理，得到降噪后的双通道音频文件，基于降噪后的双通道音频文件进行文本分段。

12、可选的，基于预设停顿间隔对各所述双通道音频文件进行文本分段，具体包括：

13、将声音小于预设分贝阈值并持续时间超过预设停顿间隔的音频片段作为静音片段，提取各双通道音频文件中去除静音片段后的音频片段作为所述分段文本。

14、可选的，对各所述原始多模态数据进行混合操作，具体包括：

15、随机选取两位预设人员的原始多模态数据，对选取的原始多模态数据进行音频长度统一处理并按照设定信噪比进行音频混合，进行命名，得到所述混合多模态数据。

16、可选的，还包括将各所述混合多模态数据及对应原始多模态数据的音频信息进行存储，具体包括：

17、将各所述混合多模态数据输入目标语音提取模型中进行语音提取，得到各所述混合多模态数据对应的原始多模态数据，将各所述混合多模态数据及对应原始多模态数据的音频信息以csv文件格式进行存储；其中，所述目标语音提取模型是基于循环神经网络和门控循环网络构建的。

18、可选的，还包括，对所述多模态数据集的可用性进行验证，具体包括：

19、将所述多模态数据集中的各多模态数据输入语音识别模型中进行分类识别，得到各多模态数据对应的预测标签信息，对比预测标签信息与对应多模态数据的标签信息，得到可用性验证结果，其中，所述语音识别模型是基于神经网络模型构建的。

20、本发明的技术效果为：

21、本发明通过结合语音和电声门图数据，可以获得更加全面和多维度的信息，从而提高模型在语音识别和情感识别任务中的性能和准确性，在进行训练和评估语音处理系统方面，例如语音识别、语音合成等，该数据库可以更好地训练和评估模型，能够提高模型的泛化能力、准确性、鲁棒性和可靠性。

技术特征：

1.一种语音与电声门图多模态数据集的生成方法，其特征在于，包括：

2.根据权利要求1所述的一种语音与电声门图多模态数据集的生成方法，其特征在于，获取由若干预设人员根据预设文本进行朗读的原始多模态数据，具体包括：

3.根据权利要求2所述的一种语音与电声门图多模态数据集的生成方法，其特征在于，在使各组预设人员按照预设停顿间隔进行文本朗读的过程中，基于预设音频采集设备采集各所述双通道音频文件，所述预设音频采集设备包括麦克风和电声门图仪器。

4.根据权利要求2所述的一种语音与电声门图多模态数据集的生成方法，其特征在于，在基于预设停顿间隔对各所述双通道音频文件进行文本分段之前，还包括基于经验模态分解方法对各所述双通道音频文件进行降噪处理，得到降噪后的双通道音频文件，基于降噪后的双通道音频文件进行文本分段。

5.根据权利要求2所述的一种语音与电声门图多模态数据集的生成方法，其特征在于，基于预设停顿间隔对各所述双通道音频文件进行文本分段，具体包括：

6.根据权利要求1所述的一种语音与电声门图多模态数据集的生成方法，其特征在于，对各所述原始多模态数据进行混合操作，具体包括：

7.根据权利要求6所述的一种语音与电声门图多模态数据集的生成方法，其特征在于，还包括将各所述混合多模态数据及对应原始多模态数据的音频信息进行存储，具体包括：

8.根据权利要求1所述的一种语音与电声门图多模态数据集的生成方法，其特征在于，还包括，对所述多模态数据集的可用性进行验证，具体包括：

技术总结
本发明属于信息技术领域，并公开了一种语音与电声门图多模态数据集的生成方法，包括：获取由若干预设人员根据预设文本进行朗读的原始多模态数据，所述原始多模态数据包括语音数据和电声门图数据；对各所述原始多模态数据进行混合操作，得到不同信噪比条件下的混合多模态数据；为各所述原始多模态数据和各所述混合多模态数据生成对应的标签信息，基于预设文件存储结构对各多模态数据及对应的标签信息进行存储，得到多模态数据集。本发明所述技术方案结合语音和电声门图数据，可以获得更加全面和多维度的信息，从而能够提高模型的泛化能力、准确性、鲁棒性和可靠性。

技术研发人员：陈立江,苏榆烨,赵琦,吕书畅,崔春风
受保护的技术使用者：北京航空航天大学
技术研发日：
技术公布日：2024/12/10

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈立江,苏榆烨,赵琦,吕书畅,崔春风
技术所有人：北京航空航天大学
我是此专利的发明人

上一篇：一种旋转蒸发瓶的清洁装置的制作方法
上一篇：一种低密度海绵发泡装置的制作方法