一种基于多源语音数据的语音对齐方法与流程

文档序号：26670980发布日期：2021-09-17 22:42阅读：324来源：国知局

1.本发明属于语音处理领域，涉及语音对齐技术，具体是一种基于多源语音数据的语音对齐方法。

背景技术：

2.一般来说，针对同一录音场景下的同一发音人的语音，需要利用多个路基设备进行语音数据的采集，而不同的录音设备所采集到的语音数据的采集起始点无法保证完全一致。因此，为了保证多个录音设备多采集到的各语音数据的采集起始点的一致性，也为了便于对这些语音数据进行合成等后续处理，如何对语音进行对齐成为技术问题。
3.在现有技术中，一般是通过人工的方式对语音数据进行对齐操作的。举例来说，在面对不同采集起始点的语音数据时，技术人员需要人工比对各语音数据的音波，并将起始点拉齐，以实现各语音数据的对齐。而采用人工对齐的处理方法需要花费大量的时间，处理效率和对齐准确率都很低，也不利于对大数据量的语音数据的处理。
4.为此，提出一种基于多源语音数据的语音对齐方法。

技术实现要素：

5.本发明提供了一种基于多源语音数据的语音对齐方法，用于通过语音对齐方法将起始点拉齐，实现各语音数据的对齐，避免人工对齐的方式花费大量的时间和处理效率、对齐准确率较低的问题。通过语音采集模块对同一声源进行不同位置的语音数据采集，并将采集获取的声源的语音数据发送至语音处理模块；通过语音处理模块对多个语音采集模块发送的语音数据进行处理；并将处理完成的语音数据发送至语音分析模块；通过语音分析模块对处理完成后的语音数据进行语音对齐；并将对齐的语音数据发送至语音组合模块；语音分析模块将获取的单帧语音数据的数据特征系数tzij根据不同的帧数和不同的语音采集模块进行数据排列，语音分析模块任意选取其中一个数据采集模块采集的语音数据作为基准语音数据；将单帧语音数据的数据特征系数除以前一单帧语音数据的数据特征系数即tzij/tzij
‑
1；将得到的商作为对比数值，并标记为dij；采用同样的方式对其余的单帧语音数据进行处理，获取不同的对比数值；将不同的对比数值组合成为不同的数列，将不同的对比数值组合成为不同的数列，将不同数列中的dij分别与基准数列中的dij进行对比，当存在连续超过10位对比数值一致或是对比数值的商在(0.95
‑
1.05)之内时，则表示单帧语音数据可以采用，并将采用的单帧语音数据标记为待对齐单帧语音数据；通过语音组合模块将对齐后的语音数据进行语音组合。
6.本发明的目的可以通过以下技术方案实现：
7.一种基于多源语音数据的语音对齐方法，包括基于多源语音数据的语音对齐系统，包括语音采集模块、语音分析模块、语音处理模块以及语音组合模块，所述语音采集模块具有多个，分别位于声源的周围，所述语音采集模块用于对同一声源进行不同位置的语音数据进行采集，并将采集获取的声源的语音数据发送至语音处理模块；
8.所述语音处理模块用于对多个语音采集模块发送的语音数据进行处理；并将处理完成的语音数据发送至语音分析模块；
9.所述语音分析模块用于对处理完成后的语音数据进行语音对齐；并将对齐的语音数据发送至语音组合模块；
10.所述语音组合模块将对齐后的语音数据进行语音组合。
11.需要说明的是，所述语音采集模块具体为一些带有录音功能的设备或者是麦克风；所述语音采集模块分布在声源的周围，并与声源之间存在不同的空间距离，且默认语音采集模块为同种设备；
12.若干所述语音采集模块将采集的语音数据发送至语音处理模块；
13.所述语音处理模块将若干语音采集模块进行编号，标记为i，其中i表示语音采集模块的数字编号；i＝1,2
……
n；
14.语音处理模块获取语音采集模块距离声源的空间直线距离，并将语音采集模块距离声源的空间直线距离标记为li；
15.语音处理模块获取语音数据，将语音数据进行处理成为单帧语音数据，并将单帧语音数据进行解码拆分，获取振幅值、频率值，并分别将振幅值以及频率值标记为zfij、plij；其中j表示单帧语音数据的数字编号，j＝1,2
……
m；
16.语音处理模块利用计算公式计算出单帧语音数据的数据特征系数tzij，其中计算公式为其中c为比例系数，c与声源的音色有关；
17.语音处理模块将计算得出的单帧语音数据的数据特征系数tzij发送至语音分析模块；
18.所述语音分析模块用于对单帧语音数据的数据特征系数tzij进行分析，具体的分析过程包括以下：
19.语音分析模块获取语音采集模块距离声源的空间直线距离li；语音分析模块获取单帧语音数据的数据特征系数tzij；
20.语音分析模块将获取的单帧语音数据的数据特征系数tzij根据不同的帧数和不同的语音采集模块进行数据排列，排列的形式如下：
21.tz11、tz12、tz13、tz14、tz15
……
tz1m；
22.tz21、tz22、tz23、tz24、tz25
……
tz2m；
23.……
24.tzn1、tzn2、tzn3、tzn4、tzn5
……
tznm；
25.需要说明的是，针对不同的语音采集模块，采集的不同的语音数据进行处理为单帧语音数据时，单帧语音数据的总量可能会存在差异，即对不同的语音采集模块m的值会存在不同；
26.其中语音分析模块任意选取其中一个数据采集模块采集的语音数据作为基准语音数据；将单帧语音数据的数据特征系数除以前一单帧语音数据的数据特征系数即tzij/tzij
‑
1；将得到的商作为对比数值，并标记为dij；
27.采用同样的方式对其余的单帧语音数据进行处理，获取不同的对比数值；
28.将不同的对比数值组合成为不同的数列，即基准数列、数列1、数列2
……
数列n
‑
1；
29.d11、d12、d13、d14、d15
……
d1m
‑
1；(基准数列)
30.d21、d22、d23、d24、d25
……
d2m
‑
1；(数列1)
31.……
32.dn1、dn2、dn3、dn4、dn5
……
dnm
‑
1；(数列n
‑
1)
33.将数列1、数列2
……
数列n
‑
1中的dij分别与基准数列中的dij进行对比，当存在连续超过10位对比数值一致或是对比数值的商在(0.95
‑
1.05)之内时，则表示单帧语音数据可以采用，并将可以采用的单帧语音数据标记为待对齐单帧语音数据；
34.语音分析模块将待对齐单帧语音数据发送至语音组合模块；语音组合模块获取连续超过10位对比数值一致或是对比数值的商在(0.95
‑
1.05)之内的第一位对比数值，进而获取相应的单帧语音数据的位置，将此单帧语音数据作为对齐标准，从此单帧语音数据开始逐一进行语音组合，最终完成语音对齐。
35.与现有技术相比，本发明的有益效果是：
36.1、本发明的语音采集模块具体为一些带有录音功能的设备或者是麦克风；语音采集模块分布在声源的周围，并与声源之间存在不同的空间距离，且默认语音采集模块为同种设备；保证了采集声源的语音数据时的一致性，避免因为采集设备的不同导致后期语音对齐的不准确，增加了语音对齐的精确性。
37.2、本发明通过语音处理模块获取语音数据，将语音数据进行处理成为单帧语音数据，并将单帧语音数据进行解码拆分，获取振幅值、频率值，并分别将振幅值以及频率值标记为zfij、plij；语音处理模块利用计算公式计算出单帧语音数据的数据特征系数tzij，其中计算公式为c与声源的音色有关；语音处理模块将计算得出的单帧语音数据的数据特征系数tzij发送至语音分析模块；通过对语音数据的处理，方面后期的语音对齐。
38.3、本发明语音分析模块任意选取其中一个数据采集模块采集的语音数据作为基准语音数据；将单帧语音数据的数据特征系数除以前一单帧语音数据的数据特征系数即tzij/tzij
‑
1；将得到的商作为对比数值，并标记为dij；采用同样的方式对其余的单帧语音数据进行处理，获取不同的对比数值；将不同的对比数值组合成为不同的数列，即基准数列、数列1、数列2
……
数列n
‑
1；
39.d11、d12、d13、d14、d15
……
d1m
‑
1；(基准数列)
40.d21、d22、d23、d24、d25
……
d2m
‑
1；(数列1)
41.……
42.dn1、dn2、dn3、dn4、dn5
……
dnm
‑
1；(数列n
‑
1)
43.将数列1、数列2
……
数列n
‑
1中的dij分别与基准数列中的dij进行对比，当存在连续超过10位对比数值一致或是对比数值的商在(0.95
‑
1.05)之内时，则表示单帧语音数据可以采用，并将可以采用的单帧语音数据标记为待对齐单帧语音数据。采用数列的方式实现语音的对齐。
附图说明
44.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
45.图1为本发明一种基于多源语音数据的语音对齐方法的流程框图。
具体实施方式
46.下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
47.如图1所示，一种基于多源语音数据的语音对齐方法，包括基于多源语音数据的语音对齐系统，包括语音采集模块、语音分析模块、语音处理模块以及语音组合模块，所述语音采集模块具有多个，分别位于声源的周围，所述语音采集模块用于对同一声源进行不同位置的语音数据进行采集，并将采集获取的声源的语音数据发送至语音处理模块；
48.所述语音处理模块用于对多个语音采集模块发送的语音数据进行处理；并将处理完成的语音数据发送至语音分析模块；
49.所述语音分析模块用于对处理完成后的语音数据进行语音对齐；并将对齐的语音数据发送至语音组合模块；
50.所述语音组合模块将对齐后的语音数据进行语音组合。
51.需要说明的是，所述语音采集模块具体为一些带有录音功能的设备或者是麦克风；所述语音采集模块分布在声源的周围，并与声源之间存在不同的空间距离，且默认语音采集模块为同种设备；
52.若干所述语音采集模块将采集的语音数据发送至语音处理模块；
53.所述语音处理模块将若干语音采集模块进行编号，标记为i，其中i表示语音采集模块的数字编号；i＝1,2
……
n；
54.语音处理模块获取语音采集模块距离声源的空间直线距离，并将语音采集模块距离声源的空间直线距离标记为li；
55.语音处理模块获取语音数据，将语音数据进行处理成为单帧语音数据，并将单帧语音数据进行解码拆分，获取振幅值、频率值，并分别将振幅值以及频率值标记为zfij、plij；其中j表示单帧语音数据的数字编号，j＝1,2
……
m；
56.语音处理模块利用计算公式计算出单帧语音数据的数据特征系数tzij，其中计算公式为其中c为比例系数，c与声源的音色有关；
57.语音处理模块将计算得出的单帧语音数据的数据特征系数tzij发送至语音分析模块；
58.所述语音分析模块用于对单帧语音数据的数据特征系数tzij进行分析，具体的分析过程包括以下：
59.语音分析模块获取语音采集模块距离声源的空间直线距离li；语音分析模块获取单帧语音数据的数据特征系数tzij；
60.语音分析模块将获取的单帧语音数据的数据特征系数tzij根据不同的帧数和不同的语音采集模块进行数据排列，排列的形式如下：
61.tz11、tz12、tz13、tz14、tz15
……
tz1m；
62.tz21、tz22、tz23、tz24、tz25
……
tz2m；
63.……
64.tzn1、tzn2、tzn3、tzn4、tzn5
……
tznm；
65.需要说明的是，针对不同的语音采集模块，采集的不同的语音数据进行处理为单帧语音数据时，单帧语音数据的总量可能会存在差异，即对不同的语音采集模块m的值会存在不同；
66.其中语音分析模块任意选取其中一个数据采集模块采集的语音数据作为基准语音数据；将单帧语音数据的数据特征系数除以前一单帧语音数据的数据特征系数即tzij/tzij
‑
1；将得到的商作为对比数值，并标记为dij；
67.采用同样的方式对其余的单帧语音数据进行处理，获取不同的对比数值；
68.将不同的对比数值组合成为不同的数列，即基准数列、数列1、数列2
……
数列n
‑
1；
69.d11、d12、d13、d14、d15
……
d1m
‑
1；(基准数列)
70.d21、d22、d23、d24、d25
……
d2m
‑
1；(数列1)
71.……
72.dn1、dn2、dn3、dn4、dn5
……
dnm
‑
1；(数列n
‑
1)
73.将数列1、数列2
……
数列n
‑
1中的dij分别与基准数列中的dij进行对比，当存在连续超过10位对比数值一致或是对比数值的商在(0.95
‑
1.05)之内时，则表示单帧语音数据可以采用，并将可以采用的单帧语音数据标记为待对齐单帧语音数据；
74.语音分析模块将待对齐单帧语音数据发送至语音组合模块；语音组合模块获取连续超过10位对比数值一致或是对比数值的商在(0.95
‑
1.05)之内的第一位对比数值，进而获取相应的单帧语音数据的位置，将此单帧语音数据作为对齐标准，从此单帧语音数据开始逐一进行语音组合，最终完成语音对齐。
75.上述公式均是去除量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式，公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
76.本发明的工作原理：通过语音采集模块对同一声源进行不同位置的语音数据采集，并将采集获取的声源的语音数据发送至语音处理模块；通过语音处理模块对多个语音采集模块发送的语音数据进行处理；并将处理完成的语音数据发送至语音分析模块；通过语音分析模块对处理完成后的语音数据进行语音对齐；并将对齐的语音数据发送至语音组合模块；语音分析模块将获取的单帧语音数据的数据特征系数tzij根据不同的帧数和不同的语音采集模块进行数据排列，语音分析模块任意选取其中一个数据采集模块采集的语音数据作为基准语音数据；将单帧语音数据的数据特征系数除以前一单帧语音数据的数据特征系数即tzij/tzij
‑
1；将得到的商作为对比数值，并标记为dij；采用同样的方式对其余的单帧语音数据进行处理，获取不同的对比数值；将不同的对比数值组合成为不同的数列，将不同的对比数值组合成为不同的数列，将不同数列中的dij分别与基准数列中的dij进行对比，当存在连续超过10位对比数值一致或是对比数值的商在(0.95
‑
1.05)之内时，则表示单
帧语音数据可以采用，并将采用的单帧语音数据标记为待对齐单帧语音数据；通过语音组合模块将对齐后的语音数据进行语音组合。
77.在本发明所提供的实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。
78.另对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。
79.因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
80.此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。
81.最后应说明的是，以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李天洋;胡环环;朱保龙
技术所有人：合肥群音信息服务有限公司
我是此专利的发明人