一种音频丢帧的处理方法、装置以及蓝牙耳机与流程

文档序号:33704497发布日期:2023-03-31 21:00阅读:78来源:国知局
一种音频丢帧的处理方法、装置以及蓝牙耳机与流程

1.本发明属于音频设备技术领域,具体涉及一种音频丢帧的处理方法、装置以及蓝牙耳机。


背景技术:

2.随着移动互联网的快速发展,用户对于音乐的需求不断增强,无线蓝牙耳机因为避免了耳机线的拖拉深受用户的喜爱。然而,无线蓝牙通信的环境复杂多变,导致无线蓝牙耳机所获得的音频数据容易出现误码丢帧,语音传输质量低、音频通信服务质量差等问题,丢帧会降低音频解码的质量,音频的波形无法保持连贯,进一步地也会使得音频在听觉感知上发生失真。
3.现有技术在面对音频丢帧时,往往仅根据一种音频参数来判断音频是否发生丢帧,例如,根据频域成分是否完成来判断音频是否丢帧,但是音频丢帧的表现往往是多方面的,例如在缓存过程中由于硬件条件不足主动丢弃部分音频帧时,其频域成分仍然完整的,显然单独根据频域参数并不能准确地判断发生丢帧。并且,在需要对丢帧的音频进行掩饰处理时,不管是通信质量的问题还是硬件配置的问题导致了丢帧,往往只是机械式地进行补帧处理,并未实际的关注丢帧的原因,导致对于丢帧的掩饰处理效率低下。而在补帧的过程中,往往也只是机械式的采用复制粘贴附件帧的方式进行补帧,导致补帧效果差,音频的波形无法保持连贯,即使进行补帧后音频在听觉感知上仍然会有失真感。


技术实现要素:

4.为了解决上述技术问题,本发明提供一种音频丢帧的处理方法、装置以及蓝牙耳机。
5.第一方面
6.本发明提供一种音频丢帧的处理方法,应用于蓝牙耳机,蓝牙耳机与外部设备之间建立有蓝牙通信连接,音频丢帧的处理方法包括:
7.s101:获取来自于外部设备的音频数据;
8.s102:对于音频数据按帧进行特征提取,获得每一帧的帧数据对应的能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值;
9.s103:根据能量特征值,计算每两帧帧数据的之间的能量连贯参数值,在能量连贯参数值小于第一预设值的情况下,将能量连贯结果设置为1,用于表征在能量特征方面连贯,否则将能量连贯结果设置为0,用于表征在能量特征方面不连贯;依此方法,计算时域连贯结果、频域连贯结果、乐理连贯结果和感知连贯结果;
10.s104:计算两帧帧数据之间的连贯结果,连贯结果为能量连贯结果、时域连贯结果、频域连贯结果、乐理连贯结果和感知连贯结果之和,在连贯结果小于第二预设值的情况下,判定两帧帧数据之间存在丢帧,将两帧帧数据之间的丢帧结果设置为1,否则设置为0;
11.s105:以预设数量的帧数据为一组,计算组丢帧结果,其中,组丢帧结果为本组中
丢帧结果之和;
12.s106:在组丢帧结果大于第三预设值且小于第四预设值的情况下,按照预设顺序降低音频数据的品质,其中,预设顺序为臻品品质、无损品质、高品质和标准品质;
13.s107:在组丢帧结果大于或者等于第四预设值的情况下,根据两者之间存在丢帧的第一帧数据和第二帧数据,确定在第一帧数据和第二帧数据之间需要补入的帧数n;
14.s108:检索在第一帧数据之前,是否存在符合条件的类似帧数据,其中,类似帧数据与第一帧数据之间的能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值的类似程度均在预设范围内;
15.s109:在存在符合条件的类似帧数据的情况下,复制类似帧数据后面的n帧数据,并补入到第一帧数据后;
16.s110:在不存在符合条件的类似帧数据的情况下,提取每一帧帧数据的能量特征值构成能量特征曲线,提取每一帧帧数据的时域特征值构成时域特征曲线,提取每一帧帧数据的频域特征值构成频域特征曲线;
17.s111:在能量特征曲线、时域特征曲线和频域特征曲线中,第一帧数据对应的横坐标和第二帧数据对应的横坐标之间中插入n个横坐标,根据曲线中已知的数值利用最小二乘法进行曲线拟合,获得插入的n个横坐标对应的目标能量特征值、目标时域特征值和目标频域特征值;
18.s112:复制第一帧数据,对第一帧数据进行变换,以使变换后的帧数据达到目标能量特征值、目标时域特征值和目标频域特征值;
19.s113:将变换后的帧数据插入到第一帧数据和第二帧数据之间。
20.第二方面
21.本发明提供一种音频丢帧的处理装置,应用于蓝牙耳机,蓝牙耳机与外部设备之间建立有蓝牙通信连接,音频丢帧的处理装置包括:
22.获取模块,用于获取来自于外部设备的音频数据;
23.第一提取模块,用于对于音频数据按帧进行特征提取,获得每一帧的帧数据对应的能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值;
24.第一计算模块,用于根据能量特征值,计算每两帧帧数据的之间的能量连贯参数值,在能量连贯参数值小于第一预设值的情况下,将能量连贯结果设置为1,用于表征在能量特征方面连贯,否则将能量连贯结果设置为0,用于表征在能量特征方面不连贯;依此方法,计算时域连贯结果、频域连贯结果、乐理连贯结果和感知连贯结果;
25.第二计算模块,用于计算两帧帧数据之间的连贯结果,连贯结果为能量连贯结果、时域连贯结果、频域连贯结果、乐理连贯结果和感知连贯结果之和,在连贯结果小于第二预设值的情况下,判定两帧帧数据之间存在丢帧,将两帧帧数据之间的丢帧结果设置为1,否则设置为0;
26.第三计算模块,用于以预设数量的帧数据为一组,计算组丢帧结果,其中,组丢帧结果为本组中丢帧结果之和;
27.降低模块,用于在组丢帧结果大于第三预设值且小于第四预设值的情况下,按照预设顺序降低音频数据的品质,其中,预设顺序为臻品品质、无损品质、高品质和标准品质;
28.确定模块,用于在组丢帧结果大于或者等于第四预设值的情况下,根据两者之间
存在丢帧的第一帧数据和第二帧数据,确定在第一帧数据和第二帧数据之间需要补入的帧数n;
29.检索模块,用于检索在第一帧数据之前,是否存在符合条件的类似帧数据,其中,类似帧数据与第一帧数据之间的能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值的类似程度均在预设范围内;
30.第一复制模块,用于在存在符合条件的类似帧数据的情况下,复制类似帧数据后面的n帧数据,并补入到第一帧数据后;
31.第二提取模块,用于在不存在符合条件的类似帧数据的情况下,提取每一帧帧数据的能量特征值构成能量特征曲线,提取每一帧帧数据的时域特征值构成时域特征曲线,提取每一帧帧数据的频域特征值构成频域特征曲线;
32.第一插入模块,用于在能量特征曲线、时域特征曲线和频域特征曲线中,第一帧数据对应的横坐标和第二帧数据对应的横坐标之间中插入n个横坐标,根据曲线中已知的数值利用最小二乘法进行曲线拟合,获得插入的n个横坐标对应的目标能量特征值、目标时域特征值和目标频域特征值;
33.第二复制模块,用于复制第一帧数据,对第一帧数据进行变换,以使变换后的帧数据达到目标能量特征值、目标时域特征值和目标频域特征值;
34.第二插入模块,用于将变换后的帧数据插入到第一帧数据和第二帧数据之间。
35.第三方面
36.本发明提供一种蓝牙耳机,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现如第一方面的音频丢帧的处理方法。
37.与现有技术相比,本发明至少具有以下有益效果:
38.1、在本发明中,充分考虑设备音频丢帧时的外在表现,将音频的能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值综合在一起,根据能量连贯结果、时域连贯结果、频域连贯结果、乐理连贯结果和感知连贯结果综合判断音频数据是否发生丢帧,大大提升了丢帧检测的准确性。
39.2、在本发明中,根据丢帧的程度进行差异化处理,如果丢帧的程度较低,可以先采用降低音频数据传输品质的方式,优先排查是否是由于通信质量问题而导致的丢帧,如果丢帧的程度较高,再进行补帧处理,降低音频数据传输品质相较于补帧而言,对于丢帧的掩饰处理效率更高,避免了机械式地进行补帧处理,造成处理效率低下。
40.3、在本发明中,如果是音乐性质的音频,往往会存在一些重复的曲调,在补帧的过程中,可以优先检索在丢帧位置前面的音频中是否存在能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值均很类似的音频数据,优先采用类似的数据进行补帧,如果不在存类似音频时,再提取音频轮廓进行补帧,尽量保持音频的波形连贯,修复音频在听觉感知上的失真感。
附图说明
41.下面将以明确易懂的方式,结合附图说明优选实施方式,对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。
42.图1是本发明提供的一种音频丢帧的处理方法的流程示意图;
43.图2是本发明提供的一种音频丢帧的检测方法的流程示意图;
44.图3是本发明提供的一种音频特征的提取方法的流程示意图;
45.图4是本发明提供的一种能量连贯结果的计算方法的流程示意图;
46.图5是本发明提供的一种补入帧数的计算方法的流程示意图;
47.图6是本发明提供的一种音频丢帧的处理装置的结构示意图;
48.图7是本发明提供的一种蓝牙耳机的硬件结构示意图。
具体实施方式
49.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
50.为使图面简洁,各图中只示意性地表示出了与发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
51.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
52.在本文中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
53.另外,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
54.实施例1
55.在一个实施例中,参考说明书附图1,本发明提供的一种音频丢帧的处理方法的流程示意图。参考说明书附图2,是本发明提供的一种音频丢帧的检测方法的流程示意图。
56.本发明提供的一种音频丢帧的处理方法,应用于蓝牙耳机,蓝牙耳机与外部设备之间建立有蓝牙通信连接。
57.其中,外部设备可以是手机、笔记本电脑和可穿戴设备等。
58.音频丢帧的处理方法包括:
59.s101:获取来自于外部设备的音频数据。
60.s102:对于音频数据按帧进行特征提取,获得每一帧的帧数据对应的能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值。
61.需要说明的是,每个音频均具有能量特征、时域特征、频域特征、乐理特征和感知特征。
62.在一种可能的实施方式中,能量特征值为幅值;
63.时域特征值为自相关值,其中,自相关值是指信号与其沿时间轴位移后的版本之间的相似度,可用于计算单音的基频;
64.频域特征值为频谱质心值,其中,频谱质心值是指信号在频谱中能量的集中点,可用于描述信号音色的明朗度,可以理解的是,越亮的声音能量集中在高频部分,频谱质心的值就越大;
65.乐理特征值为失谐度值,其中,失谐度值是指音频信号的泛音频率与其基音频率的整数倍之间的偏移程度;基音频率,简称基频,声音可分解为若干个不同频率的正弦波的叠加,频率最低的波就是基音,其他频率高的为泛音,频率越高分配到的能量越少。
66.感知特征值为响度值,其中,响度值是指信号强弱被人耳感觉到的主观感觉量,也可以理解为音量。
67.需要说明的是,一旦音频数据出现丢帧,在丢帧处音频的幅值、自相关值、频谱质心值、失谐度值和响度值等音频参数往往会发生突变,通过这些不同方面的特征综合判断音频数据是否发生丢帧,可以大大提升音频丢帧检测的准确性。
68.进一步地,除了幅值、自相关值、频谱质心值、失谐度值和响度值,能量特征、时域特征、频域特征、乐理特征和感知特征的具体音频参数还有很多,本领域技术人员可以根据实际情况选择相应的音频参数。
69.在一种可能的实施方式中,参考说明书附图3,是本发明提供的一种音频特征的提取方法的流程示意图。s102具体包括:
70.s1021:对于音频数据进行加窗、分帧,并按帧提取能量特征值和时域特征值;
71.s1022:对于音频数据进行短时傅里叶变换,得到短时频谱,对于短时频谱按帧提取频域特征值;
72.s1023:在短时频谱中提取出基音频率,根据帧数据的泛音频率与基音频率计算乐理特征值;
73.s1024:通过听觉感知模型,对于音频数据按帧提取感知特征值。
74.在实际应用过程中,通过以上方式分阶段、有序地提取处音频数据的能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值,可以在兼顾丢帧检测准确性的同时提高处理效率。
75.s103:根据能量特征值,计算每两帧帧数据的之间的能量连贯参数值,在能量连贯参数值小于第一预设值的情况下,将能量连贯结果设置为1,用于表征在能量特征方面连贯,否则将能量连贯结果设置为0,用于表征在能量特征方面不连贯。
76.在一种可能的实施方式中,参考说明书附图4,是本发明提供的一种能量连贯结果的计算方法的流程示意图。s103具体包括:
77.s1031:计算第一帧至第m帧的帧数据的能量特征值的平均值;
78.s1032:使用第m+1帧的帧数据的能量特征值减去前m帧数据的能量特征值的平均值,作为计算第m帧数据与第m+1帧数据的之间的能量连贯参数值;
79.需要说明的是,使用第m+1帧的帧数据的能量特征值减去前m帧数据的能量特征值的平均值作为能量连贯参数值,可以理解为第m+1帧的帧数据的能量特征值相对于之前所有数据的能量特征值的跳跃突变值。
80.s1033:在能量连贯参数值小于第一预设值的情况下,将能量连贯结果设置为1,否
则将能量连贯结果设置为0。
81.需要说明的是,如果能量连贯参数值小于第一预设值,意味着第m+1帧的帧数据的能量特征值未发生跳跃突变,相应的发生丢帧的可能性较小,可以认为能量特征值是连贯的,记1。反之,如果能量连贯参数值大于第一预设值,意味着第m+1帧的帧数据的能量特征值发生了跳跃突变,相应的发生丢帧的可能性较大,可以认为能量特征值是不连贯的,记0。
82.其中,本领域技术人员可以根据实际情况调整第一预设值的大小,对于第一预设值的具体数值本发明不做限定。
83.依此方法,计算时域连贯结果、频域连贯结果、乐理连贯结果和感知连贯结果。
84.其中,能量连贯结果、时域连贯结果、频域连贯结果、乐理连贯结果和感知连贯结果中的每一个结果对于判断音频是否丢帧均有价值。音频数据的能量连贯结果、时域连贯结果、频域连贯结果、乐理连贯结果和感知连贯结果中记为1的个数越多,意味着音频数据发生丢帧的概率越小;反之,音频数据的能量连贯结果、时域连贯结果、频域连贯结果、乐理连贯结果和感知连贯结果中记为0的个数越多,意味着音频数据发生丢帧的概率越大。
85.s104:计算两帧帧数据之间的连贯结果,连贯结果为能量连贯结果、时域连贯结果、频域连贯结果、乐理连贯结果和感知连贯结果之和,在连贯结果小于第二预设值的情况下,判定两帧帧数据之间存在丢帧,将两帧帧数据之间的丢帧结果设置为1,否则设置为0。
86.举例来说,a与a+1帧数据之间的能量连贯结果为0、时域连贯结果为0、频域连贯结果为1、乐理连贯结果0和感知连贯结果0;此时,a与a+1帧数据的连贯结果为0+0+1+0+0=1。
87.b与b+i帧数据之间的能量连贯结果为1、时域连贯结果为0、频域连贯结果为1、乐理连贯结果1和感知连贯结果0;此时,b帧数据的连贯结果为1+0+1+1+0=3。
88.c与c+1帧数据之间的能量连贯结果为1、时域连贯结果为1、频域连贯结果为1、乐理连贯结果1和感知连贯结果1;此时,a帧数据的连贯结果为1+1+1+1+1=5。
89.如果将第二预设值的大小设置为3,此时,可以判断a与a+1帧数据之间存在丢帧,b与b+1帧数据之间不存在丢帧,c与c+1帧数据之间不存在丢帧。
90.如果将第二预设值的大小设置为4,此时,此时,可以判断a与a+1帧数据之间存在丢帧,b与b+1帧数据之间存在丢帧,c与c+1帧数据之间不存在丢帧。
91.相应地,可以通过设置第二预设值的具体大小,调整丢帧判断的尺度,以兼顾准确率和效率。
92.在一种可能的实施方式中,在计算两帧帧数据之间的连贯结果的过程中,对能量连贯结果、时域连贯结果、频域连贯结果、乐理连贯结果和感知连贯结果求和的方式可以是加权求和。
93.具体而言,令能量连贯结果的数值为y1,时域连贯结果的数值为y2、频域连贯结果的数值为y3、乐理连贯结果的数值为y4,感知连贯结果的数值为y5,能量连贯结果的权重为ζ,时域连贯结果的权重为β、频域连贯结果的权重为γ、乐理连贯结果的权重为δ,感知连贯结果的权重为ε;
94.则两帧帧数据之间的连贯结果z可通过下述公式计算:
95.z=ζ
·
y1+β
·
y2+γ
·
y3+δ
·
y4+ε
·
y596.进一步地,为了兼顾准确率和效率,不仅可以通过设置第二预设值的具体大小,还可以调整各个连贯结果的权重,以调整丢帧判断的尺度。
97.s105:以预设数量的帧数据为一组,计算组丢帧结果,其中,组丢帧结果为本组中丢帧结果之和。
98.需要说明的是,按组观察帧数据,可以从更加宏观、更加整体的角度评价音频数据的丢帧是否严重。
99.其中,本领域技术人员可以根据实际情况调整预设数量的大小,对于预设数量的具体数值本发明不做限定。
100.可以理解的是组丢帧结果越大,意味着本组中音频数据的丢帧越严重;反之,组丢帧结果越小,意味着本组中音频数据的丢帧越少。
101.s106:在组丢帧结果大于第三预设值且小于第四预设值的情况下,按照预设顺序降低音频数据的品质,其中,预设顺序为臻品品质、无损品质、高品质和标准品质。
102.可以理解的是,如果组丢帧结果小于第三预设值,意味着音频数据的丢帧结果并不严重,无需进行任何处理。
103.如果组丢帧结果大于第三预设值且小于第四预设值,此时可以理解为存在丢帧,但是丢帧的程度较低,可以先采用降低音频数据传输品质的方式,优先排查是否是由于通信质量问题而导致的丢帧。对于通信质量问题可以采用降低音频数据的品质进行处理。降低音频数据传输品质相较于补帧而言,对于丢帧的掩饰处理效率更高,避免了机械式地进行补帧处理,造成处理效率低下。
104.在一种可能的实施方式中,按照预设顺序降低音频数据的品质时,只允许降低一档,例如,可以由臻品品质降低为无损品质,可以由无损品质降低为高品质,但不允许由臻品品质降低为高品质。如果在降低一档之后仍然没有解决丢帧问题,此时,不宜继续牺牲用户的体验,继续降低品质,应当转而进行补帧来进行丢帧掩饰。
105.s107:在组丢帧结果大于或者等于第四预设值的情况下,根据两者之间存在丢帧的第一帧数据和第二帧数据,确定在第一帧数据和第二帧数据之间需要补入的帧数n。
106.如果组丢帧结果大于或者等于第四预设值,此时可以理解为存在丢帧,并且丢帧的程度很高,已经超出了通信质量不佳可能造成的丢帧结果,此时,此时直接进行补帧来进行丢帧掩饰。
107.其中,本发明对于第三预设值和第四预设值的具体数值本发明不做限定。如果将第四预设值设置的过高,此时需要承担误判属于通信质量问题的后果,原因在于浪费时间进行降低品质,但仍然无法解决丢帧问题。如果将第四预设值设置的过低,此时将更多的通过补帧的方式进行丢帧掩饰,补帧相较于降低音频品质显然需要花去更多的时间。因此,本领域技术人员可以根据实际情况调整第三预设值和第四预设值的大小,以兼顾通信质量问题与硬件设备问题。
108.需要说明的是,在进行补帧过程中,具体补入多少帧最有利于丢帧掩饰,一直是一个棘手的问题。在本发明中,根据第一帧数据和第二帧数据本身的数据特征适应性地插入相应数量的帧数。
109.在一种可能的实施方式中,参考说明书附图5,是本发明提供的一种补入帧数的计算方法的流程示意图。s107具体包括:
110.s1071:提取每一帧的帧数据的感知特征值构成感知特征矩阵s1;
111.需要说明的是,感知特征值相较于能量特征值、时域特征值、频域特征值、乐理特
征值来说,更能反映人耳对于音频数据的感知。因此,选择感知特征值作为插帧数量的计算依据。
112.s1072:在感知特征矩阵s1中,计算每两帧帧数据的感知特征值的差值,构成差值矩阵s2;
113.需要说明书是,此步骤计算每两帧帧数据的感知特征值的差值,用于表示感知特征的跳跃突变程度。
114.s1073:去除差值矩阵s2中数值大于第五预设值的元素,构成矩阵s3;
115.需要说明的是,去除大于第五预设值的元素用于去除一些明显不合理的数据,其对应的音频数据可能发生爆音等问题,如果依据有爆音问题的数据进行补帧,将会削弱补帧的掩饰效果。
116.其中,本领域技术人员可以根据实际情况调整第五预设值的大小,对于第一预设值的具体数值本发明不做限定。
117.s1074:对矩阵s3中的元素计算平均值,作为补帧参数值α;
118.需要说明的是,此时的平均值可以认为是音频数据中正常数据的感知特征平均值,用于表达整个音频数据的基调。
119.s1075:令第一帧数据的感知特征值为x1,第二帧数据的感知特征值为x2,则在第一帧数据和第二帧数据之间需要补入的帧数n可通过下述公式计算:
[0120][0121][0122]
其中,表示向上取整。
[0123]
需要说明的是,通过感知特征值计算出来的补帧数,更能符合用户的听觉感知,更能达到丢帧掩饰的效果。
[0124]
s108:检索在第一帧数据之前,是否存在符合条件的类似帧数据。
[0125]
其中,类似帧数据与第一帧数据之间的能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值的类似程度均在预设范围内。
[0126]
进一步地,对于能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值的类似程度所要求的预设范围可以不同,例如,可以将更能反映人耳对于音频数据的感知特征值的范围设置的严格点,将人耳感知较弱的时域特征值的范围设置的宽松点,以更好地检索类似音频数据。
[0127]
s109:在存在符合条件的类似帧数据的情况下,复制类似帧数据后面的n帧数据,并补入到第一帧数据后。
[0128]
需要说明的是,如果是音乐性质的音频,往往会存在一些重复的曲调,在补帧的过程中,可以优先检索在丢帧位置前面的音频中是否存在能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值均很类似的音频数据,优先采用类似的数据进行补帧。此时,一方面相对于提取音频轮廓进行补帧来说减少了计算量,可以提升补帧效率。另一方面,根据类似的音频数据进行补帧,更有利于保持音频的波形连贯,修复音频在听觉感知上的失真感。
[0129]
s110:在不存在符合条件的类似帧数据的情况下,提取每一帧帧数据的能量特征值构成能量特征曲线,提取每一帧帧数据的时域特征值构成时域特征曲线,提取每一帧帧数据的频域特征值构成频域特征曲线。
[0130]
需要说明的是,由于能量特征、时域特征和频域特征可以通过音频数据直接或者简单处理得到,而乐理特征值需要提取基音频率才能计算,感知特征需要借助听觉感知模型才能获取,对于后续的计算而言会增加复杂度,因此,选取能量特征、时域特征和频域特征进行补帧。
[0131]
可选地,也可以将能量特征、时域特征、频域特征、乐理特征和感知特征均用于补帧,这样做补帧掩饰效果最好,但是会增加补帧的计算处理时间。
[0132]
s111:在能量特征曲线、时域特征曲线和频域特征曲线中,第一帧数据对应的横坐标和第二帧数据对应的横坐标之间中插入n个横坐标,根据曲线中已知的数值利用最小二乘法进行曲线拟合,获得插入的n个横坐标对应的目标能量特征值、目标时域特征值和目标频域特征值。
[0133]
需要说明的是,在拟合后的特征曲线中选取与横坐标相应的点,之后统计其纵坐标即可获得目标能量特征值、目标时域特征值和目标频域特征值。
[0134]
s112:复制第一帧数据,对第一帧数据进行变换,以使变换后的帧数据达到目标能量特征值、目标时域特征值和目标频域特征值。
[0135]
需要说明的是,第一帧数据由于是临近的数据,与丢帧数据的近似程度较高,因此,选用第一帧数据作为基础,在此基础上进行变换以获得补帧数据,可以提升补帧效率。
[0136]
s113:将变换后的帧数据插入到第一帧数据和第二帧数据之间。
[0137]
在一种可能的实施方式中,在s101和s102之间,还包括:
[0138]
s114:识别音频数据中的静音片段,对静音片段进行删除。
[0139]
需要说明的是,删除静音片段可以理解为是丢帧检测之前对于音频数据的一种预处理,以避免静音片段干扰后续丢帧检测的准确性,同时还可以降低数据处理量,提升处理效率。
[0140]
具体地,语音活动检测算法,检测音频数据中的语音片段和静音片段,并对静音片段进行去除。
[0141]
在一种可能的实施方式中,在s113之后,还包括:
[0142]
s115:对第一帧数据、插入的n帧数据和第二帧数据进行交叉渐变处理。
[0143]
对插入n帧数据后的音频进行混合重构,通过交叉渐变可以使得重构后的音频更加流畅圆滑,同时,交叉渐变可以以非常低的计算代价完成音频的修复。
[0144]
与现有技术相比,本发明至少具有以下有益效果:
[0145]
1、在本发明中,充分考虑设备音频丢帧时的外在表现,将音频的能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值综合在一起,根据能量连贯结果、时域连贯结果、频域连贯结果、乐理连贯结果和感知连贯结果综合判断音频数据是否发生丢帧,大大提升了丢帧检测的准确性。
[0146]
2、在本发明中,根据丢帧的程度进行差异化处理,如果丢帧的程度较低,可以先采用降低音频数据传输品质的方式,优先排查是否是由于通信质量问题而导致的丢帧,如果丢帧的程度较高,再进行补帧处理,降低音频数据传输品质相较于补帧而言,对于丢帧的掩
饰处理效率更高,避免了机械式地进行补帧处理,造成处理效率低下。
[0147]
3、在本发明中,如果是音乐性质的音频,往往会存在一些重复的曲调,在补帧的过程中,可以优先检索在丢帧位置前面的音频中是否存在能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值均很类似的音频数据,优先采用类似的数据进行补帧,如果不在存类似音频时,再提取音频轮廓进行补帧,尽量保持音频的波形连贯,修复音频在听觉感知上的失真感。
[0148]
实施例2
[0149]
在一个实施例中,参考说明书附图6,本发明提供的一种音频丢帧的处理装置的结构示意图。
[0150]
本发明提供的一种音频丢帧的处理装置20,应用于蓝牙耳机,蓝牙耳机与外部设备之间建立有蓝牙通信连接,音频丢帧的处理装置20包括:
[0151]
获取模块201,用于获取来自于外部设备的音频数据;
[0152]
第一提取模块202,用于对于音频数据按帧进行特征提取,获得每一帧的帧数据对应的能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值;
[0153]
第一计算模块203,用于根据能量特征值,计算每两帧帧数据的之间的能量连贯参数值,在能量连贯参数值小于第一预设值的情况下,将能量连贯结果设置为1,用于表征在能量特征方面连贯,否则将能量连贯结果设置为0,用于表征在能量特征方面不连贯;依此方法,计算时域连贯结果、频域连贯结果、乐理连贯结果和感知连贯结果;
[0154]
第二计算模块204,用于计算两帧帧数据之间的连贯结果,连贯结果为能量连贯结果、时域连贯结果、频域连贯结果、乐理连贯结果和感知连贯结果之和,在连贯结果小于第二预设值的情况下,判定两帧帧数据之间存在丢帧,将两帧帧数据之间的丢帧结果设置为1,否则设置为0;
[0155]
第三计算模块205,用于以预设数量的帧数据为一组,计算组丢帧结果,其中,组丢帧结果为本组中丢帧结果之和;
[0156]
降低模块206,用于在组丢帧结果大于第三预设值且小于第四预设值的情况下,按照预设顺序降低音频数据的品质,其中,预设顺序为臻品品质、无损品质、高品质和标准品质;
[0157]
确定模块207,用于在组丢帧结果大于或者等于第四预设值的情况下,根据两者之间存在丢帧的第一帧数据和第二帧数据,确定在第一帧数据和第二帧数据之间需要补入的帧数n;
[0158]
检索模块208,用于检索在第一帧数据之前,是否存在符合条件的类似帧数据,其中,类似帧数据与第一帧数据之间的能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值的类似程度均在预设范围内;
[0159]
第一复制模块209,用于在存在符合条件的类似帧数据的情况下,复制类似帧数据后面的n帧数据,并补入到第一帧数据后;
[0160]
第二提取模块210,用于在不存在符合条件的类似帧数据的情况下,提取每一帧帧数据的能量特征值构成能量特征曲线,提取每一帧帧数据的时域特征值构成时域特征曲线,提取每一帧帧数据的频域特征值构成频域特征曲线;
[0161]
第一插入模块211,用于在能量特征曲线、时域特征曲线和频域特征曲线中,第一
帧数据对应的横坐标和第二帧数据对应的横坐标之间中插入n个横坐标,根据曲线中已知的数值利用最小二乘法进行曲线拟合,获得插入的n个横坐标对应的目标能量特征值、目标时域特征值和目标频域特征值;
[0162]
第二复制模块212,用于复制第一帧数据,对第一帧数据进行变换,以使变换后的帧数据达到目标能量特征值、目标时域特征值和目标频域特征值;
[0163]
第二插入模块213,用于将变换后的帧数据插入到第一帧数据和第二帧数据之间。
[0164]
在一种可能的实施方式中,第一提取模块202具体包括:
[0165]
能量时域特征提取子模块,用于对于音频数据进行加窗、分帧,并按帧提取能量特征值和时域特征值;
[0166]
频域特征提取子模块,用于对于音频数据进行短时傅里叶变换,得到短时频谱,对于短时频谱按帧提取频域特征值;
[0167]
乐理特征提取子模块,用于在短时频谱中提取出基音频率,根据帧数据的泛音频率与基音频率计算乐理特征值;
[0168]
感知特征提取子模块,用于通过听觉感知模型,对于音频数据按帧提取感知特征值。
[0169]
在一种可能的实施方式中,能量特征值为幅值,时域特征值为自相关值,频域特征值为频谱质心值,乐理特征值为失谐度值,感知特征值为响度值。
[0170]
在一种可能的实施方式中,第一计算模块203具体包括:
[0171]
第一平均值计算子模块,用于计算第一帧至第m帧的帧数据的能量特征值的平均值;
[0172]
相减子模块,用于使用第m+1帧的帧数据的能量特征值减去前m帧数据的能量特征值的平均值,作为计算第m帧数据与第m+1帧数据的之间的能量连贯参数值;
[0173]
能量连贯结果子模块,用于在能量连贯参数值小于第一预设值的情况下,将能量连贯结果设置为1,否则将能量连贯结果设置为0。
[0174]
在一种可能的实施方式中,确定模块207具体包括:
[0175]
提取子模块,用于提取每一帧的帧数据的感知特征值构成感知特征矩阵s1;
[0176]
计算子模块,用于在感知特征矩阵s1中,计算每两帧帧数据的感知特征值的差值,构成差值矩阵s2;
[0177]
去除子模块,用于去除差值矩阵s2中数值大于第五预设值的元素,构成矩阵s3;
[0178]
第二平均值计算子模块,用于对矩阵s3中的元素计算平均值,作为补帧参数值α;
[0179]
帧数确定子模块,用于令第一帧数据的感知特征值为x1,第二帧数据的感知特征值为x2,则在第一帧数据和第二帧数据之间需要补入的帧数n可通过下述公式计算:
[0180][0181][0182]
其中,表示向上取整。
[0183]
在一种可能的实施方式中,音频丢帧的处理装置20还包括:
[0184]
删除模块214,用于识别音频数据中的静音片段,对静音片段进行在一种可能的实
read-onlymemory,简称为earom)或闪存(flash)或者两个或更多个以上这些的组合。在合适的情况下,该ram可以是静态随机存取存储器(static random-access memory,简称为sram)或动态随机存取存储器(dynamic random access memory,简称为dram),其中,dram可以是快速页模式动态随机存取存储器(fast page mode dynamic random access memory,简称为fpmdram)、扩展数据输出动态随机存取存储器(extended date out dynamic randomaccess memory,简称为edodram)、同步动态随机存取内存(synchronous dynamic random-access memory,简称sdram)等。
[0197]
存储器302可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器301所执行的可能的计算机程序指令。
[0198]
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现实施例1中的任意一种音频丢帧的处理方法。
[0199]
在其中一些实施例中,蓝牙耳机还可包括通信接口303和总线300。其中,如图7所示,处理器301、存储器302、通信接口303通过总线300连接并完成相互间的通信。
[0200]
通信接口303用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。通信接口303还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
[0201]
总线300包括硬件、软件或两者,将蓝牙耳机的部件彼此耦接在一起。总线300包括但不限于以下至少之一:数据总线(data bus)、地址总线(address bus)、控制总线(control bus)、扩展总线(expansion bus)、局部总线(local bus)。举例来说而非限制,总线300可包括图形加速接口(accelerated graphics port,简称为agp)或其他图形总线、增强工业标准架构(extended industry standard architecture,简称为eisa)总线、前端总线(front side bus,简称为fsb)、超传输(hyper transport,简称为ht)互连、工业标准架构(industry standard architecture,简称为isa)总线、无线带宽(infiniband)互连、低引脚数(low pin count,简称为lpc)总线、存储器总线、微信道架构(micro channelarchitecture,简称为mca)总线、外围组件互连(peripheral component interconnect,简称为pci)总线、pci-express(pci-x)总线、串行高级技术附件(serial advancedtechnology attachment,简称为sata)总线、视频电子标准协会局部(video electronicsstandards association local bus,简称为vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线300可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
[0202]
与现有技术相比,本发明至少具有以下有益效果:
[0203]
1、在本发明中,充分考虑设备音频丢帧时的外在表现,将音频的能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值综合在一起,根据能量连贯结果、时域连贯结果、频域连贯结果、乐理连贯结果和感知连贯结果综合判断音频数据是否发生丢帧,大大提升了丢帧检测的准确性。
[0204]
2、在本发明中,根据丢帧的程度进行差异化处理,如果丢帧的程度较低,可以先采用降低音频数据传输品质的方式,优先排查是否是由于通信质量问题而导致的丢帧,如果丢帧的程度较高,再进行补帧处理,降低音频数据传输品质相较于补帧而言,对于丢帧的掩饰处理效率更高,避免了机械式地进行补帧处理,造成处理效率低下。
[0205]
3、在本发明中,如果是音乐性质的音频,往往会存在一些重复的曲调,在补帧的过程中,可以优先检索在丢帧位置前面的音频中是否存在能量特征值、时域特征值、频域特征值、乐理特征值和感知特征值均很类似的音频数据,优先采用类似的数据进行补帧,如果不在存类似音频时,再提取音频轮廓进行补帧,尽量保持音频的波形连贯,修复音频在听觉感知上的失真感。
[0206]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0207]
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1