音频数据处理方法及电子设备与流程

文档序号：29598590发布日期：2022-04-09 10:20阅读：181来源：国知局

1.本技术涉及终端设备领域，尤其涉及一种音频数据处理方法及电子设备。

背景技术：

2.当前，电子设备的尺寸越来越小。由于电子设备的尺寸限制，电子设备中的扬声器尺寸也比较小。而扬声器尺寸对于低频还原能力有着重要影响，扬声器尺寸越小，低频还原能力越差。同时，低频成分对音频音质起着重要的作用。这样，尺寸较小的电子设备在播放音频时，由于低频还原能力较差，导致播放的音频音质较低。

技术实现要素：

3.为了解决上述技术问题，本技术提供一种音频数据处理方法及电子设备，通过将整体音频数据帧分离为不同类型的音频数据，针对不同声音类型的音频数据，采用不同的虚拟低音增强算法和参数进行虚拟低音增强处理，能够优化各个类型的音频数据的低音增强效果，并且不会互相影响，从而提高整体音频的音频质量。
4.第一方面，本技术提供一种音频数据处理方法。该音频数据处理方法应用于电子设备，包括：首先，从音频数据帧中提取多组第一子音频数据，每组第一子音频数据对应一种目标声音类型。然后，根据各组第一子音频数据对应的目标声音类型，确定各组第一子音频数据对应的虚拟低音增强参数。接着，根据确定的虚拟低音增强参数，对每组第一子音频数据进行虚拟低音增强，得到每组第一子音频数据对应的第二子音频数据。这之后，根据各组第二子音频数据，合成音频数据帧对应的虚拟低音增强数据帧。这样，通过将整体音频数据帧分离为不同类型的音频数据，针对不同声音类型的音频数据，采用不同的虚拟低音增强算法和参数进行虚拟低音增强处理，能够优化各个类型的音频数据的低音增强效果，并且不会互相影响，从而提高整体音频的音频质量。
5.根据第一方面，从音频数据帧中提取多组第一子音频数据之前，还包括：将目标音频数据分割为至少一个音频数据帧。这样，可以对每一个音频数据帧分别按照前述方式进行处理，得到每一个音频数据帧的虚拟低音增强数据帧。
6.根据第一方面，从音频数据帧中提取多组第一子音频数据之前，还包括：根据声音类型设置信息，确定至少两种目标声音类型；此时，从音频数据帧中提取多组第一子音频数据，包括：从音频数据帧中提取每个目标声音类型的音频数据，每个目标声音类型的音频数据作为一组子音频数据。这样，按照目标声音类型对音频数据帧进行分离处理，可以为后续针对不同声音类型的音频数据，采用不同的虚拟低音增强算法和参数进行虚拟低音增强处理奠定基础。
7.根据第一方面，从音频数据帧中提取多组第一子音频数据，每组第一子音频数据对应一种声音类型，包括：将音频数据帧输入已训练好的声音分离模型，以由声音分离模型输出多个目标声音类型对应的第一子音频数据。这样，利用模型进行声音分离处理，可以提高处理效率。
8.根据第一方面，根据各组第一子音频数据对应的声音类型，确定各组第一子音频数据对应的虚拟低音增强参数，包括：对于每组第一子音频数据，从预设的声音类型-参数匹配关系表中，查找与第一子音频数据对应的声音类型匹配的虚拟低音增强参数，声音类型-参数匹配关系表中存储有与各声音类型匹配的虚拟低音增强参数。这样，根据声音类型-参数匹配关系表，可以方便快捷地获得各声音类型匹配的虚拟低音增强参数，提高了处理效率。
9.根据第一方面，声音类型是按照声音来源划分的。这样，可以基于声音来源的特点为相应类型的声音配置匹配的虚拟低音增强参数，为针对不同声音类型的音频数据，采用不同的虚拟低音增强算法和参数进行虚拟低音增强处理奠定基础。
10.根据第一方面，声音类型包括人声、钢琴声、贝斯声、鼓声、其他中的至少一种。这样，可以针对人声、钢琴声、贝斯声、鼓声等类型优化虚拟低音增强效果，以提高整体音频的音频质量。
11.根据第一方面，虚拟低音增强参数包括虚拟低音增强算法和如下参数中的至少一种：动态范围调整模块的增益、均衡器中各段滤波器的类型、均衡器中各段滤波器的增益、谐波与谐波之间的增益、谐波与基波之间的增益、各频率通道的幅度、各频率通道的相位。这样，通过分别为每种类型声音配置虚拟低音增强参数，可以针对每种类型声音分别优化虚拟低音增强效果，以提高整体音频的音频质量。
12.根据第一方面，根据各组第二子音频数据，合成音频数据帧对应的虚拟低音增强数据帧，包括：如果各组第二子音频数据之间的能量比与对应的各组第一子音频数据之间的能量比相等，将各组第二子音频数据合成为第三音频数据；对第三音频数据进行动态范围调整，得到第四音频数据；对第四音频数据进行均衡处理，得到音频数据帧对应的虚拟低音增强数据帧。这样，在虚拟低音增强后各类型声音能量比与虚拟低音增强前各类型声音能量比相等的情况下，可以直接对虚拟低音增强后的各类型声音进行后处理，提高处理速度。
13.根据第一方面，根据各组第二子音频数据，合成音频数据帧对应的虚拟低音增强数据帧，包括：如果各组第二子音频数据之间的能量比与对应的各组第一子音频数据之间的能量比不相等，调整各组第二子音频数据的增益值，使调整增益值后的各组第二子音频数据能量比与对应的各组第一子音频数据之间的能量比相等；将调整增益值后的各组第二子音频数据合成为第五音频数据；对第五音频数据进行动态范围调整，得到第六音频数据；对第六音频数据进行均衡处理，得到音频数据帧对应的虚拟低音增强数据帧。这样，在虚拟低音增强后各类型声音能量比与虚拟低音增强前各类型声音能量比不相等的情况下，先进行能量匹配，然后再对虚拟低音增强后的各类型声音进行后处理，可以保证虚拟低音增强后各类型声音成分比例与增强前各类型声音成分比例一样，保证原有声音的音色。
14.第二方面，本技术提供一种电子设备，包括：存储器和处理器，存储器与处理器耦合；存储器存储有程序指令，当程序指令由处理器执行时，使得电子设备执行第一方面中任意一项所述的音频数据处理方法。
15.第三方面，本技术提供一种计算机可读存储介质，包括计算机程序，当计算机程序在电子设备上运行时，使得电子设备执行前述的第一方面中任意一项所述的音频数据处理方法。
附图说明
16.图1为示例性示出的电子设备100的结构示意图；图2为示例性示出的本技术实施例的电子设备100的软件结构框图；图3为示例性示出的本技术实施例的音频数据处理方法的流程图；图4为示例性示出的声音类型设置界面的示意图；图5为示例性示出的声音分离过程示意图；图6为示例性示出的一种虚拟低音增强算法对音频信号的处理过程示例图；图7为示例性示出的另一种虚拟低音增强算法对音频信号的处理过程示例图；图8为示例性示出的又一种虚拟低音增强算法对音频信号的处理过程示例图；图9为示例性示出的音频数据处理过程的示例图；图10为示例性示出的图9中各类型声音经过虚拟低音增强后的处理过程示意图。
具体实施方式
17.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
18.本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。
19.本技术实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一目标对象和第二目标对象等是用于区别不同的目标对象，而不是用于描述目标对象的特定顺序。
20.在本技术实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
21.在本技术实施例的描述中，除非另有说明，“多个”的含义是指两个或两个以上。例如，多个处理单元是指两个或两个以上的处理单元；多个系统是指两个或两个以上的系统。
22.手机、平板、笔记本等电子设备的尺寸较小时，内部通常使用较小的扬声器。小扬声器的低频还原能力较差，无法回放低频。然而低频成分对音频音质起着重要的作用，声音的洪亮度、丰满度、浑厚感、空间感等都由其低频体现。这就使得尺寸较小的手机、平板、笔记本等电子设备播放音频的音质较差，无法满足用户对高音质的需求。
23.本技术实施例在扬声器播放音频之前，采用虚拟低音增强的方式对音频数据进行处理，然后由扬声器播放处理后的音频数据。这样，就可以利用虚拟音高这一心理声学现象，使听者能感受到小扬声器无法回放的低频，从而提高扬声器播放的音频的质量。
24.本技术实施例的音频数据处理方法可以应用于手机、平板、笔记本等电子设备。该电子设备的结构可以如图1所示。
25.图1为示例性示出的电子设备100的结构示意图。应该理解的是，图1所示电子设备100仅是电子设备的一个范例，并且电子设备100可以具有比图中所示的更多的或者更少的
部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图1中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
26.请参见图1，电子设备100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，usb)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170a，受话器170b，麦克风170c，耳机接口170d，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，sim)卡接口195等。
27.其中，传感器模块180可以包括压力传感器180a，陀螺仪传感器180b，气压传感器180c，磁传感器180d，加速度传感器180e，距离传感器180f，接近光传感器180g，指纹传感器180h，温度传感器180j，触摸传感器180k，环境光传感器180l，骨传导传感器180m等。
28.电子设备100可以通过音频模块170，扬声器170a，受话器170b，麦克风170c，耳机接口170d，以及应用处理器等实现音频功能。例如音乐播放，录音等。
29.音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。
30.其中，扬声器170a，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170a收听音乐，或收听免提通话。
31.经过本技术实施例的音频数据处理方法处理后得到的虚拟低音增强数据，通过音频模块170转换为模拟音频信号，扬声器170a将该模拟音频信号转换为声音信号。
32.电子设备100的软件系统可以采用分层架构、事件驱动架构、微核架构、微服务架构，或云架构。本技术实施例以分层架构的安卓（android）系统为例，示例性说明电子设备100的软件结构。
33.图2为示例性示出的本技术实施例的电子设备100的软件结构框图。
34.电子设备100的分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，android系统可以包括应用程序层、应用程序框架层、系统层以及内核层等。
35.应用程序层可以包括一系列应用程序包。
36.如图2所示，电子设备100的应用程序层的应用程序包可以包括音乐、通话等应用程序。
37.其中，音乐应用可以用于播放音乐。
38.其中，通话应用用于实现通话功能。通话应用提供免提通话方式。在免提通话方式下，通话对象的语音通过扬声器170a播放出来。
39.如图2所示，应用程序框架层可以包括资源管理器、电话管理器等应用程序。
40.其中，资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。
41.其中，电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括
接通，挂断等)。
42.如图2所示，系统库可以包括多个功能模块。例如：媒体库(media libraries)等。
43.媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如: mpeg4，h.264，mp3，aac，amr，jpg，png等。
44.内核层是硬件和软件之间的层。
45.如图2所示，内核层可以包括传感器驱动、音频驱动等模块。
46.可以理解的是，图2示出的软件结构中的层以及各层中包含的部件，并不构成对电子设备100的具体限定。在本技术另一些实施例中，电子设备100可以包括比图示更多或更少的层，以及每个层中可以包括更多或更少的部件，本技术不做限定。
47.图3为示例性示出的本技术实施例的音频数据处理方法的流程图。请参见图3，本实施例中，音频数据处理方法可以包括如下步骤：s301，对输入的音频数据进行分帧，得到n个音频数据帧。
48.完整音频数据的整体数据量较大，处理速度较慢，而且实时性较差。通过分帧，可以将完整音频数据分为一段一段的数据量较小的数据，这样不但处理速度快，而且能够很好地满足实时性要求。
49.其中，输入的音频数据可以是音频播放应用所播放的音乐、免提通话中通话对象的语音等等。
50.需要说明的是，在音频数据已经被分帧的情况下，可以省略步骤s301，从步骤s302开始执行。
51.s302，对于n个音频数据帧中的每个音频数据帧，从音频数据帧中提取多组第一子音频数据，每组第一子音频数据对应一种目标声音类型。
52.本技术实施例中，可以按照声音来源划分声音类型。
53.例如，声音的来源可以包括钢琴、贝斯、鼓等乐器，还可以包括人或者其他。相应地，声音类型可以包括钢琴声、贝斯声、鼓声、人声、其他，此处，其他这种声音类型包括除了钢琴声、贝斯声、鼓声、人声之外的所有声音。
54.不同类型的声音对应不同的音色，采用相同的虚拟低音增强参数对不同类型的声音进行重构时，由于音色的差异，将导致获得效果不同的低音听感。本技术实施例中，针对不同类型的声音，分别采用与声音类型相匹配的虚拟低音增强参数进行虚拟低音增强处理。其中，与声音类型相匹配的虚拟低音增强参数是指能够使对应的声音获得高质量低音听感的虚拟低音增强参数。这样，进行虚拟低音增强处理后，每种类型的声音都能够获得高质量的低音听感，从而能够提升整体音频的音频质量。
55.在电子设备的设置应用中，可以提供对应本技术实施例的音频数据处理方法的功能选项，例如，该选项的名称可以为“分对象进行虚拟低音增强”。当然，该选项名称仅为示意性举例，并不对本技术实施例进行限制。下面以选项名称“分对象进行虚拟低音增强”为例进行说明。
56.在电子设备的设置应用中，可以为“分对象进行虚拟低音增强”选项设置虚拟开关。当该虚拟开关为开启状态时，采用本技术实施例的音频数据处理方法对音频数据进行处理。而当该虚拟开关为关闭状态时，可以采用默认的虚拟低音增强方式对音频数据进行处理。例如，默认的虚拟低音增强方式可以是采用默认的相同虚拟低音增强参数对音频数
据进行虚拟低音增强处理。在该默认的虚拟低音增强方式中，所有类型的声音采用相同虚拟低音增强参数，不需要提取不同声音类型对应的子音频数据。
57.当“分对象进行虚拟低音增强”选项的虚拟开关开启时，可以进一步显示各种声音类型。每种声音类型都可以配置有选择开关，以供用户选择声音类型。
58.举例说明。图4为示例性示出的声音类型设置界面的示意图。请参见图4，“分对象进行虚拟低音增强”选项的虚拟开关为开启状态时，显示声音类型设置界面。在声音类型设置界面中，“分对象进行虚拟低音增强”选项下进一步显示声音类型：人声、钢琴声、贝斯声、鼓声。需要说明的是，尽管没有显示“其他”这种声音类型，但是，“其他”这种声音类型是默认的，只要用户选择了“分对象进行虚拟低音增强”选项下的任意一种或多种声音类型，就默认用户也选择了“其他”这种声音类型。并且，当用户选择的声音类型不同时，“其他”这种声音类型所包含的声音范围也不同。需要说明的是，例如，当用户如图4中所示，选中了人声、钢琴声、贝斯声、鼓声这四种声音类型时，“其他”这种声音类型所包含的声音范围包括音频数据中除了人声、钢琴声、贝斯声、鼓声以外的所有声音。如果音频数据中包含了贝斯声、鼓声，此时，“其他”这种声音类型中不包含贝斯声、鼓声。
59.假设在一个示例中，用户选中了人声、钢琴声这两种声音类型，没有选中贝斯声、鼓声这些声音类型，此时，“其他”这种声音类型所对应的声音范围包括音频数据中除了人声、钢琴声以外的所有声音。如果音频数据中包含了贝斯声、鼓声，此时，“其他”这种声音类型中也包含贝斯声和鼓声。
60.假设在另一个示例中，用户选中了人声、钢琴声、贝斯声这三种声音类型，没有选中鼓声，此时，“其他”这种声音类型所对应的声音范围包括音频数据中除了人声、钢琴声、贝斯声以外的所有声音。如果音频数据中包含了鼓声，此时，“其他”这种声音类型中也包含鼓声。
61.本技术实施例中，提取子音频数据的依据是目标声音类型，提取子音频数据的本质是使同一个音频数据帧中属于不同目标声音类型的数据分离。因此，在提取子音频数据之前，需要确定目标声音类型。
62.因此，在一个示例性的实现过程中，从音频数据帧中提取多组第一子音频数据之前，还可以包括：根据声音类型设置信息，确定至少两种目标声音类型；从音频数据帧中提取多组第一子音频数据，包括：从音频数据帧中提取每个目标声音类型的音频数据，每个目标声音类型的音频数据作为一组子音频数据。
63.本技术实施例中，目标声音类型根据通过声音类型设置信息确定。其中，声音类型设置信息即为用户在声音类型设置界面中选中的声音类型。
64.电子设备根据声音类型设置界面所提供的声音类型设置信息，将用户在声音类型设置界面中选中的声音类型和其他类型确定为目标声音类型。
65.例如，接前述示例，假设在图4所示的声音类型设置界面中，用户选中了人声、钢琴声这两种声音类型。此时，目标声音类型包括人声、钢琴声、其他这三种声音类型。并且，此时“其他”这种声音类型所对应的声音范围包括音频数据中除了人声、钢琴声以外的所有声音。
66.再比如，在上述用户选中了人声、钢琴声、贝斯声三种声音类型的示例中，目标声音类型包括人声、钢琴声、贝斯声、其他这四种声音类型。并且，此时“其他”这种声音类型所对应的声音范围包括音频数据中除了人声、钢琴声、贝斯声以外的所有声音。
67.需要说明的是，从音频数据帧中提取的多组第一子音频数据对应的声音信号的能量之和，等于音频数据帧对应的声音信号的能量。
68.以目标声音类型包括人声、钢琴声、贝斯声、鼓声、其他这五种声音类型为例。假设分离前音频数据帧w对应的声音信号的能量为s，人声对应的第一子音频数据为音频数据1，钢琴声对应的第一子音频数据为音频数据2，贝斯声对应的第一子音频数据为音频数据3，鼓声对应的第一子音频数据为音频数据4，其他声音对应的第一子音频数据为音频数据5。如果音频数据1对应的声音信号的能量为s1，音频数据2对应的声音信号的能量为s2，音频数据3对应的声音信号的能量为s3，音频数据4对应的声音信号的能量为s4，音频数据5对应的声音信号的能量为s5，那么s=s1+ s2+s3+ s4+ s5。
69.本技术实施例中，可以利用训练好的深度学习模型从音频数据帧中分离出不同声音类型的音频数据，本文中将该深度学习模型称为声音分离模型。
70.本技术实施例中，声音分离模型可以采用基于深度学习的神经网络（例如demucs、conv-tasnet）模型。当然，这仅为列举的示例，本技术实施例并不限制声音分离模型的具体结构。
71.据此，在一个示例性的实现过程中，从音频数据帧中提取多组第一子音频数据，每组第一子音频数据对应一种声音类型，可以包括：将音频数据帧输入已训练好的声音分离模型，以由声音分离模型输出多个目标声音类型对应的第一子音频数据。
72.需要说明的是，声音分离模型处理的是数字音频信号。
73.图5为示例性示出的声音分离过程示意图。请参见图5，以目标声音类型包括人声、钢琴声、贝斯声、鼓声、其他这五种声音类型为例。输入音频信号（对应一个音频数据帧）经过由神经网络模型构成的编码器后转换为输入音频数据，输入音频数据经过声音分离模型处理后，输出四路音频数据，该四路音频数据分别对应人声、钢琴声、贝斯声、鼓声。该四路音频数据经过由神经网络模型构成的解码器解码后，得到相应类型的音频信号：wav1（人声）、wav2（钢琴声）、wav3（贝斯声）、wav4（鼓声）。从输入音频数据中去除人声、钢琴声、贝斯声、鼓声这四路音频数据后剩余的数据为其他这种声音类型的音频数据，该音频数据经过由神经网络模型构成的解码器解码后得到相应的数字音频信号。
74.s303，根据各组第一子音频数据对应的目标声音类型，确定各组第一子音频数据对应的虚拟低音增强参数。
75.在一个示例性的实现过程中，根据各组第一子音频数据对应的声音类型，确定各组第一子音频数据对应的虚拟低音增强参数，可以包括：对于每组第一子音频数据，从预设的声音类型-参数匹配关系表中，查找与第一子音频数据对应的声音类型匹配的虚拟低音增强参数，声音类型-参数匹配关系表中存储有与各声音类型匹配的虚拟低音增强参数。
76.本技术实施例中，声音类型-参数匹配关系表可以是预设由开发人员设置好的。声音类型-参数匹配关系表可以如表1所示。
77.表1例如，声音类型t1可以为人声，声音类型t2可以为钢琴声
……
。
78.本技术实施例中，虚拟低音增强参数可以包括虚拟低音增强算法。
79.其中，虚拟低音增强算法可以包括时域上基于非线性器件的虚拟低音增强算法和频域上基于相位声码器的虚拟低音增强算法。时域上基于非线性器件的虚拟低音增强算法例如可以是利用乘法器回路产生谐波的maxxbass算法、基于非线性器件的nld（nonlinear device，非线性器件）算法等。nld算法也可以采用不同形式，例如tanh形式、atsr（(arc-tangent and squire root)）形式、指数形式等等。
80.图6为示例性示出的一种虚拟低音增强算法对音频信号的处理过程示例图。请参见图6，输入音频信号依次通过低通滤波、谐波生成、响度匹配控制、谐波均衡处理后得到的信号，与输入音频信号依次通过高通滤波、延时处理后得到的信号合并为输出音频信号。
81.图7为示例性示出的另一种虚拟低音增强算法对音频信号的处理过程示例图。请参见图7，输入音频信号依次通过低通滤波、谐波生成、带通滤波、谐波均衡和动态范围调整处理后得到的信号，与输入音频信号依次通过高通滤波、谐波均衡处理后得到的信号合并为输出音频信号。
82.图8为示例性示出的又一种虚拟低音增强算法对音频信号的处理过程示例图。请参见图8，输入音频信号依次通过低通滤波、傅里叶变换及谐波生成、音调变换、幅值控制和响度控制、谐波均衡处理后得到的信号，与输入音频信号依次通过高通滤波、延时处理后得到的信号合并为输出音频信号。
83.需要说明的是，不同类型的声音不仅频率范围不同，例如人声频率范围为80 hz
ꢀ‑
6000hz，钢琴声频率范围为28 hz
ꢀ‑
4.1khz，而且不同类型的声音的低音部分具有不同的特点，例如人声的特点是不同人的低音特点不同，钢琴声的特点是频率范围宽。根据不同类型声音的低音特点，以及不同类型声音的频率范围，本技术实施例为每种声音类型配置与低音特点相匹配的虚拟低音增强算法。
84.本技术实施例中，虚拟低音增强参数还可以包括如下参数中的至少一种：动态范围调整模块的增益、均衡器中各段滤波器的类型、均衡器中各段滤波器的增益、谐波与谐波之间的增益、谐波与基波之间的增益、各频率通道的幅度、各频率通道的相位。
85.例如，在一个示例中，当某种声音类型匹配的虚拟低音增强算法为图7所示的算法时，虚拟低音增强参数可以包括动态范围调整模块的增益、均衡器中各段滤波器的类型、均衡器中各段滤波器的增益、谐波与谐波之间的增益、谐波与基波之间的增益。本示例中，虚
拟低音增强参数还可以包括采取是否分子带的虚拟低音增强算法，如果采取分子带的虚拟低音增强算法，分多少子带、子带划分的频点，根据声音类型来划分。
86.其中，均衡器指谐波均衡所采用的均衡器。
87.例如，在另一个示例中，当某种声音类型匹配的虚拟低音增强算法为图8所示的算法时，虚拟低音增强参数可以包括各频率通道的幅度、各频率通道的相位、均衡器中各段滤波器的类型、均衡器中各段滤波器的增益。
88.根据本技术实施例，通过预设的声音类型-参数匹配关系表，可以确定每个目标声音类型对应的虚拟低音增强参数，从而确定相应的每个第一子音频数据的虚拟低音增强参数。
89.以目标声音类型包括人声、钢琴声、贝斯声、鼓声、其他这五种声音类型为例。人声、钢琴声、贝斯声、鼓声、其他这五种声音类型对应的第一子音频数据分别为音频数据1、音频数据2、音频数据3、音频数据4、音频数据5。那么根据人声这种声音类型，通过查询表1，可以确定音频数据1的虚拟低音增强参数，同理可以确定音频数据2、音频数据3、音频数据4、音频数据5的虚拟低音增强参数。
90.s304，根据确定的虚拟低音增强参数，对每组第一子音频数据进行虚拟低音增强，得到每组第一子音频数据对应的第二子音频数据。
91.仍以目标声音类型包括人声、钢琴声、贝斯声、鼓声、其他这五种声音类型为例。假设在前述示例中确定的音频数据1、音频数据2、音频数据3、音频数据4、音频数据5的虚拟低音增强参数分别为p1、p2、p3、p4、p5。那么，根据虚拟低音增强参数p1对音频数据1进行虚拟低音增强，得到音频数据1’，音频数据1’即为音频数据1对应的第二子音频数据。
92.同理，根据虚拟低音增强参数p2对音频数据2进行虚拟低音增强，得到音频数据2’，音频数据2’即为音频数据2对应的第二子音频数据。根据虚拟低音增强参数p3对音频数据3进行虚拟低音增强，得到音频数据3’，音频数据3’即为音频数据3对应的第二子音频数据。根据虚拟低音增强参数p4对音频数据4进行虚拟低音增强，得到音频数据4’，音频数据4’即为音频数据4对应的第二子音频数据。根据虚拟低音增强参数p5对音频数据5进行虚拟低音增强，得到音频数据5’，音频数据5’即为音频数据5对应的第二子音频数据。
93.s305，根据各组第二子音频数据，合成音频数据帧对应的虚拟低音增强数据帧。
94.在一个示例性的实现过程中，根据各组第二子音频数据，合成所述音频数据帧对应的虚拟低音增强数据帧，可以包括：如果各组第二子音频数据之间的能量比与对应的各组第一子音频数据之间的能量比相等，将各组第二子音频数据合成为第三音频数据；对第三音频数据进行动态范围调整，得到第四音频数据；对第四音频数据进行均衡处理，得到音频数据帧对应的虚拟低音增强数据帧。
95.例如，前述示例中，音频数据1、音频数据2、音频数据3、音频数据4、音频数据5的对应的声音信号的能量分别为s1、s2、s3、s4、s5，音频数据1、音频数据2、音频数据3、音频数据4、音频数据5的能量比为s1：s2：s3：s4：s5。假设经过前述示例的虚拟低音增强后，得到的音频数据1
′
、音频数据2
′
、音频数据3
′
、音频数据4
′
、音频数据5
′
的能量分别为s1
′
、s2
′
、s3
′
、s4
′
、s5
′
，那么音频数据1
′
、音频数据2
′
、音频数据3
′
、音频数据4
′
、音频数据5
′
的能量比为s1
′
：s2
′
：s3
′
：s4
′
：s5
′
。
96.如果s1
′
：s2
′
：s3
′
：s4
′
：s5
′
= s1：s2：s3：s4：s5，那么将音频数据1
′
、音频数据2
′
、音频数据3
′
、音频数据4
′
、音频数据5
′
合成为音频数据w
′
，对音频数据w
′
进行动态范围调整，得到音频数据w
″
，对音频数据w
″
进行均衡处理，得到音频数据w
‴
。音频数据w
‴
即为音频数据帧w对应的虚拟低音增强数据帧。
97.在另一个示例性的实现过程中，根据各组第二子音频数据，合成音频数据帧对应的虚拟低音增强数据帧，可以包括：如果各组第二子音频数据之间的能量比与对应的各组第一子音频数据之间的能量比不相等，调整各组第二子音频数据的增益值，使调整增益值后的各组第二子音频数据能量比与对应的各组第一子音频数据之间的能量比相等；该过程称为能量匹配；将调整增益值后的各组第二子音频数据合成为第五音频数据；对第五音频数据进行动态范围调整，得到第六音频数据；对第六音频数据进行均衡处理，得到音频数据帧对应的虚拟低音增强数据帧。
98.例如，在前述示例中，如果s1
′
：s2
′
：s3
′
：s4
′
：s5
′
与s1：s2：s3：s4：s5不相等，那么对音频数据1
′
进行增益调整，调整后得到音频数据1
″
，同理，也分别对音频数据2
′
、音频数据3
′
、音频数据4
′
、音频数据5
′
进行增益调整，调整后分别得到音频数据2
″
、音频数据3
″
、音频数据4
″
、音频数据5
″
。音频数据1
″
、音频数据2
″
、音频数据3
″
、音频数据4
″
、音频数据5
″
的能量分别为s1
″
、s2
″
、s3
″
、s4
″
、s5
″
。增益调整后使得s1
″
：s2
″
：s3
″
：s4
″
：s5
″
= s1：s2：s3：s4：s5。然后，将音频数据1
″
、音频数据2
″
、音频数据3
″
、音频数据4
″
、音频数据5
″
进行合成，再对合成后得到的音频数据进行动态范围调整和均衡处理，得到音频数据帧w对应的虚拟低音增强数据帧。
99.需要说明的是，音频数据的能量s，可以通过如下方式得到：对音频数据对应的时域信号x(t) 进行fft（快速傅里叶变换）得到频域信号x(f)；根据如下方式计算能量s：统计0至二分之一采样频率（fs）的范围内频域信号x(f)的和。
100.下面通过一个示例对本技术实施例的音频数据处理过程进行说明。
101.图9为示例性示出的音频数据处理过程的示例图。请参见图9，用户选择声音类型，音源分离模块根据用户选择的声音类型（人声、钢琴声、贝斯声、鼓声）将输入音频信号分离为人声信号、钢琴声信号、贝斯声信号、鼓声信号和其他信号这五部分。对于分离出的每一部分信号，都采用根据该部分信号的声音类型确定的虚拟低音增强参数进行虚拟低音增强处理，对于各部分虚拟低音增强处理后的信号进行后处理和合成，得到输出音频信号。其中，音源分离模块的结构如图5中虚线框内所示。
102.其中，图9中的默认虚拟低音增强参数指根据“其他”这种声音类型确定的虚拟低音增强参数。
103.其中，图9中各部分虚拟低音增强处理后的信号的后处理过程如图10所示。
104.图10为示例性示出的图9中各类型声音经过虚拟低音增强后的处理过程示意图。请参见图10，图10中，人声信号、钢琴声信号、贝斯声信号、鼓声信号和其他信号分别使用对应的虚拟低音增强参数进行虚拟低音增强处理后，得到人声虚拟低音增强后的信号、钢琴声虚拟低音增强后的信号、贝斯声虚拟低音增强后的信号、鼓声虚拟低音增强后的信号和其他信号虚拟低音增强后的信号。这些虚拟低音增强后的信号经过能量匹配后合成为总的
虚拟低音增强信号，对总的虚拟低音增强信号进行动态范围调整以及eq（均衡器）均衡，得到输出音频信号。
105.本技术实施例的音频数据处理方法，通过将整体音频数据帧分离为不同类型的音频数据，针对不同类型声音的特点，采用不同的虚拟低音增强算法和参数进行虚拟低音增强处理，能够优化各个类型的音频数据的低音增强效果，并且不会互相影响，从而能够提高整体音频的音频质量。
106.本技术实施例还提供一种电子设备，该电子设备包括存储器和处理器，存储器与处理器耦合，存储器存储有程序指令，当程序指令由所述处理器执行时，使得电子设备前述电子设备所执行的音频数据处理方法。
107.可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
108.本实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的音频数据处理方法。
109.本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的音频数据处理方法。
110.另外，本技术实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的音频数据处理方法。
111.其中，本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。
112.通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。
113.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
114.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个
不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
115.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
116.本技术各个实施例的任意内容，以及同一实施例的任意内容，均可以自由组合。对上述内容的任意组合均在本技术的范围之内。
117.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备（可以是单片机，芯片等）或处理器（processor）执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（read only memory，rom）、随机存取存储器（random access memory，ram）、磁碟或者光盘等各种可以存储程序代码的介质。
118.上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。
119.结合本技术实施例公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器（random access memory，ram）、闪存、只读存储器（read only memory，rom）、可擦除可编程只读存储器（erasable programmable rom，eprom）、电可擦可编程只读存储器（electrically eprom，eeprom）、寄存器、硬盘、移动硬盘、只读光盘（cd-rom）或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。
120.本领域技术人员应该可以意识到，在上述一个或多个示例中，本技术实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
121.上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许剑峰陈绍天
技术所有人：荣耀终端有限公司
我是此专利的发明人