音频处理方法及装置、设备、计算机可读存储介质与流程

文档序号：29854546发布日期：2022-04-30 08:57阅读：167来源：国知局

1.本技术涉及计算机领域，具体涉及一种音频处理方法及装置、设备、计算机可读存储介质。

背景技术：

2.音乐副歌是歌曲中一段重复的音乐段落，通常出现在几段主歌之间。大部分音乐副歌情绪较为激烈，能最大化的激发歌唱者的情绪，因此歌唱者为了快速的释放情绪，记忆并掌握歌曲律动，往往着重于练习副歌部分，从副歌区间的起始时刻开始练习。
3.副歌区间是由副歌部分的开始时刻和结束时刻所包裹而形成的完整区间，歌唱者一般通过手动调整歌曲进度，快速进入副歌区间，其操作极为不便，现有的定位音乐副歌的方式一般是通过人工进行标注，但是，每首歌曲总时长、副歌时长和副歌循环次数不一定相同，人工标注往往耗时巨大，并且存在人为操作误差，难以批量化的处理大量音乐的同时自动定位音乐副歌。
4.随着网络k歌平台的兴起，以及大众歌唱娱乐的爆炸式需求，特别是对歌曲副歌的演唱需求，如何智能化的快速准确定位音乐副歌是音频处理领域亟待解决的技术问题。

技术实现要素：

5.为解决上述技术问题，本技术的实施例分别提供了一种音频处理方法及装置、音频处理设备、计算机可读存储介质，根据待处理音频的时序特征得到副歌起始点概率、区间概率和结束点概率，出从而智能化的快速准确定位音乐副歌。
6.本技术的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本技术的实践而习得。
7.根据本技术实施例的一个方面，提供了一种音频处理方法，包括：
8.根据待处理音频的时序特征确定所述待处理音频包含的候选区间；
9.基于所述候选区间对应的起始点概率、结束点概率和区间概率计算所述候选区间的匹配概率；
10.若所述匹配概率大于第一预设阈值，则确定所述候选区间为所述待处理音频包含的副歌区间。
11.根据本技术实施例的一个方面，提供了一种音频处理装置，包括：
12.确定模块，配置为根据待处理音频的时序特征确定所述待处理音频包含的候选区间；
13.计算定位模块，配置为基于所述候选区间对应的起始点概率、结束点概率和区间概率计算所述候选区间的匹配概率；若所述匹配概率大于第一预设阈值，则确定所述候选区间为所述待处理音频包含的副歌区间。
14.在另一示例性实施例中，所述音频处理装置还包括：
15.子任务模块，配置为构建第一深度网络，所述第一深度网络由卷积神经网络层、多
层长短期lstm网络和全连接网络层依次堆叠而成；将待处理音频输入所述第一深度网络；从所述第一深度网络中抽取深层特征作为所述待处理音频的时序特征。
16.在另一实施例中，所述子任务模块还包括：
17.抽取单元，配置为抽取最后一个lstm网络层输出的特征作为所述待处理音频的时序特征。
18.在另一实施例中，所述确定模块包括：
19.时序建模单元，配置为将所述待处理音频的时序特征输入第二深度网络，获得所述第二深度网络输出的所述待处理音频所包含各个时刻的副歌位置概率，所述副歌位置概率包括起始点概率和结束点概率；
20.候选区间构建单元，配置为根据获得的起始点概率和结束点概率从所述待处理音频中确定出候选区间。
21.在另一实施例中，所述候选区间构建单元，配置为若所述待处理音频的第一时刻对应的起始点概率大于第二预设阈值或预设区间内的所有时刻的起始点概率，则选取所述第一时刻作为候选区间的起始时刻；若所述待处理音频的第二时刻对应的结束点概率大于第三预设阈值或预设区间内的所有时刻的结束点概率，则选取所述第二时刻作为候选区间的结束时刻。
22.在另一实施例中，所述计算定位模块包括：
23.区间特征提取单元，配置为根据所述待处理音频的时序特征确定所述候选区间的区间特征；
24.区间概率提取单元，配置为将所述区间特征输入第三深度网络，得到所述第三深度网络输出的所述候选区间的区间概率。
25.在另一实施例中，所述计算定位模块包括：
26.区间特征提取单元，配置为分别对所述候选区间、位于所述候选区间的起始点附近的区间、以及位于所述候选区间的结束点附近的区间进行特征提取，得到对应的候选区间特征，其中，每个候选区间特征的特征长度相同；拼接各个候选区间特征以得到所述候选区间的区间特征；
27.区间概率提取单元，配置为将所述区间特征输入第三深度网络，得到所述第三深度网络输出的所述候选区间的区间概率。
28.根据本技术实施例的一个方面，提供了一种音频处理设备，包括：接收装置，用于接收待处理音频；控制器，与接收装置电连接，以执行上述的方法。
29.根据本技术实施例的一个方面，还提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行上述的方法。
30.根据本技术实施例的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的方法。
31.在本技术的实施例所提供的技术方案中，根据待处理音频的时序特征确定其候选区间，基于候选区间对应的起始点概率、结束点概率和区间概率计算出候选区间的匹配概
率，由于区间概率能准确的确定副歌区间的中间位置，能避免多段副歌区间重叠的情况发生，使得根据匹配概率与第一预设阈值的比较结果确定出完整且准确的副歌区间。
32.应理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
33.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：
34.图1是本技术涉及的一种实施环境的示意图；
35.图2是本技术一示例性实施例示出的一种音频处理方法的流程图；
36.图3是基于图2所示实施例提出的另一音频处理方法的流程图；
37.图4是本技术另一示例性实施例示出的确定待处理音频包含的候选区间的流程图；
38.图5是本技术另一示例性实施例示出的确定待处理音频包含的候选区间的流程图；
39.图6是本技术另一示例性实施例示出的获取待处理音频包含的候选区间的区间概率的流程图；
40.图7是本技术另一示例性实施例示出的另外一种获取待处理音频包含的候选区间的区间概率的流程图；
41.图8是本技术一示例性实施例示出的音频处理装置的结构示意图；
42.图9是本技术一示例性实施例示出的音频处理装置进行音频处理的流程示意图；
43.图10本技术的一示例性实施例示出的音频处理设备的计算机系统的结构示意图。
具体实施方式
44.这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
45.附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
46.附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。
47.在本技术中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
48.首先需要说明的是，人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
49.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
50.机器学习(machine learning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
51.云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。本技术的实施例示出的方法可以在云端进行音频处理，并将处理得到的音乐副歌存储于远端数据库，可直接发送至其他端口。
52.云技术(cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。
53.本技术实施例提出的音频处理方法及装置、音频处理设备、计算机可读存储介质涉及以上记载的人工智能技术、机器学习技术和云技术，以下将对这些实施例进行详细说明。
54.首先请参阅图1，图1是本技术涉及的一种实施环境的示意图。该实施环境包括终端100和服务器200，终端100和服务器200之间通过有线或者无线网络进行通信。
55.终端100用于接收视频或音频文件，并将接收到的视频或音频文件传输至服务器200；服务器200根据视频或音频文件得到待处理音频，并确定出待处理音频包含副歌区间，并将确定出的副歌区间发送至终端100。
56.示例性的，服务器200根据视频或音频文件得到待处理音频后，根据待处理音频的时序特征确定待处理音频包含的候选区间，再基于候选区间对应的起始点概率、结束点概率和区间概率计算所选区间的匹配概率，若匹配概率大于第一预设阈值，则确定候选区间为待处理音频包含的副歌区间。
57.其中，用户终端100包括但不限于手机、电脑、智能语音交互设备、智能家电、车载
终端等，如可以是智能手机、平板、笔记本电脑、计算机等任意能够实现图片可视化的电子设备，本处不进行限制。服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，其中多个服务器可组成一区块链，而服务器为区块链上的节点，服务器200还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器，本处也不对此进行限制。
58.请参阅图2，图2是本技术一示例性实施例示出的一种音频处理方法的流程图，该方法可以由图1所示实施环境中的服务器200具体执行。当然，该方法也可以应用于其它实施环境，并由其它实施环境中的服务器设备执行，本实施例不对此进行限制。如图2所示，该方法至少包括步骤s210至步骤s230，详细介绍如下：
59.s210：根据待处理音频的时序特征确定待处理音频包含的候选区间。
60.本实施例的待处理音频可以是对视频或音乐文件进行预处理后得到的。
61.示例性的，抽取视频或音乐文件中的音频轨道作为待处理音频，其中，待处理音频包括音频时序和音频时长等，音频时序表示音频参量根据时间顺序进行排列，例如，音调是待处理音频的一种音乐参量，多个音调按照一定时间顺序排列组合成了一首音乐，即一个待处理音频。另外，音频时长中包括了多个音频时刻，每个音频时刻都有对应的音调。
62.本实施例的时序特征是对待处理音频进行特征提取后得到的与音频时序相关的特征，并且时序特征是与音频时长或音频时刻相关的特征，该特征可用于确定待处理音频中的候选区间。
63.本实施例的候选区间并非是任意构建，是根据时序特征从待处理音频的音频区间中确定出来的区间，可以理解利用时序特征从待处理音频的音频区间中抽取或划分出了一段音频区间，例如，利用时序特征得到候选区间在待处理音频的音频区间中的起始点和结束点，可通过起始点和结束点从划分出候选区间。值得注意的是，本实施例步骤s210可确定出多个候选区间，这里并不做限制。
64.示例性的，将待处理音频的时序特征输入深度网络得到概率矩阵p(t*3)，代表各时刻属于副歌起始、内部、结束的概率，据此，将属于副歌起始概率最大的时刻作为候选区间的起始时刻，将属于副歌结束概率最大的时刻作为候选区间的结束时刻，从而确定出了候选区间。由于一首歌中可能存在多个副歌区间，例如a、b和c副歌，则能相应确定出多个起始时刻和结束时刻，所以能确定出多个候选区间，后续对多个候选区间进行判断筛选确定出准确的一个或多个副歌区间。
65.s220：基于候选区间对应的起始点概率、结束点概率和区间概率计算候选区间的匹配概率。
66.起始点概率表示候选区间内属于待处理音频的副歌区间起始位置点或时刻的概率，起始点概率的取值范围是[0，1]。例如，候选区间的起始点概率为0.9，表示候选区间的该位点或时刻属于待处理音频的副歌区间起始位置点或时刻的概率为0.9，概率越大，说明匹配度越高。
[0067]
结束点概率表示候选区间内属于待处理音频的副歌区间结束位置点或时刻的概率，结束点概率的取值范围是[0，1]。例如，候选区间的结束点概率为0.8，则说明该位点或时刻属于待处理音频的副歌区间结束位置点或结束时刻的概率为0.8，同理，概率越大，匹
配度越高；概率越小，匹配度越低。
[0068]
一般情况下，因为上述步骤s210已确定了候选区间，所以本步骤中候选区间对应的起始点概率和结束点概率都较高，两者的概率值至少大于0.5，原因是在前置步骤中不会以较小的起始点概率或结束点概率确定候选区间，即不会将起始点概率偏小或结束点概率偏小的区间位置点或时刻作为候选区间的起始位置点(起始时刻)或结束位置点(结束时刻)。但是在特殊情况下，可能因为前置步骤的中的不定因素，使得确定出的候选区间对应的起始点概率或结束点概率较小，这里不作展开叙述，所以此处对一般情况下起始点概率和结束点概率的说明，并不限制本实施例的起始点概率和结束点概率的取值范围。
[0069]
区间概率表示候选区间属于待处理音频的副歌区间的中间区间的概率，区间概率的取值范围是[0，1]。区间概率能表现出候选区间的起始位置点和结束位置点的关联性，能准确、完整的确定出待处理音频的所有副歌区间。
[0070]
本实施例的“计算”指的是将起始点概率、结束点概率和区间概率相乘，对应得到的乘积就是匹配概率，例如，某一候选区间的起始点概率为0.9，结束点概率为0.8，区间概率为0.7，则该候选区间的匹配概率为0.504。
[0071]
匹配概率表示候选区间与副歌区间的匹配度，每个候选区间的匹配概率不一定相同，匹配概率越高，候选区间就越可能是待处理音频中的副歌区间。
[0072]
需要特别说明的，本实施例引入的区间概率，表现出候选区间的起始位置点和结束位置点的关联性，例如，一个待处理音频中可能存在a、b、c副歌区间，在确定候选区间时，会出现将a副歌区间的起始位置点作为该候选区间的起始位置点，将b副歌区间的结束位置点作为该候选区间的结束位置点，因为a副歌区间和b副歌区间之间可能存在不属于副歌区间的其他音频区间，则得到的该候选区间并不是真正意义上的副歌区间，此情况下，该候选区间的起始点概率和结束点概率都比较高，如0.97和0.95，两者乘积高达0.9215，但是因为该候选区间的起始位置点和结束位置点不属于同一副歌区间，并且存在不属于副歌区间的音频区间，所以两者的关联性较低，其区间概率因此会比较小，如0.12，则该候选区间的匹配概率约为0.11，明显的将匹配概率的数值拉低，避免不同副歌区间的起始位置点和结束位置点混淆，使得候选区间不准确的情况发生。
[0073]
另外，由于一个待处理音频中可能存在至少一个副歌区间，区间概率的引入能一次性的确定出所有可能是待处理音频的副歌区间的候选区间，准确判断出a、b、c副歌区间的起始位置点和结束位置点的同时，能同时准确判断对应副歌区间的中间区间，更好的确定出与a、b、c副歌区间匹配度高的至少3个候选区间。
[0074]
s230：若匹配概率大于第一预设阈值，则确定候选区间为待处理音频包含的副歌区间。
[0075]
第一预测阈值表示匹配概率对应副歌区间的临界值，通常为一个经验值。在本实施例中，第一预设阈值是大于0且小于1的数字，例如0.5，若某一候选区间的匹配概率大于0.5，则将该候选区间输出，确定该候选区间为待处理音频包含的副歌区间。相应的匹配概率的取值范围是[0，1]，这里需要说明匹配概率为1的特殊情况，即十分理想的临界状态值，即可表明该候选区间100％是待处理音频包含的副歌区间，本技术后续实施例中引入的深度网络或相关算法模型中，其过程中的中间取值并不能取到相关临界值，并不能使得起始点概率、结束点概率和区间概率都为1，但是并不能因为选用的深度网络或相关算法模型就
限定本技术的候选区间的匹配概率不能取值临界值0或1，即本技术实施例的描述不对此进行限制。
[0076]
通过将各个候选区间的匹配概率与第一预设阈值进行比较，直接的数值判断更加直观方便，若对上述步骤中的参量进行调整时，只需微调第一预设阈值的取值，即改变第一预设阈值的数值就可以沿用此方法进行副歌区间的定位。
[0077]
本实施例的区间概率能准确的确定副歌区间的中间位置，避免多段副歌区间重叠的情况发生，根据匹配概率与第一预设阈值的比较结果确定出完整且准确的副歌区间。
[0078]
请参阅图3，图3是基于图2所示实施例提出的另一音频处理方法的流程图。该方法在图2所示步骤s210之前还包括步骤s310至s330，下面进行详细介绍：
[0079]
s310：构建第一深度网络，第一深度网络由卷积神经网络层、多层长短期lstm网络和全连接网络层依次堆叠而成。
[0080]
本实施例的第一深度网络是conv2d网络层、lstm网络层和fc依次堆叠而成。
[0081]
conv2d是拥有两个卷积核的卷积神经网络(convolutional neural networks,cnn)，卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络(feedforward neural networks)，是深度学习(deep learning)的代表算法之一。其中，conv2d(batch,new_rows,new_cols,filters)，new_rows和new_cols表示1个卷积核对文本卷积后输出矩阵的行数和列数(由于卷积核可以向右和向下移动，因此得到的是1个矩阵)，有多少个卷积核filters就有多少个矩阵。
[0082]
lstm(long short-term memory，长短期记忆网络)是一种时间循环神经网络，是为了解决一般的rnn(循环神经网络)存在的长期依赖问题而专门设计出来的，所有的rnn都具有一种重复神经网络模块的链式形式。
[0083]
fc(fully connected，全连接层网络)作用是对提取的特征进行非线性组合以得到输出。全连接层位于卷积神经网络隐含层的最后部分，并只向其它全连接层传递信号。特征图在全连接层中会失去空间拓扑结构，被展开为向量并通过激励函数。
[0084]
前期搜集大量带歌词信息的音频歌曲，每首歌附带每句歌词的起止时间，标注每个音频的全部副歌区间，用于训练第一深度网络。为防止标注时对区间边界位置出现误差的情况，提前约定副歌区间的边界必须和某两句歌词的起止时间重合，因此只需要判断哪些歌词属于副歌区间即可，从而提高了标注结果的一致性和有效性。
[0085]
示例性的，可按照如下过程构造第一深度网络：随机抽取一批音频区间，其中，每个音频区间的长度都相同，比如都为30s。对于每个音频区间，先抽取mel(将音频语谱图映射至mel标度即得到mel谱)，将一维音频信号转换成二维的频谱信号(time_steps,mel_bins)；接着构造第一深度网络，输入频谱信号，输出音频属性。
[0086]
本实施例采用堆叠的conv2d、lstm、fc网络结构来得到第一深度网络，一方面通过对频谱信息进行不断建模，不仅能增加网络的深度，同时还能保留完整的时间信息；另一方面，第一深度网络能够输出每个时刻属于副歌区间的概率，以便于后续进行候选区间的确定。
[0087]
对于第一深度网络的训练，可结合标注信息，并采取crossentropyloss(交叉熵损失函数，常用于分类任务)损失函数来实现通过统计各个时刻的二分类效果，可以得到该网络模型的准确率能达到89.4％，
[0088]
需要说明的是，本实施例对于第一深度网络的结构的细致介绍并不表示对于第一深度网络的结构的限定，在实际应用场景中，第一深度网络可存在多个lstm网络。
[0089]
s320：将待处理音频输入第一深度网络。
[0090]
本实施例的待处理音频是一首完整的歌曲或者视频经过了相关的预处理，能作为第一深度网络的输入信号，并带有音频区间信息。
[0091]
s330：从第一深度网络中抽取深层特征作为待处理音频的时序特征。
[0092]
新的待处理音频输入第一深度网络后，本实施例抽取深层特征作为待处理音频的时序特征，时序特征的维度可表示为t*d,其中t表示音乐长度，d表示当前时刻的特征维度，比如d＝1024。同时，该时序特征能训练第一深度网络，使之不断改善自身的性能。这里示例的时序特征的维度，并不代表本技术中的时序特征就仅限于t*d，其可根据第一深度网络的调整从而维度或维度单位发生变化，本处不对此进行限制，因此不能限制本技术的保护范围。
[0093]
另外，从第一深度网络中抽取的深层特征是lstm网络层的特征，可为最后一个lstm网络层的特征，也可为中间的lstm网络层的特征，本实施例并不对其抽取的位置进行具体的限定。
[0094]
本实施例进一步阐明了如何获取待处理音频的时序特征，介绍了第一深度网络的构成，本实施例采用的第一深度网络模型对于时序特征的预测准确率能达到89.4％，因此待处理音频通过第一深度网络处理，抽取深层特征作为待处理音频的时序特征的准确性较高，后续基于此时序特征来确定待处理音频包含的候选区间能大大提高副歌定位的准确效果。
[0095]
在另一示例性实施例中，基于上述步骤s330，具体为抽取最后一个lstm网络层输出的特征作为待处理音频的时序特征。
[0096]
本实施例的时序特征是抽取的最后一个lstm网络层的特征，并非是全连接层输出的特征，提取得越深的网络层特征就越准确，本实施例的时序特征用于后续副歌定位的准确度更高。
[0097]
图4是本技术另一示例性实施例示出的确定待处理音频包含的候选区间的流程图。如图2所示，根据待处理音频的时序特征确定待处理音频包含的候选区间的过程包括步骤s410至步骤s420，下面进行详细介绍：
[0098]
s410：将待处理音频的时序特征输入第二深度网络，获得第二深度网络输出的待处理音频所包含各个时刻的副歌位置概率，副歌位置概率包括起始点概率和结束点概率。
[0099]
本实施例的第二深度网络是conv1d堆叠而成的深度网络，conv1d拥有一个卷积核的卷积神经网络。其中，conv1d(batch，newsteps，filters)，1个卷积核对文本卷积后输出列向量的行数(当然由于卷积核只可以向下移动，因此得到的是1个列向量)，有多少个卷积核filters(过滤器)就有多少个列向量。
[0100]
输入时序特征(t*d)至第二深度网络，第二深度网络输出概率矩阵p(t*3)，代表各时刻属于副歌起始倒霉、内部点、结束点的概率。这里示例的概率矩阵p(t*3)，并不代表本技术中的时序特征只能是p(t*3)，其可根据第二深度网络的调整从而维度发生变化，此处并对其进行限定，不能限制本技术的保护范围。
[0101]
训练阶段依照标注数据形成对应的标签矩阵g(t*3)以及网络预测所得的概率矩
阵p，按照cross entropy loss计算损失函数。
[0102]
示例性的，概率矩阵p的(t,0)元素值可以代表t时刻为副歌起始的概率，(t,1)元素值可以代表t时刻为副歌结束的概率。
[0103]
s420：根据获得的起始点概率和结束点概率从待处理音频中确定出候选区间。
[0104]
根据概率矩阵p(t*3)能确定待处理音频区间的所有时刻都存在三种类型的概率，即属于副歌起始点概率、内部点概率、结束点概率，因此可以根据起始点概率和结束点概率从待处理音频中确定出候选区间。
[0105]
本实施例阐明了如何确定待处理音频包含的候选区间，将时序特征输入第二深度网络，输出概率矩阵得到副歌位置概率，进一步根据起始点概率和结束点概率从待处理音频中确定出候选区间。时序特征在第二深度网络中进行训练，使得输出概率矩阵与副歌位置概率的关联性更强，得到的候选区间更加准确，并且候选区间与副歌区间的匹配更准确。
[0106]
图5是本技术另一示例性实施例示出的确定待处理音频包含的候选区间的流程图。根据获得的起始点概率和结束点概率从待处理音频中确定出候选区间的过程包括步骤s510至s520，下面进行详细介绍：
[0107]
s510：若待处理音频的第一时刻对应的起始点概率大于第二预设阈值或预设区间内的所有时刻的起始点概率，则选取第一时刻作为候选区间的起始时刻。
[0108]
预设区间表示待处理音频的第一时刻对应位置点附近的一段固定长度的区间，例如，待处理音频的第一时刻是1分30秒，若预设区间的长度为20秒，则预设区间1分20秒时刻对应的位置点是该预设区间的起点，1分40秒时刻对应的位置点是该预设区间的终点。另外，只需限定第一时刻位于预设区间内，并不限定预设区间具体的起点和终点，例如，第一时刻是1分30秒，1分28秒时刻对应的位置点是预设区间的起点，1分48秒时刻对应的位置点是预设区间的终点。此处并对预设区间的长度和预设区间的起点和终点位置进行限定，所以不能限制本技术的保护范围。
[0109]
根据上述步骤s420中的概率矩阵p(t*3)，若某一时刻对应的起始点概率大于预设的第二预设阈值，或者大于预设区间内所有时刻的起始点概率，就把该时刻定义为候选区间的起始点时刻。
[0110]
示例性的，第二预设阈值为0.9，2分10秒的起始点概率为0.92，即大于0.9，则将2分10秒定义为候选区间的起始点时刻。或者预设区间为10秒，起点位置是2分5秒对应的位置点，终点位置是2分15秒对应的位置点，其中，以1秒为一个时刻，则2分5秒至2分15秒共计10个时刻，每个时刻对应有一个起始点概率，依次为0.2，0.25，0.50，0.6，0.66，0.32，0.8，0.5，0.4，0.7，则2分10秒的起始点概率0.92大于预设区间内所有时刻的起始点概率，则选取2分10秒作为候选区间的起始时刻。
[0111]
s520：若待处理音频的第二时刻对应的结束点概率大于第三预设阈值或预设区间内的所有时刻的结束点概率，则选取第二时刻作为候选区间的结束时刻。
[0112]
同理，若某一时刻对应的结束点概率大于预设的第三预设阈值，或者大于预设区间内所有时刻的结束点概率，就把该时刻定义为候选区间的结束点时刻。
[0113]
本实施例中的第二预设阈值和第三预设阈值可根据深度网络的不同进行调整，并不一定是固定且唯一的值，并且第二预设阈值和第三预设阈值可以相同，也可以不相同，本实例的描述并不对其范围进行限定。同理，前述的第一预设阈值也可根据深度网络的不同
进行调整，并不一定是固定且唯一的值，第一预设阈值与第二预设阈值和/或第三预设阈值可以相同，也可以不同。
[0114]
优选实施例中，在确定了待处理音频包含的候选区间后，还可以对候选区间进行评估，可利用起始点概率、结束点概率和区间概率进行评估，其中起始点概率和结束点概率分别取自概率矩阵p的对应元素，而区间概率需进一步建模得到。
[0115]
本实施例进一步阐明了如何利用起始点概率和结束点概率确定待处理音频包含的候选区间，概率矩阵得到音频区间时刻的属于副歌起始点概率和结束点概率，通过预设阈值判断，或取预设区间内所有时刻的相关对应概率最大的时刻，以该时刻为候选区间的起始时刻或结束时刻，从而确定待处理音频包含的候选区间。其中的判断过程更加智能化，不需要人为的操控，并且准确率也较高。
[0116]
图6是本技术另一示例性实施例示出的获取待处理音频包含的候选区间的区间概率的流程图。在根据待处理音频的时序特征确定待处理音频包含的候选区间过程之后，包括步骤s610至s620，下面进行详细介绍：
[0117]
s610：根据待处理音频的时序特征确定候选区间的区间特征。
[0118]
为了进一步评估候选区间，需要构建区间特征，从而得到区间概率，将区间概率用于评估候选区间。此处的区间特征是能表现出候选区间内整个音频区间的特征，其与候选区间关联性较高，另外，区间特征是获得候选区间的区间概率的中间过程参量。
[0119]
s620：将区间特征输入第三深度网络，得到第三深度网络输出的候选区间的区间概率。
[0120]
本实施例构建了一个堆叠conv1d和fc的深度网络，即本实施例中的第三深度网络。将上述拼接得到的区间特征输入第三深度网络，第三深度网络输出该区间特征和真实副歌区间的交并比，即本实施例的区间概率，区间概率越大，表明该区间是完整副歌区间的概率也越高。
[0121]
本实施例阐明了如何获取待处理音频包含的候选区间的区间概率，利用时序特征确定候选区间的区间特征，将区间特征输入第三深度网络得到候选区间的区间概率。本实施例利用时序特征确定候选区间、得到区间特征，增加了前置数据的关联性，都是以时序特征作为基本参量进行网络训练输出得到其他的中间参量。
[0122]
图7是本技术另一示例性实施例示出的另外一种获取待处理音频包含的候选区间的区间概率方法的流程图。在根据待处理音频的时序特征确定待处理音频包含的候选区间过程之后，包括步骤s710至s730，下面进行详细介绍：
[0123]
s710：分别对候选区间、位于候选区间的起始点附近的区间、以及位于候选区间的结束点附近的区间进行特征提取，得到对应的候选区间特征，其中，每个候选区间特征的特征长度相同。
[0124]
其中，位于候选区间的起始点附近的区间、以及位于候选区间的结束点附近的区间可以通过前期预设，使得两者的区间长度固定，例如，确定候选区间后，得到了对应的起始点和结束点，自动以该起始点为中点选取预设区间长度的区间，作为候选区间的起始点附近的区间，也可以以该起始点为1/3点选取预设区间长度的区间，作为候选区间的起始点附近的区间，这里并不对其进行限定，同理得到位于候选区间的结束点附近的区间。
[0125]
本实施例提取候选区间、位于候选区间的起始点附近的区间、以及位于候选区间
的结束点附近的区间的特征，得到固定长度的特征。
[0126]
s720：拼接各个候选区间特征以得到候选区间的区间特征。
[0127]
优选实施例中，可将候选区间、位于候选区间的起始点附近的区间、以及位于候选区间的结束点附近的区间的特征提取为三个固定长度的特征，方便后续第三深度网络的全连接层的连接，将该三个固定长度的特征拼接得到候选区间的区间特征。
[0128]
s730：将区间特征输入第三深度网络，得到第三深度网络输出的候选区间的区间概率。
[0129]
该步骤类似上述步骤s620，第三深度网络是conv1d和fc堆叠而成的网络，该步骤得到的区间概率可用于评估候选区间。
[0130]
本实施例提供了另外一种获得区间概率的方式，对候选区间、候选区间起始点和结束点附近的位置进行特征提取，将得到的固定长度的特征拼接成候选区间的区间特征，将区间特征输入第三深度网络得到候选区间的区间概率。本实施例单独对相关区间进行了特征提取，构建的区间特征能更好的和第三深度网络的全连接层进行紧密连接，输出的区间特征和真实副歌区间的交并比，即区间概率更加准确。
[0131]
需要注意的是，一首歌中可能存在a、b、c副歌，如果只根据起始点概率和结束点概率确定候选区间，会出现候选区间起始点或结束点的错误，例如将b副歌的起始点作为该候选区间的起始点，将c副歌的结束点作为该候选区间的结束点，因为b副歌和c副歌之间可能存在不属于副歌区间的音乐区间，则该候选区间并不是准确的副歌区间，引入区间概率更好了避免了此种情况的发生。另外，在后续筛选候选区间的过程中，还可能出现重叠较多的候选区间，可利用nms(non-maximum suppression，非极大值抑制算法)进行搜索筛选。
[0132]
其次，一首歌曲中可能存在多个副歌区间，即a副歌、b副歌和c副歌，若在识别过程中，当根据时间先后顺序确定出了a副歌的副歌区间，则有可能后续不再识别b副歌和c副歌的副歌区间，这样对于有多个副歌区间的音乐来说并没有确定出完整的副歌区间，本技术引入区间概率解决了无法完整识别待处理音频的所有副歌区间的技术难题。
[0133]
因此，本技术的音频处理方法中引入区间概率不仅能避免候选区间起始点定位错误，还能确保识别出待处理音频的所有副歌区间。
[0134]
本技术的方法可应用于人工智能的音频处理设备，并且可以批量的处理，输入音频后该设备能自动、准确地定位音乐的全部副歌区间，该方法的map(mean average precision，全类平均正确率)能达到88.6％，容错率仅为2s，确定的副歌起始时刻和结束时刻的准确率达到93％，相较于现有技术更加精准。
[0135]
map在机器学习中的目标检测领域是十分重要的衡量指标，用于衡量目标检测算法的性能。一般而言，全类平均正确率(map，又称全类平均精度)是将所有类别检测的平均正确率(ap)进行综合加权平均而得到的。
[0136]
本技术的另一方面还提供了一种音频处理装置，如图8所示，图8是本技术一示例性实施例示出的音频处理装置的结构示意图。其中，音频处理装置包括：
[0137]
确定模块810，配置为根据待处理音频的时序特征确定待处理音频包含的候选区间；
[0138]
计算定位模块820，配置为基于候选区间对应的起始点概率、结束点概率和区间概率计算候选区间的匹配概率；若匹配概率大于第一预设阈值，则确定候选区间为待处理音
频包含的副歌区间。
[0139]
优选实施例中，接口以json形式返回音乐副歌区间信息至其他端口，该轻量级的数据交换格式更加方便快捷，这里仅举例说明以何种数据交换格式返回音乐副歌区间信息，并不代表本实施例的装置只能通过此数据交换格式返回音乐副歌区间信息，这里并不对其限制。
[0140]
在另一实施例中，音频处理装置还包括：
[0141]
子任务模块，配置为构建第一深度网络，第一深度网络由卷积神经网络层、多层长短期lstm网络和全连接网络层依次堆叠而成；将待处理音频输入第一深度网络；从第一深度网络中抽取深层特征作为待处理音频的时序特征。
[0142]
另外，子任务模块能对音频属性进行分类，输出音频属性信息。
[0143]
在另一实施例中，子任务模块还包括：
[0144]
抽取单元，配置为抽取最后一个lstm网络层输出的特征作为待处理音频的时序特征。
[0145]
在另一实施例中，确定模块810包括：
[0146]
时序建模单元，配置为将待处理音频的时序特征输入第二深度网络，获得第二深度网络输出的待处理音频所包含各个时刻的副歌位置概率，副歌位置概率包括起始点概率和结束点概率；
[0147]
候选区间构建单元，配置为根据获得的起始点概率和结束点概率从待处理音频中确定出候选区间。
[0148]
在另一实施例中，候选区间构建单元，配置为若待处理音频的第一时刻对应的起始点概率大于第二预设阈值或预设区间内的所有时刻的起始点概率，则选取第一时刻作为候选区间的起始时刻；若待处理音频的第二时刻对应的结束点概率大于第三预设阈值或预设区间内的所有时刻的结束点概率，则选取第二时刻作为候选区间的结束时刻。
[0149]
在另一实施例中，计算定位模块820包括：
[0150]
区间特征提取单元，配置为根据待处理音频的时序特征确定候选区间的区间特征；
[0151]
区间概率提取单元，配置为将区间特征输入第三深度网络，得到第三深度网络输出的候选区间的区间概率。
[0152]
在另一实施例中，计算定位模块820包括：
[0153]
区间特征提取单元，配置为分别对候选区间、位于候选区间的起始点附近的区间、以及位于候选区间的结束点附近的区间进行特征提取，得到对应的候选区间特征，其中，每个候选区间特征的特征长度相同；拼接各个候选区间特征以得到候选区间的区间特征；
[0154]
区间概率提取单元，配置为将区间特征输入第三深度网络，得到第三深度网络输出的候选区间的区间概率。
[0155]
图9是本技术一示例性实施例示出的音频处理装置进行音频处理的流程示意图。其简单表示了整个音频处理的过程，涉及到了音频处理装置的相关模块，本实施例中的相关模块的表述与上述实施例存在一定的差异，但是其功能和作用都基本相同，为实现本技术的音频处理方法，可根据实际情况对音频处理装置的模块结构进行重新的划分或组合，这里的描述并不能限制本技术音频处理装置的模块结构。
[0156]
本实施例的音频处理装置包括：
[0157]
子任务模块：构建深度学习网络，对输入音乐进行局部音频属性分类，子任务模块在本技术实施例中主要用于提取时序特征。
[0158]
示例性的，输入视频或者音频文件url(uniform resource locator，统一资源定位符)，抽取音频轨道作为算法输入音乐，得到待处理音频，将待处理音频输入第一深度网络，从第一深度网络中抽取最后一个lstm网络层输出的特征作为待处理音频的时序特征。
[0159]
时序建模模块：将获得的时序特征在第二深度网络中进行处理，获得第二深度网络输出的待处理音频所包含各个时刻的副歌位置概率，副歌位置概率包括起始点概率和结束点概率，类似于上述确定模块中的时序建模单元；根据获得的起始点概率和结束点概率从待处理音频中确定出候选区间，即确定出待处理音频包含的候选区间，类似于上述确定模块中的候选区间构建单元。
[0160]
本实施例的时序建模模块等同于上述的确定模块，配置为根据待处理音频的时序特征确定待处理音频包含的候选区间。
[0161]
候选区间评估模块：挑选评估得分较高的候选区间作为副歌区间。
[0162]
本实施例的候选区间评估模块等同于上述的计算定位模块，配置为基于候选区间对应的起始点概率、结束点概率和区间概率计算候选区间的匹配概率；若匹配概率大于第一预设阈值，则确定候选区间为待处理音频包含的副歌区间，最后以json(javascript object notation，一种轻量级的数据交换格式)形式返回音频副歌区间的信息至客户端，该数据交换格式层次结构简洁、清晰，是理想的数据交换语言，易于人阅读和编写，同时也易于机器解析和生成，能有效地提升网络传输效率。
[0163]
特别的，本技术是独立任务的抽取时序特征，即在子任务模块将待处理音频输入第一深度网络，从第一深度网络中抽取深层特征作为待处理音频的时序特征，然后将时序特征输入确定模块中的第二深度网络，得到待处理音频所包含各个时刻的副歌位置概率，后续还可根据时序特征输入计算定位模块中的第三深度网络，得到稠密的区间概率，使得后续能准确的确定出完整的副歌区间。本技术音频处理过程中使用了三个深度网络进行建模学习，使得匹配概率更加精准。
[0164]
需要说明的是，上述实施例所提供的音频处理装置与前述实施例所提供的音频处理方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，这里不再赘述。
[0165]
本技术的另一方面还提供了一种音频处理设备，包括：接收装置，用于接收待处理音频；
[0166]
控制器，与接收装置电连接，以执行上述各个实施例中音频处理的方法。
[0167]
请参阅图10，图10是本技术的一示例性实施例示出的音频处理设备的计算机系统的结构示意图，其示出了适于用来实现本技术实施例的音频处理设备的计算机系统的结构示意图。
[0168]
需要说明的是，图10示出的音频处理设备的计算机系统1000仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
[0169]
如图10所示，计算机系统1000包括中央处理单元(central processing unit，cpu)1001，其可以根据存储在只读存储器(read-only memory，rom)1002中的程序或者从存
储部分1008加载到随机访问存储器(random access memory，ram)1003中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在ram 1003中，还存储有系统操作所需的各种程序和数据。cpu 1001、rom 1002以及ram 1003通过总线1004彼此相连。输入/输出(input/output，i/o)接口1005也连接至总线1004。
[0170]
以下部件连接至i/o接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(cathode ray tube，crt)、液晶显示器(liquid crystal display，lcd)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如lan(local area network，局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
[0171]
特别地，根据本技术的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本技术的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(cpu)1001执行时，执行本技术的系统中限定的各种功能。
[0172]
需要说明的是，本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory，eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory，cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
[0173]
附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不相同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定
的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0174]
描述于本技术实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。
[0175]
本技术的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前的音频处理方法。该计算机可读存储介质可以是上述实施例中描述的音频处理设备中所包含的，也可以是单独存在，而未装配入该音频处理设备中。
[0176]
本技术的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的音频处理方法。
[0177]
根据本技术实施例的一个方面，还提供了一种计算机系统，包括中央处理单元(central processing unit，cpu)，其可以根据存储在只读存储器(read-only memory，rom)中的程序或者从存储部分加载到随机访问存储器(random access memory，ram)中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在ram中，还存储有系统操作所需的各种程序和数据。cpu、rom以及ram通过总线彼此相连。输入/输出(input/output，i/o)接口也连接至总线。
[0178]
以下部件连接至i/o接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(cathode ray tube，crt)、液晶显示器(liquid crystal display，lcd)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如lan(local area network，局域网)卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至i/o接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。
[0179]
上述内容，仅为本技术的较佳示例性实施例，并非用于限制本技术的实施方案，本领域普通技术人员根据本技术的主要构思和精神，可以十分方便地进行相应的变通或修改，故本技术的保护范围应以权利要求书所要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田思达彭博
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人