音频数据处理方法、装置、电子设备及介质与流程

文档序号：32055284发布日期：2022-11-04 21:03阅读：78来源：国知局

1.本技术涉及数据处理技术领域，尤其涉及音频数据处理方法、装置、电子设备及介质。

背景技术：

2.副歌是指是歌曲(音乐)中一段重复的音乐段落，通常出现在几段主歌之间，情绪较为激烈。在一些场景中，如音乐素材生成、k歌场景快唱等场景，需要确定歌曲中副歌所在位置。目前，确定歌曲中的副歌所在位置通常是基于人工标注的方法，发明人在实践过程中发现，采用人工标注的方法需要耗费大量人力资源，费时费力效率低下。

技术实现要素：

3.本技术实施例提供了一种音频数据处理方法、装置、电子设备及介质，有助于提升对音频文件中的副歌检测的效率。
4.一方面，本技术实施例公开了一种音频数据处理方法，所述方法包括：
5.获取音频文件的频谱特征数据，并基于所述频谱特征数据确定所述音频文件在t个采样时刻下的初始时序音频特征；
6.分别生成所述音频文件在所述t个采样时刻的时刻音频特征，并根据每两个采样时刻的时刻音频特征之间的特征相似度，生成所述音频文件对应的加权系数矩阵，所述加权系数矩阵中的任一矩阵元素的元素值是根据两个采样时刻的时刻音频特征之间的特征相似度得到的；
7.基于所述加权系数矩阵对所述初始时序音频特征进行加权处理，得到所述音频文件对应的目标时序音频特征；
8.基于所述目标时序音频特征确定所述音频文件中的目标分类区间，所述目标分类区间的各个采样时刻的属性为副歌分类属性。
9.一方面，本技术实施例公开了一种音频数据处理装置，所述装置包括：
10.获取单元，用于获取音频文件的频谱特征数据，并基于所述频谱特征数据确定所述音频文件在t个采样时刻下的初始时序音频特征；
11.处理单元，用于分别生成所述音频文件在所述t个采样时刻的时刻音频特征，并根据每两个采样时刻的时刻音频特征之间的特征相似度，生成所述音频文件对应的加权系数矩阵，所述加权系数矩阵中的任一矩阵元素的元素值是根据两个采样时刻的时刻音频特征之间的特征相似度得到的；
12.所述处理单元，还用于基于所述加权系数矩阵对所述初始时序音频特征进行加权处理，得到所述音频文件对应的目标时序音频特征；
13.所述处理单元，还用于基于所述目标时序音频特征确定所述音频文件中的目标分类区间，所述目标分类区间的各个采样时刻的属性为副歌分类属性。
14.一方面，本技术实施例提供了一种电子设备，电子设备包括处理器、存储器，其中，
所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于执行如下步骤：
15.获取音频文件的频谱特征数据，并基于所述频谱特征数据确定所述音频文件在t个采样时刻下的初始时序音频特征；
16.分别生成所述音频文件在所述t个采样时刻的时刻音频特征，并根据每两个采样时刻的时刻音频特征之间的特征相似度，生成所述音频文件对应的加权系数矩阵，所述加权系数矩阵中的任一矩阵元素的元素值是根据两个采样时刻的时刻音频特征之间的特征相似度得到的；
17.基于所述加权系数矩阵对所述初始时序音频特征进行加权处理，得到所述音频文件对应的目标时序音频特征；
18.基于所述目标时序音频特征确定所述音频文件中的目标分类区间，所述目标分类区间的各个采样时刻的属性为副歌分类属性。
19.一方面，本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序指令，计算机程序指令被处理器执行时，用于执行如下步骤：
20.获取音频文件的频谱特征数据，并基于所述频谱特征数据确定所述音频文件在t个采样时刻下的初始时序音频特征；
21.分别生成所述音频文件在所述t个采样时刻的时刻音频特征，并根据每两个采样时刻的时刻音频特征之间的特征相似度，生成所述音频文件对应的加权系数矩阵，所述加权系数矩阵中的任一矩阵元素的元素值是根据两个采样时刻的时刻音频特征之间的特征相似度得到的；
22.基于所述加权系数矩阵对所述初始时序音频特征进行加权处理，得到所述音频文件对应的目标时序音频特征；
23.基于所述目标时序音频特征确定所述音频文件中的目标分类区间，所述目标分类区间的各个采样时刻的属性为副歌分类属性。
24.一方面，本技术实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令被处理器执行时可实现上述一方面提供的方法。
25.采用本技术实施例，能够根据音频文件的频谱特征数据确定音频文件在t个采样时刻下的初始时序音频特征，并且可以生成音频文件在t个采样时刻的时刻音频特征，以根据每两个采样时刻的时刻音频特征之间的特征相似度，生成音频文件对应的加权系数矩阵，从而可以基于加权系数矩阵对初始时序音频特征进行加权处理，得到音频文件对应的目标时序音频特征，并进行副歌音频区间的识别。简言之，在进行副歌区间识别时，需要获取相应的音频特征，还要根据整个音频文件中各个时刻之间的特征相似度来确定一个加权值，通过加权值分别对原始的音频特征进行加权之后，再进行副歌分类区间的识别，一方面，本技术能够音频特征数据的获取、分析、副歌区间的自动识别，满足了副歌区间识别的自动化、智能化需求，提高了识别效率，另一方面，基于相似度进行的加权处理能够在一定程度上使得目标时序音频特征中音频相似的采样时刻的特征得到增强，由于歌曲中的副歌通常是很相似的，则在基于进行了加权的目标时序音频特征确定音频文件中的目标分类区间时在一定程度上能使得准确度更高。由此本技术通过音频文件中各个采样时刻的特征相
似度对初始时序音频特征进行加权，使得音频文件中相似片段的采样时刻对应相近的时序音频特征，相当于目标时序音频特征中音频相似的采样时刻的特征得到增强，进而均衡提升歌曲中各段副歌被检出的可能性，有助于提升对音频文件中的副歌检测的效率和准确性。
附图说明
26.为了更清楚地说明本技术实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
27.图1是本技术实施例提供的一种音频数据处理系统的结构示意图；
28.图2是本技术实施例提供的一种音频数据处理方法的结构示意图；
29.图3是本技术实施例提供的一种去噪特征相似度矩阵的效果示意图；
30.图4是本技术实施例提供的一种加权系数矩阵的效果示意图；
31.图5是本技术实施例提供的一种音频数据处理方法的流程示意图；
32.图6是本技术实施例提供的一种音频数据处理方法的流程示意图；
33.图7是本技术实施例提供的一种音频数据处理方法的流程示意图；
34.图8是本技术实施例提供的一种无人声区间生成方法的流程示意图；
35.图9是本技术实施例提供的一种音频数据处理装置的结构示意图；
36.图10是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
37.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行描述。
38.本技术实施例提出一种音频数据处理方案，能够根据音频文件的频谱特征数据确定音频文件在t个采样时刻下的初始时序音频特征，并且可以生成音频文件在t个采样时刻的时刻音频特征，以根据每两个采样时刻的时刻音频特征之间的特征相似度，生成音频文件对应的加权系数矩阵，从而可以基于加权系数矩阵对初始时序音频特征进行加权处理，得到音频文件对应的目标时序音频特征，并进行副歌音频区间的识别。一方面，本技术能够音频特征数据的获取、分析、副歌区间的自动识别，满足了副歌区间识别的自动化、智能化需求，提高了识别效率，另一方面，基于相似度进行的加权处理能够在一定程度上使得目标时序音频特征中音频相似的采样时刻的特征得到增强，由于歌曲中的副歌通常是很相似的，则在基于进行了加权的目标时序音频特征确定音频文件中的目标分类区间时在一定程度上能使得准确度更高。由此本技术通过音频文件中各个采样时刻的特征相似度对初始时序音频特征进行加权，使得音频文件中相似片段的采样时刻对应相近的时序音频特征，相当于目标时序音频特征中音频相似的采样时刻的特征得到增强，进而均衡提升歌曲中各段副歌被检出的可能性，有助于提升对音频文件中的副歌检测的效率和准确性。
39.在一种可能的实施方式中，本技术实施例可以用于一种音频数据处理系统中。请参见图1，图1是本技术实施例提供的一种音频数据处理系统的结构示意图，音频数据处理系统中可以包括客户端和数据处理后台。该客户端可以用于用户选择需要检测副歌的音频文件，如用户可以在客户端中上传一段视频文件或音乐文件，或输入视频文件或音乐文件
的url(统一资源定位符)，进而方便后续可以从选择的视频文件或音乐文件抽取音频轨道得到音频文件。该数据处理后台可以用于对用户上传的音频文件进行处理，以检测出音频文件的目标分类区间，该目标分类区间的各个采样时刻的属性为副歌分类属性，即目标分类区间为所检测出的副歌所在位置。该数据处理后台可以为该客户端所在设备，也可以不为该客户端所在设备(例如某个服务器或者其他用户设备)，此处不做限制。
40.数据处理后台在确定出目标分类区间后，可以向客户端返回目标分类区间的区间信息，如可以返回目标分类区间的起始时刻和结束时刻。可选的，客户端在接收到目标分类区间的区间信息后，还可以根据目标分类区间的区间信息，在音频文件中定位目标分类区间的位置，从而让用户快速确定副歌所在位置，以便于用户可以基于目标分类区间进行音频素材的剪辑，或者对副歌部分的跟唱等等。由此本技术可以通过音频数据处理系统，实现对用户上传的音频文件的副歌检测，从而可以快速让用户明确音频文件的副歌所在位置。并且由于在进行副歌检测时，通过音频文件中各个采样时刻的特征相似度对初始时序音频特征进行加权，使得音频文件中相似片段对应的采样时刻对应相近的时序音频特征，相当于目标时序音频特征中音频相似的采样时刻的特征得到增强，均衡提升歌曲中各段重复的副歌被检出的可能性，有助于提升对音频文件中的副歌检测的效率和准确性。
41.在一种可能的实施方式中，本技术实施例可以应用于云技术领域，云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术(cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。
42.在一种可能的实施方式中，本技术实施例还可以应用于人工智能技术领域，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
43.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
44.需要进行说明的是，本技术在收集用户的相关数据之前以及在收集用户的相关数据的过程中，都可以显示提示界面、弹窗或输出语音提示信息，该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据，使得本技术仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后，才开始执行获取用户相关数据的相关步骤，否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时)，结束获取用户相关数据的相关步骤，即
不获取用户的相关数据。换句话说，本技术所采集的所有用户数据都是在用户同意并授权的情况下进行采集的，且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
45.本技术的技术方案可运用在电子设备中，如上述的数据处理后台。该电子设备可以是终端，也可以是服务器，或者也可以是用于进行音频数据处理的其他设备，本技术不做限定。可选的。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器、智能音箱、智能家电等。
46.可以理解，上述场景仅是作为示例，并不构成对于本技术实施例提供的技术方案的应用场景的限定，本技术的技术方案还可应用于其他场景。例如，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本技术实施例提供的技术方案对于类似的技术问题，同样适用。
47.基于上述的描述，本技术实施例提出一种音频数据处理方法。请参见图2，图2是本技术实施例提供的一种音频数据处理方法的结构示意图。可选的，该音频数据处理方法可以由上述电子设备执行。如图2所示，本实施例中所描述的音频数据处理方法可以包括：
48.s201、获取音频文件的频谱特征数据，并基于频谱特征数据确定音频文件在t个采样时刻下的初始时序音频特征。
49.该音频文件可以是需要进行副歌检测的歌曲的音频文件。如上述，该音频文件可以从选择的视频文件或音乐文件中抽取音频轨道得到。
50.在一个实施例中，在音频文件中可以根据一定的采样间隔确定上述t个采样时刻。该采样间隔是指相邻采样时刻之间的时间差。例如，在一段60s的音频文件中，确定采样间隔为0.6s，则可以每间隔0.6s确定一个采样时刻，得到音频文件中的100个采样时刻，即上述的t等于100。可以理解的是，该采样间隔可以根据实际应用场景灵活设置，此处不做限制。
51.音频文件的频谱特征数据可以用于表征音频文件的t个采样时刻对应的频域数据。在一个实施例中，该频谱数据可以是音频文件的语谱图，或者可以是梅尔谱(mel谱)等等，此处不做限制。其中，获取音频文件的语谱图可以为：根据音频文件在t个采样时刻分别对应的时域数据进行傅里叶转换得到t个采样时刻分别对应的频域数据，进而根据每个采样时刻对应的频域数据按照时间先后顺序进行组合得到语谱图；获取音频文件的梅尔谱可以为：可以将音频文件的的语谱图映射至梅尔标度得到对应的梅尔谱。
52.在一个实施例中，一个采样时刻对应的频域数据可以根据以该采样时刻为中心的目标时域范围内的时域数据进行傅里叶转换得到，相邻两个采样时刻对应的目标时域范围之间可以有一部分重叠，也可以不重叠，此处不做限制。例如，在一个音频文件中包括连续的采样时刻：第1s、第2s、第3s.....其中第1s对应的时域数据可以包括第0.4-第1.6s之间的时域数据，第2s对应的时域数据可以包括第1.4-第2.6s之间的时域数据，第3s对应的时域数据可以包括第2.4-第3.6s之间的时域数据，以此类推，得到每个采样时刻对应的时域数据，进而基于每个采样时刻对应的时域数据得到每个采样时刻对应的频域数据。
53.该初始时序音频特征可以是指没有进行加权处理的时序音频特征。该初始时序音频特征是适用于检测每个采样时刻是否为副歌分类属性的特征。在一个实施例中，该初始时序音频特征可以表征为音频特征矩阵，矩阵维度为t*d，其中，t表示t个采样时刻，即每一行对应一个采样时刻，d表示每一行对应的采样时刻的时序音频特征的维度，d的大小取决于实际的计算结果。可以理解的是，在该初始时序音频特征的音频特征矩阵中，每一行数据表示一个采样时刻的时序音频特征，一个采样时刻的时序音频特征的特征维度为d(例如d＝1024)，并且，在初始时序音频特征的音频特征矩阵中的各行数据可以按照对应的采样时刻的时间先后顺序排列。例如，第1个采样时刻对应初始时序音频特征的音频特征矩阵中的最后一行数据，第2个采样时刻对应初始时序音频特征的音频特征矩阵中的倒数第2行数据，以此类推。
54.在一种可能的实施方式中，基于频谱特征数据确定音频文件在t个采样时刻下的初始时序音频特征，可以具体包括以下步骤：调用音频属性分类模型对频谱特征数据进行处理，得到音频文件在t个采样时刻下的初始时序音频特征。其中，音频属性分类模型用于识别音频文件中各个采样时刻的属性是否为副歌分类属性。该音频属性分类模型中可以包括特征网络层，从而可以根据该音频属性分类模型中的特征网络层获取初始时序音频特征。该音频属性分类模型可以为一个深度网络，如可以采用堆叠的conv2d(一种神经网络层)、lstm(一种神经网络)构建得到音频属性分类模型，则可以将其中的最后一个lstm层的特征层作为上述特征网络层，得到初始时序音频特征。
55.在一个实施例中，该音频属性分类模型中还可以包括fpn(feature pyramid networks，特征金字塔网络)模块，能够在进行特征提取时，通过简单的网络连接改变，大幅度提升了副歌检测的性能，解决conv2d深层特征语义和感受野之间的矛盾，将深层特征的变换与其上下层不同语义强度和感受野的特征层变换做融合。通过这样的连接，在音频属性分类模型中保证了特征图有适合副歌检测任务的感受野和语义强度，有助于提升得到的初始时序音频特征的准确度。
56.s202、分别生成音频文件在t个采样时刻的时刻音频特征，并根据每两个采样时刻的时刻音频特征之间的特征相似度，生成音频文件对应的加权系数矩阵。
57.其中，该时刻音频特征可以是指用于表征音频文件在各个采样时刻下的音级的特征。
58.在一个实施例中，该时刻音频特征可为色度特征(chroma特征)，每个采样时刻有对应的色度特征，该色度特征的维度为12，代表12个音级。
59.在一个实施例中，音频文件在t个采样时刻的时刻音频特征可以构成色度矩阵，色度矩阵的矩阵维度为t*12，其中，t表示t个采样时刻，12表示12个音级，也就是说色度矩阵的每一行对应一个采样时刻，每一列对应一个音级。可以理解的是，在色度矩阵中，矩阵的每行数据表示一个采样时刻的色度特征，且在色度矩阵中的各行数据可以按照对应的采样时刻的时间先后顺序排列。
60.该加权系数矩阵中的任一矩阵元素的元素值是根据两个采样时刻的时刻音频特征之间的特征相似度得到的。其中，矩阵中矩阵元素的元素值是指矩阵元素的具体数值，也可以简称矩阵中的元素值，或者还可以称为矩阵中的矩阵值、矩阵中的数值等等，此处不做限制。可以理解的是，该加权系数矩阵可以是用于对初始时序音频特征进行加权的矩阵。在
一个实施例中，该加权系数矩阵的维度可以为t*t，其中t表示t个采样时刻，即在该加权系数矩阵中每一行对应一个采样时刻，每一列对应一个采样时刻，则加权系数矩阵中的任一元素的元素值根据元素值所在行对应的采样时刻的时刻音频特征与所在列对应的采样时刻的时刻音频特征之间的特征相似度得到。
61.在一种可能的实施方式中，根据每两个采样时刻的时刻音频特征之间的特征相似度，生成音频文件对应的加权系数矩阵，具体可以包括以下步骤：
62.①
根据每两个采样时刻的时刻音频特征之间的特征相似度，生成特征相似度矩阵。其中，特征相似度矩阵中的每个矩阵元素的元素值是指对应两个采样时刻的时刻音频特征的相似度。可以理解的是，每个矩阵元素的元素值是指元素值的元素坐标所对应的两个采样时刻之间的特征相似度，两个采样时刻的时刻音频特征之间的特征相似度越高，则对应矩阵元素的元素值越大，两个采样时刻的时刻音频特征之间的特征相似度越低，则对应矩阵元素的元素值越小。其中元素坐标是指矩阵元素所在行对应的采样时刻与所在列对应的采样时刻所构成的坐标。例如，t1采样时刻对应的时刻音频特征为v1，t2采样时刻对应的时刻音频特征为v2，则特征相似度矩阵中元素坐标为(t1，t2)处的矩阵元素的元素值为v1与v2之间的特征相似度。又如，采样时刻t1与t3分别对应的时刻音频特征为v1和v3，则特征相似度矩阵中元素坐标为(t1，t3)处的矩阵元素的元素值为v1与v3之间的特征相似度。
63.在一个实施例中，本技术可根据以下公式(即公式1)确定任意两个采样时时刻的时刻音频特征之间的特征相似度。
[0064][0065]
其中，s
12
表示采样时刻t1与采样时刻t2的时刻音频特征之间的特征相似度。其中，v1表示采样时刻t1的时刻音频特征，v2表示采样时刻t2的时刻音频特征。由此可以通过公式1计算得到任意两个采样时刻之间的特征相似度。
[0066]
可以理解的是，两个采样时刻对应的音频数据(表现为色度特征)越相似，则在特征相似度矩阵中的对应的特征相似度越大，两个采样时刻对应的音频数据越不相似，则在特征相似度矩阵中的对应的特征相似度越小。在特征相似度矩阵中，矩阵元素的元素值所在行和所在列对应的采样时刻相同时，对应的元素值最大，如特征相似度为1，即相同采样时刻的时刻音频特征相同。
[0067]
②
对特征相似度矩阵进行去噪处理，得到去噪特征相似度矩阵。其中，去噪处理用于对特征相似度矩阵中的第一类型矩阵元素的元素值进行减小或者对第二类型矩阵元素的元素值进行增大。通过去噪处理可以使得特征相似度矩阵中一类矩阵元素的元素值得到抑制，另一类矩阵元素的元素值得到增强，由此可以使得后续基于该去噪相似度矩阵得到的加权系数矩阵能够增强音频文件的时序音频数据中相似的片段的特征。
[0068]
在一个实施例中，去噪特征相似度矩阵中的每个矩阵元素的元素值可以通过颜色进行表征，如可以通过渐变的颜色表征不同大小的元素值。例如，元素值越大，则对应的颜色越趋近于白色，元素值越小，则对应的颜色越趋近于黑色，或者还可以通过其他的渐变颜色(如红-绿之间的渐变)进行表征，此处不做限制。
[0069]
例如，请参见图3，图3是本技术实施例提供的一种去噪特征相似度矩阵的效果示意图。如图3所示，在该去噪特征相似度矩阵中，横轴表示t个采样时刻，纵轴表示t个采样时刻，矩阵元素的元素值越大，则用于表征该元素值的颜色的灰度值越小(即在图3中更白)，
矩阵元素的元素值越小，则用于表征该元素值的颜色的灰度值越大(即在图3中更黑)。每个矩阵元素的元素值表示所在行对应的采样时刻的时刻音频特征与所在列对应的采样时刻的时刻音频特征之间的特征相似度进行去噪处理后的数值。例如图3中的301所指示的矩阵元素的元素值表示，3:20这一采样时刻与0:50这一采样时刻的时刻音频特征之间的特征相似度进行去噪处理后的数值。
[0070]
③
将去噪特征相似度矩阵中小于第一阈值的矩阵元素的元素值进行过滤处理，并对过滤处理后的去噪特征相似度矩阵中的每行矩阵元素的元素值进行归一化处理，得到音频文件对应的加权系数矩阵。其中，过滤处理可以为将去噪特征相似度矩阵中小于第一阈值的矩阵元素的元素值均确定为0，由此可以使得过滤处理后的去噪特征相似度矩阵中的只有大于第一阈值的矩阵元素的元素值不为0。矩阵元素的元素值小于第一阈值则表示所对应的采样时刻之间的音频数据不相似，对小于第一阈值的矩阵元素的元素值进行过滤处理则相当于将不相似的采样时刻对应的矩阵元素的元素值进行过滤，只保留去噪特征相似度矩阵中真正相似的采样时刻对应的矩阵元素的元素值。该第一阈值可以为预设的阈值，例如该第一阈值为0.9，则可以小于0.9的矩阵元素的元素值进行过滤处理。归一化处理是指将过滤处理后的去噪特征相似度矩阵中的每行矩阵元素的元素值的和转换为1。在一个实施例中，归一化处理时，可以采用softmax(一种归一化处理方式)的方式进行处理,由此使得得到的加权系数矩阵中的每行矩阵元素的元素值的和为1。例如，过滤处理后的去噪特征相似度矩阵的中，针对采样时刻t10对应的一行矩阵元素的元素值中，在t10采样时刻对应的列的矩阵元素的元素值为s1，在t35采样时刻对应的列的矩阵元素的元素值为s2，其余的矩阵元素的元素值均为0，则在采样时刻t10对应的这一行矩阵元素的元素值中，在t10采样时刻对应的列的矩阵元素的元素值为变为：e^s1/(e^s1+e^s2)，在t35采样时刻对应的列的矩阵元素的元素值为变为：e^s2/(e^s1+e^s2)。
[0071]
在一个实施例中，加权系数矩阵中的每个矩阵元素的元素值可以通过颜色进行表征，如可以通过渐变的颜色表征不同大小的元素值。例如，元素值越大，则对应的颜色越趋近于白色，元素值越小，则对应的颜色越趋近于黑色，或者还可以通过其他渐变的颜色(如红-绿之间的渐变)进行表征，此处不做限制。
[0072]
例如，请参见图4，图4是本技术实施例提供的一种加权系数矩阵的效果示意图。如图4所示，在该去噪特征相似度中，横轴表示t个采样时刻，纵轴表示t个采样时刻，矩阵元素的元素值越大，则用于表征该元素值的颜色的灰度值越小(即在图4中更白)，矩阵元素的元素值越小，则用于表征该元素值的颜色的灰度值越大(即在图4中更黑)。每个矩阵元素的元素值表示所在行对应的采样时刻的时刻音频特征与所在列对应的采样时刻的时刻音频特征之间的特征相似度进行去噪处理、过滤处理、归一化处理后的数值。可以看到，在图4的加权系数矩阵中，那些矩阵元素的元素值接近1的位置(偏白)代表在该矩阵元素的元素值所在的一行数据中该矩阵元素的元素值与其他采样时刻不相似，通常是行列对应的采样时刻相同的位置的矩阵元素的元素值；那些矩阵元素的元素值明显小于1但不为0位置，表示在该矩阵元素的元素值所在的一行数据中有与该矩阵元素的元素值相似的采样时刻，则通过上述的归一化处理，可以使得相似的几个采样时刻对应的矩阵元素的元素值均小于1且不为0，反而比较趋近于中间值，例如，在过滤处理后的去噪特征相似度矩阵中，t1采样时刻对应的一行数据中存在不为0的元素值：0.95和1，则在进行归一化处理后得到的加权系数矩
阵中，t1采样时刻对应的一行数据中存在不为0的元素值为：e^0.95/(e^1+e^0.95)和即e^1/(e^1+e^0.95)。
[0073]
在一种可能的实施方式中，上述对特征相似度矩阵进行去噪处理，得到去噪特征相似度矩阵，具体可以包括以下步骤：
①
获取特征相似度矩阵中大于或等于第二阈值的矩阵元素的元素值，得到多个候选去噪矩阵元素的元素值。其中，该候选去噪矩阵元素的元素值是指特征相似度矩阵中小于第二阈值的矩阵元素的元素值。该第二阈值可以预设的阈值，例如，该第二阈值可以为0.8，则可以将特征相似度矩阵中大于或等于0.8的元素值确定为候选去噪矩阵元素的元素值。
[0074]
②
根据多个候选去噪矩阵元素的元素值的元素位置确定至少一个元素值集。其中，每一个元素值集对应于在特征相似度矩阵上的矩阵线段，矩阵线段上包括至少多个候选去噪矩阵元素的元素值。该矩阵线段可以基于多个候选去噪矩阵元素的元素值进行直线拟合得到，该矩阵线段可以为直线线段或接近直线的线段，此处不做限制。可以理解的是，基于多个候选去噪矩阵元素的元素值，可以拟合得到至少一个矩阵线段，每个矩阵线段可以有对应的线段角度，如该线段角度可以为45度、0度、60度等等。在一个实施例中，一个矩阵线段对应的线段角度可以是指矩阵线段与矩阵的横轴或纵轴的夹角。在一个实施例中，一个矩阵线段上的矩阵元素的数量应大于或等于第三阈值，由此可以使得基于矩阵线段上的候选去噪矩阵元素的元素值确定的元素值集能够更准确。
[0075]
③
根据确定的元素值集得到去噪特征相似度矩阵。其中，根据确定的元素值集得到去噪特征相似度矩阵可以为对不同元素值集中的元素值进行调整，使得满足去噪条件的元素值集中的元素值更为突出。例如，对满足去噪条件的元素值集中的元素值进行增大，或者对不满足去噪条件的元素值集中的元素值进行减小，或者对满足去噪条件的元素值集中的元素值进行增大，并且对不满足去噪条件的元素值集中的元素值进行减小，此处不做限制。
[0076]
在一个实施例中，上述去噪条件可以为对应的线段角度为45度，这是由于在音频文件中的相似的音乐片段总是一段对应一段的，反应在特征相似度矩阵中就是线段角度为45度矩阵线段上的矩阵元素的元素值比较突出，进而可以对线段角度不为45度的矩阵线段上的矩阵元素的元素值进行抑制(减小)，或者对线段角度为45度的矩阵线段上的矩阵元素的元素值进行增强(增大)，从而使得满足一定条件的元素值集中的元素值更为突出。例如，若在一个音频文件中，第10s-20s与第40s-50s是两个相似的音乐片段，采样间隔为1s，则在音频文件的特征相似度矩阵中，第10s与第40s对应的矩阵元素的元素值大于或等于第二阈值，第11s与第41s对应的矩阵元素的元素值大于或等于第二阈值，第12s与第42s对应的矩阵元素的元素值大于或等于第二阈值，以此类推，相似的片段反应在特征相似度矩阵中可以形成线段角度为45度的矩阵线段，进而可以通过对不同元素值集中的元素值进行调整，使得线段角度为45度的矩阵元素的元素值集中的元素值更为突出。
[0077]
在一个实施例中，根据确定的元素值集得到去噪特征相似度矩阵包括以下步骤的任意一个或者两个的组合：
①
将至少一个元素值集中对应的矩阵线段在特征相似度矩阵中的线段角度不满足角度预设条件的元素值集，确定为去噪元素值集，并将去噪元素值集中的元素值确定为第一类型矩阵元素的元素值，对第一类型矩阵元素的元素值进行减小得到去噪特征相似度矩阵。其中，该角度预设条件可以为预设的角度，例如，该角度预设条件可
以为45度。可以理解的是，若去噪元素值集有多个，则可以将每个去噪元素值集中的元素值均确定为第一类型矩阵元素的元素值。第一类型矩阵元素的元素值为矩阵线段在特征相似度矩阵中的线段角度不满足角度预设条件的元素值集中的元素值(如对应的矩阵线段的线段角度不为45度)，则可以对第一类型矩阵元素的元素值进行减小，以使得线段角度满足角度预设条件的圆度值集中的元素值更为突出。
[0078]
②
将至少一个元素值集中对应的矩阵线段在特征相似度矩阵中的线段角度满足角度预设条件的元素值集，确定为增强元素值集，并将增强元素值集中的元素值确定为第二类型矩阵元素的元素值，对第二类型矩阵元素的元素值进行增大得到去噪特征相似度矩阵。可以理解的是，若增强元素值集有多个，则可以将每个增强元素值集中的元素值均确定为第二类型矩阵元素的元素值。其中，第二类型矩阵元素的元素值为矩阵线段在特征相似度矩阵中的线段角度满足角度预设条件的元素值集中的元素值，如线段角度为45度，则可以对第二类型矩阵元素的元素值进行增加，以使得线段角度满足角度预设条件的元素值集中的元素值更为突出。可以理解的是，还可以既对第一类型矩阵元素的元素值进行减小，又对第二类型矩阵元素的元素值进行增加，从而可以使得线段角度满足角度预设条件的元素值集中的元素值更为突出。
[0079]
可选的，上述对第一类型矩阵元素的元素值进行减小的具体数值，以及对第二类型矩阵元素的元素值进行增加的具体数值可以根据实际场景设置为固定的预设值，也可以设置为一定的百分比，从而基于预设的百分比确定具体减少或增加的数值，此处不做限制。
[0080]
s203、基于加权系数矩阵对初始时序音频特征进行加权处理，得到音频文件对应的目标时序音频特征。
[0081]
其中，该目标时序音频特征是指最终用于确定目标分类区间的时序音频特征。在一个实施例中，该目标时序音频特征可以也表征为音频特征矩阵，矩阵维度与初始时序音频特征的维度相同，即为t*d，其中，t表示t个采样时刻，即目标时序音频特征中的每一行对应一个采样时刻，d表示所在行对应的采样时刻的音频特征的维度。可以理解的是，在该目标时序音频特征中，音频特征矩阵的每行数据表示一个采样时刻的时序音频特征，一个采样时刻的时序音频特征的特征维度为d(例如d＝1024)，且在目标时序音频特征中的各行数据可以按照对应的采样时刻的时间先后顺序排列，且排列顺序与上述初始时序音频特征相同。
[0082]
在一个实施例中，基于加权系数矩阵对初始时序音频特征进行加权处理，可以为将加权系数矩阵与初始时序音频特征进行矩阵乘法运算，得到目标时序音频特征。可以理解的是，加权系数矩阵的维度为t*t，初始时序音频特征的维度为t*d，则两者进行矩阵乘法运算，可以得到维度为t*d的目标时序音频特征。
[0083]
s204、基于目标时序音频特征确定音频文件中的目标分类区间。
[0084]
其中，目标分类区间的各个采样时刻的属性为副歌分类属性。该副歌分类属性用于指示采样时刻属于音频文件的副歌。可以理解的是，该目标分类区间是指基于本技术所检测出的副歌所在位置，相较于直接基于初始时序音频特征检测音频文件的副歌所在位置，本技术通过加权系数矩阵对初始时序音频特征进行加权得到的目标时序音频特征检测音频文件的副歌所在位置，可以使得所检测出的目标分类区间更为准确，即与音频文件实际的副歌所在位置更为相近。
[0085]
在一种可能的实施方式中，步骤s204可以为：调用分类区间检测模型对目标时序音频特征进行分析处理，以确定音频文件中的目标分类区间。其中，该分类区间检测模型可以为深度网络，如可以通过堆叠conv1d(一种神经网络)构建该分类区间检测模型。由此可以基于分类区间检测模型快速识别出音频文件中的目标分类区间。
[0086]
此处结合图示对整个数据处理过程进行阐述，例如，请参见图5，图5是本技术实施例提供的一种音频数据处理方法的流程示意图。首先可以先获取音频文件(如图5中的501所示)，进而可以获取音频文件的频谱特征数据(如图5中的502所示)，如音频文件的梅尔谱，从而调用音频属性分类模型基于频谱特征数据确定出音频文件的初始时序音频特征(如图5中的503所示)，初始时序音频特征的特征维度可以为t*d；并且，可以基于音频文件在每个采样时刻的色度特征确定出特征相似度矩阵(如图5中的504所示)，特征相似度矩阵的特征维度可以为t*t，进而基于该特征相似度矩阵进行去噪处理、过滤处理、归一化处理等操作得到加权系数矩阵(如图5中的505所示)；然后基于加权系数矩阵对初始时序音频特征进行加权处理，得到目标时序音频特征(如图5中的506所示)，如可以将加权系数矩阵与初始时序音频特征进行矩阵乘法运算，加权系数矩阵的特征维度也为t*d。最后可以基于目标时序音频特征确定出音频文件中的目标分类区间(如图5中的507所示)，如可以调用分类区间检测模型基于目标时序音频特征确定出目标分类区间。由于最后是基于通过加权系数矩阵进行加权的时序音频特征确定的目标分类区间，即加权时序音频特征能够更好地表征音频文件用于进行副歌检测的特征，提升了副歌检测的准确度和效率。
[0087]
采用本技术实施例，能够根据音频文件的频谱特征数据确定音频文件在t个采样时刻下的初始时序音频特征，并且可以生成音频文件在t个采样时刻的时刻音频特征，以根据每两个采样时刻的时刻音频特征之间的特征相似度，生成音频文件对应的加权系数矩阵，从而可以基于加权系数矩阵对初始时序音频特征进行加权处理，得到音频文件对应的目标时序音频特征，并进行副歌音频区间的识别。一方面，本技术能够音频特征数据的获取、分析、副歌区间的自动识别，满足了副歌区间识别的自动化、智能化需求，提高了识别效率，另一方面，基于相似度进行的加权处理能够在一定程度上使得目标时序音频特征中音频相似的采样时刻的特征得到增强，由于歌曲中的副歌通常是很相似的，则在基于进行了加权的目标时序音频特征确定音频文件中的目标分类区间时在一定程度上能使得准确度更高。由此本技术通过音频文件中各个采样时刻的特征相似度对初始时序音频特征进行加权，使得音频文件中相似片段的采样时刻对应相近的时序音频特征，相当于目标时序音频特征中音频相似的采样时刻的特征得到增强，进而均衡提升歌曲中各段副歌被检出的可能性，有助于提升对音频文件中的副歌检测的效率和准确性。
[0088]
请参见图6，图6是本技术实施例提供的一种音频数据处理方法的流程示意图。可选的，该音频数据处理方法可以由上述电子设备执行。如图6所示，本实施例中所描述的音频数据处理方法可以包括：
[0089]
s601、获取音频文件的频谱特征数据，并基于频谱特征数据确定音频文件在t个采样时刻下的初始时序音频特征。
[0090]
在一个实施例中，如上述，该初始时序音频特征可以通过调用音频属性分类模型对频谱特征数据进行处理得到，则可以先对该音频属性分类模型进行训练，使得该音频属性分类模型具有基于频谱特征数据准确提取对应的时序音频特征的能力。具体的，对该音
频属性分类模型进行训练可以包括以下步骤：
[0091]
①
获取第一音频样本文件。其中，第一音频样本文件具有第一样本标签，第一样本标签分别记录了第一音频样本文件中每个样本采样时刻的属性是否为副歌分类属性。该第一音频样本文件可以是用于对音频属性分类模型进行训练的样本数据。在一实施例中，样本采样时刻是指音频样本文件中的采样时刻，各个样本采样时刻与上述音频文件中的各个采样时刻的采样间隔可以相同也可以不同，此处不做限制。在一个实施例中，若第一音频样本文件中样本采样时刻的属性为副歌分类属性，则可以在第一样本标签中将该样本采样时刻对应记录为1，若第一音频样本文件中样本采样时刻的属性不为副歌分类属性，则可以在第一样本标签中将该样本采样时刻对应记录为0。
[0092]
②
利用初始分类模型的特征网络层对第一音频样本文件的样本频谱特征数据进行特征提取，得到第一音频样本文件对应的样本时序音频特征。其中，该初始分类模型是指未经过训练的音频属性分类模型，初始分类模型中的特征网络层用于生成样本时序音频特征。第一音频样本文件的样本频谱特征数据的生成方式，可以参照上述音频文件的频谱特征数据的相关描述，此处不做赘述。可以理解的是，该样本时序音频特征的表现方式可以参照上述初始时序音频特征，即样本时序音频特征可以表现为音频特征矩阵，矩阵维度t’*d，其中t’表示第一音频样本文件中的各个样本采样时刻，即每一行对应一个样本采样时刻，d表示每个样本采样时刻对应的时序音频特征的维度。在一个实施例中，该初始分类模型可以为一个深度网络，如可以采用堆叠的conv2d(一种神经网络层)、lstm(一种神经网络)、fc(全连接层)构建得到初始分类模型，可以将其中的最后一个lstm层的特征层作为上述特征网络层，以得到样本时序音频特征。
[0093]
③
利用初始分类模型的分类网络层对样本时序音频特征进行属性分类识别，确定第一音频样本文件中的各个样本采样时刻的属性为副歌分类属性的概率。其中，该初始分类模型的分类网络层可以是指上述进行属性分类识别的网络层。例如，该分类网络层可以为上述的fc网络层，由此可以快速获取到第一音频样本文件中的各个样本采样时刻的属性为副歌分类属性的概率。
[0094]
④
基于第一音频样本文件中的各个样本采样时刻的属性为副歌分类属性的概率与第一样本标签，修正初始分类模型的模型参数，以便于得到音频属性分类模型。其中，上述音频文件在t个采样时刻下的初始时序音频特征是利用音频属性分类模型包括的特征网络层得到的。在一个实施例中，修正初始分类模型的模型参数可以为：基于第一音频样本文件中的各个样本采样时刻的属性为副歌分类属性的概率与第一样本标签计算第一损失值，进而可以基于第一损失值修正初始分类模型的模型参数，使得第一损失值逐渐变小直至收敛。可选的，第一损失值可以基于cross entropy loss(交叉熵损失函数)计算得到，以监督整个训练过程。在对初始分类模型的模型参数的修正过程中，应使得各个样本采样时刻的属性为副歌分类属性的概率与第一样本标签中记录的每个样本采样时刻对应的数值逐渐相近，由此可以使得训练得到的音频属性分类模型能够准确预测音频文件中各个采样时刻的属性是否为副歌分类属性，则基于该音频属性分类模型得到的时序音频特征能够适用于副歌的检测。
[0095]
在一个实施例中，为了能够准确获取第一音频样本文件的第一样本标签，本技术可以通过指定第一音频样本文件中属于副歌的歌词来确定第一音频样本文件中的副歌分
类区间，从而确定第一音频样本文件中各个样本采样时刻的属性是否为副歌分类属性。其中，副歌分类区间是指音频文件中实际为副歌的时间区间。那么，具体可以包括以下步骤：
①
获取第一音频样本文件的歌词信息。其中，该歌词信息中可包括第一音频样本文件中每段歌词对应的起始时刻和结束时刻。
②
响应于对第一音频样本文件的歌词信息中针对目标歌词段的选择操作，确定目标歌词段所处的音频时刻区间。其中，目标歌词段是指选择操作所选择的歌词段，针对目标歌词段的选择操作用于选择音频文件的歌词中为副歌的歌词段，则可以将目标歌词段的起始时刻与结束时刻之间的区间作为目标歌词段所处的音频时刻区间。可以理解的是，目标歌词段的起始时刻与结束时刻之间的区间，包含目标歌词段的起始时刻与结束时刻。
③
将第一音频样本文件中目标歌词段所处的音频时刻区间的样本采样时刻的属性标注为副歌分类属性。也就是将目标歌词段所处的音频时刻区间的样本采样时刻的属性标注为副歌分类属性，除目标歌词段所处的音频时刻区间外的样本采样时刻的属性标注不为副歌分类属性，由此可以快速标注得到第一音频样本文件对应的第一样本标签，提升第一样本标签所记录信息的准确度并提升生成第一样本标签的效率。例如，音频文件中副歌的歌词对应的时间段为第20s-30s和第50s-60s，则针对副歌部分的歌词(即目标歌词段)的选择操作，确定出第20s-30s和第50s-60s的样本采样时刻的属性为副歌分类属性，其余的样本采样时刻的属性不为副歌分类属性。
[0096]
在一种可能的实施方式中，本技术可以获取多个第一音频样本文件以对音频属性分类模型进行训练。在一个实施例中，本技术可以先获取收集大量带有歌词信息的音乐数据，并标注每个音乐数据中的每个样本采样时刻的属性是否为副歌分类属性，从而从中抽取多个音频片段作为第一音频样本文件以对音频属性分类模型进行训练。具体的，可以响应于对音乐数据的歌词信息中针对目标歌词段的选择操作，确定目标歌词段所处的音频时刻区间，从而将音乐数据中目标歌词段所处的音频时刻区间的样本采样时刻的属性标注为副歌分类属性。进而可以从音乐数据中抽取至少一个音频片段作为第一音频样本文件，且根据音乐数据中每个样本采样时刻的属性确定所抽取的音频片段中的每个样本采样时刻的属性是否为副歌分类属性，以得到每个第一音频样本文本的第一样本标签。可选的，所抽取的每个音频长度可以相同，如每个音频片段的长度可以均为60s，具体长度可以取决于实际应用场景，此处不做限制。
[0097]
s602、分别生成音频文件在t个采样时刻的时刻音频特征，并根据每两个采样时刻的时刻音频特征之间的特征相似度，生成音频文件对应的加权系数矩阵。
[0098]
s603、基于加权系数矩阵对初始时序音频特征进行加权处理，得到音频文件对应的目标时序音频特征。
[0099]
步骤s602-s603可以参照上述步骤s202-s203的相关描述，此处不做赘述。
[0100]
s604、对目标时序音频特征进行分析处理，得到音频文件对应的概率矩阵。
[0101]
其中，概率矩阵上的矩阵元素的元素值为：采样时刻为副歌分类区间的起始时刻的第一概率、副歌分类区间的结束时刻的第二概率、以及副歌分类区间的内部时刻的第三概率。如上述，副歌分类区间用于指示音频文件中实际的副歌所在位置。副歌分类区间的内部时刻是指副歌分类区间的除其实时刻以及结束时刻之外的采样时刻。在一个实施例中，该概率矩阵的维度可以为t*3。t表示音频文件的t个采样时刻，即标签矩阵中的每一行对应一个采样时刻，每一列分别对应为副歌分类区间的起始时刻、结束时刻或内部时刻。可以理
entropy loss(交叉熵损失函数)计算得到，以监督整个训练过程。在对初始分类区间检测模型的模型参数的修正过程中，应使得各个样本采样时刻对应的第一样本概率、第二样本概率以及第三样本概率与第一样本标签中记录的每个样本采样时刻对应的标签概率逐渐相近，从而可以使得训练得到的分类区间检测模型能够准确预测音频文件中各个采样时刻为副歌分类区间的起始时刻、内部时刻以及结束时刻的概率(即得到概率矩阵)。
[0109]
在一个实施例中，第二样本标签的获取方式，与上述的第一样本标签的获取方式相似。也就是说，为了能够准确获取第二音频样本文件的第二样本标签，本技术可以通过指定第二音频样本文件中属于副歌的歌词来确定第二音频样本文件中的副歌分类区间，从而确定第二音频样本文件中各个样本采样时刻为副歌分类区间的起始时刻、结束时刻和内部时刻的概率。那么，具体可以包括以下步骤：
①
获取第二音频样本文件的歌词信息。
②
响应于对第二音频样本文件的歌词信息中针对目标歌词段的选择操作，确定目标歌词段所处的音频时刻区间。
③
根据第二音频样本文件中目标歌词段所处的音频时刻区间确定每个样本采样时刻为为副歌分类区间的起始时刻、结束时刻和内部时刻的概率。在一个实施例中，可以将目标歌词段所处的音频时刻区间的起始时刻为副歌分类区间的起始时刻、结束时刻、内部时刻的概率分别标注为(1，0，0)，将目标歌词段所处的音频时刻区间的结束时刻为副歌分类区间的起始时刻、结束时刻、内部时刻的概率分别标注为(0，1，0)，将目标歌词段所处的音频时刻区间的每个内部时刻为副歌分类区间的起始时刻、结束时刻、内部时刻的概率分别标注为(0，0，1)，由此可以快速准确地获取到第二音频样本文件的第二样本标签。
[0110]
在一种可能的实施方式中，本技术可以获取多个第二音频样本文件以对分类区间检测模型进行训练。在一个实施例中，本技术可以先获取收集大量带有歌词信息的音乐数据，并标注每个音乐数据中的每个样本采样时刻的为副歌分类区间的起始时刻、结束时刻和内部时刻的概率，从而从中抽取多个音频片段作为第二音频样本文件以对分类区间检测模型进行训练。具体的，可以响应于对音乐数据的歌词信息中针对目标歌词段的选择操作，确定目标歌词段所处的音频时刻区间，从而根据音乐数据中目标歌词段所处的音频时刻区间确定每个样本采样时刻为副歌分类区间的起始时刻、结束时刻和内部时刻的概率。进而可以从音乐数据中抽取至少一个音频片段作为第二音频样本文件，且根据音乐数据中每个样本采样时刻为副歌分类区间的起始时刻、结束时刻和内部时刻的概率确定所抽取的音频片段中的每个样本采样时刻为副歌分类区间的起始时刻、结束时刻和内部时刻的概率，以得到每个第二音频样本文本的第二样本标签。可选的，所抽取的每个音频长度可以相同，如每个音频片段的长度可以均为60s，具体长度可以取决于实际应用场景，此处不做限制。
[0111]
s605、根据概率矩阵确定多个候选分类区间。
[0112]
其中，每个候选分类区间的起始时刻的第一概率满足起始条件、每个候选分类区间的结束时刻的第二概率满足结束条件。该起始条件可以是指采样时刻的第一概率需要满足的条件，如该起始条件可以为第一概率大于或等于起始条件概率，或者第一概率大于一定范围内的各个采样时刻对应的第一概率，等等，此处不做限制。该结束条件可以是指采样时刻的第二概率需要满足的条件，如该结束条件可以为第二概率大于或等于结束条件概率，或者第二概率大于一定范围内的各个采样时刻对应的第二概率，等等，此处不做限制。其中，起始条件概率和结束条件概率可以相同，也可以不同，此处不做限制。
[0113]
在一个实施例中，根据概率矩阵确定多个候选分类区间可以包括以下步骤：将概
率矩阵中第一概率满足起始条件的采样时刻确定为候选起始时刻，第二概率满足结束条件的采样时刻确定为候选结束时刻，将候选结束时刻与该候选结束时刻之前的候选起始时刻之间的区间确定为候选分类区间。例如，在一段音频文件中，第15s、第35s、第60s被确定为候选起始时刻，第30s、第75s被确定为候选结束时刻，则第30s这一候选结束时刻可以与第15s这一候选起始时刻形成一个候选分类区间，因为第30s这一候选结束时刻之前仅有第15s这一候选起始时刻；第75s这一候选结束时刻可以与第15s、第35s、第60s这三候选起始时刻均形成一个候选分类区间，因为第75s这一候选结束时刻之前有第15s、第35s、第60s这三候选起始时刻，由此可以确定出多个候选分类区间。可以理解的是，由于任一区间中起始时刻总是在结束时刻之前，则若一个候选起始时刻之后没有候选结束时刻，则该候选起始时刻不能与任一候选结束时刻组成候选分类区间，应当舍去该候选起始时刻；同理，若一个候选结束时刻之前没有候选起始时刻，则该候选结束时刻不能与任一候选起始时刻组成候选分类区间，应当舍去该候选结束时刻。
[0114]
s606、获取每个候选分类区间中区间内的采样时刻集合的分类指标信息。
[0115]
其中，分类指标信息用于表示每个候选分类区间中区间内的采样时刻集合属于副歌分类区间的概率。候选分类区间中区间内的采样时刻集合可以为候选分类区间的全部或部分内部时刻的集合。
[0116]
在一个实施例中，分类指标信息可以通过候选分类区间的采样时刻集合与音频文件的真实的副歌分类区间的区间交并比进行表征，区间交并比用于表征目标候选分类区间与音频文件的副歌分类区间之间的重复度。若该区间交并比越大，则目标候选分类区间与音频文件的副歌分类区间之间的重复度越高，进而候选分类区间中区间内的采样时刻集合属于副歌分类区间的概率越大；若该区间交并比越小，则目标候选分类区间与音频文件的副歌分类区间之间的重复度越低，进而候选分类区间中区间内的采样时刻集合属于副歌分类区间的概率越小。
[0117]
在一个实施例中，获取每个候选分类区间中区间内的采样时刻集合的分类指标信息，具体可以包括以下步骤：
[0118]
①
获取候选分类区间中目标候选分类区间的起始时刻对应的起始音频特征、目标候选分类区间的结束时刻对应的结束音频特征、和目标候选分类区间内的采样时刻集合对应的内部音频特征。目标候选分类区间可以是候选分类区间中的任一候选分类区间。起始时刻对应的起始音频特征，可以为上述音频属性分类模型得到的初始时序音频特征中或上述分类区间检测模型得到的分类音频特征中的起始时刻对应的特征，或者上述音频属性分类模型得到的初始时序音频特征中或上述分类区间检测模型得到的分类音频特征中以起始时刻为中心的一定范围内的各个采样时刻对应的特征，此处不做限制。结束时刻对应的结束音频特征，可以为上述音频属性分类模型得到的初始时序音频特征中或上述分类区间检测模型得到的分类音频特征中结束时刻对应的特征，或者上述音频属性分类模型得到的初始时序音频特征中或上述分类区间检测模型得到的分类音频特征中以结束时刻为中心的一定范围内的各个采样时刻对应的特征，此处不做限制。内部音频特征可以为上述音频属性分类模型得到的初始时序音频特征中或上述分类区间检测模型得到的分类音频特征中目标候选分类区间的采样时刻集合中的各个采样时刻对应的特征。
[0119]
②
对起始音频特征、结束音频特征以及内部音频特征进行拼接处理，得到目标候
选分类区间的区间特征。其中，进行拼接处理是指将起始音频特征、结束音频特征以及内部音频特征拼接成完整的区间特征。
[0120]
在一个实施例中，对起始音频特征、结束音频特征以及内部音频特征进行拼接处理，得到目标候选分类区间的区间特征，具体可以包括以下步骤：1.分别对起始音频特征、结束音频特征以及内部音频特征进行插值处理，得到插值起始音频特征、插值结束音频特征以及插值内部音频特征。其中，插值起始音频特征、插值结束音频特征以及插值内部音频特征的特征维度相同。可以通过差值处理使得起始音频特征、结束音频特征以及内部音频特征的特征维度变为相同的维度。在一个实施例中，可以将起始音频特征、结束音频特征以及内部音频特征均差值处理为目标维度的音频特征，该目标维度可以为预设的维度值，也可以为起始音频特征、结束音频特征以及内部音频特征中特征维度的最大值，此处不做限制。2.对插值起始音频特征、插值结束音频特征以及插值内部音频特征进行拼接处理，得到目标候选分类区间的区间特征。可以理解的是，通过差值处理可以使得差值处理得到的插值起始音频特征、插值结束音频特征以及插值内部音频特征的特征维度相同，从而便于进行特征的拼接。
[0121]
③
根据区间特征确定目标候选分类区间的分类指标信息。根据区间特征确定分类指标信息可以包括以下步骤：调用指标信息获取模型对区间特征进行处理，得到目标候选分类区间的分类指标信息。指标信息获取模型是根据区间训练特征数据来进行训练的，区间训练特征数据具有标签区间交并比。该区间训练特征数据可以是从上述音频属性分类模型或区间分类检测模型的音频样本文件中所选择的区间的区间特征，如该区间训练特征数据可以为所选择的区间的起始时刻对应的起始音频特征、结束时刻的结束音频特征以及内部时刻的内部音频特征进行确定，该区间训练特征数据中标注有该区间训练特征数据所对应的区间与音频样本文件的真实的副歌分类区间的标签区间交并比，进而在基于区间训练特征数据对指标信息获取模型进行训练的过程中，使得基于指标信息获取模型得到的样本区间交并比与标签区间交并比逐渐相近，从而使得训练得到的指标信息获取模型能够准确检测出区间特征对应的区间交并比。在一个实施例中，该指标信息获取模型可以为一个深度网络，如可以采用堆叠conv1d(一种神经网络层)和fc(全连接层)构建指标信息获取网络。
[0122]
s607、根据每个候选分类区间的起始时刻的第一概率、结束时刻的第二概率以及分类指标信息，从多个候选分类区间中确定目标分类区间。
[0123]
在一个实施例中，从多个候选分类区间确定目标分类区间，可以为对每个候选分类区间的起始时刻的第一概率、结束时刻的第二概率以及分类指标信息相乘，得到每个候选分类区间对应的分类评分，进而根据每个候选分类区间对应的分类评分，从多个候选分类区间中确定目标分类区间。可以理解的是，该分类评分越高，则表示候选分类区间为副歌分类区间的概率越高，分类评分越低，则表示候选分类区间为副歌分类区间的概率越低。
[0124]
在一个实施例中，根据每个候选分类区间对应的分类评分，从多个候选分类区间中确定目标分类区间，可以采用非极大抑制(nms)方法剔除重叠较多的候选分类区间，最后将分类评分大于或等于目标阈值的候选分类区间确定为目标分类区间。该目标阈值可以根据实际场景进行设置，如该目标阈值为0.5。
[0125]
采用本技术实施例，能够根据音频文件的频谱特征数据确定音频文件在t个采样
时刻下的初始时序音频特征，并且可以生成音频文件在t个采样时刻的时刻音频特征，以根据每两个采样时刻的时刻音频特征之间的特征相似度，生成音频文件对应的加权系数矩阵，从而可以基于加权系数矩阵对初始时序音频特征进行加权处理，得到音频文件对应的目标时序音频特征，并进行副歌音频区间的识别。一方面，本技术能够音频特征数据的获取、分析、副歌区间的自动识别，满足了副歌区间识别的自动化、智能化需求，提高了识别效率，另一方面，基于相似度进行的加权处理能够在一定程度上使得目标时序音频特征中音频相似的采样时刻的特征得到增强，由于歌曲中的副歌通常是很相似的，则在基于进行了加权的目标时序音频特征确定音频文件中的目标分类区间时在一定程度上能使得准确度更高。由此本技术通过音频文件中各个采样时刻的特征相似度对初始时序音频特征进行加权，使得音频文件中相似片段的采样时刻对应相近的时序音频特征，相当于目标时序音频特征中音频相似的采样时刻的特征得到增强，进而均衡提升歌曲中各段副歌被检出的可能性，有助于提升对音频文件中的副歌检测的效率和准确性。
[0126]
请参见图7，图7是本技术实施例提供的一种音频数据处理方法的流程示意图。可选的，该音频数据处理方法可以由上述电子设备执行。如图7所示，本实施例中所描述的音频数据处理方法可以包括：
[0127]
s701、获取音频文件的频谱特征数据，并基于频谱特征数据确定音频文件在t个采样时刻下的初始时序音频特征。
[0128]
s702、分别生成音频文件在t个采样时刻的时刻音频特征，并根据每两个采样时刻的时刻音频特征之间的特征相似度，生成音频文件对应的加权系数矩阵。
[0129]
s703、基于加权系数矩阵对初始时序音频特征进行加权处理，得到音频文件对应的目标时序音频特征。
[0130]
s704、基于目标时序音频特征确定音频文件中的目标分类区间。
[0131]
其中，步骤s701-s704可以参照上述步骤s201-s204的相关描述，此处不做赘述。
[0132]
s705、根据频谱特征数据确定音频文件在t个采样时刻具有人声信息的人声概率。
[0133]
其中，该人声概率是指采样时刻具有人声信息的概率。
[0134]
在一个实施例中，步骤s705可以包括为：调用人声检测模型对频谱特征数据进行处理，得到音频文件在t个采样时刻具有人声信息的人声概率。其中，该人声检测模型可以为一个深度网络，如可以通过采用堆叠的conv2d构建人声检测模型。
[0135]
在一个实施例中，调用人声检测模型获取音频文件在t个采样时刻具有人声信息的人声概率之前，还可以先对人声检测模型进行训练。具体可以包括以下步骤：
[0136]
①
获取第三音频样本文件。其中第三音频样本文件具有第三样本标签，第三样本标签记录了第三音频样本文件中每个样本采样时刻是否具有人声信息。在一个实施例中，若第三音频样本文件中样本采样时刻具有人声信息，则可以在第三样本标签中将该样本采样时刻对应记录为1，若第三音频样本文件中样本采样时刻不具有人声信息，则可以在第三样本标签中将该样本采样时刻对应记录为0。
[0137]
②
调用初始人声检测模型基于第三音频样本文件的样本频谱特征数据生成第三音频样本文件的每个样本采样时刻具有人声信息的样本人声概率。其中，其中，该初始分类模型是指未经过训练的人声检测模型。第三音频样本文件的样本频谱特征数据的生成方式，可以参照上述音频文件的频谱特征数据的相关描述，此处不做赘述。
[0138]
③
基于第三音频样本文件的每个样本采样时刻的样本人声概率与第三样本标签修正初始人声检测模型的模型参数，得到人声检测模型。其中，人声检测模型用于根据频谱特征数据确定音频文件在t个采样时刻具有人声信息的人声概率。在一个实施例中，修正初始分类模型的模型参数可以为：基于第三音频样本文件的每个样本采样时刻的样本人声概率与第三样本标签计算第三损失值，进而可以基于第三损失值修正人声检测模型的模型参数，使得第三损失值逐渐变小直至收敛。可选的，第三损失值可以基于cross entropy loss(交叉熵损失函数)损失函数计算得到，以监督整个训练过程。在对人声检测模型的模型参数的修正过程中，应使得各个样本采样时刻的样本人声概率与第三样本标签中记录的每个样本采样时刻对应的数值逐渐相近，由此可以使得训练得到的人声检测模型能够准确预测音频文件中各个采样时刻是否具有人声信息。
[0139]
在一个实施例中，为了能够准确获取第三音频样本文件的第三样本标签，本技术可以通过第三音频样本文件中的歌词信息来确定第三音频样本文件中每个样本采样时刻是否具有人声信息。那么，具体可以包括以下步骤：
①
获取第三音频样本文件的歌词信息。其中，该歌词信息中可包括第三音频样本文件中每段歌词对应的起始时刻和结束时刻。
②
将第三音频样本文件中具有歌词的音频时刻区间的样本采样时刻标注为具有人声信息。也就是除具有歌词的音频时刻区间外的样本采样时刻标注为不具有人声信息，由此可以快速标注得到第三音频样本文件对应的第三样本标签。提升第三样本标签所记录信息的准确度和标签获取效率。
[0140]
在一种可能的实施方式中，本技术可以获取多个第三音频样本文件以对人声检测模型进行训练。在一个实施例中，本技术可以先获取收集大量带有歌词信息的音乐数据，并标注每个音乐数据中的每个样本采样时刻的是否具有人声信息，从而从中抽取多个音频片段作为第三音频样本文件以对人声检测模型进行训练。具体的，将第三音频样本文件中具有歌词的音频时刻区间的样本采样时刻标注为具有人声信息。进而可以从音乐数据中抽取至少一个音频片段作为第三音频样本文件，且根据音乐数据中每个样本采样时刻的是否具有人声信息确定所抽取的音频片段中的每个样本采样时刻是否具有人声信息，以得到每个第三音频样本文本的第三样本标签。可选的，所抽取的每个音频长度可以相同，如每个音频片段的长度可以均为60s，具体长度可以取决于实际应用场景，此处不做限制。
[0141]
s706、根据t个采样时刻的人声概率确定出至少一个无人声区间。
[0142]
其中，无人声区间是指连续的不具有人声信息的采样时刻对应的区间。
[0143]
在一个实施例中，步骤s706可以包括以下步骤：将人声概率小于人声概率阈值的采样时刻，确定为无人声时刻；将连续的至少m个无人声时刻确定为无人声区间。其中，m表示构成无人声区间所需要的连续无人声时刻的最小值。例如，m取值为5，若有连续的4个采样时刻均为无人声时刻，但由于4《5，则不能将这连续的4个无人声时刻确定为无人声区间；若有连续的10个采样时刻均为无人声时刻，由于10》5，则可以将这连续的10个无人声时刻确定为无人声区间。以此类推，可以得到音频文件中的至少一个无人声区域。
[0144]
在一种可能的实施方式中，步骤s706还可以包括以下步骤：将人声概率小于人声概率阈值的采样时刻，确定为无人声时刻；将连续的至少m个无人声时刻确定为初始无人声区间；基于初始无人声时刻与目标分类区间进行区间优化，将优化后的初始无人声区间确定为无人声区间。其中，此处初始无人声区间的确定方式可以参照上述描述，此处不做赘
述。对基于初始无人声时刻与目标分类区间进行区间优化，相当于基于目标分类区间的起始时刻与结束时刻对相邻的初始无人声区间的起始时刻或结束时刻进行微调。这是由于分类区间检测模型和人声检测模型是独立的模块，因此可能存在某个目标分类区间的结尾和某个初始无人声区间的开头非常接近，但时间戳又不完全一致的情况。本技术中考虑到副歌检测的结果更为可信，则会将所有与目标分类区间的边界相邻的无人声区间的边界进行调整。具体来说，如果一个目标分类区间的起始时刻的一定范围(如以起始时刻为中心的2.5s内)有初始无人声区间的结束时刻，则将初始无人声区间的结束时刻调整为目标分类区间的起始时刻；如果一个目标分类区间的结束时刻的一定范围(如以结束时刻为中心的2.5s内)有初始无人声区间的起始时刻，则将初始无人声区间的起始时刻调整为目标分类区间的结束时刻。
[0145]
此处结合图示对获取至少一个无人声区间的流程进行阐述。请参见图8，图8是本技术实施例提供的一种无人声区间生成方法的流程示意图。如图8所示，首先可以获取到音频文件(如图8中的801所示)；进而可以基于音频文件确定对应的频谱特征数据(如图8中的802所示)，如可以为音频文件的梅尔谱；进而基于频谱特征数据确定对应的音频文件中每个采样时刻对应的人声概率(如图8中的803所示)，具体可以调用人声检测模型基于频谱特征数据进行；然后可以基于所确定的出的每个采样时刻对应的人声概率确定出无人声区间(如图8中的804所示)。由此可以通过检测出每个样本采样时刻的人声概率来确定音频文件中的无人声区间，进而可以基于无人声区间进行后续的处理过程。
[0146]
s707、基于至少一个无人声区间与目标分类区间确定出音频文件中每种结构分类属性的分类区间。
[0147]
其中，该结构分类属性是指音乐结构的属性，如前奏、主歌、副歌、间奏、桥段、尾奏等等。则结构分类属性包括以下至少一种：包括前奏分类属性、主歌分类属性、副歌分类属性、间奏分类属性、桥段分类属性、尾奏分类属性。其中，前奏是指一段音乐开始唱歌之前进行预热的一段无人声片段；主歌是指每首音乐的主干，通常有人声信息，是除副歌之外的有人声部分；间奏是指在歌曲的乐段或乐句之间的片段；桥段是指副歌和副歌之间的无人声片段；尾奏是指歌曲中最后一段无人声片段。可以理解的是，所确定的副歌分类属性的分类区间即上述的目标分类区间，则此步骤中还可以确定出其余结构分类属性的分类区间。
[0148]
在一个实施例中，步骤s707可以包括以下步骤：
①
将音频文件中除至少一个无人声区间与目标分类区间外的采样时刻的属性确定为主歌分类属性，以便于得到主歌分类属性的分类区间。可以理解的是，由于上述步骤中确定出了副歌分类属性对应的分类区间(即目标分类区间)，则主歌分类属性的分类区间可以定义为除去副歌分类属性对应的分类区间外的有人声区间。
[0149]
②
根据每个无人声区间与主歌分类属性的分类区间、目标分类区间之间的位置关系确定每个无人声区间对应的结构分类属性，无人声区间对应的结构分类属性为：前奏分类属性、间奏分类属性、桥段分类属性、或者尾奏分类属性。可以理解的是，上述步骤中，对有人声信息的采样时刻的属性进行了确定，进而可以确定出各个无人声区间对应的结构分类属性。根据对每个结构分类属性的定义，每个无人声区间对应的结构分类属性的确定步骤可以为：如果一段无人声区间，前后紧接着两段副歌分类属性的分类区间，则确定该无人声区间的结构分类属性为桥段分类属性，即该无人声区间为桥段分类属性的分类区间；否
则，如果一段无人声区间在全部主歌分类属性的分类区间以及目标分类区间之前，则确定该无人声区间的结构分类属性为前奏分类属性，即该无人声区间为前奏分类属性的分类区间；否则，如果一段无人声区间在全部主歌分类属性的分类区间以及目标分类区间之后，则确定该无人声区间的结构分类属性为尾奏分类属性，即该无人声区间为尾奏分类属性的分类区间；否则，确定无人声区间的结构分类属性为间奏分类属性，即该无人声区间为间奏分类属性的分类区间。
[0150]
采用本技术实施例，能够根据音频文件的频谱特征数据确定音频文件在t个采样时刻下的初始时序音频特征，并且可以生成音频文件在t个采样时刻的时刻音频特征，以根据每两个采样时刻的时刻音频特征之间的特征相似度，生成音频文件对应的加权系数矩阵，从而可以基于加权系数矩阵对初始时序音频特征进行加权处理，得到音频文件对应的目标时序音频特征，并进行副歌音频区间的识别。一方面，本技术能够音频特征数据的获取、分析、副歌区间的自动识别，满足了副歌区间识别的自动化、智能化需求，提高了识别效率，另一方面，基于相似度进行的加权处理能够在一定程度上使得目标时序音频特征中音频相似的采样时刻的特征得到增强，由于歌曲中的副歌通常是很相似的，则在基于进行了加权的目标时序音频特征确定音频文件中的目标分类区间时在一定程度上能使得准确度更高。由此本技术通过音频文件中各个采样时刻的特征相似度对初始时序音频特征进行加权，使得音频文件中相似片段的采样时刻对应相近的时序音频特征，相当于目标时序音频特征中音频相似的采样时刻的特征得到增强，进而均衡提升歌曲中各段副歌被检出的可能性，有助于提升对音频文件中的副歌检测的效率和准确性。
[0151]
请参见图9，图9是本技术实施例提供的一种音频数据处理装置的结构示意图。可选的，该音频数据处理装置可以设置于上述电子设备中。如图9所示，本实施例中所描述的音频数据处理装置可以包括：
[0152]
获取单元901，用于获取音频文件的频谱特征数据，并基于所述频谱特征数据确定所述音频文件在t个采样时刻下的初始时序音频特征；
[0153]
处理单元902，用于分别生成所述音频文件在所述t个采样时刻的时刻音频特征，并根据每两个采样时刻的时刻音频特征之间的特征相似度，生成所述音频文件对应的加权系数矩阵，所述加权系数矩阵中的任一矩阵元素的元素值是根据两个采样时刻的时刻音频特征之间的特征相似度得到的；
[0154]
所述处理单元902，还用于基于所述加权系数矩阵对所述初始时序音频特征进行加权处理，得到所述音频文件对应的目标时序音频特征；
[0155]
所述处理单元902，还用于基于所述目标时序音频特征确定所述音频文件中的目标分类区间，所述目标分类区间的各个采样时刻的属性为副歌分类属性。
[0156]
在一种实现方式中，所述处理单元902，具体用于：
[0157]
调用音频属性分类模型对所述频谱特征数据进行处理，得到所述音频文件在t个采样时刻下的初始时序音频特征；所述音频属性分类模型用于识别音频文件中各个采样时刻的属性是否为副歌分类属性。
[0158]
在一种实现方式中，所述处理单元902，还用于：
[0159]
获取第一音频样本文件，所述第一音频样本文件具有第一样本标签，所述第一样本标签分别记录了所述第一音频样本文件中每个样本采样时刻的属性是否为副歌分类属
性；
[0160]
利用初始分类模型的特征网络层对所述第一音频样本文件的样本频谱特征数据进行特征提取，得到所述第一音频样本文件对应的样本时序音频特征；
[0161]
利用所述初始分类模型的分类网络层对所述样本时序音频特征进行属性分类识别，确定所述第一音频样本文件中的各个样本采样时刻的属性为副歌分类属性的概率；
[0162]
基于所述第一音频样本文件中的各个样本采样时刻的属性为副歌分类属性的概率与所述第一样本标签，修正所述初始分类模型的模型参数，以便于得到所述音频属性分类模型，所述音频文件在t个采样时刻下的初始时序音频特征是利用所述音频属性分类模型包括的特征网络层得到的。
[0163]
在一种实现方式中，所述处理单元902，还用于：
[0164]
获取所述第一音频样本文件的歌词信息；
[0165]
响应于对所述第一音频样本文件的歌词信息中针对目标歌词段的选择操作，确定所述目标歌词段所处的音频时刻区间；
[0166]
将第一音频样本文件中所述目标歌词段所处的音频时刻区间的样本采样时刻的属性标注为副歌分类属性。
[0167]
在一种实现方式中，所述处理单元902，具体用于：
[0168]
对所述目标时序音频特征进行分析处理，得到所述音频文件对应的概率矩阵，所述概率矩阵上的矩阵元素的元素值为：采样时刻为副歌分类区间的起始时刻的第一概率、副歌分类区间的结束时刻的第二概率、以及副歌分类区间的内部时刻的第三概率；
[0169]
根据所述概率矩阵确定多个候选分类区间，每个候选分类区间的起始时刻的第一概率满足起始条件、所述每个候选分类区间的结束时刻的第二概率满足结束条件；
[0170]
获取所述每个候选分类区间中区间内的采样时刻集合的分类指标信息，所述分类指标信息用于表示所述每个候选分类区间中区间内的采样时刻集合属于副歌分类区间的概率；
[0171]
根据所述每个候选分类区间的起始时刻的第一概率、结束时刻的第二概率以及所述分类指标信息，从多个候选分类区间中确定所述目标分类区间。
[0172]
在一种实现方式中，所述处理单元902，还用于：
[0173]
获取第二音频样本文件，所述第二音频样本文件具有第二样本标签，所述第二样本标签记录了所述第二音频样本文件中每个样本采样时刻为副歌分类区间的起始时刻的标签概率、结束时刻的标签概率、以及内部时刻的标签概率；
[0174]
利用初始分类区间检测模型生成所述第二音频样本文件对应的样本概率矩阵；所述样本概率矩阵上的矩阵元素的元素值为：样本采样时刻为副歌分类区间的起始时刻的第一样本概率、副歌分类区间的结束时刻的第二样本概率、以及副歌分类区间的内部时刻的第三样本概率；
[0175]
基于所述样本概率矩阵与所述第二样本标签修正所述初始分类区间检测模型的模型参数，得到分类区间检测模型；所述分类区间检测模型用于对所述音频文件的所述目标时序音频特征进行分析处理，得到所述音频文件对应的概率矩阵。
[0176]
在一种实现方式中，所述处理单元902，具体用于：
[0177]
获取候选分类区间中目标候选分类区间的起始时刻对应的起始音频特征、所述目
标候选分类区间的结束时刻对应的结束音频特征、和所述目标候选分类区间内的采样时刻集合对应的内部音频特征；
[0178]
对所述起始音频特征、所述结束音频特征以及所述内部音频特征进行拼接处理，得到所述目标候选分类区间的区间特征；
[0179]
根据所述区间特征确定所述目标候选分类区间的分类指标信息。
[0180]
在一种实现方式中，所述处理单元902，具体用于：
[0181]
分别对所述起始音频特征、所述结束音频特征以及所述内部音频特征进行插值处理，得到插值起始音频特征、插值结束音频特征以及插值内部音频特征；所述插值起始音频特征、所述插值结束音频特征以及所述插值内部音频特征的特征维度相同；
[0182]
对所述插值起始音频特征、所述插值结束音频特征以及所述插值内部音频特征进行拼接处理，得到所述目标候选分类区间的区间特征。
[0183]
在一种实现方式中，所述处理单元902，具体用于：
[0184]
根据每两个采样时刻的时刻音频特征之间的特征相似度，生成特征相似度矩阵，所述特征相似度矩阵中的每个矩阵元素的元素值是指对应两个采样时刻的时刻音频特征的相似度；
[0185]
对所述特征相似度矩阵进行去噪处理，得到去噪特征相似度矩阵；所述去噪处理用于对所述特征相似度矩阵中的第一类型矩阵元素的元素值进行减小或者对第二类型矩阵元素的元素值进行增大；
[0186]
将所述去噪特征相似度矩阵中小于第一阈值的矩阵元素的元素值进行过滤处理，并对过滤处理后的去噪特征相似度矩阵中的每行矩阵元素的元素值进行归一化处理，得到所述音频文件对应的加权系数矩阵。
[0187]
在一种实现方式中，所述处理单元902，具体用于：
[0188]
获取所述特征相似度矩阵中大于或等于第二阈值的矩阵元素的元素值，得到多个候选去噪矩阵元素的元素值；
[0189]
根据所述多个候选去噪矩阵元素的元素值的元素位置确定至少一个元素值集，其中，每一个元素值集对应于在所述特征相似度矩阵上的矩阵线段，所述矩阵线段上包括至少多个候选去噪矩阵元素的元素值；
[0190]
根据确定的元素值集得到去噪特征相似度矩阵。
[0191]
在一种实现方式中，所述处理单元902在用于根据确定的元素值集得到去噪特征相似度矩阵时，具体用于执行以下步骤的任意一个或者两个的组合：
[0192]
将所述至少一个元素值集中对应的矩阵线段在所述特征相似度矩阵中的线段角度不满足角度预设条件的元素值集，确定为去噪元素值集，并将所述去噪元素值集中的元素值确定为所述第一类型矩阵元素的元素值，对所述第一类型矩阵元素的元素值进行减小得到所述去噪特征相似度矩阵；
[0193]
将所述至少一个元素值集中对应的矩阵线段在所述特征相似度矩阵中的线段角度满足所述角度预设条件的元素值集，确定为增强元素值集，并将所述增强元素值集中的元素值确定为所述第二类型矩阵元素的元素值，对所述第二类型矩阵元素的元素值进行增大得到所述去噪特征相似度矩阵。
[0194]
在一种实现方式中，所述处理单元902，还用于：
[0195]
根据所述频谱特征数据确定所述音频文件在所述t个采样时刻具有人声信息的人声概率；
[0196]
根据所述t个采样时刻的人声概率确定出至少一个无人声区间；
[0197]
基于所述至少一个无人声区间与所述目标分类区间确定出所述音频文件中每种结构分类属性的分类区间，所述结构分类属性包括以下至少一种：包括前奏分类属性、主歌分类属性、副歌分类属性、间奏分类属性、桥段分类属性、尾奏分类属性。
[0198]
在一种实现方式中，所述处理单元902，具体用于：
[0199]
将所述音频文件中除所述至少一个无人声区间与所述目标分类区间外的采样时刻的属性确定为主歌分类属性，以便于得到主歌分类属性的分类区间；
[0200]
根据每个无人声区间与所述主歌分类属性的分类区间、所述目标分类区间之间的位置关系确定所述每个无人声区间对应的结构分类属性，无人声区间对应的结构分类属性为：前奏分类属性、间奏分类属性、桥段分类属性、或者尾奏分类属性。
[0201]
请参见图10，图10是本技术实施例提供的一种电子设备的结构示意图。本实施例中所描述的电子设备，包括：处理器1001、存储器1002。可选的，该电子设备还可包括网络接口或供电模块等结构。上述处理器1001、存储器1002之间可以交互数据。
[0202]
上述处理器1001可以是中央处理单元(central processing unit，cpu)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0203]
上述网络接口可以包括输入设备和/或输出设备，例如该输入设备是可以是控制面板、麦克风、接收器等，输出设备可以是显示屏、发送器等，此处不一一列举。
[0204]
上述存储器1002可以包括只读存储器和随机存取存储器，并向处理器1001提供程序指令和数据。存储器1002的一部分还可以包括非易失性随机存取存储器。其中，所述处理器1001调用所述程序指令时用于执行：
[0205]
获取音频文件的频谱特征数据，并基于所述频谱特征数据确定所述音频文件在t个采样时刻下的初始时序音频特征；
[0206]
分别生成所述音频文件在所述t个采样时刻的时刻音频特征，并根据每两个采样时刻的时刻音频特征之间的特征相似度，生成所述音频文件对应的加权系数矩阵，所述加权系数矩阵中的任一矩阵元素的元素值是根据两个采样时刻的时刻音频特征之间的特征相似度得到的；
[0207]
基于所述加权系数矩阵对所述初始时序音频特征进行加权处理，得到所述音频文件对应的目标时序音频特征；
[0208]
基于所述目标时序音频特征确定所述音频文件中的目标分类区间，所述目标分类区间的各个采样时刻的属性为副歌分类属性。
[0209]
在一种实现方式中，所述处理器1001，具体用于：
[0210]
调用音频属性分类模型对所述频谱特征数据进行处理，得到所述音频文件在t个采样时刻下的初始时序音频特征；所述音频属性分类模型用于识别音频文件中各个采样时
刻的属性是否为副歌分类属性。
[0211]
在一种实现方式中，所述处理器1001，还用于：
[0212]
获取第一音频样本文件，所述第一音频样本文件具有第一样本标签，所述第一样本标签分别记录了所述第一音频样本文件中每个样本采样时刻的属性是否为副歌分类属性；
[0213]
利用初始分类模型的特征网络层对所述第一音频样本文件的样本频谱特征数据进行特征提取，得到所述第一音频样本文件对应的样本时序音频特征；
[0214]
利用所述初始分类模型的分类网络层对所述样本时序音频特征进行属性分类识别，确定所述第一音频样本文件中的各个样本采样时刻的属性为副歌分类属性的概率；
[0215]
基于所述第一音频样本文件中的各个样本采样时刻的属性为副歌分类属性的概率与所述第一样本标签，修正所述初始分类模型的模型参数，以便于得到所述音频属性分类模型，所述音频文件在t个采样时刻下的初始时序音频特征是利用所述音频属性分类模型包括的特征网络层得到的。
[0216]
在一种实现方式中，所述处理器1001，还用于：
[0217]
获取所述第一音频样本文件的歌词信息；
[0218]
响应于对所述第一音频样本文件的歌词信息中针对目标歌词段的选择操作，确定所述目标歌词段所处的音频时刻区间；
[0219]
将第一音频样本文件中所述目标歌词段所处的音频时刻区间的样本采样时刻的属性标注为副歌分类属性。
[0220]
在一种实现方式中，所述处理器1001，具体用于：
[0221]
对所述目标时序音频特征进行分析处理，得到所述音频文件对应的概率矩阵，所述概率矩阵上的矩阵元素的元素值为：采样时刻为副歌分类区间的起始时刻的第一概率、副歌分类区间的结束时刻的第二概率、以及副歌分类区间的内部时刻的第三概率；
[0222]
根据所述概率矩阵确定多个候选分类区间，每个候选分类区间的起始时刻的第一概率满足起始条件、所述每个候选分类区间的结束时刻的第二概率满足结束条件；
[0223]
获取所述每个候选分类区间中区间内的采样时刻集合的分类指标信息，所述分类指标信息用于表示所述每个候选分类区间中区间内的采样时刻集合属于副歌分类区间的概率；
[0224]
根据所述每个候选分类区间的起始时刻的第一概率、结束时刻的第二概率以及所述分类指标信息，从多个候选分类区间中确定所述目标分类区间。
[0225]
在一种实现方式中，所述处理器1001，还用于：
[0226]
获取第二音频样本文件，所述第二音频样本文件具有第二样本标签，所述第二样本标签记录了所述第二音频样本文件中每个样本采样时刻为副歌分类区间的起始时刻的标签概率、结束时刻的标签概率、以及内部时刻的标签概率；
[0227]
利用初始分类区间检测模型生成所述第二音频样本文件对应的样本概率矩阵；所述样本概率矩阵上的矩阵元素的元素值为：样本采样时刻为副歌分类区间的起始时刻的第一样本概率、副歌分类区间的结束时刻的第二样本概率、以及副歌分类区间的内部时刻的第三样本概率；
[0228]
基于所述样本概率矩阵与所述第二样本标签修正所述初始分类区间检测模型的
模型参数，得到分类区间检测模型；所述分类区间检测模型用于对所述音频文件的所述目标时序音频特征进行分析处理，得到所述音频文件对应的概率矩阵。
[0229]
在一种实现方式中，所述处理器1001，具体用于：
[0230]
获取候选分类区间中目标候选分类区间的起始时刻对应的起始音频特征、所述目标候选分类区间的结束时刻对应的结束音频特征、和所述目标候选分类区间内的采样时刻集合对应的内部音频特征；
[0231]
对所述起始音频特征、所述结束音频特征以及所述内部音频特征进行拼接处理，得到所述目标候选分类区间的区间特征；
[0232]
根据所述区间特征确定所述目标候选分类区间的分类指标信息。
[0233]
在一种实现方式中，所述处理器1001，具体用于：
[0234]
分别对所述起始音频特征、所述结束音频特征以及所述内部音频特征进行插值处理，得到插值起始音频特征、插值结束音频特征以及插值内部音频特征；所述插值起始音频特征、所述插值结束音频特征以及所述插值内部音频特征的特征维度相同；
[0235]
对所述插值起始音频特征、所述插值结束音频特征以及所述插值内部音频特征进行拼接处理，得到所述目标候选分类区间的区间特征。
[0236]
在一种实现方式中，所述处理器1001，具体用于：
[0237]
根据每两个采样时刻的时刻音频特征之间的特征相似度，生成特征相似度矩阵，所述特征相似度矩阵中的每个矩阵元素的元素值是指对应两个采样时刻的时刻音频特征的相似度；
[0238]
对所述特征相似度矩阵进行去噪处理，得到去噪特征相似度矩阵；所述去噪处理用于对所述特征相似度矩阵中的第一类型矩阵元素的元素值进行减小或者对第二类型矩阵元素的元素值进行增大；
[0239]
将所述去噪特征相似度矩阵中小于第一阈值的矩阵元素的元素值进行过滤处理，并对过滤处理后的去噪特征相似度矩阵中的每行矩阵元素的元素值进行归一化处理，得到所述音频文件对应的加权系数矩阵。
[0240]
在一种实现方式中，所述处理器1001，具体用于：
[0241]
获取所述特征相似度矩阵中大于或等于第二阈值的矩阵元素的元素值，得到多个候选去噪矩阵元素的元素值；
[0242]
根据所述多个候选去噪矩阵元素的元素值的元素位置确定至少一个元素值集，其中，每一个元素值集对应于在所述特征相似度矩阵上的矩阵线段，所述矩阵线段上包括至少多个候选去噪矩阵元素的元素值；
[0243]
根据确定的元素值集得到去噪特征相似度矩阵。
[0244]
在一种实现方式中，所述处理器1001在用于根据确定的元素值集得到去噪特征相似度矩阵时，具体用于执行以下步骤的任意一个或者两个的组合：
[0245]
将所述至少一个元素值集中对应的矩阵线段在所述特征相似度矩阵中的线段角度不满足角度预设条件的元素值集，确定为去噪元素值集，并将所述去噪元素值集中的元素值确定为所述第一类型矩阵元素的元素值，对所述第一类型矩阵元素的元素值进行减小得到所述去噪特征相似度矩阵；
[0246]
将所述至少一个元素值集中对应的矩阵线段在所述特征相似度矩阵中的线段角
度满足所述角度预设条件的元素值集，确定为增强元素值集，并将所述增强元素值集中的元素值确定为所述第二类型矩阵元素的元素值，对所述第二类型矩阵元素的元素值进行增大得到所述去噪特征相似度矩阵。
[0247]
在一种实现方式中，所述处理器1001，还用于：
[0248]
根据所述频谱特征数据确定所述音频文件在所述t个采样时刻具有人声信息的人声概率；
[0249]
根据所述t个采样时刻的人声概率确定出至少一个无人声区间；
[0250]
基于所述至少一个无人声区间与所述目标分类区间确定出所述音频文件中每种结构分类属性的分类区间，所述结构分类属性包括以下至少一种：包括前奏分类属性、主歌分类属性、副歌分类属性、间奏分类属性、桥段分类属性、尾奏分类属性。
[0251]
在一种实现方式中，所述处理器1001，具体用于：
[0252]
将所述音频文件中除所述至少一个无人声区间与所述目标分类区间外的采样时刻的属性确定为主歌分类属性，以便于得到主歌分类属性的分类区间；
[0253]
根据每个无人声区间与所述主歌分类属性的分类区间、所述目标分类区间之间的位置关系确定所述每个无人声区间对应的结构分类属性，无人声区间对应的结构分类属性为：前奏分类属性、间奏分类属性、桥段分类属性、或者尾奏分类属性。
[0254]
可选的，该程序指令被处理器执行时还可实现上述实施例中方法的其他步骤，这里不再赘述。
[0255]
本技术还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述方法，比如执行上述电子设备执行的方法，此处不赘述。
[0256]
可选的，本技术涉及的存储介质如计算机可读存储介质可以是非易失性的，也可以是易失性的。
[0257]
可选的，该计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。其中，本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0258]
需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
[0259]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
[0260]
本技术实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令被处理器执行时可实现上述方法中的部分或全部步骤。例如，该计算机指令存储在计算机可读存储介质中。计算机设备(即上述的电子设备)的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。例如，该计算机设备可以为终端，或者可以为服务器。
[0261]
以上对本技术实施例所提供的一种音频数据处理方法、装置、电子设备及介质进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田思达
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：遥感影像语义分割模型迁移学习方法、装置及计算机设备与流程
上一篇：一种远程数控电源电压调节电路的制作方法