一种歌曲串烧拼接方法和装置与流程

文档序号：32160817发布日期：2022-11-12 02:26阅读：157来源：国知局

1.本技术涉及音频处理技术领域，尤其涉及一种歌曲串烧拼接方法和装置。

背景技术：

2.制作串烧歌曲实则就是将多个音频文件合成一个音频文件。在现有方法中有的采取对候选歌曲中midi文件进行解析得到音符信息，而后根据音符信息对各个歌曲进行多维匹配得到相似度，进而根据相似度将两首歌的串烧起来，不足之处在于midi文件的获取成本较高；有的则直接计算音频之间的相似度，将音频进行拼接从而得到串烧歌曲，不足之处在于拼接出来的歌曲听感生硬不自然。

技术实现要素：

3.鉴于所述问题，提出了本技术以便提供克服所述问题或者至少部分地解决所述问题的一种歌曲串烧拼接方法和装置，包括：
4.一种歌曲串烧拼接方法，所述方法包括：
5.获取n个音频文件，确定每一所述音频文件的特征信息，并依据所述特征信息将所述音频文件进行分类，得到分类后的音频文件集，其中，n为大于1的正整数；
6.在同一所述音频文件集中提取每一所述音频文件的副歌音频数据；
7.依据预设的音效处理规则对所述副歌音频数据进行音效处理，得到待拼接的目标歌曲片段，依据所述目标歌曲片段生成目标串烧歌曲。
8.优选的，所述获取n个音频文件，确定每一所述音频文件的特征信息，并依据所述特征信息将所述音频文件进行分类，得到分类后的音频文件集，包括：
9.获取所述用户输入的表示音频类别的目标维度信息；
10.调用预设的歌曲分类模型，通过所述歌曲分类模型并依据所述目标维度信息以及所述音频文件，确定所述音频文件的多维度的所述特征信息；
11.将特征信息为同一维度的音频文件分类为同一所述音频文件集。
12.优选的，所述目标维度信息包括但不限于语种维度、情绪维度、主题维度以及节奏维度，所述将与同一维度的特征信息对应的音频文件分类为同一音频文件集，包括：
13.依据所述目标维度信息，通过所述歌曲分类模型确定所述音频文件对应该目标维度的特征向量，所述特征信息包括所述特征向量；
14.依据所述特征向量确定同一所述音频文件集中两任意所述音频文件之间的相似度。
15.优选的，所述在同一所述音频文件集中提取每一所述音频文件的副歌音频数据，包括：
16.调用预设的副歌识别模型；
17.通过所述副歌识别模型依据所述特征信息对同一所述音频文件集中每一所述音频文件进行副歌识别，得到所述每一所述音频文件的副歌音频数据。
18.优选的，所述得到所述每一所述音频文件的副歌音频数据，之后还包括：
19.调用预设的人声识别模型对所述副歌音频数据进行人声识别，确定该副歌音频数据中包含人声音频数据的开始时间节点和结束时间节点；
20.若所述人声音频数据的开始时间节点和/或结束时间节点与该副歌音频数据的开始时间节点和/或结束时间节点重合，则获取与该音频数据中与该副歌音频数据邻接的非人声音频数据，并将所述非人声音频数据拼接到所述副歌音频数据中。
21.优选的，所述依据预设的音效处理规则对所述副歌音频数据进行音效处理，得到待拼接的目标歌曲片段，包括：
22.依据所述音效处理规则确定节拍间隔以及与所述节拍间隔对应的第一音效和第二音效；
23.依据所述节拍间隔在所述副歌音频数据的前段处进行第一音效处理，依据所述节拍间隔在所述副歌音频数据的后段处进行第二音效处理，得到待拼接的所述目标歌曲片段。
24.优选的，所述依据所述目标歌曲片段生成目标串烧歌曲，包括：
25.对所有所述待拼接的所述目标歌曲片段作音量归一化处理；
26.获取第三音效，将所述第三音效拼接于两所述待拼接的所述目标歌曲片段之间，生成所述目标串烧歌曲。
27.还提供一种歌曲串烧拼接装置，所述装置包括：
28.获取模块，用于获取n个音频文件，确定每一所述音频文件的特征信息，并依据所述特征信息将所述音频文件进行分类，得到分类后的音频文件集，其中，n为大于1的正整数；
29.提取模块，用于在同一所述音频文件集中提取每一所述音频文件的副歌音频数据；
30.生成模块，用于依据预设的音效处理规则对所述副歌音频数据进行音效处理，得到待拼接的目标歌曲片段，依据所述目标歌曲片段生成目标串烧歌曲。
31.为实现本技术还包括一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述方法的步骤。
32.为实现本技术一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。
33.本技术具有以下优点：
34.在本技术的实施例中，通过获取n个音频文件，确定每一所述音频文件的特征信息，并依据所述特征信息将所述音频文件进行分类，得到分类后的音频文件集，其中，n为大于1的正整数；在同一所述音频文件集中提取每一所述音频文件的副歌音频数据；依据预设的音效处理规则对所述副歌音频数据进行音效处理，得到待拼接的目标歌曲片段，依据所述目标歌曲片段生成目标串烧歌曲；上述技术方案直接使用音频数据，将多个音频文件分类并提取同类别音频文件中的副歌音频数据，依据音效处理规则对副歌音频数据处理，而后将处理后的副歌音频数据进行拼接得到串烧歌曲，该串烧歌曲听感上更加自然，且相较于获取midi数据成本上更低。
附图说明
35.为了更清楚地说明本技术的技术方案，下面将对本技术的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
36.图1是本技术一实施例提供的一种歌曲串烧拼接方法的步骤流程图；
37.图2是本技术一实施例提供的一种歌曲串烧拼接装置的结构示意图；
38.图3是本技术一实施例提供的一种计算机设备的结构示意图。
具体实施方式
39.为使本技术的所述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本技术作进一步详细的说明。显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
40.参照图1，示出了本技术一实施例提供的一种歌曲串烧拼接方法的步骤流程图，具体包括如下步骤：
41.s110，获取n个音频文件，确定每一所述音频文件的特征信息，并依据所述特征信息将所述音频文件进行分类，得到分类后的音频文件集，其中， n为大于1的正整数；
42.s120，在同一所述音频文件集中提取每一所述音频文件的副歌音频数据；
43.s130，依据预设的音效处理规则对所述副歌音频数据进行音效处理，得到待拼接的目标歌曲片段，依据所述目标歌曲片段生成目标串烧歌曲。
44.通过获取n个音频文件，确定每一所述音频文件的特征信息，并依据所述特征信息将所述音频文件进行分类，得到分类后的音频文件集，其中，n 为大于1的正整数；在同一所述音频文件集中提取每一所述音频文件的副歌音频数据；依据预设的音效处理规则对所述副歌音频数据进行音效处理，得到待拼接的目标歌曲片段，依据所述目标歌曲片段生成目标串烧歌曲；上述技术方案直接使用音频数据，将多个音频文件分类并提取同类别音频文件中的副歌音频数据，依据音效处理规则对副歌音频数据处理，而后将处理后的副歌音频数据进行拼接得到串烧歌曲，该串烧歌曲听感上更加自然，且相较于获取midi数据成本上更低。
45.下面，将通过以下实施例对上述的一种歌曲串烧拼接方法作进一步说明。
46.如步骤s110所述，获取n个音频文件，确定每一所述音频文件的特征信息，并依据所述特征信息将所述音频文件进行分类，得到分类后的音频文件集，其中，n为大于1的正整数。
47.在本技术一实施例中，可以结合下列描述进一步说明步骤s110所述“获取n个音频文件，确定每一所述音频文件的特征信息，并依据所述特征信息将所述音频文件进行分类，得到分类后的音频文件集”的具体过程。
48.如下列步骤所述，获取所述用户输入的表示音频类别的目标维度信息；调用预设的歌曲分类模型，通过所述歌曲分类模型并依据所述目标维度信息以及所述音频文件，确定所述音频文件的多维度的所述特征信息；将特征信息为同一维度的音频文件分类为同一
所述音频文件集。
49.在本技术实施例中，所述目标维度信息包括但不限于语种维度、情绪维度、主题维度以及节奏维度，所述将与同一维度的特征信息对应的音频文件分类为同一音频文件集，包括：依据所述目标维度信息，通过所述歌曲分类模型确定所述音频文件对应该目标维度的特征向量，所述特征信息包括所述特征向量；依据所述特征向量确定同一所述音频文件集中两任意所述音频文件之间的相似度。
50.作为一种示例，可以将歌曲分类模型对应每一音频文件输出的特征信息理解为对每一音频文件打上多个相应的标签。具体的，歌曲分类模型为一种识别音频(歌曲)在不同维度(包括但不限于语种维度、情绪维度、主题维度以及节奏维度)时的特征的深度学习分类模型，它时基于海量歌曲数据训练而得。进一步的，歌曲分类模型可以确定其中一音频文件在其中一维度上的特征向量，而后基于该特征向量确定该音频文件是否符合该维度类别的要求，从而将符合同一维度类别要求的音频文件分类到同一音频文件集中。
51.更具体的，例如，在语种维度类别中，包括很多语种，选取其中一种语种子类别，歌曲分类模型将n个音频文件中其中一音频文件进行分帧处理，将分帧处理后的音频数据采用如池化、平均、取概率最大值等方式输出该音频文件是否为语种维度类别的结果，并对该音频文件打上与所属语种子类别对应的语种标签。
52.在某一音频文件集中，基于第一序列的音频文件，依据该音频文件的特征向量，通过歌曲分类模型输出另一音频文件在音频文件集对应的维度的特征向量，通过计算两音频文件特征向量之间的相似度，依据相似度大小来决定另一音频文件是否属于该音频文件集。
53.同样的，可依据上述示例方式得出在不同的例如情绪维度、主题维度以及节奏维度类别对应的音频文件集。
54.需要说明的是，在节奏维度类别方面，需要借助如维特比解码，beamsearch等序列解码算法得到音频文件的最优解码序列，作为节拍时间点序列；然后根据节拍时间点序列和预设的节拍条件得到节拍估计值。若两音频文件之间的节拍估计值之差符合预设的节拍差阈值，则确定该两音频文件节奏相似。
55.如步骤s120所述，在同一所述音频文件集中提取每一所述音频文件的副歌音频数据。
56.在本技术一实施例中，可以结合下列描述进一步说明步骤s120所述“在同一所述音频文件集中提取每一所述音频文件的副歌音频数据”的具体过程。
57.如下列步骤所述，调用预设的副歌识别模型；通过所述副歌识别模型依据所述特征信息对同一所述音频文件集中每一所述音频文件进行副歌识别，得到所述每一所述音频文件的副歌音频数据。
58.需要说明的是，副歌识别模型是基于初始副歌识别模型通过海量的样本音频数据以及对应的副歌片段训练得到的。具体的，选取样本音频数据中的原始音频、音频频谱、歌词以及和声等特征向量输入到初始副歌识别模型中，通过一系列的卷积、池化、归一等迭代计算，输出每一音频数据中副歌音频数据在时间序列上的概率，从而估测出每一音频数据中副歌出现的开始和结束时对应的副歌音频数据。
59.模型获取的副歌识别时间点，可能与真实世界串烧时间点有所不同：副歌结束可
能不是音乐段落的结束；副歌的预测时间可能不准，导致听感下降。因而，需要对副歌识别时间点进一步处理。
60.在本技术实施例中，所述得到所述每一所述音频文件的副歌音频数据，之后还包括：
61.调用预设的人声识别模型对所述副歌音频数据进行人声识别，确定该副歌音频数据中包含人声音频数据的开始时间节点和结束时间节点；
62.若人声音频数据的开始时间节点和/或结束时间节点与该副歌音频数据的开始时间节点和/或结束时间节点重合，则获取与该音频数据中与该副歌音频数据邻接的非人声音频数据，并将所述非人声音频数据拼接到所述副歌音频数据中。
63.如步骤s130所述，依据预设的音效处理规则对所述副歌音频数据进行音效处理，得到待拼接的目标歌曲片段，依据所述目标歌曲片段生成目标串烧歌曲。
64.在本技术一实施例中，可以结合下列描述进一步说明步骤s130所述“依据预设的音效处理规则对所述副歌音频数据进行音效处理，得到待拼接的目标歌曲片段”的具体过程。
65.如下列步骤所述，依据所述音效处理规则确定节拍间隔以及与所述节拍间隔对应的第一音效和第二音效；依据所述节拍间隔在所述副歌音频数据的前段处进行第一音效处理，依据所述节拍间隔在所述副歌音频数据的后段处进行第二音效处理，得到待拼接的所述目标歌曲片段。
66.作为一种示例，考虑到歌曲节拍不一致，我们对每个歌曲片段前8个节拍加入淡入音效(第一音效)，从0或者任意一个音量，线性升高到100％音量，对每个歌曲片段后8个节拍加入淡出音效(第二音效)，从100％音量线性下降到任意一个音量。
67.在本技术实施例中，所述依据所述目标歌曲片段生成目标串烧歌曲，包括：
68.对所有所述待拼接的所述目标歌曲片段作音量归一化处理；
69.获取第三音效，将所述第三音效拼接于两所述待拼接的所述目标歌曲片段之间，生成所述目标串烧歌曲。
70.需要说明的是，由于不同歌曲音量不同，为了保证听感平稳，我们对所有歌曲进行音量归一化，使得所有歌曲为-20db音量。可以直接将第三音效叠加到两目标歌曲片段拼接处，从而使得拼接处有转场的效果，使得歌曲拼接处不突兀。通过上述的歌曲分类，对每种类型歌曲提供10种以上的音效，丰富串烧作品的效果。
71.相较于其他串烧拼接方案，本方案深度融合各种模型算法，使得拼接结果更接近专业音乐人的产出。
72.对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
73.参照图2，示出了本技术一实施例提供的一种歌曲串烧拼接装置结构示意图，具体包括如下模块：
74.获取模块110，用于获取n个音频文件，确定每一所述音频文件的特征信息，并依据所述特征信息将所述音频文件进行分类，得到分类后的音频文件集，其中，n为大于1的正整数；
75.提取模块120，用于在同一所述音频文件集中提取每一所述音频文件的副歌音频
数据；
76.生成模块130，用于依据预设的音效处理规则对所述副歌音频数据进行音效处理，得到待拼接的目标歌曲片段，依据所述目标歌曲片段生成目标串烧歌曲。
77.参照图3，示出了本技术的一种歌曲串烧拼接方法的计算机设备，具体可以包括如下：
78.上述计算机设备12以通用计算设备的形式表现，计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，内存28，连接不同系统组件(包括内存28和处理单元16)的总线18。
79.总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(isa)总线，微通道体系结构(mac)总线，增强型isa总线、音视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
80.计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。
81.内存28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如cd-rom，dvd-rom或者其他光介质) 读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块42，这些程序模块 42被配置以执行本技术各实施例的功能。
82.具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块 42通常执行本技术所描述的实施例中的功能和/或方法。
83.计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信，还可与一个或者多个使得操作人员能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过i/o接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络 (例如局域网(lan))，广域网(wan)和/或公共网络(例如因特网)通信。如图3所示，网络适配器20通过总线18与计算机设备 12的其他模块通信。应当明白，尽管图3中未示出，可以结合计算机设备12使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统34等。
84.处理单元16通过运行存储在内存28中的程序，从而执行各种功能应用以及数据处理，例如实现本技术实施例所提供的一种歌曲串烧拼接方法。
85.也即，上述处理单元16执行上述程序时实现：获取n个音频文件，确定每一所述音频文件的特征信息，并依据所述特征信息将所述音频文件进行分类，得到分类后的音频文
件集，其中，n为大于1的正整数；在同一所述音频文件集中提取每一所述音频文件的副歌音频数据；依据预设的音效处理规则对所述副歌音频数据进行音效处理，得到待拼接的目标歌曲片段，依据所述目标歌曲片段生成目标串烧歌曲。
86.在本技术实施例中，本技术还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本技术所有实施例提供的一种歌曲串烧拼接方法。
87.也即，给程序被处理器执行时实现：获取n个音频文件，确定每一所述音频文件的特征信息，并依据所述特征信息将所述音频文件进行分类，得到分类后的音频文件集，其中，n为大于1的正整数；在同一所述音频文件集中提取每一所述音频文件的副歌音频数据；依据预设的音效处理规则对所述副歌音频数据进行音效处理，得到待拼接的目标歌曲片段，依据所述目标歌曲片段生成目标串烧歌曲。
88.可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
89.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
90.可以以一种或多种程序设计语言或其组合来编写用于执行本技术操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言——诸如java、smalltalk、c++，还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在操作人员计算机上执行、部分地在操作人员计算机上执行、作为一个独立的软件包执行、部分在操作人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到操作人员计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
91.尽管已描述了本技术实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术实施例范围的所有变更和修改。
92.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意
在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
93.以上对本技术所提供的一种歌曲串烧拼接方法和装置，进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马星宇
技术所有人：成都开心音符科技有限公司
我是此专利的发明人

上一篇：一种汽车发动机配件自动化清洗线的制作方法
上一篇：一种空压机排油收集设备及排油量测试方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。