一种基于音频片段切分的数字音频时域压缩方法

文档序号：6773483阅读：218来源：国知局

专利名称：一种基于音频片段切分的数字音频时域压缩方法
技术领域：
本发明涉及一种基于音频片段切分的数字音频时域压缩方法，属于音频处理技术领域。
背景技术：
随着互联网和多媒体技术的发展，音乐已经成为人们日常生活中不可或缺的娱乐形式。当选用一首乐曲作为背景音乐的时候，通常会发生所选乐曲的播放时间长度与所需要的播放时间长度不相符的情况。此时，需要压缩和调整乐曲的内容，同时保证乐曲的播放效果。现有的数字音频时域压缩方法可以分为均勻数字音频时域压缩方法和非均勻数字音频时域压缩方法，如名称为“一种基于歌词的数字音频时域压缩方法”、申请号为 CN200910235724. 3、公开号为CN101702321A的发明专利，上述两类数字音频时域压缩方法在处理用户所要求的播放时间长度与乐曲的原始时间长度相差较大的情况时，会导致乐曲的播放速率过快、声音抖动等问题，无法达到理想的时域压缩效果。

发明内容
本发明的目的是提出一种基于音频片段切分的数字音频时域压缩方法，通过提取乐曲的数字音频中的音频特征，分析并获得乐曲的结构信息，根据乐曲的结构信息选择并删除若干个可删除音频片段序列，最后使用数字音频时域压缩方法对删除后的数字音频进行时域压缩，从而改变乐曲的播放时间长度。本发明提出的基于音频片段切分的数字音频时域压缩方法，包括以下步骤(1)将原始乐曲数字音频分为η个音频片段，得到一个音频片段序列，记为S1、S2、 S3........Sn_i、Sn，设音频片段Si的原始时间长度为ti ；(2)根据用户设定的压缩后的乐曲数字音频的时间长度九和压缩过程中的乐曲数字音频的当前时间长度Tm，得到时域压缩率P= Jl ；
1 m(3)对上述时域压缩率ρ进行判断，若ρ小于或者等于用户设定的最小压缩率Pmin，则转至步骤G)，若时域压缩率P大于用户设定的最小压缩率Pmin，则转至步骤(8)；(4)对上述η个音频片段中的任意两个音频片段Si、Sj,使用音频片段相似度量方法计算音频片段Si与音频片段~之间的相似度值dM，对相似度值进行判断，若相似度值dy大于或者等于设定的相似度阈值I，则判断音频片段Si与音频片段~为相似音频片段，若相似度值小于设定的相似度阈值I，则判断音频片段Si与音频片段~为不相似音频片段，重复该步骤，遍历η个音频片段中的任意两个音频片段，得到所有任意两个音频片段之间的相似关系，相似度阈值I为从正无穷到负无穷的实数；(5)根据上述音频片段之间的相似关系，将η个音频片段分为w个音频片段组，记
为&、G2.....Gx.....Gw，满足音频片段组&中的任意一个音频片段Si，在&中至少存在
一个与音频片段Si相似的音频片段~，且在音频片段组&以外的音频片段组中不存在与音频片段Si相似的音频片段；
(6)为每个音频片段组Gi设置一个唯一的音频片段组标识符Ai,用一个音频片段组标识符Ai对音频片段组Gi中的所有音频片段进行标记；用音频片段组标识符Ai表达上
述音频片段序列Sl、s2,s3........Slri、\，得到与乐曲的音频片段序列相对应的音频片段
组标识符序列；形成一个可删除子序列％、sb+1........Sm、se，该可删除子序列满足在音
频片段标识符序列中存在两个相邻的音频片段标识符，该两个音频片段标识符分别与音频片段Slri和音频片段组标识符与se+1相对应，其中，b和e为正整数，l<b^e<n ；遍历音频片段组标识符序列，得到所有可删除子序列；(7)从上述音频片段序列中删除一个可删除子序列，使删除可删除子序列后的乐曲数字音频的时间长度T。与用户设定的压缩后的乐曲数字音频的时间长度Tu之间的差值的绝对值最小，转至步骤O)；(8)根据步骤( 得到时域压缩率P，使用数字音频时域压缩方法对上述数字音频文件进行时域压缩。本发明提出的基于音频片段切分的数字音频时域压缩方法，在数字音频时域压缩前，根据乐曲的结构信息找到满足特定条件的音频片段子序列，删除音频片段子序列后，可以保证乐曲中剩下的音频片段自然、平滑地连接，减少了数字音频时域压缩对数字音频播放质量的影响，改善了时域压缩后的数字音频的播放效果。

图1是本发明方法的原理框图。图2为本发明方法的时域压缩过程中，各种不同音频序列的结构示意图。
具体实施例方式本发明提出的基于音频片段切分的数字音频时域压缩方法，其原理框图如图1所示，包括以下各步骤(1)将原始乐曲数字音频分为η个音频片段，得到一个音频片段序列，记为si、s2、 S3........Slri^n，设音频片段Si的原始时间长度为ti;如图2(a)所示。在本发明的实施例中，上述数字音频数据的音频格式可以为WAV、MP3等音频格式。上述音频片段的时间长度的单位为秒。对于存在歌词的乐曲，每个音频片段对应于歌词文件中的一个歌词句子，η为歌词中的歌词句子数。对于不存在歌词的乐曲，采用通用的基于内容的数字音频切分方法将乐曲的数字音频切分为多个音频片段，η为正整数，由通用的基于内容的数字音频切分方法确定。(2)根据用户设定的压缩后的乐曲数字音频的时间长度九和压缩过程中的乐曲数字音频的当前时间长度Tm，得到时域压缩率φ = ，乐曲数字音频的当前时间长度Tm的初
1 m
始值为 Tm = t^t^+-+^,,在本发明的实施例中，上述时域压缩率的取值范围为0 < ρ < 1。(3)对上述时域压缩率ρ进行判断，若ρ小于或者等于用户设定的最小压缩率Pmin，则转至步骤G)，若时域压缩率P大于用户设定的最小压缩率Pmin，则转至步骤(8)。在本发明的实施例中，最小压缩率Pmin的取值范围为0 < Pmin < 1。(4)对上述η个音频片段中的任意两个音频片段Si、Sj,使用音频片段相似度量方
4法计算音频片段Si与音频片段~之间的相似度值dM，对相似度值进行判断，若相似度值dy大于或者等于设定的相似度阈值I，则判断音频片段Si与音频片段~为相似音频片段，若相似度值小于设定的相似度阈值I，则判断音频片段Si与音频片段~为不相似音频片段，重复该步骤，遍历η个音频片段中的任意两个音频片段，得到所有任意两个音频片段之间的相似关系，相似度阈值I为从正无穷到负无穷的实数；在本发明的实施例中，上述音频片段Si和音频片段~之间的的相似度量方法采用基于自相关的数字音频相似度量方法。相似度值的取值范围为-⑴<dM<⑴。相似度阈值I的取值范围为I<①。(5)根据上述音频片段之间的相似关系，将η个音频片段分为w个音频片段组，记
为&、G2.....Gx.....Gw，满足音频片段组&中的任意一个音频片段Si，在&中至少存在
一个与音频片段Si相似的音频片段~，且在音频片段组&以外的音频片段组中不存在与音频片段Si相似的音频片段，如图2 (b)所示音频片段组G1中包含音频片段si、s2和&等音频片段，其中音频片段S1与音频片段S2为相似音频片段，音频片段S1与音频片段&为相似音频片段。音频片段组&中包含音频片段s2、s6和S8等音频片段，其中音频片段&与音频片段S6为相似音频片段，音频片段S6与音频片段S8为相似音频片段。音频片段组Gw中包含音频片段s5、S7和^等音频片段，其中音频片段S5与音频片段S7为相似音频片段，音频片段S7与音频片段^为相似音频片段。(6)为每个音频片段组Gi设置一个唯一的音频片段组标识符Ai,用一个音频片段组标识符Ai对音频片段组Gi中的所有音频片段进行标记；用音频片段组标识符Ai表达上
述音频片段序列Sl、s2,s3........Slri、\，得到与乐曲的音频片段序列相对应的音频片段
组标识符序列，例如=A1A1A2A1AwA2AwA2-Aw，如图2(c)中所示。形成一个可删除子序列sb、
Sb+1........Sy、Se,该可删除子序列Sb、Sb+1........Sm、Se满足在音频片段标识符序列
中存在两个相邻的音频片段标识符，该两个音频片段标识符分别与音频片段^V1和音频片段组标识符与相对应，其中，b和e为正整数，l<b^e<n ；遍历音频片段组标识符序列，得到所有可删除子序列，例如可删除子序列s3、s4, s5，可删除子序列s3、S4和可删除子序列S2、S3，如图2(d)中所示。(7)从上述音频片段序列中删除一个可删除子序列，使删除可删除子序列后的乐曲数字音频的时间长度T。与用户设定的压缩后的乐曲数字音频的时间长度Tu之间的差值的绝对值最小，例如删除可删除子序列s3、s4, ^后的乐曲数字音频的时间长度T。= Tm-t3-t4_t5与用户设定的压缩后的乐曲数字音频的时间长度Tu之间的差值的绝对值最小，转至步骤⑵。(8)根据步骤( 得到时域压缩率P，使用数字音频时域压缩方法对上述数字音频文件进行时域压缩。在本发明的实施例中，数字音频时域压缩方法采用基于歌词的数字音频时域压缩方法。
权利要求
1. 一种基于音频片段切分的数字音频时域压缩方法，其特征在于该方法包括以下步骤(1)将原始乐曲数字音频分为η个音频片段，得到一个音频片段序列，记为Sl、S2, S3........Sn_i、Sn，设音频片段Si的原始时间长度为ti ；(2)根据用户设定的压缩后的乐曲数字音频的时间长度Tu和压缩过程中的乐曲数字音频的当前时间长度Tm，得到时域压缩率P= ；1 m(3)对上述时域压缩率ρ进行判断，若ρ小于或者等于用户设定的最小压缩率Pmin，则转至步骤G)，若时域压缩率P大于用户设定的最小压缩率Pmin，则转至步骤(8)；(4)对上述η个音频片段中的任意两个音频片段Si、~，使用音频片段相似度量方法计算音频片段Si与音频片段h之间的相似度值Cli, j,对相似度值Cli, j进行判断，若相似度值 φ,j大于或者等于设定的相似度阈值I，则判断音频片段Si与音频片段~为相似音频片段，若相似度值dy小于设定的相似度阈值I，则判断音频片段Si与音频片段~为不相似音频片段，重复该步骤，遍历η个音频片段中的任意两个音频片段，得到所有任意两个音频片段之间的相似关系，相似度阈值I为从正无穷到负无穷的实数；(5)根据上述音频片段之间的相似关系，将η个音频片段分为w个音频片段组，记为G1^G2.....Gx.....Gw，满足音频片段组&中的任意一个音频片段Si，在&中至少存在一个与音频片段Si相似的音频片段~，且在音频片段组&以外的音频片段组中不存在与音频片段Si相似的音频片段；(6)为每个音频片段组Gi设置一个唯一的音频片段组标识符Ai,用一个音频片段组标识符Ai对音频片段组Gi中的所有音频片段进行标记；用音频片段组标识符Ai表达上述音频片段序列Sl、s2,s3........Slri、\，得到与乐曲的音频片段序列相对应的音频片段组标识符序列；形成一个可删除子序列％、sb+1........Sm、se，该可删除子序列满足在音频片段标识符序列中存在两个相邻的音频片段标识符，该两个音频片段标识符分别与音频片段 Sb^1和音频片段组标识符与se+1相对应，其中，b和e为正整数，l<b^e<n ；遍历音频片段组标识符序列，得到所有可删除子序列；(7)从上述音频片段序列中删除一个可删除子序列，使删除可删除子序列后的乐曲数字音频的时间长度T。与用户设定的压缩后的乐曲数字音频的时间长度Tu之间的差值的绝对值最小，转至步骤O)；(8)根据步骤( 得到时域压缩率P，使用数字音频时域压缩方法对上述数字音频文件进行时域压缩。
全文摘要
本发明涉及一种基于音频片段切分的数字音频时域压缩方法，属于音频处理技术领域。本方法通过提取乐曲的数字音频中的音频特征，分析并获得乐曲的结构信息，根据乐曲的结构信息选择并删除若干个可删除音频片段序列，最后使用数字音频时域压缩方法对删除后的数字音频进行时域压缩，从而改变乐曲的播放时间长度。本发明方法在数字音频时域压缩前，根据乐曲的结构信息找到满足特定条件的音频片段子序列，删除音频片段子序列后，可以保证乐曲中剩下的音频片段自然、平滑地连接，减少了数字音频时域压缩对数字音频播放质量的影响，改善了时域压缩后的数字音频的播放效果。
文档编号G11B20/14GK102063919SQ20101057022
公开日2011年5月18日申请日期2010年11月26日优先权日2010年11月26日
发明者刘璋, 王建民, 王朝坤申请人:清华大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王朝坤;王建民;刘璋
技术所有人：清华大学
我是此专利的发明人

上一篇：内嵌式测试模组及其诊断方法
上一篇：具有可调整反偏压的感测放大器电路及其操作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。