专利名称:一种基于音频片段切分的数字音频时域压缩方法
技术领域:
本发明涉及一种基于音频片段切分的数字音频时域压缩方法,属于音频处理技术 领域。
背景技术:
随着互联网和多媒体技术的发展,音乐已经成为人们日常生活中不可或缺的娱 乐形式。当选用一首乐曲作为背景音乐的时候,通常会发生所选乐曲的播放时间长度与 所需要的播放时间长度不相符的情况。此时,需要压缩和调整乐曲的内容,同时保证乐曲 的播放效果。现有的数字音频时域压缩方法可以分为均勻数字音频时域压缩方法和非均 勻数字音频时域压缩方法,如名称为“一种基于歌词的数字音频时域压缩方法”、申请号为 CN200910235724. 3、公开号为CN101702321A的发明专利,上述两类数字音频时域压缩方法 在处理用户所要求的播放时间长度与乐曲的原始时间长度相差较大的情况时,会导致乐曲 的播放速率过快、声音抖动等问题,无法达到理想的时域压缩效果。
发明内容
本发明的目的是提出一种基于音频片段切分的数字音频时域压缩方法,通过提取 乐曲的数字音频中的音频特征,分析并获得乐曲的结构信息,根据乐曲的结构信息选择并 删除若干个可删除音频片段序列,最后使用数字音频时域压缩方法对删除后的数字音频进 行时域压缩,从而改变乐曲的播放时间长度。本发明提出的基于音频片段切分的数字音频时域压缩方法,包括以下步骤(1)将原始乐曲数字音频分为η个音频片段,得到一个音频片段序列,记为S1、S2、 S3........Sn_i、Sn,设音频片段Si的原始时间长度为ti ;(2)根据用户设定的压缩后的乐曲数字音频的时间长度九和压缩过程中的乐曲数 字音频的当前时间长度Tm,得到时域压缩率P= Jl ;
1 m(3)对上述时域压缩率ρ进行判断,若ρ小于或者等于用户设定的最小压缩率Pmin, 则转至步骤G),若时域压缩率P大于用户设定的最小压缩率Pmin,则转至步骤(8);(4)对上述η个音频片段中的任意两个音频片段Si、Sj,使用音频片段相似度量方 法计算音频片段Si与音频片段~之间的相似度值dM,对相似度值进行判断,若相似度 值dy大于或者等于设定的相似度阈值I,则判断音频片段Si与音频片段~为相似音频片 段,若相似度值小于设定的相似度阈值I,则判断音频片段Si与音频片段~为不相似音 频片段,重复该步骤,遍历η个音频片段中的任意两个音频片段,得到所有任意两个音频片 段之间的相似关系,相似度阈值I为从正无穷到负无穷的实数;(5)根据上述音频片段之间的相似关系,将η个音频片段分为w个音频片段组,记
为&、G2.....Gx.....Gw,满足音频片段组&中的任意一个音频片段Si,在&中至少存在
一个与音频片段Si相似的音频片段~,且在音频片段组&以外的音频片段组中不存在与音 频片段Si相似的音频片段;
(6)为每个音频片段组Gi设置一个唯一的音频片段组标识符Ai,用一个音频片段 组标识符Ai对音频片段组Gi中的所有音频片段进行标记;用音频片段组标识符Ai表达上
述音频片段序列Sl、s2,s3........Slri、\,得到与乐曲的音频片段序列相对应的音频片段
组标识符序列;形成一个可删除子序列%、sb+1........Sm、se,该可删除子序列满足在音
频片段标识符序列中存在两个相邻的音频片段标识符,该两个音频片段标识符分别与音频 片段Slri和音频片段组标识符与se+1相对应,其中,b和e为正整数,l<b^e<n ;遍历音 频片段组标识符序列,得到所有可删除子序列;(7)从上述音频片段序列中删除一个可删除子序列,使删除可删除子序列后的乐 曲数字音频的时间长度T。与用户设定的压缩后的乐曲数字音频的时间长度Tu之间的差值 的绝对值最小,转至步骤O);(8)根据步骤( 得到时域压缩率P,使用数字音频时域压缩方法对上述数字音频 文件进行时域压缩。本发明提出的基于音频片段切分的数字音频时域压缩方法,在数字音频时域压缩 前,根据乐曲的结构信息找到满足特定条件的音频片段子序列,删除音频片段子序列后,可 以保证乐曲中剩下的音频片段自然、平滑地连接,减少了数字音频时域压缩对数字音频播 放质量的影响,改善了时域压缩后的数字音频的播放效果。
图1是本发明方法的原理框图。图2为本发明方法的时域压缩过程中,各种不同音频序列的结构示意图。
具体实施例方式本发明提出的基于音频片段切分的数字音频时域压缩方法,其原理框图如图1所 示,包括以下各步骤(1)将原始乐曲数字音频分为η个音频片段,得到一个音频片段序列,记为si、s2、 S3........Slri^n,设音频片段Si的原始时间长度为ti;如图2(a)所示。在本发明的实施例中,上述数字音频数据的音频格式可以为WAV、MP3等音频格 式。上述音频片段的时间长度的单位为秒。对于存在歌词的乐曲,每个音频片段对应于歌 词文件中的一个歌词句子,η为歌词中的歌词句子数。对于不存在歌词的乐曲,采用通用的 基于内容的数字音频切分方法将乐曲的数字音频切分为多个音频片段,η为正整数,由通用 的基于内容的数字音频切分方法确定。(2)根据用户设定的压缩后的乐曲数字音频的时间长度九和压缩过程中的乐曲数 字音频的当前时间长度Tm,得到时域压缩率φ = ,乐曲数字音频的当前时间长度Tm的初
1 m
始值为 Tm = t^t^+-+^,,在本发明的实施例中,上述时域压缩率的取值范围为0 < ρ < 1。(3)对上述时域压缩率ρ进行判断,若ρ小于或者等于用户设定的最小压缩率Pmin, 则转至步骤G),若时域压缩率P大于用户设定的最小压缩率Pmin,则转至步骤(8)。在本发明的实施例中,最小压缩率Pmin的取值范围为0 < Pmin < 1。(4)对上述η个音频片段中的任意两个音频片段Si、Sj,使用音频片段相似度量方
4法计算音频片段Si与音频片段~之间的相似度值dM,对相似度值进行判断,若相似度 值dy大于或者等于设定的相似度阈值I,则判断音频片段Si与音频片段~为相似音频片 段,若相似度值小于设定的相似度阈值I,则判断音频片段Si与音频片段~为不相似音 频片段,重复该步骤,遍历η个音频片段中的任意两个音频片段,得到所有任意两个音频片 段之间的相似关系,相似度阈值I为从正无穷到负无穷的实数;在本发明的实施例中,上述音频片段Si和音频片段~之间的的相似度量方法采用 基于自相关的数字音频相似度量方法。相似度值的取值范围为-⑴<dM<⑴。相似度阈 值I的取值范围为I<①。(5)根据上述音频片段之间的相似关系,将η个音频片段分为w个音频片段组,记
为&、G2.....Gx.....Gw,满足音频片段组&中的任意一个音频片段Si,在&中至少存在
一个与音频片段Si相似的音频片段~,且在音频片段组&以外的音频片段组中不存在与音 频片段Si相似的音频片段,如图2 (b)所示音频片段组G1中包含音频片段si、s2和&等音 频片段,其中音频片段S1与音频片段S2为相似音频片段,音频片段S1与音频片段&为相似 音频片段。音频片段组&中包含音频片段s2、s6和S8等音频片段,其中音频片段&与音频 片段S6为相似音频片段,音频片段S6与音频片段S8为相似音频片段。音频片段组Gw中包 含音频片段s5、S7和^等音频片段,其中音频片段S5与音频片段S7为相似音频片段,音频 片段S7与音频片段^为相似音频片段。(6)为每个音频片段组Gi设置一个唯一的音频片段组标识符Ai,用一个音频片段 组标识符Ai对音频片段组Gi中的所有音频片段进行标记;用音频片段组标识符Ai表达上
述音频片段序列Sl、s2,s3........Slri、\,得到与乐曲的音频片段序列相对应的音频片段
组标识符序列,例如=A1A1A2A1AwA2AwA2-Aw,如图2(c)中所示。形成一个可删除子序列sb、
Sb+1........Sy、Se,该可删除子序列Sb、Sb+1........Sm、Se满足在音频片段标识符序列
中存在两个相邻的音频片段标识符,该两个音频片段标识符分别与音频片段^V1和音频片 段组标识符与相对应,其中,b和e为正整数,l<b^e<n ;遍历音频片段组标识符 序列,得到所有可删除子序列,例如可删除子序列s3、s4, s5,可删除子序列s3、S4和可删除 子序列S2、S3,如图2(d)中所示。(7)从上述音频片段序列中删除一个可删除子序列,使删除可删除子序列后的乐 曲数字音频的时间长度T。与用户设定的压缩后的乐曲数字音频的时间长度Tu之间的差 值的绝对值最小,例如删除可删除子序列s3、s4, ^后的乐曲数字音频的时间长度T。= Tm-t3-t4_t5与用户设定的压缩后的乐曲数字音频的时间长度Tu之间的差值的绝对值最小, 转至步骤⑵。(8)根据步骤( 得到时域压缩率P,使用数字音频时域压缩方法对上述数字音频 文件进行时域压缩。在本发明的实施例中,数字音频时域压缩方法采用基于歌词的数字音频时域压缩 方法。
权利要求
1. 一种基于音频片段切分的数字音频时域压缩方法,其特征在于该方法包括以下步骤(1)将原始乐曲数字音频分为η个音频片段,得到一个音频片段序列,记为Sl、S2, S3........Sn_i、Sn,设音频片段Si的原始时间长度为ti ;(2)根据用户设定的压缩后的乐曲数字音频的时间长度Tu和压缩过程中的乐曲数字音频的当前时间长度Tm,得到时域压缩率P= ;1 m(3)对上述时域压缩率ρ进行判断,若ρ小于或者等于用户设定的最小压缩率Pmin,则 转至步骤G),若时域压缩率P大于用户设定的最小压缩率Pmin,则转至步骤(8);(4)对上述η个音频片段中的任意两个音频片段Si、~,使用音频片段相似度量方法计 算音频片段Si与音频片段h之间的相似度值Cli, j,对相似度值Cli, j进行判断,若相似度值 φ,j大于或者等于设定的相似度阈值I,则判断音频片段Si与音频片段~为相似音频片段, 若相似度值dy小于设定的相似度阈值I,则判断音频片段Si与音频片段~为不相似音频 片段,重复该步骤,遍历η个音频片段中的任意两个音频片段,得到所有任意两个音频片段 之间的相似关系,相似度阈值I为从正无穷到负无穷的实数;(5)根据上述音频片段之间的相似关系,将η个音频片段分为w个音频片段组,记为G1^G2.....Gx.....Gw,满足音频片段组&中的任意一个音频片段Si,在&中至少存在一个与音频片段Si相似的音频片段~,且在音频片段组&以外的音频片段组中不存在与音频片 段Si相似的音频片段;(6)为每个音频片段组Gi设置一个唯一的音频片段组标识符Ai,用一个音频片段组标 识符Ai对音频片段组Gi中的所有音频片段进行标记;用音频片段组标识符Ai表达上述音频片段序列Sl、s2,s3........Slri、\,得到与乐曲的音频片段序列相对应的音频片段组标识符序列;形成一个可删除子序列%、sb+1........Sm、se,该可删除子序列满足在音频片段标识符序列中存在两个相邻的音频片段标识符,该两个音频片段标识符分别与音频片段 Sb^1和音频片段组标识符与se+1相对应,其中,b和e为正整数,l<b^e<n ;遍历音频片 段组标识符序列,得到所有可删除子序列;(7)从上述音频片段序列中删除一个可删除子序列,使删除可删除子序列后的乐曲数 字音频的时间长度T。与用户设定的压缩后的乐曲数字音频的时间长度Tu之间的差值的绝 对值最小,转至步骤O);(8)根据步骤( 得到时域压缩率P,使用数字音频时域压缩方法对上述数字音频文件 进行时域压缩。
全文摘要
本发明涉及一种基于音频片段切分的数字音频时域压缩方法,属于音频处理技术领域。本方法通过提取乐曲的数字音频中的音频特征,分析并获得乐曲的结构信息,根据乐曲的结构信息选择并删除若干个可删除音频片段序列,最后使用数字音频时域压缩方法对删除后的数字音频进行时域压缩,从而改变乐曲的播放时间长度。本发明方法在数字音频时域压缩前,根据乐曲的结构信息找到满足特定条件的音频片段子序列,删除音频片段子序列后,可以保证乐曲中剩下的音频片段自然、平滑地连接,减少了数字音频时域压缩对数字音频播放质量的影响,改善了时域压缩后的数字音频的播放效果。
文档编号G11B20/14GK102063919SQ20101057022
公开日2011年5月18日 申请日期2010年11月26日 优先权日2010年11月26日
发明者刘璋, 王建民, 王朝坤 申请人:清华大学