一种基于glr的同源音频广告检索方法
【技术领域】
[0001] 本发明涉及一种同源音频广告检索技术,特别涉及一种基于GLR的同源音频广告 检索方法,该检索方法将构建数据窗和GLR引入了同源音频检索。
【背景技术】
[0002] 随着网络技术的发展,网络上的音频越来越多,有些音频文件中包含了一些同源 音频广告,如何在音频文件中检索到这些同源的音频广告,成了一个需要解决的问题。
[0003] 在现有的同源音频检索方法中,为了减少计算量和节省存储量,主要是采用两步 法(郑贵滨,2006, Zhang,2007,杨继臣,2010),即第一步先确定出广告的大致位置,第二步 再确定出准确的位置,在两步法中,第一步常采用的方法有分段法(郑贵滨,2006),直方图 法(Zhang,2007)和随机法(杨继臣2010)等。
[0004] 在分段法中,当音频广告恰好在分段点或者被分段点分开时,这时候可能会存在 漏检的问题,在随机法中,当检索步长选取得不合适时,也会存在漏检的问题,在直方图法 中,在某些特殊的条件下,也会存在漏检的问题。
[0005] 在两步法中,第一步比较关键,若第一步出现漏检的问题,一般情况下,第二步无 法解决,以至于最终无法检索到检索目标。
[0006] 现有技术中使用两步法的目的是为了节省计算量和节约计算机的存储量,近年 来,随着计算机技术的发展,计算速度的提高和存储量的增加,目前节省计算量和节约计算 机的存储量这两个问题都已经不再是问题了,如何才能准确地检索到同源音频广告成为了 当前亟待解决的问题。
【发明内容】
[0007] 本发明的目的在于克服现有技术的缺点与不足,提供一种基于GLR的同源音频广 告检索方法,该同源音频广告检索方法是一种基于GLR的一步法的同源音频广告的检索技 术,该同源音频广告检索方法实现简单,能准确检索到检索目标。
[0008] 本发明的目的通过下述技术方案实现:一种基于GLR的同源音频广告检索方法, 包括以下步骤:
[0009] 步骤1、为提取的音频文件的特征构建数据窗;说明书附图图2示出了构建数据窗 的处理过程;具体实现如下:首先对音频文件和音频广告进行加窗分帧,其次对分帧后的 音频文件和音频广告提取特征,再次为音频文件的特征构建数据窗,首先在音频文件的特 征开始处选取和音频广告一样长的数据窗,然后以一秒为单位,向前(即图2中的箭头指示 的方向)滑动选取数据窗,滑动的距离为滑动步长,直至音频文件的特征结束;
[0010] 步骤2、为数据窗和音频广告构建数据模型;说明书附图图3示出了构建数据模型 的过程。首先把数据窗和音频广告特征进行合并,其次对这三块数据构建数据模型,假设 两种数据模型,第一种假设数据窗和音频广告的特征数据分别属于两种不同的单一高斯分 布,第二种假设大数据窗的特征数据属于同一种单一高斯分布。当数据窗向前滑动改变时, 按照前面的步骤,合并新的数据窗和音频广告,并对它们构建数据模型,一直到音频文件特 征结束;
[0011] 步骤3、计算GLR值;对前面的不同数据假设的两种数据模型计算一系列的GLR 值;计算公式为大数据窗的帧数乘以大数据窗特征的协方差矩阵的值的绝对值的对数值分 别减去数据窗的帧数乘以各自特征的协方差矩阵的值的绝对值的对数值;
[0012] 步骤4、获得音频广告的位置;对计算得到的GLR值,如果一个某个位置的GLR值 既小于它之前的GLR值又小于它之后的GLR值,且它们三个又都小于某个实验最优值,那么 该位置就是音频广告的开始位置。
[0013] 本发明的原理:本发明采用广义似然比(Generalized Likelihood Ratio, GLR)在 音频文件中检测同源音频广告,首先为音频文件的特征构建数据窗,其次为数据窗和同源 音频广告特征构建模型,再次计算数据窗和音频广告特征的GLR值,最后根据GLR值在音频 文件中寻找音频广告的位置。
[0014] 本发明相对于现有技术具有如下的优点及效果:
[0015] 1、通过构建数据窗和构建数据模型,使GLR应用于音频检索方面。与其他的两步 法的同源音频检索方法相比,本发明可以获得校准确的结果,而且实现简单。
[0016] 2、相对于主流的基于两步法的音频检索方法,本发明使用一步法即通过滑动选择 数据窗计算数据窗、音频广告的特征以及它们两者的合并的GLR值,使整个音频文件上一 次检索出音频广告,通过构建数据窗计算GLR检索到检索目标,达到了能准确检索到同源 音频广告的效果,并且,该方法的实现过程相当简单,同时能准确检索到检索目标。
【附图说明】
[0017] 图1是使用GLR进行同源音频广告的检索方法的过程图。
[0018] 图2是构建音频文件特征的数据窗的处理过程图;图中,1表示滑动步长,2表示第 k个数据窗,3表示第k+Ι个数据窗,其中,K k < n-1。
[0019] 图3是构建数据模型的处理过程图。
【具体实施方式】
[0020] 下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限 于此。
[0021] 实施例
[0022] 如图1所示,一种基于GLR的同源音频广告检索方法,包括以下步骤:
[0023] 1、对音频广告和音频文件进行分帧加窗(帧长32ms,帧移16ms,加汉明窗),提取 24 阶的梅尔倒谱系数(Mel-frequency cepstral coefficients, MFCC);
[0024] 2、如图2所示,假设别代表音频文件和音频广告以秒为单位的 时间长度,音频广告特征的帧数为N,在音频文件特征上从开始选择和音频广告特征一样帧 数的数据窗,第k个数据窗2滑动到第k+Ι个数据窗3之间滑动的距离为滑动步长1 ;如图 3所示,第一个数据窗假设为WIN,它的特征序列为音频广告特征假设为 ADV,它的特征序列为{fA1,fA2,. . .,fAN};两者的合并为一个大的数据窗,假设为BWIN,相对 应的特征序列为{fB1,f B2,. . .,fB2N}。向前滑动1秒再选择同样大小的数据窗,按照前面的 方法,合并生成大数据窗,……;数据窗的个数
【主权项】
1. 一种基于GLR的同源音频广告检索方法,其特征在于,包括以下步骤: 步骤1、为音频文件的特征构建数据窗;从音频文件的特征开始选择一段和同源音频 广告的特征长度相同的数据窗,然后在音频文件上以1秒为单位选择同样大小的数据窗, 直至音频文件的特征结束; 步骤2、为数据窗和音频广告构建模型;首先合并数据窗和音频广告形成大数据窗,其 次对数据窗、音频广告和大数据窗分别构建数据模型:所述数据模型存在两种假设:第一 种假设:假设数据窗和音频广告分别属于两种不同的单一高斯分布,第二种假设:假设大 数据窗属于同一种单一高斯分布; 步骤3、计算步骤2中所假设的两种假设数据模型的GLR值,通过在音频文件上滑动选 择数据窗,计算一系列的GLR值; 步骤4、根据GLR值,在音频文件上获得音频广告的位置。
2. 根据权利要求1所述的基于GLR的同源音频广告检索方法,其特征在于,在步骤1 中,构建数据窗的构建方法为:首先为音频广告和音频文件分别提取梅尔倒谱系数,为音频 文件的特征划分数据窗,划分的方法是每次选取的数据窗的长度和音频广告的特征的长度 是一样,然后以1秒为单位滑动选择数据窗,直至结束。
3. 根据权利要求1所述的基于GLR的同源音频广告检索方法,其特征在于,在步骤2 中,所述数据窗和音频广告的模型的构建方法为:首先合并数据窗和音频广告,称为大数据 窗,其次分别对数据窗音频广告和大数据窗构建数据模型,所述数据模型有两种假设:第一 种假设:假设数据窗和音频广告的特征数据分别属于两种不同的单一高斯分布,第二种假 设:假设大数据窗的特征数据属于同一种单一高斯分布,假设数据窗的和音频广告的特征 数目为N,大数据窗的特征数目为2N,假设分别使用WIN、ADV和BWIN分别代表数据窗的特 征矢量、音频广告的特征矢量和大数据窗的特征矢量,相应的高斯分布为: WIN :fffl, fff2,..., fMe N( μ i, Ei), ADV :fA1, fA2,..., fMe N( μ A, Σα), BffIN :fB1, fB2,..., fB2Ne N( μ , Σ), 其中,Σ p Σ JPΣ分别表示WIN的协方差矩阵、ADV的协方差矩阵和BWIN的协方差矩 阵。
4. 根据权利要求1所述的基于GLR的同源音频广告检索方法,其特征在于,在步骤4 中,所述GLR值的计算公式为: G (i) = 2Nlog I Σ I -Nlog I Σ i I -Nlog I Σ AI, 其中,1 = 1,2,···,!!,^、,件广吿,其中,L音频文件和L音频广告分别代表音频文件 广告 和音频广告以秒为单位的时间长度。
5. 根据权利要求1所述的基于GLR的同源音频广告检索方法,其特征在于,所述音频广 告的位置的获得方法为:如果某个时间点是音频广告的位置,则该时间点的音频广告位置 的GLR值必须满足:不仅要小于前面一个还要小于后面一个而且这几个都要小于一个实验 最优值,判决公式为:
其中,G(i-l)、G(i)和G(i+1)分别表示为第i-1、第i和第i+1个GLR值,Th表示实验 最优值。
【专利摘要】本发明公开了一种基于GLR的同源音频广告检索方法,该方法采用广义似然比(Generalized Likelihood Ratio,简称:GLR)在音频文件中检测同源音频广告,主要包括以下步骤:(1)为提取的特征构建数据窗;(2)构建模型;(3)根绝构建的数据窗和模型,计算GLR值;(4)根据计算得到的GLR值,获得音频文件中的同源音频广告的位置。具有能准确检索到检索目标等优点。
【IPC分类】G06F17-30, G10L25-54
【公开号】CN104731913
【申请号】CN201510129997
【发明人】杨继臣, 金海
【申请人】华南理工大学
【公开日】2015年6月24日
【申请日】2015年3月23日