专利名称:一种三级音频索引的创建方法及音频检索方法
技术领域:
本发明涉及一种三级音频索引的创建方法及基于三级音频索引的音频检索方法, 属于多媒体领域。
背景技术:
随着计算机技术、网络技术及多媒体技术的迅猛发展,音频信息的数据量急剧增 多。如何能够自动、准确、快速地寻找到感兴趣的内容,实现基于音频内容的信息检索,就成 为一个既迫切又具有挑战性的研究课题。音频信息检索技术在音频信息搜索引擎、实时检 索网上电视和音/视频点播节目中的多媒体信息内容、音频信息统计与分类等方面有着广 阔的应用前景。音频样例检索是指从检索源数据中查找和目标音频数据相同的音频片段。 由于噪音不可避免,所谓相同,也只能是听觉效果上的相同而不是物理信号的相同。为了在海量数据下,实现快速音频样例检索,需要构建有效的音频索引。然而音频 索引一直是索引研究领域中的难点,存在着如下困难(1)音频数据的特征维数高,存在着 “维数的诅咒”,即,索引的复杂度随维数的增加呈指数增长,这一直是索引研究领域中的难 点;(2)音频数据非离散可分,不存在自然的分割点;(3)音频数据具有时序性,需要存在一 定时长的连续数据才有意义。此外,音频信息检索的种类不同,检索中对音频信息的着眼点 和采用的检索方法也有很大差异。目前的技术没有建立对所有音频检索类别都通用的索引 机制,无法满足大规模数据库和网络环境下的音频样例检索要求。即,针对大规模数据库和 网络环境下的音频样例检索缺少快速、有效的索引机制,因此,在具体应用背景下,针对不 同的检索应用,研究合适的检索和索引算法将既有理论意义又有现实意义。
发明内容
本发明目的是为了解决现有技术针对大规模数据库和网络环境下的音频样例检 索缺少快速、有效的索引机制的问题,提供了一种三级音频索引的创建方法及音频检索方法。本发明三级音频索引的创建方法包括以下步骤
步骤一、对数据库中每个音频特征文件中的维特征向量进行降维处理,生成一维的 量化值,作为第一级索引;
步骤二、将第一级索引数据按单元长度截成一系列片段,片段内的第一级索引值构成 片段向量,计算每个片段向量的模先,作为索引键值,以三元组形式描述片段向量,将所有 片段三元组按键值排序则构成第二级索引;
三元组包括索引键值先、源文件id和片段向量在源文件中的位置i, 步骤三、计算步骤二所述的每个片段的类别分,然后根据类别分将所有片段向量分组, 作为第三级索引,即,类别索引。基于上述三级音频索引的检索方法,包括以下步骤
步骤1、对查询音频的特征向量序列进行降维获取其第一级索引值,将第一级索引数据按单元长度截成一系列片段向量,计算出查询音频的每个片段向量的模& #和类别分 H .
11 quer,
步骤2、在第三级索引中,将类别分为Δ . H胃+ Δ]:范围内的第二级索引作为
进一步搜索的集合Φ,S中Δ力范围阈值;
步骤3、在集合φ中,将第二级索引键值Ii满足条件^9y< -θ的片段
向量保留,并利用第二级索引确定所保留片段向量对应的第一级索引值#力检索阈值;
步骤4、在第一级索引中,将步骤3确定的片段向量的第一级索引值与步骤1获取的查 询音频的第一级索引值进行片段相似度匹配计算,将相似度高的音频片段检出。本发明的优点基于三级索引的音频检索方法具有索引尺寸小,内存开销低、检索 速度快等特点,是适合网络音频处理要求的高效检索方法。采用一种自相似加权累积距离法将音频特征向量量化,作为第一级索引,反应了 音频数据自身的变化情况,实现了对音频特征的降维量化处理,解决了“维数诅咒”的问题。在一级索引的基础上,通过设置分析窗将窗内的多个一级索引值构成一个多维向 量,即片段向量,将片段向量的模作为降维后的值并排序可作为第二级索引,既保存了音频 的时序信息,又解决了音频信息的非离散问题。
图1是本发明创建三级索引方法中的第一级和第二级索引生成示意图,图2是本发 明创建的三级音频索引结构示意图,图3是计算查询音频一级索引值和二级索引值的示意 图。
具体实施例方式具体实施方式
一下面结合图1说明三级音频索引创建方法的具体实施方式
,包 括以下步骤
步骤一、对数据库中每个音频特征文件中的/7维特征向量进行降维处理,生成一维的 量化值,作为第一级索引,即,帧级索引; 第一级索引的创建方法为
采用自相似加权距离法对音频特征向量序列的每个特征向量进行降维量化处理,对于 η维的帧特征向量无,对应的一维量化值ft值为
p = J] c -J(Uj),满足条件 Τ] cJ =1 ,
浮J — fefe·
其中-J为帧序号,为计算范围,且及—>0 , Ci为加权系数,d^li-j)表示两 个特征向量间的距离。
自相似累积距离反应了音频数据自身的变化情况,对于两段内容相似的音频数 据,其量化值(自相似累积距离数值)序列也必然存在较高的相似性。基于否定性判定的思 想,若两个音频段的量化值序列比较差距较大,则可确认二者彼此不相似。因此,可将一个 音频文件生成的自相似累积距离量化值作为索引,形成第一级索引——帧级索引。
步骤二、将第一级索引数据按单元长度截成一系列片段,片段内的第一级索引值 构成片段向量,计算每个片段向量的模先,作为索引键值,以三元组形式描述片段向量,将 所有片段三元组按键值排序则构成第二级索引,即,片段级索引;
三元组包括索引键值先、源文件id和片段向量在源文件中的位置i, 在音频样例检索中,通常截取一定长度的音频数据作为查询音频,即样例音频。在检索 时,可将不同长度的查询音频截成相同长度的若干片段,然后以片段为单位进行检索。而一段音频数据的第一级索引值,即量化数值序列又可看成一个向量,S卩,片段向 量。两段音频数据一级索引相似,即两个片段向量相似。音频片段间的相似性问题即转变 为片段向量间的相似问题。根据几何关系,两个向量模之差的绝对值不大于两个向量的欧 氏距离,因此可以通过比较两个向量模的差异,即可快速去除不符合查询要求的向量,加快 检索速度。将片段向量的模作为键值,使用三元组(索引键值先,源文件id,片段向量在源 文件中的位置i)描述片段向量,并按先数值排序,从而构成第二级索引——片段级索引。 索引创建过程如图1所示。计算每个片段向量的模先的方法为
将步骤一所述的一维的第一级索引按单元长度为m帧、窗移为1的分析窗截成一系 列片段向量,则从第i帧开始截取的长为m帧的音频片段的一级索引值构成的片段向量为
,凡,片段向量的模冬按如下公式计算
Jzρ2.,
其中,m为自然数。步骤三、计算步骤二所述的每个片段的类别分,然后根据类别分将所有片段向量 分组,作为第三级索引,即,类别索引。在样例检索中,检出结果和查询音频应属于相同的音频类别。充分利用类别信息 可缩小检索范围,类别不同的音频数据不可能相似,不做检索操作,从而可有效提高检索速度。但是考虑到一些音频数据的类别属性模糊,如多种类别声响的混合等,其次,网络 环境下,数据质量差异较大可能存在噪声。因此,明确的类别判断容易造成分类错误,从而 导致检索的查全率下降。因此,分类器要具有较好的鲁棒性。由于含音乐的音频数据类型在音频数据中占较高比例,因此系统采用基于和谐度 (Harmony)的音乐类音频模糊分类器。类别索引的创建方法为
步骤a、计算步骤二所述的片段向量的类别分, 1 按公式= ;Σ Ij -计算出每个片段向量的和谐度作为类别分,
其中,为第i+j帧信号的和谐度,获取方法参照%, ~为第i帧信号的和谐度,计算 公式如下<formula>formula see original document page 7</formula>
上述公式中,巧€[众1,, jr 为采样信号频谱,Im是采样信号频谱x 零均值化后的值,f是傅里叶变换阶数,JT1、爲是和谐度的考察频率范围,J/i、^则是对 应的频谱分量下标,7二_1/2 .
步骤b、根据类别分将所有片段向量分组,
使用哈希函数将类别分散列到具有不同键值的链表中,构成第三级索引,同时将每个 链表中的片段向量,按步骤二组织成一个按向量模排序的片段级索引,结合第一级索引便 构成三级索引结构。
具体实施方式
二 下面结合图1至图3说明基于实施方式一所述三级音频索引的 音频检索方法,包括以下步骤
步骤1、对查询音频的特征向量序列进行降维获取其第一级索引值,将第一级索引数据 按单元长度截成一系列无交叠的片段向量,计算出查询音频的每个片段向量的模和类<formula>formula see original document page 7</formula>
设查询音频的片段向量为.<formula>formula see original document page 7</formula>’对碎的向Μ:投为 一
<formula>formula see original document page 7</formula>
查询音频片段向量的类别分为 <formula>formula see original document page 7</formula>步骤2、在第三级索引中,将类别分为[ffg,.-Δ. if范围内的第二级索引作 为进一步搜索的集合Φ S中A力范围阈值;
步骤3、在集合φ中,将第二级索引键值Ii满足条件< k-巧^θ的片段 向量保留,并利用第二级索引确定所保留片段向量对应的第一级索引值#力检索阈值; 若集合·中片段向量艿1J豆的欧氏距离满足如下条件,,则可认为二者相似其中$力检索阈值。根据向量间的几何关系,两个向量模之差的绝对值不大于两个向量的欧式距离
<formula>formula see original document page 8</formula>由于‘野=丨_、t,
即沒玄欠一沒,
因此,根据上式的简单判断,就可将待查数据集合φ中一些不符合查询要求的片段向 量排除,进而缩小检索范围,加快检索速度。步骤4、在第一级索引中,将步骤3确定的片段向量的第一级索引值与步骤1获取 的查询音频的第一级索引值进行片段相似度匹配计算,将相似度高的音频片段检出
(1)若找到相似片段,根据需要可直接到对应的特征向量文件中读取对应片段的特征 向量数据,也在特征向量级别上进行检出确认;
(2)若确认该片段检出,则在特征向量文件中直接检索后继片段;
(3)根据查询音频各片段的检出情况,判别查询音频在数据库中的出现情况。为了提高检索速度,可将索引文件,包括第一级、第二级和第三级索引文件载入内 存。由于仅仅在需要确认检出的时候才用到特征向量文件,因此特征向量文件的访问次数 少,且数据量大,可存于硬盘,在需要时读文件即可。
权利要求
一种三级音频索引的创建方法,其特征在于,该方法包括以下步骤步骤一、对数据库中每个音频特征文件中的n维特征向量进行降维处理,生成一维的量化值,作为第一级索引;步骤二、将第一级索引数据按单元长度截成一系列片段,片段内的第一级索引值构成片段向量,计算每个片段向量的模ki,作为索引键值,以三元组形式描述片段向量,将所有片段三元组按键值排序则构成第二级索引;三元组包括索引键值ki、源文件id和片段向量在源文件中的位置i,步骤三、计算步骤二所述的每个片段的类别分,然后根据类别分将所有片段分组,作为第三级索引,即,类别索引。
2.根据权利要求1所述的一种三级音频索引的创建方法,其特征在于,步骤一所述的 第一级索引的创建方法为采用自相似加权距离法对音频特征向量序列的每个特征向量进行降维量化处理,对于n维的帧特征向量无,对应的一维量化值豹值为其中d为帧序号,为计算范围,且>0 , 为加权系数,表示两个特征向量间的距离。
3.根据权利要求1所述的一种三级音频索引的创建方法,其特征在于,步骤二中索引键值年的获取方法为将步骤一所述的一维的第一级索引按单元长度为m帧、窗移为1的分析窗截成一系列 片段,片段内的第一级索引值构成片段向量,则从第i帧开始截取的长为m帧的音频片段的一级索引值构成的片段向量为尸必只,凡^—….,IVffl_4),片段向量的模电按如下公式计算<formula>formula see original document page 2</formula>其中,m为自然数。
4.根据权利要求1所述的一种三级音频索引的创建方法,其特征在于,步骤三所述的 第三级索引的创建方法为步骤a、计算步骤二所述的片段向量的类别分, 1按公式现=.计算出每个片段向量的和谐度作为类别分,其中,‘J为第i+j帧信号的和谐度,获取方法参照h,h为第i帧信号的和谐度,计算 公式如下上述公式中,<formula>formula see original document page 3</formula>为采样信号频谱,Mi)是采样信号频谱X 零均值化后的值,f是傅里叶变换阶数、爲是和谐度的考察频率范围,J/l、//2则是对 应的频谱分量下标,7二_1/2 .步骤b、根据类别分将所有片段向量分组,使用哈希函数将类别分散列到具有不同键值的链表中,构成第三级索引,同时将每个 链表中的片段向量,按步骤二组织成一个按向量模排序的片段级索引,结合第一级索引便 构成三级索引结构。
5.基于权利要求1至4所述的一种三级音频索引的创建方法而实施的三级音频索引的 音频检索方法,其特征在于,该方法包括以下步骤步骤1、对查询音频的特征向量序列进行降维获取其第一级索引值,将第一级索引数据 按单元长度截成一系列无交叠的片段向量,计算出查询音频的每个片段向量的模和类 w风■;步骤2、在第三级索引中,将类别分为<formula>formula see original document page 3</formula>范围内的第二级索引作为进一步搜索的集合⑩,其中A为范围阈值;步骤3、在集合毋中,将第二级索引键值与满足条件沒S勾个0的片段向量保留,并利用第二级索引确定所保留片段向量对应的第一级索引值,#为检索阈值;步骤4、在第一级索引中,将步骤3确定的片段向量的第一级索引值与步骤1获取的查 询音频的第一级索引值进行片段相似度匹配计算,将相似度高的音频片段检出。
全文摘要
一种三级音频索引的创建方法及音频检索方法,属于多媒体领域,为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题。本发明创建一种三级索引结构对n维的音频特征向量降维,生成第一级索引;将第一级索引按单元长度截成一系列片段,计算其向量模,排序后作为第二级索引;计算片段的类别分,分组后作为第三级索引。基于三级索引的检索方法为首先,计算出查询音频的一级索引值、片段向量模和类别分,然后依次利用第三级和第二级索引缩小查询范围,最后利用第一级索引计算查询音频与索引音频片段的相似度,将满足检出阈值的数据作为结果返回。
文档编号G11B27/10GK101833986SQ201010177959
公开日2010年9月15日 申请日期2010年5月20日 优先权日2010年5月20日
发明者丁丽, 唐健琪, 姜涛, 张慧, 狄少嘉, 王勇, 郑贵滨, 郑铁然, 韩纪庆 申请人:哈尔滨工业大学;国家计算机网络与信息安全管理中心