基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置

文档序号:31996673发布日期:2022-11-02 08:16阅读:176来源:国知局
基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置

1.本发明属于数字音频篡改检测技术领域,特别指一种基于电网频率深浅层特征融合 的数字音频篡改被动检测方法。


背景技术:

2.随着数字音频技术的飞速进步,人们能够很方便地采集到数字音频信号,但同时也 可利用许多音频处理软件轻易地对其进行后期编辑与修改。若将这种有意或无意篡改的 数字音频应用到司法取证等重要场合,将很有可能引发一些不良的社会问题,因此,对数 字音频篡改检测的研究有着非常重要的意义。
3.数字音频篡改被动检测是无需添加任何信息,仅靠音频自身特征来对数字音频的真 实性和完整性进行分析判别的技术,对于复杂的取证环境具有现实意义。当录音设备采 用电网供电时,录制的音频文件中残留有电网频率(electirc network frequency,enf)信 号。当数字音频被篡改时这种enf信号也会随着篡改操作发生变化,于是利用enf信 号的唯一性与稳定性进行音频篡改被动检测有了两种研究思路,第一是将音频中提取出 的enf信号与供电部门的enf数据库进行对比,这种方法实现难度高,代价大;第二 是提取enf信号中的某些特征,进行一致性与规律性分析。目前利用enf信号进行音 频篡改取证的研究方法主要是利用传统机器学习方法对enf信号的相位变化、相位的 不连续性、瞬时频率突变等特征进行分类,从而达到篡改检测的目的,。
4.目前存在的数字音频检测方法中,大多是对相应特征设置阈值门限进行检测或采用 机器学习方法进行分类。这些方法往往存在经验成分过多或是对于某一种篡改方法针对 性太强和识别率不够的问题。
5.近年来,随着机器学习算法性能的提升和计算机存储、计算能力的提高,深度神经 网络(deep neural network,dnn)被应用到音频篡改检测领域中。在深度神经网络中 可以dnn深层次的非线性变换更好的拟合音频篡改的特征,实现自动学习与检测,具 有识别率高的优点。因此,本发明采用深度学习方法对电网频率深浅层特征进行训练, 利用较少的计算量充分学习其中的隐含信息,然后使用注意力机制attention的方法自动 学习深浅层特征的信息的权重,确定其中对数字音频篡改检测有用的信息,减小冗杂信 息,提升数字音频篡改检测系统的性能。


技术实现要素:

6.本发明的上述技术问题主要是通过下述技术方案得以解决的:
7.一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,其特征在于,包 括
8.对待检测音频数据进行处理得到电网频率(enf)成分,并基于dft1变换对enf 成分处理得到enf相位和并基于hilbert变换提取电网频率(enf)成分的 瞬时频率fhil

9.提取enf相位和频率f
hil
的变化的平均值特征作为浅层特征 f
123
=[f1,f2,f3];通过待检测最长时长音频确定帧数与帧长并对enf相位和f
hil
进 行分帧处理获取相位特征矩阵pn×n和频率特征矩阵fm×m;进行曲线拟合获取拟合系数p
coe
,f
coe

[0010]
利用神经网络从特征矩阵中获取enf的局部细节信息,从拟合系数中获取电网频 率全局信息补偿,局部信息和全局信息补偿共同构成深层特征,对深浅层特征进行融合 后拟合分类。
[0011]
在上述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,对原始 语音信号进行处理得到电网频率(enf)成分,具体包括:
[0012]
下采样将信号重采样频率定为1000hz或者1200hz;
[0013]
使用10000阶的线性零相位fir滤波器进行窄带滤波,中心频率在enf标准处, 带宽为0.6hz,通带波纹0.5db,阻带衰减为100db。
[0014]
在上述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,获取 enf相位包括:
[0015]
步骤2.1、计算enf信号x
enfc
[n]在点n处的近似一阶导数
[0016]
x

enfc
[n]=fd(x
enfc
[n]-x
enfc
[n-1])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0017]
其中fd(*)表示近似求导操作,x
enfc
[n]表示enf成分第n个点的值;
[0018]
步骤2.2、对x
enfc
[n]和x

enfc
[n]进行分帧加窗,帧长为10个标准enf频率周期 帧移为1个标准enf频率周期用汉宁窗w(n)对x
enfc
[n]和x

enfc
[n] 进行加窗
[0019]
xn[n]=x
enf
[n]w(n)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0020]
x
′n[n]=x

enfc
[n]w(n)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0021]
其中汉宁窗l为窗长;
[0022]
步骤2.3、每帧信号xn[n]和x
′n[n]分别执行n点离散傅里叶变换(dft)得到x(k)、 x

(k);
[0023]
步骤2.4、令k
peak
为|x(k)|的峰值的索引;k
peak
用于求解
[0024]
步骤2.5、由enf信号的估计频率f
dft
,可以求出enf相位特征 [0025][0026]
步骤2.6、再估算dft1变换的enf相位重新令k
peak
为|x

(k)|的峰值的索 引;并将|x

(k)|乘一个尺度系数f(k)
[0027]
[0028]
得到dft0[k]=x(k),dft1[k]=f(k)|x

(k)|;因此估计频率值为
[0029][0030]
步骤2.7、k
peak
应是最接近的整数(fd为重采样频率),这样才是 一个合理的频率值;可将表示为
[0031][0032]
其中对于θ的值,由x

(k)进行线性插值求得,令 floor[a]表示小于a的最大整数,ceil[b]表示大 于b的最小整数;
[0033]
由于因此在(k
low

low
)=arg[x

(k
low
)]和
[0034]
(k
high

high
)=arg[x

(k
high
)]进行线性插值可以逼近点求出的 值与上式中的θ的值保持一致;
[0035][0036]
步骤2.8、用以上方法求出的具有两个可能的值,因此使用作为参考, 选择中最接近的值作为最终的
[0037]
步骤2.9、提取基于hilbert变换的enf瞬时频率f
hil
,对滤波后的enf成分进行离 散hilbert变换;求解x
enf
[n]的解析函数
[0038]
x
enfc
[n]=x
enfc
[n]+i*h{x
enfc
[n]}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0039]
其中h代表hilbert变换;瞬时频率f[n]是h{x
enfc
[n]}相角的变化率;
[0040]
步骤2.10、估计enf成分的损失频率f[n];瞬时频率f[n]是h{x
enfc
[n]}相角的 变化率;
[0041]
步骤2.11、用五阶椭圆iir滤波器对得到的f[n]进行低通滤波,去除由于hilebrt 变换过程中的数值逼近而产生的震荡;滤波器中心频率为enf标称频率,带宽为20hz, 通带波纹和阻带衰减为0.5hz和64hz;
[0042]
步骤2.12、去除f[n]头尾各2000个采样点;减少频率估计的边界效应影响;
[0043]
步骤2.13、得到最终的瞬时频率估计f
hil

[0044]
在上述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,步骤3 中,计算浅层特征的具体方法包括:
[0045]
步骤3.1、将上文估算出的相位与瞬时频率f
hil
代入下式中得到反映enf 相位与瞬时频率突变的统计特征f
123
=[f1,f2,f3];
[0046][0047]
其中2≤nb≤n
block
,为相应第nb帧的估计相位,表示 从nb=2到n
block
的平均值;len=length(x
enfc
[n]),f

(n)=f(n)-f(n-1),f(n)为 第n个采样点的瞬时频率,mf′
表示f

(n)从n=2到len的平均值。
[0048]
在上述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,步骤4 中,获取相位特征矩阵pn×n、频率特征矩阵fm×m、拟合系数p
coe
,f
coe
的具体方法包括:
[0049]
步骤4.1、获取待检测音频数据中的最长时长音频数据;
[0050]
步骤4.2、对最长时长音频,dft和hilbert变换获取相位和瞬时频率f
hil

[0051]
步骤4.3、计算出最长的相位和频率长度len(f
hil
);
[0052]
步骤4.4、计算帧长(m和n),其中len(f
hil
),其中 m为频率特征矩阵帧长,n为相位特征矩阵帧长;
[0053]
步骤4.5、计算出所有音频数据的相位和瞬时频率f
hil

[0054]
步骤4.6、计算帧移并分帧;帧移为
[0055][0056]
步骤4.7、将分帧后的相位和频率进行reshape,得到特征矩阵fm×m,pn×n;
[0057]
步骤4.8、利用matlab中的拟合工具箱中sum of sines函数对相位与频率进行拟 合,sum of sines函数个数为6个,得到相位频率拟合系数特征 p
coe
,f
coe
=[a1,b1,c1,

,ai,bi,ci](0<i≤6);sum of sines函数如下
[0058][0059]
在上述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,步骤5 中,网络模型部分包括:
[0060]
步骤5.1、通过相位特征矩阵pn×n获取相位深层特征细节信息;用两个卷积块对相位 特征矩阵pn×n进行特征提取,每个卷积块由两个相同的卷积层与一层池化层组成(两个 卷积块的卷积核个数为32,64;卷积核大小为3
×
3,步长为1;maxpooling层poolsize 为3);最后一个池化层输出相位细节信息,并进行flatten操作;
[0061]
步骤5.2、通过相位拟合系数p
coe
获取相位深层特征全局信息;用两层全连接层拟合 相位拟合系数,每层神经元个数为32,激活函数为relu;
[0062]
步骤5.3、将相位全局信息和局部信息concat,获取相位深层特征;
[0063]
步骤5.4、通过频率特征矩阵fm×m获取频率深层特征细节信息;用三个卷积块对相 位特征矩阵fm×m进行特征提取,每个卷积块由两个相同的卷积层与一层池化层组成(三 个
卷积块的卷积核个数为32,64,128;卷积核大小为3
×
3,步长为1;maxpooling层poolsize 为3);最后一个池化层输出相位细节信息,并进行flatten操作;
[0064]
步骤5.5、通过频率拟合系数f
coe
获取频率深层特征全局信息;用两层全连接层拟合 相位拟合系数,每层神经元个数为32,激活函数为relu;
[0065]
步骤5.6、将频率全局信息和局部信息concat,获取频率深层特征;
[0066]
步骤5.7、使用注意力机制对相位深层特征、频率深层特征和浅层特征进行融合; 将深层相位特征、深层频率特征和浅层特征进行拼接得到长度为l的特征量;
[0067]
步骤5.8将长度为l的特征量输入两层全连接层,其激活函数分别问relu和sigmoid, relu激活函数可以增强网络的非线性,并通过sigmoid激活函数来得到每个特征的权重; 最后将得到的权重与拼接后的长度为l的特征量特征进行相乘,实现特征选择;
[0068]
步骤5.9、将特征融合后的特征进行拟合并分类;采用两个全连接层对特征充分拟 合(神经元数量分别为1024、256,激活函数为relu);在两个全连接层之间添加dropout 层(dropout rate=0.2),以防止过拟合;最后,通过全连接层(神经元数量为2,激活函数 为softmax)作为输出层;
[0069]
步骤5.10、最后输出层得到的概率可得出待测语音是否被篡改,计算所有测试语音 正确识别是否被篡改的概率,即系统的识别率。
[0070]
一种基于电网频率深浅层特征融合的数字音频篡改被动检测装置,其特征在于,包 括
[0071]
第一模块:对待检测音频数据进行处理得到电网频率(enf)成分,并基于dft1变 换对enf成分处理得到enf相位和并基于hilbert变换提取电网频率(enf) 成分的瞬时频率f
hil

[0072]
第二模块:提取enf相位和频率f
hil
的变化的平均值特征作为浅层特 征f
123
=[f1,f2,f3],并对enf相位和f
hil
进行分帧处理获取相位特征矩阵pn×n和频 率特征矩阵fm×m;进行曲线拟合获取拟合系数p
coe
,f
coe

[0073]
第三模块:利用神经网络从特征矩阵中获取enf的局部细节信息,从拟合系数中 获取电网频率全局信息补偿,局部信息和全局信息补偿共同构成深层特征,对深浅层特 征进行融合后拟合分类。
[0074]
因此,本发明具有如下优点:与传统数字音频篡改检测相比,本法发明提出对enf 深浅层特征采用深度学习方法与注意力机制attention来进行分类。针对传统方法特征 表达不够,存在较多信息损失且模型泛化能力较弱的问题,利用卷积神经网络(cnn) 从特征矩阵中获取enf的局部细节信息,利用深度神经网络(dnn)从拟合系数中获 取电网频率全局信息补偿,局部信息和全局信息补偿共同构成深层特征。注意力机制从 深浅层特征中筛选出重要信息,减小输入数据的运算负担。本发明的数字音频篡改检测 方法与传统数字音频篡改检测方法相比能够有效提升系统的识别性能提高了模型泛化 能力,优化了系统结构,提高了相应设备源识别产品的竞争力。
附图说明
[0075]
图1是本发明的方法流程示意图。
[0076]
图2是神经网络结构图。
具体实施方式
[0077]
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
[0078]
实施例:
[0079]
本发明种基于卷积神经网络的数字音频篡改被动检测方法,本发明的算法流程图如 图1所示,可以分为四部分:1)enf成分获取;2)enf相位与频率特征提取;3)浅 层特征获取;4)深层特征的输入特征矩阵和拟合系数获取;5)神经网络训练。
[0080]
步骤一:enf成分获取,步骤如下:
[0081]
a、将音频进行下采样,重采样频率定为1000hz或者1200hz;
[0082]
b、使用10000阶的线性零相位fir滤波器进行窄带滤波,中心频率在enf标准(50hz或60hz)处,带宽为0.6hz,通带波纹0.5db,阻带衰减为100db;
[0083]
步骤二:enf相位与频率特征提取,步骤如下:
[0084]
a、求信号一阶导数、分帧加窗、离散傅里叶变换、线性插值估算相位、计算相位 波动特征:
[0085]
(a-1)计算enf信号x
enfc
[n]在点n处的近似一阶导数
[0086]
x

enfc
[n]=fd(x
enfc
[n]-x
enfc
[n-1])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0087]
其中fd(*)表示近似求导操作,x
enfc
[n]表示enf成分第n个点的值。
[0088]
(a-2)对x
enfc
[n]和x

enfc
[n]进行分帧加窗,帧长为10个标准enf频率周期 帧移为1个标准enf频率周期用汉宁窗w(n)对x
enfc
[n]和x

enfc
[n] 进行加窗
[0089]
xn[n]=x
enf
[n]w(n)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0090]
x
′n[n]=x

enfc
[n]w(n)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0091]
其中汉宁窗l为窗长。
[0092]
(a-3)每帧信号xn[n]和x
′n[n]分别执行n点离散傅里叶变换(dft)得到x(k)、 x

(k)。
[0093]
(a-4)令k
peak
为|x(k)|的峰值的索引。k
peak
用于求解
[0094]
(a-5)由enf信号的估计频率f
dft
,可以求出enf相位特征
[0095][0096]
(a-6)再估算dft1变换的enf相位重新令k
peak
为|x

(k)|的峰值的索引。 并将|x

(k)|乘一个尺度系数f(k)
与瞬时频率突变的统计特征f
123
=[f1,f2,f3]。
[0116][0117]
其中2≤nb≤n
block
,为相应第nb帧的估计相位,表示从nb=2到n
block
的平均值。len=length(x
enfc
[n]),f

(n)=f(n)-f(n-1),f(n)为第n个采样点的瞬时频率,mf′
表示f

(n)从n=2到len的平均值。
[0118]
步骤四:深层特征的输入特征矩阵和拟合系数获取。
[0119]
a、获取相位特征矩阵pn×n、频率特征矩阵fm×m。
[0120]
(a-1)获取待检测音频数据中的最长时长音频数据。
[0121]
(a-2)对最长时长音频,dft和hilbert变换获取相位和瞬时频率f
hil

[0122]
(a-3)计算出最长的相位和频率长度len(f
hil
)。
[0123]
(a-4)计算帧长(m和n),其中len(f
hil
),其中m为频率特征矩阵帧长,n为相位特征矩阵帧长;
[0124]
(a-5)计算出所有音频数据的相位和瞬时频率f
hil

[0125]
(a-6)计算帧移并分帧。帧移为
[0126][0127]
(a-7)将分帧后的相位和频率进行reshape,得到特征矩阵fm×m,pn×n。
[0128]
b、拟合系数p
coe
,f
coe
获取。
[0129]
利用matlab中的拟合工具箱中sumofsines函数对相位与频率进行拟合,sumofsines函数个数为6个,得到相位频率拟合系数特征p
coe
,f
coe
=[a1,b1,c1,

,ai,bi,ci](0<i≤6)。sumofsines函数如下
[0130][0131]
步骤五:网络模型,步骤如下:
[0132]
a、通过相位深层特征。
[0133]
(a-1)通过相位特征矩阵pn×n获取相位深层特征细节信息。用两个卷积块对相位特征矩阵pn×n进行特征提取,每个卷积块由两个相同的卷积层与一层池化层组成(两个卷积块的卷积核个数为32,64。卷积核大小为3
×
3,步长为1。maxpooling层poolsize为3)。最后一个池化层输出相位细节信息,并进行flatten操作。
[0134]
(a-2)通过相位拟合系数p
coe
获取相位深层特征全局信息。用两层全连接层拟合相位拟合系数,每层神经元个数为32,激活函数为relu。
[0135]
(a-3)将相位全局信息和局部信息concat,获取相位深层特征。
[0136]
b、通过频率深层特征。
[0137]
(b-1)通过频率特征矩阵fm×m获取频率深层特征细节信息。用三个卷积块对相位 特征矩阵fm×m进行特征提取,每个卷积块由两个相同的卷积层与一层池化层组成(三个 卷积块的卷积核个数为32,64,128。卷积核大小为3
×
3,步长为1。maxpooling层poolsize 为3)。最后一个池化层输出相位细节信息,并进行flatten操作。
[0138]
(b-2)通过频率拟合系数f
coe
获取频率深层特征全局信息。用两层全连接层拟合相 位拟合系数,每层神经元个数为32,激活函数为relu。
[0139]
(b-3)将频率全局信息和局部信息concat,获取频率深层特征。
[0140]
c、采用注意力机制对深浅层特征融合。
[0141]
(c-1)使用注意力机制对相位深层特征、频率深层特征和浅层特征进行融合。将 深层相位特征、深层频率特征和浅层特征进行拼接得到长度为l的特征量。
[0142]
(c-2)将长度为l的特征量输入两层全连接层,其激活函数分别问relu和sigmoid, relu激活函数可以增强网络的非线性,并通过sigmoid激活函数来得到每个特征的权重。 最后将得到的权重与拼接后的长度为l的特征量特征进行相乘,实现特征选择。
[0143]
d、决策分类。
[0144]
(d-1)将特征融合后的特征进行拟合并分类。采用两个全连接层对特征充分拟合 (神经元数量分别为1024、256,激活函数为relu)。在两个全连接层之间添加dropout 层(dropout rate=0.2),以防止过拟合。最后,通过全连接层(神经元数量为2,激活函数 为softmax)作为输出层。
[0145]
(d-2)最后输出层得到的概率可得出待测语音是否被篡改,计算所有测试语音正 确识别是否被篡改的概率,即系统的识别率。
[0146]
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域 的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替 代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1