基于硬件特性的非线性注入攻击检测方法与装置

文档序号:33643876发布日期:2023-03-29 02:55阅读:76来源:国知局
基于硬件特性的非线性注入攻击检测方法与装置

1.本发明属于语音助手安全领域,尤其是涉及一种基于硬件特性的非线性注入攻击检测方法与装置。


背景技术:

2.个人语音助手广泛部署于各种智能设备中,如手机、智能音箱、智能家居等。随着智能设备的普及,越来越多的用户开始使用语音助手。个人语音助手在为用户带来便捷的同时也带来了新的风险。guoming zhang等在《dolphinattack:inaudible voice commands》中提出了一种利用超声波向语音助手注入恶意指令的攻击方式。该攻击方式利用了智能设备录音模块的非线性,通过调制超声波信号使其在录音过程中产生恶意指令对应的人声频段信号,称为非线性注入攻击。非线性注入攻击可在用户不知情的情况下(人耳无法感知超声波)向语音助手注入诸如打开车库门、发送短信等恶意指令,给用户带来了巨大的安全风险。
3.最近,研究者提出了针对非线性注入攻击的若干检测防御工作。如nirupam roy等在《inaudible voice commands:the long-range attack and defense》中提出检测非线性注入带来的音频特征的防御机制。超声波注入过程中会产生幅度谱正向偏高、50hz以下低频能量过高且与语音信号时域相关的异常特征,该方法通过检测上述特征来判断一段音频是否由超声波非线性注入。该方法对传统非线性注入攻击实现了很高的检测准确率,但是后续研究表明,攻击者可以通过针对性设计调制超声波信号来避免上述音频特征的产生,从而规避检测。
4.yitao he等在《canceling inaudible voice commands against voice control systems》中利用额外的超声波探头进行辅助检测。这些超声波探头部署在智能设备附近,持续播放特定频率的超声波信号,当攻击者进行非线性注入攻击时,超声波不仅会在录音模块中产生攻击者设计的恶意指令,还会与防御超声波信号结合产生与恶意指令相关的音频信号。防御系统通过检测一段语音信号中是否存在特定相关信号来检测非线性注入攻击。该防御方法无法被攻击者规避,但其需部署额外硬件持续播放超声波,降低了该方法的便携性与实用性,且会给用户带来健康威胁。
5.guoming zhang等在《eararray:defending against dolphinattack via acoustic attenuation》中提出了一种可在多麦克风设备上检测非线性注入攻击的防御方法。由于超声波在空气中能量衰减速度明显快于常规音频,该方法通过对比不同麦克风接收到音频能量来检测非线性注入攻击。若不同麦克风接收信号能量差距大于设定阈值,则该音频为非线性攻击注入。该方法只适用于多麦克风系统,且攻击者可以通过设计超声波探头位置使得超声波到达各麦克风衰减程度相同从而规避检测。


技术实现要素:

6.本发明提供了一种基于硬件特性的非线性注入攻击检测方法与装置,可以为语音
助手用户提供普适、便捷、无法被规避的非线性注入检测方案。
7.一种基于硬件特性的非线性注入攻击检测方法,包括以下步骤:
8.(1)对采集的待测音频做语音活动检测,并将待测音频按语音部分进行切分,剔除无语音部分后得到多个语音片段;
9.(2)对于每一个语音片段,同时进行欠采样音频检测与异常白噪声检测;若存在与常规语音部分相似的欠采样音频和/或存在与语音能量高度相关的近似白噪声,则判定该语音片段由非线性注入,并对用户发出警告。
10.本发明中,所述的非线性注入攻击检测方法可以直接部署在智能设备上,在不改变硬件基础的情况下对非线性注入攻击进行检测。
11.进一步地,步骤(2)中,进行欠采样音频检测的具体过程为:
12.(2-1)对语音片段做短时傅里叶变化stft,提取音频信号的时频谱;
13.(2-2)按能量定位时频谱中的单频信号,并遍历这些单频信号;
14.(2-3)对于每一个单频信号,选取其附近以可调参数b为带宽的频带信号,对于单频下方信号做翻转处理;并分别与0hz起点的语音信号做相似性计算;
15.若上下两侧信号中有一侧相似度高于阈值,则判定该音频由非线性注入;若所有单频附近信号均低于阈值,则该音频为常规音频。
16.其中,可调参数b的数值优选为2k~4k。
17.步骤(2)中,进行异常白噪声检测的具体过程为:
18.(2-1’)对语音片段做短时傅里叶变化stft,提取音频信号的时频谱;
19.(2-2’)选取语音部分能量变化剧烈的时间点,分别计算每个时间点语音部分能量以及高频部分能量,并分别组成能量矩阵;
20.(2-3’)计算两个能量矩阵间的相似度,若高于阈值,则该部分音频为非线性注入,否则为常规音频。
21.进一步地,步骤(2-2’)中,语音部分指的是0hz到chz部分,c为可调参数;高频部分指的是dhz到24khz部分,d为可调参数。
22.其中,可调参数c的数值优选为2k~4k,可调参数d的数值优选为16k~18k。
23.本发明还提供了一种基于硬件特性的非线性注入攻击检测装置,包括arduino uno开发板以及与arduino uno开发板连接的麦克风模块和存储卡模块;检测过程中,arduino uno开发板通过编程控制麦克风模块的录音采样率,分别用不同的采样率对待测音频进行录音;然后比较时频谱上音频所处频段,若两种采样率下录制音频所处频段一致,则为常规音频,否则为非线性注入。
24.本发明的检测装置通过软硬件结合的方式,可以部署于智能设备附近独立完成检测工作。
25.与现有技术相比,本发明具有以下有益效果:
26.本发明设计了一种可以部署于待保护的智能设备中的非线性注入攻击检测方法以及一种可以部署于智能设备附近的非线性注入攻击检测装置,这两部分均可独立完成检测工作,可以实现便捷、普适、无法规避的非线性注入攻击检测。便捷:纯软件的检测方法可快速部署到现有设备上,而软硬件结合的检测装置结构简单、易于部署;普适:两套检测方案可涵盖所有智能设备;无法规避:检测所依赖的硬件特性攻击者无法改变,也无法通过调
制攻击信号进行规避。
附图说明
27.图1为常规录音模块的结构及非线性注入攻击过程示意图;
28.图2为非线性注入攻击过程中常规录音模块各部件得到的信号图;
29.图3为欠采样后的音频示意图;
30.图4为非线性注入时的近似白噪声示意图;
31.图5为本发明非线性注入攻击检测方法和检测装置的系统框图;
32.图6为本发明非线性注入攻击检测装置的模型图;
33.图7为利用本发明的检测装置利用不同采样率录制超声波语音指令和常规语音指令的时频谱;
34.图8为本发明检测方法对6台智能手机进行攻击检测的结果图;
35.图9为本发明检测方法在不同攻击距离、不同载波频率以及不同环境噪声下的检测效果图。
具体实施方式
36.下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
37.非线性注入攻击的出现给语音助手用户带来了巨大的安全隐患,而现存的防御检测方法存在可被规避、适用场景受限、危害用户健康等缺陷。本方面旨在为语音助手用户提供普适、便捷、无法被规避的非线性注入检测方案。
38.本发明基于非线性注入过程中录音设备的硬件特性设计了检测方案。
39.非线性注入攻击的核心原理在于利用录音设备的非线性,将超声波转化为正常频段的音频。常规录音模块包括麦克风(mic)、放大器(amplifier)、低通滤波器(lpf)与模数转化器(adc),如图1所示。人耳无法感知到超过20khz的音频,且随着年龄的增长,这个阈值会进一步下降。因此,常规录音模块中部署了一个低通滤波器,将20khz以上人耳不可听的信号滤除以提高录音质量。
40.然而,研究表明录音模块中各个模块在传递23khz以上的信号时存在一定的非线性,其中放大器最为明显。具体来说,当一个音频信号x(t)经过放大器,该信号转变为y
amp
(t)=a1x(t)+a2x(t)2,其中a1为放大器放大系数,a2为非线性系数。利用这一特性,攻击者可以设计超声波信号:
41.sig
attack
=(1+m(t))cos(ωct)
42.其中,m(t)为常规音频信号,即攻击者希望语音助手接收到的恶意指令;cos(ωct)为超声波载波信号,其频率为ωc,为大于23k的数值,例如40k。
43.经过放大器后,攻击信号变为:
[0044][0045]
低通滤波器将含有ωc与2ωc的高频成分滤除后,攻击信号变为:
[0046][0047]
此时,攻击信号中已经包含m(t),即攻击者成功将恶意指令注入到录音系统中。非线性注入攻击过程可见图1。
[0048]
以上为非线性注入理论攻击情况,在实际实验中发现,录音模块各部件存在一些缺陷,在非线性注入攻击过程中会留下无法消除的痕迹。
[0049]
首先,部分设备的低通滤波器存在缺陷,无法完美滤除高频信号,此时经过模数转化器得到的信号除了恶意指令外还包含了高频欠采样到低频的信号,如图2所示。
[0050]
模数转化器的作用是将连续的模拟电信号按一定的采样率转化为数字信号,而根据采样定理,采样得到信号的最高频率为采样频率的一半,目前搭载语音助手的智能设备(以智能手机为例)常用录音采样率为48khz,故低通滤波器未能滤除的高频信号将被欠采样到24khz以下。举例来说,攻击者将恶意指令调制到40khz,并向目标手机(低通滤波器存在缺陷)播放,目标手机除了接收到0hz起始的常规语音外,还将接收到8khz起始的音频信号,且该信号与0hz起始的常规语音高度相似,以及8khz的单频信号(超声波载波信号欠采样产生),如图3所示,矩形框部分即为欠采样后音频。
[0051]
其次,由于非线性效应中二次项系数a2数值较小,攻击者需要增大超声波的能量以实现较好的攻击效果。由于录音模块的硬件缺陷,大部分智能设备(以智能手机为例)在接收高能量超声波时会产生全频段的噪声,该噪声在频谱上近似于白噪声,且能量与超声波能量高度相关。如图4所示,非线性注入时该近似白噪声的能量与注入语音能量高度相关。
[0052]
基于以上发现,本发明设计了一套非线性注入攻击检测方案,系统框图如图5所示。检测方案包含纯软件的检测方法以及软硬件结合检测装置两部分,此两部分均可独立完成检测工作。
[0053]
纯软件检测方法可被部署于现有智能设备上,在不改变硬件基础的情况下对非线性注入攻击进行检测。该方法通过检测是否存在与常规语音部分相似的欠采样音频以及是否存在与语音能量高度相关的近似白噪声来检测非线性注入攻击。
[0054]
具体来说,该检测方法首先对待测音频做语音活动检测(vad)并将音频按语音部分切分,剔除无语音部分。对于每一个语音分段,该方法同时进行欠采样音频检测与异常白噪声检测,若有一项检测异常,则判定该部分语音由非线性注入,并对用户发出警告。
[0055]
其中,欠采样音频检测算法如下:
[0056][0057]
首先,对时域音频信号做短时傅里叶变化(stft),提取音频信号的时频谱;其次按能量定位时频谱中的单频信号,并遍历这些单频信号;对于每一个单频信号,检测算法选取其附近以b(可调参数)为带宽的频带信号(其中单频下方信号需做翻转处理),并分别与0hz起点的语音信号做相似性计算,若上下两侧信号中有一侧相似度高于阈值,则判定该音频由非线性注入;若所有单频附近信号均低于阈值,则该音频为常规音频。
[0058]
异常白噪声检测算法如下:
[0059][0060]
首先,对时域音频信号做短时傅里叶变化(stft),提取音频信号的时频谱;其次选取语音部分能量变化剧烈的时间点,分别计算每个时间点语音部分(即0hz到chz部分,c为可调参数)能量以及高频部分(即dhz到24khz部分,d为可调参数)能量,并组成能量矩阵;计算两个矩阵间的相似度,若高于阈值,则该部分音频为非线性注入,否则为常规音频。其中,由于日常生活中高频背景噪声较为稳定,选取高频部分进行计算准确率更高。
[0061]
软硬件结合检测装置基于欠采样原理进行设计,利用可变采样率的录音模块进行非线性注入攻击检测。本发明采用arduino uno开发板与相应的麦克风模块、存储卡模块构建了检测模块原型,如图6所示。arduino uno开发板可以通过编程实现可变的录音采样率。
检测时分别用不同的采样率进行录音(例如14khz与15khz),然后比较时频谱上音频所处频段,若两种采样率下录制音频所处频段一致,则为常规音频,否则为非线性注入,如图7所示。
[0062]
为验证本发明固定效果,设计了大规模的评估实验来验证纯软件检测方法的有效性。本发明利用6台智能手机作为被攻击目标展开实验,分别对其进行非线性注入攻击与播放常规音频(各195条),并将录制音频送入检测算法进行检测,总体结果如图8所示,图中,(a)为总体检测准确率,(b)为总体真阳/真阴率,(c)为总体roc曲线。
[0063]
同时,还测试了检测方法在不同攻击距离、不同载波频率以及不同环境噪声下的检测效果,如图9所示,其中,(a)表示距离影响,(b)表示载波频率影响,(c)表示环境噪声影响。实验结果表明该检测算法具有接近100%的检测准确率,且在不同的干扰下具备较强的鲁棒性。
[0064]
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1