对移动设备或可穿戴设备进行开放或封闭空间环境分类的制作方法

文档序号:21469633发布日期:2020-07-14 16:54阅读:329来源:国知局
对移动设备或可穿戴设备进行开放或封闭空间环境分类的制作方法

本公开总体上涉及一种用于移动设备或可穿戴设备的开放或封闭空间环境分类的方法,并且特别地,本公开涉及一种用于使用被动记录的声音进行分类的方法。



背景技术:

诸如移动电话、可穿戴设备或个人数字助理的现代消费电子设备通常配备有内置高保真数字麦克风或麦克风阵列,其输入声音以用于通信或语音指令。消费电子设备通常配备有具有执行复杂计算能力的处理器。这允许使用该设备对使用麦克风或麦克风阵列数字记录的声音执行计算密集型操作,并且从声音记录中收集信息。



技术实现要素:

提供一种用于对设备附近的空间的开放空间环境或封闭空间环境进行分类的方法和设备。设备可以是移动设备或可穿戴设备等。设备使用麦克风或麦克风的阵列得到环境中的声音信号,而无需通过扬声器主动发送任何已知信号。设备从存在于空间环境中的、被动记录的周围环境声音估计空间环境冲激响应(seir),从而放弃主动音频传输。

设备从seir提取特征。设备利用附加特征(诸如声音信号的梅尔频率倒频谱系数(mfcc)、deltamfcc和双deltamfcc)来增强从seir提取的特征。数字化麦克风信号的不同帧大小被使用以用于提取从seir得到的特征以及mfcc、deltamfcc和双deltamfcc特征。设备联接该些特征,并且将该些特征提供给模式分类器(例如,深度学习分类器),以将空间环境分类为开放或封闭。

附图说明

图1示出了用于对空间环境进行分类的设备的框图。

图2示出了用于空间环境分类的方法的流程图。

图3示出了针对开放空间的空间环境冲激响应(seir)包络的一个示例和针对封闭空间的一个示例seir包络。

图4图示了针对封闭空间的seir包络的细节。

图5示出了一种使用空间环境中存在的周围环境声音对开放空间环境和封闭空间环境进行seir估计和特征提取的技术。

图6示出了用于从空间环境的周围环境声音估计seir的方法的流程图。

图7示出了用于通过增强从信号窗口得到的特征矢量来生成复合特征矢量的方法的流程图。

图8a和图8b示出了用于联接不同维度的特征矢量以形成复合特征矢量的方法的流程图。

图9示出了dnn分类器的测试准确度的一个示例。

具体实施方式

本文提供的是用于在没有来自用户的明确输入的情况下,将设备周围的空间环境标识为开放或封闭的技术。移动设备或可穿戴设备的空间环境的准确分类是针对各种上下文感知应用的有用上下文输入。

已经尝试利用各种其他传感器(诸如,全球定位系统(gps)、室内定位系统(ips)、wi-fi、射频(rf)测距、移动网络、无线电访问网络(ran)、摄像头、扬声器和麦克风等)对移动设备或可穿戴设备的用户的开放空间环境或封闭空间环境进行分类。但是,这些技术具有其相关联的局限性。例如,wi-fi基础设施和移动网络的可用性不是通用的,并且由于基于位置和信号强度的检测的准确度,gps信号可能具有模糊性。另外,ips、wi-fi和基于ran的分类需要单独的硬件。

使用相机对空间环境进行分类取决于周围的照明,增加功率使用,并且可能引起隐私问题。另外,使用主动测试信号的空间环境分类依赖于由环境中的对象反射的主动发射的信号的回声,这在环境中引入噪声。

为了对设备的空间环境进行分类,使用由麦克风或麦克风的阵列接收的周围环境声音信号来估计空间环境冲激响应(seir),而无需显式输出已知的测试信号。设备从seir提取新颖的特征。设备可以利用其他特征(诸如来自麦克风信号的梅尔频率倒频谱系数(mfcc)、deltamfcc和双deltamfcc)来增强seir的特征。特征被输入到模式分类器(诸如,深度学习架构)中,以用于将空间环境分类为开放或封闭。

图1示出了用于对空间环境进行分类的设备100的框图。设备100可以是移动设备或可穿戴设备等。设备100可以是智能电话、智能手表、个人数字助理(pda)或便携式音频或语音信号记录器等。设备100包括一个或多个麦克风102、处理器104、存储器106、输出设备108和通信设备110。

设备100确定周围环境是开放空间环境还是封闭空间环境。如本文所描述的,设备100可以确定空间环境是开放空间还是封闭空间,而无需将音频信号主动发射到环境中。

一个或多个麦克风102可以是单个麦克风,或彼此间隔开的多个麦克风,在它们之间具有麦克风间的间隔。多个麦克风可以具有任何几何形状,诸如线性、平面或立方体等。多个麦克风可以具有等距或非等距的间隔。一个或多个麦克风102可以在其附近或周围中定向或全向捕获音频(例如,原始音频)。一个或多个麦克风102可以将表示捕获的音频的数据输出到处理器104。一个或多个麦克风102可以具有足以捕获可用于标识空间环境的类型的音频的方向性、灵敏度、信噪比(snr)响应或频率响应。

处理器104可以是被配置为执行存储在存储器106中的可执行指令的任何类型的设备。当可执行指令由处理器104执行时,可执行指令使处理器104执行本文描述的功能或技术。处理器104可以是控制器、微控制器或微处理器等,并且可以包括算术和逻辑单元(alu)以及其他计算单元。处理器104可以执行本文描述的技术。处理器104可以是嵌入式片上系统(soc)。处理器104可以包括中央处理单元(cpu)或图形处理单元(gpu)等。处理器104可以执行数值计算以对设备100或其用户的开放空间环境或封闭空间环境进行分类。处理器104从一个或多个麦克风102接收表示所捕获的音频的数据。处理器104处理该数据并且对该数据执行算法计算,并将设备100的空间环境分类为开放或封闭。在一个实施例中,处理器104可以将表示所捕获的原始音频的数据发送到另一个设备或处理器,以用于执行本文描述的技术。

处理器104可以最初对该数据执行预处理。然后,处理器104可以对经预处理的数据执行窗口化和/或数据帧化。可以根据试图从预处理数据得到的特征来选择帧大小。处理器104然后估计用于空间环境的空间环境冲激响应(seir),并从中得到特征。处理器104可以利用其他特征来增强从seir得到的特征,以形成复合特征矢量。

处理器104然后可以基于复合特征矢量或其特征来执行空间环境分类。处理器104获得对设备100的开放空间环境或封闭空间环境的监督分类。处理器104获取事先已知的经训练的模型参数。例如,包括模型参数的模式库可以被存储在存储器106或另一个设备(诸如服务器)中。设备110可以使用通信设备110与服务器通信,并且可以从服务器获取模型参数。另外,设备100可以将可以是工厂设置的模型参数存储在外部或可扩展存储器上。在执行空间环境分类之后,处理器104可以对空间环境分类的输出执行后处理。

存储器106可以是任何非暂态计算机可读存储介质。存储器106可以被配置成存储可执行指令,该可执行指令在由处理器104执行时,使处理器104执行本文描述的操作、方法或技术。可执行指令可以是计算机程序或代码。存储器106可以包括随机存取存储器(ram)和/或只读存储器(rom)。存储器106可以存储可执行指令,该可执行指令使处理器104:从一个或多个麦克风102接收表示所捕获的音频的数据,对该数据进行预处理,对经预处理的数据执行窗口化和/或数据帧化,估计用于空间环境的seir,从seir得到特征,利用其他特征增强从seir得到的特征,执行空间环境分类,以及对空间环境分类的输出执行后处理,等。

处理器104可以:存储空间环境分类,使用通信设备110将空间环境分类传送到另一个设备,或者将空间环境分类输出给用户。例如,处理器104可以存储该分类以供在设备上运行的上下文感知的应用使用,或者输出分类以供上下文感知的应用使用。

输出设备108可以是被配置为向用户输出数据的任何类型的设备。例如,输出设备108可以是显示器或扬声器等。输出设备108可以向用户输出空间环境分类的结果等信息。

通信设备110可以是可操作以与另一个设备通信的任何类型的设备。通信设备110可以是发射器、接收器、收发器或调制解调器等。通信设备110可以被配置为使用任何类型的通信协议进行通信。该协议可以是诸如长期演进(lte)的蜂窝通信协议,或者诸如电气与电子工程师协会(ieee)802协议的无线通信协议等。设备100可以通过通信设备110与服务器通信。

图2示出了用于空间环境分类的方法200的流程图。如本文所描述的,方法200可以用于确定设备100是在开放空间环境中还是在封闭空间环境中。方法依赖于麦克风音频捕获和深度学习。在方法200中,在202处设备100获得表示由一个或多个麦克风102捕获的音频的数据。该数据可以是时间的函数。在204处,设备100(或其处理器104)对该数据执行预处理。预处理可以包括对数据进行滤波以用于信号增强和对数据(或由数据表示的信号)进行下采样。

在206处,设备100对数据执行时间窗口化和/或帧化。在208处,设备100通过使用利用其他特征增强的seir来提取特征来形成复合特征矢量。设备100可以利用梅尔频率倒频谱系数(mfcc)、deltamfcc或双deltamfcc来增强seir以形成复合特征矢量。在210处,设备100对复合特征矢量执行模式分类。模式分类可以是深度学习分类并且可以被监督。如此,设备100可以使用具有模型参数的模式库来执行模式分类。

模型参数可以是先验可用的,并且可以基于由观察组成的数据库而被训练。观察结果可以具有很宽的可变性,以利于分类。例如,对于开放空间环境,数据库可以包括针对海滩、体育场、街道和/或大自然的模型参数,并且对于封闭环境,数据库可以包括针对购物中心、办公室和/或家的模型参数。如本文所描述的,具有模型参数的模式库可以被存储在服务器中或由设备100存储。在对复合特征矢量执行模式分类之前,设备可以访问模式库以获得各种开放特殊环境和封闭特殊环境的模型参数。然后,设备100基于复合特征矢量和模式库执行模式分类。

在执行模式分类之后,在212处,设备100对模式分类的结果执行后处理。后处理可以包括对模式分类的输出进行中值滤波。在214处,设备100输出开放空间环境分类或封闭空间环境分类。

图3示出了用于开放式空间302的一个示例seir包络和用于封闭式空间304的一个示例seir包络。seir包络302、304可以是分别表示开放空间环境和封闭空间环境的时间包络的签名。开放空间环境和封闭空间环境的seir包络302、304具有不同的特性。封闭空间环境304的seir包络具有多次反射和混响,而开放空间环境302的seir包络包括与声音从源直接到达麦克风而没有后续反射或混响相关联的签名。seir包络的不同特征用于将设备100的空间环境分类为开放式或封闭式。

图4图示了封闭式空间304的seir包络的细节。在第一时间实例402处最初产生声音信号(或冲激)。在传播延迟(其表示声音信号到从源行进到一个或多个麦克风102花费的时间)的时段之后,声音信号在第二时间实例404处到达一个或多个麦克风102。在一个或多个麦克风102处的声音的直接和无混响的到达导致seir包络的最大峰值。然后,seir幅度的幅度衰减,直到第三时间实例406。在第三时间实例406之后,作为声音信号的高密度后期反射的混响到达一个或多个麦克风102。混响均累积至局部最大值。混响随着时间的推移以减小的幅度出现,直到第四时间实例408为止。混响衰减与可以用作seir的表示性特征的衰减斜率相关联。在第四时间实例408之后,seir包络304呈现出本底噪声。

封闭式空间环境的seir包络的特征在于混响,这可能是从墙壁或其他结构反射的结果。混响独特地标识了封闭式空间环境的seir包络,并且由于开放式空间环境具有较少反射声音的结构的事实,混响通常不存在于开放式空间环境的seir包络中。

为了测量声学系统的冲激响应,可以传送已知的输入测试信号并且可以测量系统输出。系统输出可以相对于输入测试信号被解卷积以获得冲激响应。可以适当地选择输入信号(或激励信号),并且解卷积方法可以是线性或环形的。

本文描述了用于基于记录的周围环境声音信号来被动地提取seir的技术。与作为发射的激励信号的反射相反,周围环境声音信号可以在环境中自然地生成。本文使用盲解卷积来估计空间环境的seir包络。

图5示出了一种使用空间环境中存在的周围环境声音对开放空间环境和封闭空间环境进行seir估计和特征提取的技术。在分离的时间,设备100可以被定位在封闭空间环境502和开放空间环境504中。在512处,设备100使用一个或多个麦克风102测量封闭空间环境502和开放空间环境504中的声音信号,并且存储声音信号。在514处,设备100对音频信号执行盲解卷积。在516处,设备100获得针对开放空间环境或封闭空间环境的seir。在518处,设备100从seir提取特征,并且将环境分类为开放或封闭。

图6示出了用于从空间环境的周围环境声音来估计空间环境冲激响应(seir)的方法的流程图。在602处,一个或多个麦克风102接收空间环境的周围环境声音信号。一个或多个麦克风102可以将表示周围环境声音的数据输出到处理器104。在604处,处理器104将周围环境声音信号划分成第一持续时间(表示为‘t1’)的帧。帧可以彼此具有第一重叠持续时间(表示为‘δt1’)的重叠。在606处,处理器104确定每个帧的能量比率。可以通过计算帧的能量与前一个帧的能量之间的比率来执行确定能量比率,由此前一个帧可以紧接在该帧之前。

在608处,处理器104选择具有满足能量标准的能量比率的帧。例如,处理器104可以选择具有超过阈值的能量比率的帧。由于在帧开始之前的激励而产生的混响尾音可能在后续帧中具有残留。因此,期望选择具有相对较高能量的帧。例如,处理器104可以选择帧能量比率的分布的较高25百分位中的帧。

在610处,处理器104对所选择的帧执行指数窗口化。在指数窗口化之后,处理器104确定所选择的帧的倒频谱。指数窗口化将帧的所有极点和零点移动到z平面的单位圆内。倒频谱通常需要最小相位的信号。由于空间环境冲激响应通常是混合的相位,该混合的相位具有一些位于单位圆内的零点和位于单位圆外的其他零点,因此可能需要执行窗口化以将帧的所有极点和零点移动到单位圆内。最小相位信号是有利的,这是由于其具有明确的线性相位,因此不需要相位展开。

在指数窗口化之后,在612处,处理器104确定针对所选择的帧的倒频谱。针对帧的倒频谱(表示为‘c(n)’)被确定为:

c(n)=idft(log(dft(y(n))),等式(1)

其中y(n)表示帧,dft表示离散傅里叶变换操作,log表示对数,并且idft表示逆离散傅里叶变换操作。

在614处,处理器104确定所选择的帧的平均倒频谱。对倒频谱进行平均减小了帧的背景倒频谱水平的影响。处理器104可以确定第二持续时间(表示为‘t2’)上的平均倒频谱。在616处,处理器104获得逆倒频谱时域信号。处理器104可以如下获得逆倒频谱:

h(n)=idft(exp(dft(c(n))),等式(2)

其中exp表示指数运算。

在倒频谱操作之后,在618处,处理器104执行逆指数窗口化,以将极点和零点移回到它们相应的位置。执行逆指数窗口化可以包括将每个窗口乘以衰减指数。这不会在卷积关系中引入失真。因此,在第二持续时间上获得了seir(h(n))。

在一个实施例中,帧大小的第一持续时间可以是500毫秒(ms),并且第一重叠持续时间(δt1)可以是90%重叠。另外,采样频率可以被设置为16千赫兹(khz)。周围环境声音信号可以具有60秒的持续时间,并且指数窗口函数可以被表示为:

w(n)=exp(-n/c),等式(3)

其中c是被确定为帧的第一持续时间的五分之一(或0.1)的常数。seir可以包括关于能量衰减的信息,并且seir的幅度的绝对值可以被确定。另外,可以在60秒的持续时间上平均倒频谱,并且也可以在60秒上估计seir(h(n))。

图7示出了用于通过增强从信号窗口得到的特征矢量来生成复合特征矢量的方法的流程图。信号窗口可以具有不同的持续时间。在702处,设备100捕获音频信号。如本文所描述的,音频信号可以是空间环境的周围环境声音信号,并且可以由一个或多个麦克风102接收。一个或多个麦克风102可以将表示音频信号的数据输出到处理器104。在704处,处理器104对该音频信号进行预处理和时间窗口化。

在706处,如本文所描述的,处理器104估计音频信号的seir。处理器104可以选择满足能量比率标准的帧,并且可以对所选的帧进行时间窗口化以计算倒频谱。该时间窗口可以具有500ms的第一持续时间(t1)。然后,处理器104在第二持续时间上对倒频谱进行平均以获得seir。

在708处,处理器104提取seir的多个特征。多个特征可以具有第一数目(表示为‘n’)。处理器104在具有第二持续时间的时间窗口上提取多个特征,以针对等于第二持续时间的音频信号的持续时间获得n维特征矢量。

在710处,处理器104从音频信号提取基于mfcc的特征。对于基于mfcc的特征的提取,可以使用与seir特征提取不同的持续时间将音频信号进行时间窗口化和帧化。对于基于mfcc的特征提取,可以利用与第二持续时间不同的第三持续时间(表示为‘t3’)将音频信号进行时间窗口化。从音频信号提取基于mfcc的特征可以包括基于mfcc、deltamfcc或双deltamfcc来提取特征。在712处,处理器104通过利用在第三持续时间上提取的基于mfcc的特征,来增强在第二持续时间上从seir提取的多个特征来形成复合矢量。处理器104可以联接在不同的时间窗口持续时间上提取的特征,以产生复合特征矢量。

图8a和图8b示出了用于联接不同维度的特征矢量以形成复合特征矢量的方法的流程图。在802处,设备100接收音频信号。在804处,设备100或其处理器104根据不同的持续时间对该音频信号执行窗口化。如本文所描述的,每个经窗口化的音频信号可以分别包括重叠的帧。如本文所描述的,可以根据第一持续时间将用于seir特征提取的音频信号窗口化,并且可以根据第三持续时间将用于基于mfcc的特征提取的音频信号窗口化。

对于seir特征提取,设备100在806处形成具有第一持续时间的帧,并且在808处在第二持续时间上估计如本文所述的seir。第二持续时间可以是60秒以及其他持续时间。用于估计seir的基于倒频谱的盲解卷积可以定位冲激的时间原点,并且它们的相对振幅也可以被保留。基于估计针对不同空间环境的seir,已经观察到用于seir的基于倒频谱的盲解卷积包括真实seir的初始强反射,直到大约100ms。

在方法800中,假设以音频信号的16khz采样速率获得对应于62.5ms的1000个样本的seir。在810处,处理器104从seir提取特征,该些特征在将设备100的空间环境分类为开放式或封闭式时有用。在特征提取之前,可以使seir穿过具有大约10的数量级的移动平均滤波器。

在图8a和图8b的示例中,从seir提取了13个特征,以组成13维矢量。在812处,处理器104获得seir的五个频带中的seir幅度的能量,以形成五维矢量。seir的五个频带中的seir幅度的能量可以如下获得:

在814处,处理器104对seir的多个最大值指标进行平均以产生一个特征。经平均的最大指标可以是seir幅度的前十个最大指标。在816处,处理器104获得seir的时间峰度以产生一个特征。seir的时间峰度可以如下获得:

其中μ是seir的平均值,并且σ是seir的标准偏差。

在818处,处理器104获得在中心频率处的频谱标准偏差(ssd),以获得seir的一维特征。对于1000个样本的seir,中心频率(fc)可以是500hz。处理器104可以将ssd确定为:

sdd[f1,f2][h(f)]=e[f1,f2][h2(f)]-e[f1,f2]2[h(f)],等式(6)

其中h(f)表示seir的傅立叶变换,并且e[f1,f2]表示从第一频率(f1)到第二频率(f2)范围的频带上的变元(argument)的平均。第一频率和第二频率可以分别被设置为f1=fc*(20.5)和f2=fc/(20.5)。

在820处,处理器104获得初始seir样本的斜率(一维特征)。处理器104通过获得最大信号值来确定斜率。最大信号值可以是seir的初始样本的短间隔的最大幅度。例如,初始样本的间隔可以是seir的第一40个样本到第一120个样本。处理器104可以将斜率确定为最大信号值与初始样本的短间隔的最大幅度之间的差。

在822处,处理器获得mfcc特征以用于与seir特征进行增强以进行分类。mfcc特征可以包括deltamfcc和双deltamfcc的特征。可以针对seir特征和mfcc特征使用不同的窗口大小。例如,时间窗口化持续时间(第三持续时间t3)可以是500ms。可以针对500ms的帧大小确定mfcc、deltamfcc和双deltamfcc,其中连续帧之间有50%的重叠。

处理器104在824a-824e处获得五个帧,并且对于每个帧,处理器104在826aa-826ec处获得13维mfcc特征、13维deltamfcc特征和13维双deltamfcc特征。因此,从每个帧获得39维特征。在828处,处理器104通过联接来自五个连续帧的特征来生成mfcc特征矢量,以获得改进的分类。在830处,处理器104生成复合特征矢量。处理器104可以通过将seir特征(九个特征或维度)与基于mfcc的特征(195个特征或维度)联接来生成复合特征矢量。

已经发现,从声音信号的帧得到的mfcc、deltamfcc和双deltamfcc可以最佳地使能环境分类,声音信号的帧与来针对自总共195个特征的前四个帧的特征联接。

处理器104将复合特征矢量输入到模式分类器(例如,深度学习分类器)。模式分类器可以使用深度神经网络(dnn)作为学习架构,以将空间环境分类为开放或封闭。例如,dnn可以利用五个隐藏层实施,并且每个层具有256个神经元,并带有adam优化器。

图9示出了dnn分类器的测试准确度的一个示例。针对被输入到经训练的dnn的各种特征矢量示出了测试准确度。使用从seir提取的特征和基于mfcc的特征形成的复合特征矢量给出了99.9%的最高准确度。相比之下,仅seir的9维矢量具有78.5%的准确度,并且mfcc65维矢量具有79.3%的准确度。195个特征的mfcc、deltamfcc和双deltamfcc矢量具有96.3%的准确度。

在一个实施例中,倒频谱平均值减法(cms)可以用于针对在不同设备中使用的不同麦克风特性来补偿信号。根据能量比率标准选择的帧的平均倒频谱可以通过在设备的麦克风或麦克风阵列上的各种周围环境声音记录获得。该平均或平均值倒频谱表示麦克风的特性,并且从测试信号的各个输入帧的倒频谱中减去。在减去倒频谱平均值之后获得的倒频谱用于获得基于mfcc的特征,该基于mfcc的特征被提供为dnn的输入。当对基于mfcc的特征执行倒频谱平均值减法时,准确度会得到改善,特别是当由于麦克风换能器特性的差异导致训练和测试条件之间存在不匹配时。

在一个实施例中,可以利用从设备100的其他传感器得到的上下文来增强设备100的开放空间环境或封闭空间环境的上下文,从而有助于用户的整体上下文感知。

上述各种实施例可以被组合以提供另外的实施例。

可以根据以上详细描述对实施例进行这些和其他改变。通常,在所附权利要求中,所使用的术语不应当被解释为将权利要求限制为说明书和权利要求中公开的特定实施例,而是应当解释为包括所有可能的实施例以及这种权利要求被赋予的等同物的全部范围。因此,权利要求不受公开内容的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1