可利用语音命令操控车辆的方法及系统的制作方法

文档序号：2820180阅读：357来源：国知局

专利名称：可利用语音命令操控车辆的方法及系统的制作方法
技术领域：
本发明涉及一种操控车辆的方法及系统，特别是一种可利用语音命令操控车辆的方法及系统。
背景技术：
车辆中的驾驶员与乘客一般是以手及脚(用于踩踏油门及煞车)来操控车辆中的受控装置。然而，随着语音识别技术的进步，目前已有利用语音来操控车辆的实例。例如，参阅图1，日本专利公开号JP04-119400中揭示了一种车辆中的语音识别装置，包含多个麦克风(话筒)11、相移单元13、相加单元14、最大振幅检测单元15及语音识别单元16。该多个麦克风11是彼此分离地设置在车辆中，且用于搜集从某一座位所传来的语音。该相移单元13根据各麦克风11所在位置而以对应的相移量来相移(Shifting)各麦克风11所获得的电子信号的相位。该相加单元14用于将各麦克风11所获得的各原始电子信号分别加上相移单元13所传来的对应输出信号。该最大振幅检测单元15用于从相加单元14的输出信号中检测出具有最大振幅的信号，并将其视为该座位所传来的语音命令，再将其输出至语音识别单元16中加以识别。
如果同时只有一位说话者(驾驶员或某一乘客)发出语音，则上述已知的语音识别装置确实能识别出来自某一座位的语音命令而用以操控车辆。然而，如果位于不同座位的数个说话者同时发出语音，则麦克风11会收到混合的语音命令，且上述已知的语音识别装置并无法处理此种混合的语音命令。因此，有必要针对位于不同座位的数个说话者同时发出语音的情况寻求一种以语音命令操控车辆的方法及系统。

发明内容
因此，本发明的一个目的是提供一种可利用语音命令操控车辆的方法，可用以分离混合的语音命令。然后，如果分离出的语音命令与驾驶用途相关，则本发明的方法可进一步用以判定此与驾驶用途相关的命令是否确为驾驶员所发出。
根据本发明的一个方面，提供一种可利用语音命令操控车辆的方法，包括步骤。首先，利用盲信号源分离器将多个麦克风所搜集的声音分离成多个声音源。接着，根据命令数据库中的预设语音命令数据，从盲信号源分离器所送来的声音源信号中识别出一个语音命令，并判断出该语音命令是否为驾驶用途命令。接下来，如果该语音命令是一个驾驶用途命令，则根据该驾驶用途命令的位置相关信息，计算出该驾驶用途命令的发出方向。接下来，根据所计算出的驾驶用途命令的发出方向，判断该驾驶用途命令是否是驾驶所发出的。然后，如果该驾驶用途命令是该驾驶所发出的，则操控车辆内该驾驶用途命令所对应的受控装置。
此外，本发明的另一个目的是提供一种可利用语音命令操控车辆的系统，可用于分离混合的语音命令。然后，如果分离出的语音命令与驾驶用途相关，则本发明的系统也可用于判定此与驾驶用途相关的命令是否确为驾驶所发出。
根据本发明的另一个方面，提供一种可利用语音命令操控车辆的系统，可将多个麦克风所搜集的多个声音源分离出多个语音命令，再利用该多个语音命令操控车辆内的多个受控装置，其中该系统包括盲信号源分离器、命令数据库、语音识别器、方向计算器及控制器。该盲信号源分离器用于将该多个麦克风所搜集的声音分离成该声音源。该语音识别器用于接收盲信号源分离器所送来的声音源信号，并根据该命令数据库中的预设语音命令数据，从该多个声音源信号中识别出该语音命令。该方向计算器是根据该语音识别器所识别出的语音命令以及该盲信号源分离器所送来的声音源的位置相关信息，而计算出每一个声音源所发出的语音命令的发出方向。该控制器是根据该语音识别器所识别出的语音命令以及该方向计算器所计算出的语音命令的发出方向来决定是否操控对应的受控装置。

图1是说明已知的语音识别装置的方框图；图2是说明根据本发明的可利用语音命令操控车辆的系统的一个优选
具体实施例方式
有关本发明的前述及其它技术内容、特点与功效，在以下配合参考附图的一个优选实施例的详细说明中，将可清楚的呈现。
参阅图2，根据本发明的可利用语音命令操控车辆的系统的一个优选实施例可将多个麦克风(例如，两个麦克风M1、M2)所搜集的多个声音源分离出多个语音命令，再利用该语音命令操控车辆(图中未示出)内的多个受控装置4。该系统包含放大器31、模拟/数字转换器32、盲信号源分离器33、语音识别器34、命令数据库35、方向计算器36及控制器37。
该多个麦克风M1、M2用于接收车内至少一个说话者(可以是驾驶员或乘客)说话时所发出的语音并将其声音能量转换成电子信号。由于本发明中运用了盲信号源分离(Blind Source Separation，BSS)技术，因此可处理数名说话者同时讲话时麦克风M1、M2所收到的混合语音。
放大器31用于放大麦克风M1、M2所送来的电子信号。模拟/数字转换器32用于将放大器31所送来的模拟信号转换成一组离散数值以代表声音能量的大小。
盲信号源分离器33用于分离模拟/数字转换器32所送来的混合语音信号，将分离后的语音信号传送至该语音识别器34，并将声音的发出方向相关信息传送至方向计算器36。
语音识别器34用以接收盲信号源分离器33所送来的分离后的语音信号，并根据从该命令数据库35中取出的预设语音命令数据，从所收到的分离后的语音信号中识别出可用以操控车辆中的对应受控装置4的语音命令并输出此对应受控装置4的命令代码。此外，语音识别器34还能用于判定所识别出的语音命令是驾驶用途命令(用以操控外部后视镜或雨刷等)还是一般用途命令(用以操控如娱乐设备或空调设备等)。如果从语音识别器34输出至控制器37的语音命令代码属于驾驶用途命令代码，便启动方向计算器36。
方向计算器36用于接收语音识别器34所送来的控制信号，并利用盲信号源分离器33所送来的声音的发出方向相关信息，来计算出驾驶用途命令的发出方向且将其送至控制器37。
控制器37用于处理语音识别器34所送来的命令代码。如果控制器37所收到的命令代码是驾驶用途命令代码，则根据方向计算器36所传来的计算结果判定驾驶用途命令是否为驾驶所发出。如果驾驶用途命令是驾驶所发出的，则发出控制信号操控此驾驶用途命令代码所对应的受控装置4。如果控制器37所收到的命令代码是一般用途命令代码，则直接发出控制信号操控此一般用途命令代码所对应的受控装置4。
参阅图2和3，本发明的可利用语音命令操控车辆的方法包含以下步骤。首先，如步骤51所示，通过麦克风M1、M2来输入车内乘客及驾驶所发出的语音的模拟混合声音，并依序利用放大器31及模拟/数字转换器32来加以放大及转换成数字信号。
接着，如步骤52所示，利用盲信号源分离器33将模拟/数字转换器32送来的混合语音信号分离成数个原始的声音源传送到语音识别器34，并将声音的发出方向的相关信息传送到方向计算器36。
接着，如步骤53所示，利用语音识别器34从盲信号源分离器33送来的数个分离后原始声音源识别出语音信号。
然后，如步骤54所示，根据命令数据库35来判断所识别出的语音信号是否为驾驶用途命令。如果不是驾驶用途命令，而是一般用途命令，则直接将此一般用途命令代码传送到控制器37，而不管此一般用途命令是由驾驶或乘客所发出。再如步骤55所示，以控制器37来处理一般用途命令，而直接发出控制信号操控此一般用途命令代码所对应的受控装置4，如娱乐设备或空调设备等。
反之，如果在语音识别器34中判断出所识别出的语音信号为驾驶用途命令，则如步骤56所示，将控制信号传送至方向计算器36中，以启动方向计算器36计算出此驾驶用途命令的发出方向并传送至控制器37。同时，语音识别器34亦将此驾驶用途命令代码输出至控制器37。然后，如步骤57所示，以控制器37来判断此驾驶用途命令是否来自驾驶者方向。如果是，表示此驾驶用途命令是驾驶者所发出的，则如步骤58所示，控制器37利用此驾驶用途命令代码来操控此驾驶用途命令代码所对应的受控装置4，如外部后视镜或雨刷等等。如果不是，则表示此驾驶用途命令为乘客所发出，于是如步骤59所示，将此驾驶用途命令忽略而不予以处理。
参阅图4，在本发明的优选实施例中，用于搜集混合声音的麦克风M1、M2设置在车内后视镜6上。一般而言，车辆内部20的声音(例如，由驾驶者S1及乘客或其它音源S2所发出)会与车辆内部20的脉冲响应(Impulse Response)相互回旋(Convolute)。于是，麦克风M1、M2会收到相互回旋的声音。如方程式(1)所示，混合矩阵A(τ)代表车辆内部20的脉冲响应。τ代表脉冲响应的延迟。α11(τ)代表从驾驶S1到麦克风M1的脉冲响应。α21(τ)代表从驾驶S1到麦克风M2的脉冲响应。α12(τ)代表从乘客或其它音源S2到麦克风M1的脉冲响应。α22(τ)代表从乘客或其它音源S2到麦克风M2的脉冲响应。
A(τ)=α11(τ)α12(τ)α21(τ)α22(τ)···(1)]]>如方程式(2)所示，矩阵S(t)的元素S1(t)及S2(t)分别代表驾驶S1及乘客或其它音源S2的音源信号，其中t代表声音信号中的时间点。
S(t)=S1(t)S2(t)···(2)]]>如方程式(3)所示，矩阵X(t)的元素mix1(t)及mix2(t)分别代表麦克风M1及M2所收到的信号。
X(t)=mixl(t)mix2(t)···(3)]]>于是，可利用方程式(4)来获得与车辆内部20的脉冲响应相互回旋的混合信号X(t)，其中P代表脉冲响应的长度。
Στ=1PA(τ)S(t-τ)=Στ=1Pα11(τ)α12(τ)α21(τ)α22(τ)S1(t-τ)S2(t-τ)=mixl(t)mix2(t)=X(t)···(4)]]>参阅图2和5，根据本发明的可利用语音命令操控车辆的方法的一个优选实施例中是利用例如多重自适应解相关(Multiple AdaptiveDecorrelation，MAD)、频域独立组件分析(Frequency Domain IndependentComponent Analysis，FDICA)的BSS算法来进行步骤52，通过将混合声音分离以产生驾驶命令及乘客命令。此种BSS算法可产生如方程式(5)所示的分离矩阵(De-mixing Matrix)W(τ)，使得W*X＝S，其中″*″代表卷积运算子(Convolve Operator)。
W(τ)=w11(τ)w12(τ)w21(τ)w22(τ)···(5)]]>于是，BSS方程式如方程式(6)所示，其中Q代表滤波器的长度。
Στ=1QW(τ)X(t-τ)=Στ=1Qw11(τ)w12(τ)w21(τ)w22(τ)mix1(t-τ)mix2(t-τ)=S1(t)S2(t)=S(t)···(6)]]>所以，根据方程式(4)及(6)，可得方程式(7)及(8)。
A&cong;W-1···(7)]]>A=α11α12α21α22&cong;W-1=1|det(W)|w22-w12-w21w11···(8)]]>在理想状况下，分离矩阵W(τ)会等于混合矩阵A(τ)的逆矩阵。但在一般状况下，分离矩阵W(τ)近似等于混合矩阵A(τ)的逆矩阵。因此，可通过分离矩阵W(τ)来推估脉冲响应间的时间延迟取样点(Time Delay Samples)。如方程式(8)所示，脉冲响应α11与α21间的时间延迟取样点等于脉冲响应w22与-w21间的时间延迟取样点。时间延迟取样点等于两脉冲响应的最大峰值的时间差。两个脉冲响应是来自相同音源。例如，若α11的最大峰值的时间发生在第10取样点且α21的最大峰值的时间发生在第14取样点，则时间延迟取样点为4个取样点。
因此，在图5所示的本发明的可利用语音命令操控车辆的方法的优选实施例中，步骤56还包括子步骤561、562、563。如步骤561所示，方向计算器36利用从盲信号分离器33传来的分离矩阵W计算出其逆矩阵W-1。接着，如步骤562所示，计算时间延迟。然后，便可如步骤563所示，依照以下所述的方式计算出驾驶用途命令的发出方向。
参阅图6，根据时间延迟取样点，可用双曲线方程式来推算出驾驶用途命令的发出方向。如图6所示，一般来说，车内后视镜(图中未示出)会旋转一个角度θ2，其可被输入本发明的系统中。符号S(m，n)代表驾驶S1或乘客或其它音源S2在x’y’坐标系统下的坐标。符号d代表两个麦克风M1、M2间的距离。符号a代表延迟距离，其等于(v×k)/Fs，其中v为声速(＝331.4+0.6×温度(℃)(m/sec))，k为延迟取样点的数目，Fs为取样率(Sampling Rate)。角度θ1为所欲推算的角度。
在图5中，假设在xy及x’y’坐标系统的原点左方的数值皆为正。于是，直线L的方程式在xy坐标系统下即为x＝h，其中h代表音源S(m，n)到后视镜中心(即xy及x’y’坐标系统的原点)的水平距离，且此水平距离h可由汽车制造商所提供。
于是，直线L在x’y’坐标系统下的直线方程式如方程式(9)所示。
x′cosθ2+y′sinθ2＝h ................................(9)而双曲线C在x’y’坐标系统下的方程式如方程式(10)所示。
4x′2a2-4y′2d2-a2=1···(10)]]>根据方程式(9)及(10)，可得音源S(m，n)在x’y’坐标系统下的坐标如方程式(11)及(12)所示。
m=2h(d2-a2)sin2θ2-2ha2cos2θ2-(2h(d2-a2)sinθ22(d2-a2)sin2θ2cosθ2-2a2cos3θ2]]>&PlusMinus;4h2(d2-a2)sin2θ2-((d2-a2)sin2θ2-a2cos2θ2)(4h2(d2-a2)-a2(d2-a2)cos2θ2))2(d2-a2)sin2θ2cosθ2-2a2cos3θ2···(11)]]>n=2h(d2-a2)sinθ22(d2-a2)sin2θ2-2a2cos2θ2]]>&PlusMinus;4h2(d2-a2)sin2θ2-((d2-a2)sin2θ2-a2cos2θ2)(4h2(d2-a2)-a2(d2-a2)cos2θ2)2(d2-a2)sin2θ2cosθ2-2a2cos2θ2]]>........................................................(12)于是，可计算出角度θ1＝tan-1(n/m)。然后，将θ1减去θ2，便可获得音源S(m，n)的发出方向。
在本发明的可利用语音命令操控车辆的方法及系统中，可预先定义驾驶S1相对于xy坐标系统原点的实际角度，例如介于30到60度间。于是，当方向计算器36计算出某一驾驶用途命令的θ1-θ2角度介于30到60度间时，控制器370便可判定此驾驶用途命令是由驾驶S1所发出，因而操控此驾驶用途命令所对应的受控装置4。反之，如果方向计算器36计算出某一驾驶用途命令的θ1-θ2角度不是介于30到60度间时，控制器370便可判定此驾驶用途命令是由乘客或其它音源S2所发出，因而忽略此驾驶用途命令而不予以处理。
此外，除上述利用时间延迟取样点及双曲线方程式来计算出语音命令的发出方向的方法外，利用波束赋形(Beamforming)及互功率频谱相位(Crosspower Spectrum Phase，CSP)等方式来计算语音命令的发出方向亦在本发明的申请保护范围内。
综上所述，本发明的可利用语音命令操控车辆的方法及系统中是利用盲信号源分离器33来分离麦克风M1及M2所收到的混合语音命令。然后，如果分离出的语音命令为驾驶用途命令，则本发明的方法及系统还可通过计算驾驶用途命令的发出方向而判定此驾驶用途命令是否为驾驶S1所发出。如果此驾驶用途命令确为驾驶S1所发出，则操控车辆内该驾驶用途命令所对应的受控装置4。反之，如果此驾驶用途命令不是驾驶S1所发出，则不处理此驾驶用途命令。
以上所说明的仅是本发明的优选实施例，而不能以此限定本发明实施的范围，本领域技术人员在不脱离所附权利要求所限定的精神和范围的情况下对本发明内容所作的简单的等效变化与修饰，皆属于本发明涵盖的范围。
权利要求
1.一种可利用语音命令操控车辆的方法，包括步骤(a)利用盲信号源分离器将多个麦克风所搜集的声音分离成多个声音源；(b)根据命令数据库中的预设语音命令数据，从盲信号源分离器所送来的声音源信号中识别出语音命令，并判断出该语音命令是否为驾驶用途命令；(c)如果该语音命令是驾驶用途命令，则根据该驾驶用途命令的位置相关信息，计算出该驾驶用途命令的发出方向；(d)根据所计算出的驾驶用途命令之发出方向，判断该驾驶用途命令是否为一驾驶所发出；及(e)如果该驾驶用途命令为该驾驶所发出，则操控车辆内该驾驶用途命令所对应的受控装置。
2.根据权利要求1所述的可利用语音命令操控车辆的方法，在该(a)步骤之前，还包括利用放大器来放大该多个麦克风所搜集到的声音。
3.根据权利要求1所述的可利用语音命令操控车辆的方法，在该(a)步骤之前，还包括利用模拟/数字转换器将该多个麦克风所搜集到的声音的模拟信号转换成数字信号。
4.根据权利要求1所述的可利用语音命令操控车辆的方法，其中若该语音命令是一般用途命令，则直接操控车辆内一般用途命令所对应的受控装置。
5.根据权利要求1所述的可利用语音命令操控车辆的方法，其中如果该驾驶用途命令不是该驾驶所发出，则忽略该驾驶用途命令。
6.根据权利要求1所述的可利用语音命令操控车辆的方法，其中该(a)步骤包括利用分离矩阵将该多个麦克风所搜集的声音分离成该多个声音源，且该(c)步骤包括依序计算该分离矩阵的逆矩阵及时间延迟，而计算出该驾驶用途命令的发出方向。
7.一种可利用语音命令操控车辆的系统，可将多个麦克风所搜集的多个声音源分离出多个语音命令，再利用该语音命令操控车辆内的多个受控装置，其中该系统包括盲信号源分离器，用以将该多个麦克风所搜集的声音分离成该多个声音源；命令数据库；语音识别器，用于接收盲信号源分离器所送来的声音源信号，并根据该命令数据库中的预设语音命令数据，从该多个声音源信号中识别出该多个语音命令；方向计算器，根据该语音识别器所识别出的语音命令以及该盲信号源分离器所送来的声音源的位置相关信息，而计算出每一个声音源所发出的语音命令的发出方向；及控制器，根据该语音识别器所识别出的语音命令以及该方向计算器所计算出的语音命令的发出方向来决定是否操控对应的受控装置。
8.根据权利要求7所述的可利用语音命令操控车辆的系统，还包括放大器，用以放大该多个麦克风所搜集到的声音。
9.根据权利要求7所述的可利用语音命令操控车辆的系统，还包括模拟/数字转换器，用于将该多个麦克风所搜集到的声音的模拟信号转换成数字信号。
全文摘要
一种可利用语音命令操控车辆的方法及系统，该方法包括利用盲信号源分离器将多个麦克风所搜集的声音分离成多个声音源；根据命令数据库中的预设语音命令数据，从盲信号源分离器所送来的声音源信号中识别出语音命令，并判断出该语音命令是否为驾驶用途命令；如果该语音命令为驾驶用途命令，则根据该驾驶用途命令的位置相关信息，计算出该驾驶用途命令的发出方向；根据所计算出的驾驶用途命令的发出方向，判断该驾驶用途命令是否为驾驶所发出；及如果该驾驶用途命令为该驾驶所发出，则操控车辆内该驾驶用途命令所对应的受控装置。
文档编号G10L21/02GK1815556SQ20051000646
公开日2006年8月9日申请日期2005年2月1日优先权日2005年2月1日
发明者邱毓翰, 严嘉鑫, 吴建明, 林哲民申请人:松下电器产业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邱毓翰;严嘉鑫;吴建明;林哲民
技术所有人：松下电器产业株式会社
我是此专利的发明人

上一篇：可识别环境中的语音与非语音的方法及系统的制作方法
上一篇：手持随身装置的语音输入方法及系统的制作方法