专利名称:语谱图互相关的驾驶员汉语语音控制系统的制作方法
技术领域:
本实用新型涉及一种应用于机动车辆上的驾驶员专用汉语语音识别控制装置和方法,更具体地说,本实用新型涉及一种语谱图互相关的车内驾驶员专用汉语语音识别控制系统。
背景技术:
随着汽车在我国的普及和汽车技术的不断进步,人们对于车辆的认识和要求不再局限于简单的交通工具,而是更多着眼于其舒适性、安全性和其多种多样的便捷的智能功能。车内语音识别与控制技术是智能汽车的重要核心技术之一,可被应用在汽车上实现智能操作,通过识别驾驶者的发音,由语音命令代替手动对一些汽车车载电子设备进行语音控制,将驾驶员的手部操作尽量降低,减少驾驶员注意力的分散,有利于提高行车的安全性和便捷性。目前已有一些应用于车内环境下的语音识别控制系统可见报导,但分析可查询的汽车车载语音识别控制问题研究报道特别是国内可见文献存在以下问题1.所涉及的多为非汉语语音识别领域新方法、新技术向汽车环境的简单移植和使用,对于与英语等语言有着显著差异的汉语指令特点未给予足够的重视和应用;2.多是非特定人识别控制系统,对指令发出人没有限制,实际工作中极易干扰驾驶员驾驶,不利于行车安全。3.成员间语言交流中与语音识别控制系统指令库中指令重合发生概率较大,易引起系统误操作。4.语音识别算法以单音素或单音节为单位,取10-20ms长的语音帧,逐帧处理,较大的运算量使处理速度的提高变得较为困难,且识别系统的泛化程度较难控制。5.前人虽有唇语识别技术使用,但多是用唇语识别辅助语音识别,主要目的在于提高识别率,且由此引起运算量大、运算时间长等问题。
发明内容本实用新型所要解决的技术问题是克服现有车内语音识别控制方法存在的未本土化、指令发出者无限制和指令误读误操的作问题,提供了一种语谱图互相关的车内驾驶员专用汉语语音识别控制系统。为解决上述技术问题,本实用新型是采用如下技术方案实现的所述的语谱图互相关的驾驶员汉语语音控制系统由专用汉语语音识别控制装置、硅麦克风、红外线CCD摄像头和汽车车载电子设备组成。所述的专用汉语语音识别控制装置由型号为TMS320C6410的DSP芯片、型号为 SAA7111H的视频AD模块芯片、型号为AL422B的同步FIFO芯片、型号为TLV320AIC23的语音编解码芯片、型号为XC9536XLVQ44的CPLD芯片、1号继电器及2号继电器组成。硅麦克风的输出端与型号为TLV320AIC23的语音编解码芯片的DIN引脚电连接,
3型号为TLV320AIC23的语音编解码芯片的DOUT引脚与型号为TMS320C6410的DSP芯片的多通道缓冲串口及I2C总线电连接,红外线CXD摄像头的输出端与型号为SAA7111H的视频AD模块芯片的CVBS引脚电连接,型号为SAA7111H的视频AD模块芯片的VP00-7输出引脚与型号为AL422B的同步FIFO芯片的DI0-7输入引脚电连接,型号为AL422B的同步 FIFO芯片的D00-7输出引脚与型号为TMS320C6410的DSP芯片的FIFO接口电连接,型号为 XC9536XLVQ44的CPLD芯片和型号为SAA7111H的视频AD模块芯片、型号为AL422B的同步 FIFO芯片与型号为TMS320C6410的DSP芯片的通用IO引脚电连接。型号为TMS320C6410 的DSP芯片的GPO引脚与1号继电器的输入端电连接,型号为TMS320C6410的DSP芯片的GP0[3]引脚与2号继电器的输入端电连接,1号继电器与2号继电器的输出端分别和汽车车载电子设备电线连接。技术方案中所述的汽车车载电子设备包括空调和后备箱锁。空调的接线端与2号继电器的输出端电线连接,后备箱锁的接线端与1号继电器的输出端电线连接。与现有技术相比本实用新型的有益效果是1.本实用新型提出了一种驾驶员专用的语谱图互相关车内汉语语音识别控制方法,并构建了车内驾驶员专用汉语语音识别控制系统,通过识别驾驶者的发音,由语音指令代替驾驶员手部动作控制汽车车载电子设备,降低驾驶员非驾驶性操作,减少其注意力分散,有利于提高行车的安全性和便捷性。2.本实用新型采用CCD摄像头采集图像判断驾驶员口唇部有无动作,作为专用汉语语音识别控制装置的开关,实现系统的驾驶员专用性,有利于行车安全。保证系统一定识别率的同时,提高系统的识别速度。且采用可昼夜工作的红外线,帮助系统实现全天候功能。3.本实用新型根据汉语语言特点,建立车内驾驶员专用汉语语音识别控制系统的语音指令库,规定“打开”和“关闭”为语音指令关键词。鉴于同一语音指令内容,同一指令发出者重复发出,其语谱图形状非常相似;不同指令发出者发出,相互语谱图形状差异较自身差异显著。提出语音指令的阶段识别,即第一阶段利用语音指令的语谱图,应用图像互相关方法对照关键词语谱图模板,监测车内有无语音指令关键词发出;第二阶段利用语音指令的语谱图,利用图像互相关方法识别指令中的执行器,提高识别速度和效率的同时,有利于识别率的提升。4.本实用新型设计并使用了基于语谱图互相关技术的语音识别算法,无需端点检测环节,且以指令语句为单位对语谱图进行词汇分析,处理速度快。5.本实用新型综合了声学、信号处理、自适应控制和车辆工程等多个领域的学科知识,是上述各学科领域知识的交叉应用。对车内噪声对语音识别的影响问题予以了充分考虑,能够在车辆行驶工况变化时自适应调整对噪声的抑制程度。整个噪声抑制过程是自适应完成的,无需手动的外加干预。6.本实用新型以驾驶员本人特定发音词汇的语谱图为语音识别模板,属于特定人特定词汇语音识别,所以,系统兼具语音锁功能。
以下结合附图对本实用新型作进一步的说明[0022]
图1为表述本实用新型所述的语谱图互相关的车内驾驶员专用汉语语音识别控制系统的结构原理示意框图;图2是采用本实用新型所述的语谱图互相关的车内驾驶员专用汉语语音识别控制系统布置在某车型上的一个实施实例的结构原理示意框图;图3是采用本实用新型所述的语谱图互相关的车内驾驶员专用汉语语音识别控制系统控制车载电子设备方法的流程框图;图4是采用本实用新型所述的驾驶员唇语开关单元的检测方法的流程框图;图中1.专用汉语语音识别控制装置,la.专用汉语语音识别控制单元,lb.驾驶员唇语开关单元,2.硅麦克风,3.红外线C⑶摄像头,4.汽车车载电子设备,4a.空调, 4b.后备箱锁,11. DSP芯片,12.视频AD模块芯片,13.同步FIFO芯片,14.语音编解码芯片,15. CPLD芯片,16. 1号继电器,17. 2号继电器。
具体实施方式
以下结合附图对本实用新型作详细的描述本实用新型的宗旨是克服现有车内语音识别控制方法存在的未本土化、指令发出者无限制和指令误读误操作问题,提供一种基于语谱图互相关技术的车内驾驶员专用汉语语音识别控制系统。同时提供了采用这种系统控制汽车车载电子设备的方法。一 .语谱图互相关的车内驾驶员专用汉语语音识别控制系统的结构组成参阅
图1至图3,本实用新型所述的语谱图互相关的车内驾驶员专用汉语语音识别控制系统是由硬件和计算机程序的功能模块构架两大部分所组成。硬件部分是由专用汉语语音识别控制装置1、硅麦克风(音频采集设备)2、红外线CCD摄像头(视频采集设备)3 和汽车车载电子设备4组成。硅麦克风2、红外线CCD摄像头3与汽车车载电子设备4分别和专用汉语语音识别控制装置1电连接。所述的专用汉语语音识别控制装置1主要由德州仪器公司生产的型号为 TMS320C6410的DSP芯片11、飞利浦公司生产的型号为SAA7111H的视频AD模块芯片12、 Averlogic公司生产的型号为AL422B的同步FIFO芯片13、德州仪器公司生产的型号为 TLV320AIC23的语音编解码芯片14、XILINX公司生产的型号为XC9536XLVQ44的CPLD芯片 15、1号继电器16及2号继电器17组成。所述的型号为TLV320AIC23的语音编解码芯片14包括有耳机输出放大器、模 /数转换(ADC)和数/模转换(DAC)部件;驾驶员面前的硅麦克风2的输出端与型号为 TLV320AIC23的语音编解码芯片14的DIN引脚电连接;型号为TLV320AIC23的语音编解码芯片14的DOUT引脚与型号为TMS320C6410的DSP芯片11的多通道缓冲串口及I2C总线电连接;所述的驾驶员面前的红外线CCD摄像头3的输出端与型号为SAA7111H的视频AD 模块芯片12的CVBS引脚电连接,传送CVBS信号;型号为SAA7111H的视频AD模块芯片12 的VP00-7输出引脚与型号为AL422B的同步FIFO芯片13的DI0-7输入引脚电连接;型号为AL422B的同步FIFO芯片13的D00-7输出引脚与型号为TMS 320C6410的DSP芯片11 内的FIFO接口电连接;所述的型号为XC9536XLVQ44的CPLD芯片15和型号为SAA7111H的视频AD模块芯片12、型号为AL422B的同步FIFO芯片13与型号为TMS320C6410的DSP芯片11通过通用I 0引脚电连接;型号为TMS320C6410的DSP芯片11的GPO与GPO [3]引脚分别和1号继电器16与2号继电器17的输入端电连接,1号继电器16与2号继电器 17的输出端分别和汽车车载电子设备4中的后备箱锁4b与空调如电连接。计算机程序部分可以描述为由一组实现计算机程序所记载的技术方案的功能模块所组成的功能模块构架。更具体地说,本实用新型所涉及的计算机程序的功能模块构架由专用汉语语音识别控制单元Ia和驾驶员唇语开关单元Ib组成。参阅图2,所述的专用汉语语音识别控制单元Ia包括存储前一时间段的车内声音信号的音频缓存区、减少噪声影响的背景噪声抑制模块、生成语谱图的短时傅里叶模块、判别有无“打开”或“关闭”语音指令关键词发出的关键词判别模块、判别指令控制对象的汽车车载电子设备判别模块。所述的音频缓存区、背景噪声抑制模块、短时傅里叶模块、关键词判别模块与汽车车载电子设备判别模块设置在型号为TMS320C6410的DSP芯片11上,采用片上数据线连接,综合作用实现关键词和指令控制对象的识别和确定。所述的驾驶员唇语开关单元Ib包括实现视频AD转换的视频编解码模块、缓冲一帧视频数据的FIFO模块、描述唇部内外轮廓的唇动检测与跟踪模块、确定有无唇部动作的唇动定位模块。视频编解码模块设置在型号为SAA7111H的视频AD模块芯片12上,FIFO模块装置在型号为AL422B的同步FIFO芯片13上,唇动检测与跟踪模块和唇动定位模块均装置在型号为TMS320C6410的DSP芯片11上。视频编解码模块通过所在的型号为SAA7111H的视频AD模块芯片12的VP00-7输出引脚与FIFO模块所在的型号为AL422B的同步FIFO芯片 13的DI0-7输入引脚电连接;FIFO模块通过所在的型号为AL422B的同步FIFO芯片13的输出引脚和唇动检测与跟踪模块及唇动定位模块所在的型号为TMS320C6410的DSP芯片11 内的FIFO接口电连接,唇动检测与跟踪模块和唇动定位模块间采用片上数据线连接。语谱图互相关的驾驶员汉语语音控制系统设计为两个识别阶段并使用了基于图像互相关技术的语音识别算法,即采用了如上所述的计算机程序部分。二 .采用本实用新型所述的语谱图互相关的车内驾驶员专用汉语语音识别控制系统实现语音控制汽车车载电子设备的方法包括如下步骤(参阅
图1至图4)1.在汽车上合理布置语谱图互相关的车内驾驶员专用汉语语音识别控制系统,尤其是合理布置专用汉语语音识别控制装置1、硅麦克风2、红外线CXD摄像头3和汽车车载电子设备4。专用汉语语音识别控制装置1安装在车内仪表板上,红外线CCD摄像头3和硅麦克风2安装在仪表板正对驾驶员无其它设备处。2.建立语谱图互相关的车内驾驶员专用汉语语音识别控制系统的语音指令库,规定“打开”和“关闭”为语音指令关键词,“空调”和“后备箱”等为具体的汽车车载电子设备 4(即指令控制对象)的名称。3.以驾驶员面前的硅麦克风2采集若干帧车内声音信号,送入专用汉语语音识别控制装置1中开辟的音频缓存区。4.以驾驶员面前昼夜工作的红外线CXD摄像头3采集驾驶员唇部图像送入驾驶员唇语开关单元lb,经视频编解码、FIFO缓冲、唇动检测与跟踪及唇动定位等环节,确定驾驶员口唇部是否有动作。5.确定驾驶员口唇部有动作时,发出信号激活专用汉语语音识别控制单元la。提取音频缓存区中存储的前一时间段的车内声音信号,送入背景噪声抑制模块。[0044]6.对提取的车内声音信号,以数字带通滤波器和谱相减法为核心,抑制背景噪声的同时增强语音。7.对经过背景噪声抑制处理后的声信号,进行短时傅里叶分析。得到语谱图后,送入关键词判别环节,进行第一阶段语音识别,用驾驶员语音“打开”、“关闭”语谱图模板作为动词识别模板,利用图像互相关方法对照动词关键词语谱图模板,快速监测车内有无预设规定的“打开”或“关闭”语音指令关键词发出,决定控制开关(打开/关闭)状态。8.若有关键词检出则将声音信号作为疑似语音指令,送入汽车车载电子设备4判别环节,进行第二阶段语音识别,用驾驶员语音“导航”、“后备箱锁4b”、“前左侧窗”、“收音
机”、“空调如”、------等语谱图模板作为名词识别模板,利用图像互相关方法对照汽车车
载电子设备4名称语谱图模板,快速监测疑似指令中有无指令库中规定的汽车车载电子设备4名称及发出汽车车载电子设备4名称内容的确定,识别指令中需要控制的目标汽车车载电子设备4,鉴别指令控制对象(导航/后备箱锁4b/前左侧窗/收音机/空调4a、一-) 以决定控制指向。以“打开”、“导航”为例,说明语谱图互相关的算法。设疑似语音语谱图为MXN灰度图像矩阵A,矩阵的行对应语谱图中的频率轴,矩阵的列对应语谱图中的时间轴,第i行、 第j列元素值就是时刻j时第i个频率成分的幅频强度。1)语谱图预处理将语谱图零均值化,即将图像矩阵各元素值与图像灰度均值做差;2)设驾驶员“打开”语音语谱图为MXN1灰度图像矩阵A1,且已经零均值化,其中 N1 < N。做A与A1的二维圆周互相关
1 MnIR{m,n)=——])Αγ{{ι + τη, j+ n))MN( 1 )
M 刊 1 i=\ 7=1其中,!11 = 0,1,2,八^,11 = 0,1,2,八州。若疑似语音中含有驾驶员的“打开”指令语音,那么,R(m,n) —定含有至少一个足够大的极值。设定一个阈值Rtl,当ROvntl) ^R0 时,即可认定疑似语音中含有驾驶员的“打开”命令。实际上m和η的取值范围不一定很大,当满足ROv η0)彡Rtl时,即可停止互相关运算。3)由2)的结论,若已经确定疑似语音为驾驶员控制指令,按公式(1)中算法,将驾
驶员的“导航”、“后备箱锁4b”、“前左侧窗”、“收音机”、“空调如”、------等等语谱图模板
(已零均值化)分别与疑似语音语谱图做二维圆周互相关,确定控制对象。上述算法中,语音采样率取IOkHz (系统加前置抗混滤波器),语谱图取带宽为 20Hz的窄带傅里叶语谱图(512点FFT),时间分析窗口 51ms,时间窗口总长度由端点检测结果确定。本实用新型所述的图像处理手段不仅限于互相关分析,还可以采用诸如纹理分析、边缘检测、形状分析、小波语谱图、Mel语谱图等其他图像处理技术。且非单人使用时可采用多组模块逻辑或结构进一步扩展到特定人组。9.确定疑似语音指令中含有语音指令库中存储的汽车车载电子设备4名称后,由专用汉语语音识别控制装置1按照指令中的动词通过控制继电器16与继电器17开合,以实现对汽车车载电子设备4中的空调如或/和后备箱锁4b等目标汽车车载电子设备4的操作。
权利要求1.一种语谱图互相关的驾驶员汉语语音控制系统,其特征在于,所述的语谱图互相关的驾驶员汉语语音控制系统由专用汉语语音识别控制装置(1)、硅麦克风O)、红外线CCD 摄像头( 和汽车车载电子设备(4)组成;所述的专用汉语语音识别控制装置(1)由型号为TMS320C6410的DSP芯片(11)、型号为SAA7111H的视频AD模块芯片(12)、型号为AL422B的同步FIFO芯片(13)、型号为 TLV320AIC23的语音编解码芯片(14)、型号为XC9536XLVQ44的CPLD芯片(15)、1号继电器 (16)及2号继电器(17)组成;硅麦克风(2)的输出端与型号为TLV320AIC23的语音编解码芯片(14)的DIN引脚电连接,型号为TLV320AIC23的语音编解码芯片(14)的DOUT引脚与型号为TMS320C6410的DSP 芯片(U)的多通道缓冲串口及1 总线电连接,红外线CCD摄像头⑶的输出端与型号为 SAA711IH的视频AD模块芯片(12)的CVBS引脚电连接,型号为SAA711IH的视频AD模块芯片(12)的VP00-7输出引脚与型号为AL422B的同步FIFO芯片(13)的DI0-7输入引脚电连接,型号为AL422B的同步FIFO芯片(13)的D00-7输出引脚与型号为TMS320C6410的DSP 芯片(11)的FIFO接口电连接,型号为)(C9536XLVQ44的CPLD芯片(15)和型号为SAA7111H 的视频AD模块芯片(12)、型号为AL422B的同步FIFO芯片(13)与型号为TMS320C6410的 DSP芯片(11)的通用IO引脚电连接,型号为TMS320C6410的DSP芯片(11)的GP0[0]引脚与1号继电器(16)的输入端电连接,型号为TMS 320C6410的DSP芯片(11)的GP0[3]引脚与2号继电器(17)的输入端电连接,1号继电器(16)与2号继电器(17)的输出端分别和汽车车载电子设备电线连接。
2.按照权利要求1所述的语谱图互相关的驾驶员汉语语音控制系统,其特征在于,所述的汽车车载电子设备(4)包括空调Ga)和后备箱锁(4b),空调Ga)的接线端与2号继电器(17)的输出端电线连接,后备箱锁Gb)的接线端与1号继电器(16)的输出端电线连接。
专利摘要本实用新型公开了语谱图互相关的驾驶员汉语语音控制系统,包括专用汉语语音识别控制装置(1)、硅麦克风(2)、红外线CCD摄像头(3)和汽车车载电子设备(4)。专用汉语语音识别控制装置(1)和硅麦克风(2)、红外线CCD摄像头(3)与汽车车载电子设备(4)电连接。专用汉语语音识别控制装置(1)包括DSP芯片(11)、视频AD模块芯片(12)、同步FIFO芯片(13)、语音编解码芯片(14)、CPLD芯片(15)、1号继电器(16)及2号继电器(17)。汽车车载电子设备(4)包括空调(4a)和后备箱锁(4b),空调(4a)与后备箱锁(4b)一端和2号继电器(17)与1号继电器(16)输出端电线连接。
文档编号B60W50/08GK202067537SQ20112016919
公开日2011年12月7日 申请日期2011年5月25日 优先权日2011年5月25日
发明者伏娟, 曹晓琳, 王双维, 王杰, 王登峰 申请人:吉林大学