专利名称:口型辅助语音识别术在车载导航中应用的方法及系统的制作方法
技术领域:
本发明涉及车载语音导航领域,尤其涉及一种口型辅助语音识别术在车载影音导航中的应用方法及系统。
背景技术:
语音识别技术随着计算机和相关软硬件技术的发展,已越来越多的应用在各个领域,其识别率也在不断的提高。在环境安静、发音标准等特定条件下,目前应用在语音识别输入文字系统的识别率已经达到95%以上。但如果在车上或外界噪声干扰比较大、发音不标准的情况下,其识别率将大打折扣,以至于无法达到实用目的。若能采用其它方法来辅助判断以提高其语音识别的准确率,那么语音识别的实用性将显著提高。人类的语言认知过程是一个多通道的感知过程。在人与人日常交流的过程中,通过声音来感知他人讲话的内容,在喧闹的环境或对方发音模糊不清时,还需要眼睛观察其口型,表情等的变化,才能准确地理解对方所讲的内容。现行的语音识别系统忽略了语言感知的视觉特性这一面,仅仅利用了单一的听觉特性,使得现有的语音识别系统在噪声环境或多话者条件下,其识别率都显著下降,降低了语音识别的实用性,应用范围也受限制。随着车载导航系统的普及应用,驾驶员在驾驶车辆时进行车载导航系统各项应用功能的操控,仅用按键和触摸操控还是不够方便,而且操控时由于分心驾驶,很容易引起行车事故。用语音识别方式进行操控来解决这个问题,但目前采用语音操控技术的导航系统使用在环境噪声比较严重的车上,其正确识别率低,影响精确操控,效果不够理想。
发明内容
本发明的目的在于解决车载导航系统在车辆正常行驶或怠速时的噪声环境中的语音识别率低的问题。为解决上述问题,本发明提出的方案是利用人类语言多通道感知特性,利用传感器模拟“听觉”和“视觉”,采用口型识别技术辅助语音识别,提高车载导航系统在噪声环境中的语音识别率。实施过程是通过传感器对声音和口型图像变化系列获取“听觉”和“视觉”信息,经过去噪、A/D转换等一系列处理后,分别与预设预设在图像/语音识别处理模块中的模板库数据比对进行语音识别口型识别,用口型识别结果与语音识别结果进行对比, 若两者结果相似性达到一定程度,即可以确认语音识别结果,从而克服噪音的影响,显著提高了语音识别率,再把结果转化成相关指令输出到车载导航系统进行导航或获取信息。本发明方案如图1所示实现方法系统首先分别对语音输入和口形图像输入进行预处理后,进行特征提取,“训练"‘模板块”作识别匹配用。使用时再分别对语音输入和口形图像输入进行预处理后,进行特征提取,获取“测试”信号,结合经过训练的模板块进行“测量估计”,确认语音识别的有效信息,再与预置“专家知识”系统进行识别判断后,输出“结果”,完成语音识别过程。特别说明的是训练模板块时,通过录音和摄像进行模板训练,建立语音和口型识
4别的模板库,在录音的同时将口型视频图像做一一对应判断存储。本发明的语音识别采用模板匹配的方法,该方法共四个步骤特征提取、模板训练、模板分类、判决。以声音识别为例
第一步是特征提取,将采集的各种语音的模拟信号进行A/D转换,转换成数字信号后进行加工并存储。即将该信号数字进行数字去噪处理加工,去除伪数据,保留特征数据。采用的去噪处理方法是根据车内环境噪声的特点,分析出车在正常行驶或怠速时的常态噪声,如关闭或开启车窗时的发动机、空调及行车噪声特征数据,将采集的原始语音数据通过相关运算,去除这些噪声特征数据后形成接近真实的语音特征数据。第二步是模板训练,根据车载设备操控常用语音命令和相关信息建立语音模板库,如“开始”、“导航”、“目的地”、“上海,,等语音,找不同年龄、性别、口音的人来读,并做相应的处理,建立起车用操控语音模板数据库。第三步是模板分类,根据应用特征分为控制命令类、地址信息类,信息范围按大小类分类,以缩小匹配判定范围,提高匹配效率和准确率。控制命令类具体有如导航命令类、 语音控制类;地址信息大小类具体有如省级地名、市级地名或更小地名等。第四步是判定,利用匹配算法进行语音特征与语音模板库模型匹配,将判定的结果与口型识别比对,进一步确认语音识别结果的准确性。本发明的口型识别采用唇形和唇色相结合的判断方法,准确定位口唇位置。具体为采用一种基于色度滤波的唇动特征提取与识别方法,通过唇的色度滤波,得到增强的唇动图像, 再利用可变模板描述口型轮廓并提取特征参数,并用隐马尔科夫(HMM)模型进行唇运动序列图像识别。该方法不受口型缩放、变形、旋转的影响,对不同唇型有很好的鲁棒性,对光照没有特别的要求,且非针对特定人,适用于自然条件下的口型描述,能满足可变模板对目标边缘有较高分辨率的要求。从而实现了口唇位置准确定位,并采用适当的唇形匹配算法进行识别。将识别结果与语音识别结果进行比对,形成统一的识别结果,最后将识别的准确信息与车载设备操控指令对应起来完成语音识别操控功能,对语音识别起辅助作用,提高语音识别率。本发明采用上述技术解决方案所能达到的有益效果是将语音识别与口型识别通过特征提取、模板训练、模板分类、判决过程有机的结合起来,运用先语音识别判断、后口型识别确认的逻辑判断序列、有效的降低因噪声和外界声音干扰产生识别错误的几率,实验证明车辆在行驶和怠速情况下(关闭车窗)的语音识别率由原来的80%左右提高到90%以上。识别率的提高意味着克服了单一语音导航的弱点,让用户更方便使用语音导航设备,行车时使用导航设备更安全。
下面结合附图和具体实施方式
,对本发明及其有益技术效果进行进一步详细说明,其中
图1为本发明口型信息与语音信息主要处理过程示意图。图2为本发明口型辅助语音识别系统图。附图标记说明21、驾驶员面部22、摄像头23、麦克风24、图像/语音识别处理模块25、车载导航影音系统
具体实施例方式本发明方案揭示的口型信息与语音信息主要处理过程参见图1,系统首先分别对语音输入和口形图像输入进行预处理后,进行特征提取,“训练” “模板块”存储后作识别匹配用。使用时再分别对语音输入和口形图像输入进行预处理后,进行特征提取,获取“测试” 信号,结合经过“训练”的“模板块”进行“测量估计”,确认语音识别的有效信息,再与预置的“专家知识”系统进行识别判断后,输出“结果”,完成语音识别过程。特别说明的是训练模板块时,通过录音和摄像进行模板训练,建立语音和口型识别的模板库,在录音的同时将口型视频图像做一一对应判断存储。总体地,本发明揭示的口型辅助语音识别术在车载导航中应用的方法,主要包含以下步骤
a、通过语音录制设备获取语音信息,经过特征提取、模板训练、模板分类、判决,处理后进行语音识别;
b、通过口型摄像设备获取图像信息,经过特征提取、模板训练、模板分类、判决,处理后进行口型识别,并且口型图像信息与与步骤a中的语音信息一一对应;
C、将语音识别结果与口型识别结果进行比对,当两者的识别结果相似度达到一定程度时,即可确认该语音识别结果有效,输出该语音识别结果;
d、再把语音识别结果转化成相应指令输出到车载导航设备进行导航或获取信息。进一步地,本发明的语音识别采用的模板匹配的方法共分四个步骤特征提取、模板训练、模板分类、判决。以声音识别为例
(a)特征提取,将采集的各种语音的模拟信号进行A/D转换,转换成数字信号后进行加工并存储。即将该信号数字进行数字去噪处理加工,去除伪数据,保留特征数据。采用的去噪处理方法是根据车内环境噪声的特点,分析出车在正常行驶或怠速时的常态噪声,如关闭或开启车窗时的发动机、空调及行车噪声特征数据,将采集的原始语音数据通过相关运算,去除这些噪声特征数据后形成接近真实的语音特征数据。(b)模板训练,根据车载设备操控常用语音命令和相关信息建立语音模板库,如 “开始”、“导航”、“目的地”、“上海”等语音,找不同年龄、性别、口音的人来读,并做相应的处理,建立起车用操控语音模板数据库。(C)模板分类,根据应用特征分为控制命令类、地址信息类,信息范围按大小类分类,以缩小匹配判定范围,提高匹配效率和准确率。控制命令类具体有如导航命令类、语音控制类;地址信息大小类具体有如省级地名、市级地名或更小地名等。(d)判定,利用匹配算法进行语音特征与语音模板库模型匹配,将判定的结果与口型识别比对,进一步确认语音识别结果的准确性。优选地,语音识别算法采用隐马尔科夫(HMM)法,本发明在该通用算法的基础上对相关算法进行了车载语音应用特殊环境下的优化和实用化设计,具体为将模板库进行合理分类,以从小到大的顺序排列,当进行语音特征匹配判别时先从小类开始依次到大类,这样有效的提高了匹配效率,而小类就包括那些符合控制车载设备的专用命令和经常用的、 关键的语音模板数据。
对于口型识别方法,本发明优选基于色度滤波的唇动特征提取与识别方法,它通过唇的色度滤波,得到增强的唇动图像,再利用可变模板,实现口型轮廓的提取与跟踪,提取特征参数,并将结果(曲线参数)送入识别器,并HMM模型进行唇运动序列图像识别。本发明的口型辅助语音识别系统结构如图2所示,车载导航影音系统(25)及其上连接的图像/语音识别处理模块(24),连接于图像/语音识别处理模块(24)输入端的麦克风(23)、摄像头(22)。驾驶员面部21对着麦克风23和摄像头22发音时,麦克风23和摄像头22分别对声音信号和口型图像信号进行采集并输入到图像/语音识别处理模块M进行相应处理(如去噪、预处理、特征提取、判断和识别等过程),并把识别后的结果转换成相应的控制指令,输入到车载导航影音系统25,实现语音控制操作。优选地,麦克风23采用具有定向音频传输功能的高保真/高灵敏度的驻极体电容式拾音器,并安装在驾驶员位正前方仪表盘上部位,且拾音器口要正对驾驶员面部21,确保采集到最佳的语音信号,尽可能的降低车内外环境噪声的影响。优选地,摄像头22采用带夜视功能的、视频分辨率为640 X 480、25帧、32bit真彩 CCD视频图像传感器,并安装在驾驶员正前方挡风玻璃的上边沿端,镜头正对驾驶员面部 21,确保在光线较暗时也能获得清晰的口唇图像信息,系统对更准确对图像分析处理;
优选地,图像/语音识别处理模块M所用处理器采用高性能DSP处理器,确保系统具有较好的实时性。在软件处理上,控制命令采用如“开启导航”,“定位目标”,“规划路线”,“打电话”, “接听”等固定命令格式,从而大大降低了模板匹配的数据运算量,同时也提高了识别效率。 地图地址和语音信息采用关键字词模糊匹配识别方法,从而加大了识别范围,同时也提高信息识别率。采用上述方法对语音命令操控的正确性提供了有力的保障。优选地,模板库的建立过程为选16-70周岁年龄段的男女各20人,分别进行车载导航语音命令、地图信息语音、语音播放语音命令和语音节目名称语音、设备控制命令语音及其相应口型图像录制,经过语音/ 口型比对和特征化处理后建立起基本的模板库,语音识别模板库建立后,将其分类存储在相应的模板类库中备用。在口型辅助语音识别过程中,通过麦克风23和摄像头22采集特征数据,在语音处理中,在图像/语音识别处理模块M中先将采集的原始声音进行去噪处理,然后进行特征数据提取,与此相对应的口型特征数据提取后,与预置的模板库数据进行一系列匹配判断识别,语音识别后的判断特征结果再与相应的口型识别特征结果进行比对,优选地,两者的识别结果相似度达到70%以上时即可确定语音内容,再将该语音内容转换成控制指令送入车载导航影音系统进行处理。把口型辅助语音识别技术应用在车载导航系统中,因语音识别率提高,在车辆行驶时,车载语音导航设备在噪音的环境下也能实时识别、响应驾驶员语音操控并进行导航, 尽可能避免驾驶员操作导航设备时发生安全事故。根据上述说明书及具体实施例的揭示和教导,本发明所属领域的技术人员还可以对上述实施方式进行变更和修改。因此,本发明并不局限于上面揭示和描述的具体实施方式
,对本发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外,尽管本说明书中使用了一些特定的术语和概念,但这些术语和概念只是为了方便说明,并不对本发明构成任何限制。
权利要求
1.一种口型辅助语音识别术在车载导航中应用的方法,其特征是包含以下步骤通过语音录制设备获取语音信息,经过特征提取、模板训练、模板分类、判决,处理后进行语音识别;通过口型摄像设备获取图像信息,经过特征提取、模板训练、模板分类、判决,处理后进行口型识别,并且口型图像信息与与步骤a中的语音信息一一对应;将语音识别结果与口型识别结果进行比对,当两者的识别结果相似度达到一定程度时,即可确认该语音识别结果有效,输出该语音识别结果;再把语音识别结果转化成相应指令输出到车载导航设备进行导航或获取信息。
2.根据权利要求1所述的口型辅助语音识别术在车载导航中应用的方法,其特征是 步骤a具体步骤如下(a)特征提取,将采集的各种语音的模拟信号进行A/D转换,转换成数字信号后进行加工并存储;即将该信号数字进行数字去噪处理加工,去除伪数据,保留特征数据;(b)模板训练,根据车载设备操控常用语音命令和相关信息建立语音模板库,找不同年龄、性别、口音的人来读,并做相应的处理,建立起车用操控语音模板数据库;(c)模板分类,根据应用特征,即控制命令类、地址信息类,信息范围按大小类分类,以缩小匹配判定范围,提高匹配效率和准确率;(d)判定,利用匹配算法进行语音特征与语音模板库模型匹配,输出判定的结果。
3.根据权利要求1所述的口型辅助语音识别术在车载导航中应用的方法,其特征是 步骤b具体实施还包括以下方法采用一种基于色度滤波的唇动特征提取与识别方法,通过唇的色度滤波,得到增强的唇动图像;再利用可变模板,描述口型轮廓并提取特征参数,并用隐马尔科夫模型进行唇运动序列图像识别。
4.根据权利要求1所述的口型辅助语音识别术在车载导航中的应用方法,其特征是 步骤c所述相似度达到一定程度为相似度达到70%以上。
5.一种口型辅助语音识别术在车载导航中应用的系统,其特征是包含车载导航影音系统(25)及其上连接的图像/语音识别处理模块(24),连接于图像/语音识别处理模块 (24)输入端的麦克风(23)、摄像头(22);麦克风(23)和摄像头(22)分别对声音信号和口型图像信号进行采集,并输入到图像/语音识别处理模块(24)进行其它相应处理、识别,并把识别后的结果转换成相应的控制指令,输入到车载导航影音系统(25)实现语音控制操作。
6.根据权利要求5所述的口型辅助语音识别术在车载导航中应用的系统,其特征是 所述麦克风(23)为具有定向音频传输功能的高保真/高灵敏度的驻极体电容式拾音器。
7.根据权利要求5所述的口型辅助语音识别术在车载导航中应用的系统,其特征是 所述摄像头(22)为带夜视功能的、视频分辨率为640X480、25帧、32bit真彩C⑶视频图像传感器。
8.根据权利要求5或6所述的口型辅助语音识别术在车载导航中应用的系统,其特征是所述麦克风(23)安装位置是安装在驾驶员位正前方仪表盘上部位,且拾音器口要正对驾驶员面部(21)。
9.根据权利要求5或7所述的口型辅助语音识别术在车载导航中应用的系统,其特征是所述摄像头(22)安装位置是安装在驾驶员位正前方挡风玻璃的上边沿端,镜头正对驾驶员面部(21)。
10.根据权利要求5所述的口型辅助语音识别术在车载导航中应用的系统,其特征是 图像/语音识别处理模块(24)所用处理器为高性能DSP处理器。
全文摘要
本发明涉及一种口型辅助语音识别术在车载导航中应用的方法及系统。方案是把摄像头和麦克风设置在合适位置,对用户口型图像信号和声音信号进行采集,输入图像/语音识别处理模块,通过语音识别与口型识别相结合方法,进行先语音识别判断、后口型识别确认的逻辑判断序列,形成统一的判别结果,将识别的准确信息与车载导航设备操控指令相对应,完成语音识别操控功能,有效地降低语音识别因噪声干扰产生识别错误的几率,使车辆在行驶和怠速情况下(关闭车窗)的语音识别率由原来的80%左右提高到90%以上,提高了语音识别技术在车载导航领域应用的识别率,使语音导航更具实用价值,驾驶员使用导航设备更方便,提高安全驾车系数。
文档编号G10L15/06GK102324035SQ20111023940
公开日2012年1月18日 申请日期2011年8月19日 优先权日2011年8月19日
发明者伍栋杨, 王冰 申请人:广东好帮手电子科技股份有限公司