1.一种语音识别装置,其具有:
取得部,其取得对人发出的语音进行录音而得到的音频流、以及拍摄所述人的至少嘴部而得到的视频流;
语音识别部,其根据所述音频流,识别包含所述人发出的辅音在内的语音;
辅音估计部,其根据所述视频流的所述人的嘴部的形状,估计所述人发出的辅音;以及
辅音确定部,其根据由所述辅音估计部估计出的辅音和由所述语音识别部识别出的辅音,来确定辅音。
2.根据权利要求1所述的语音识别装置,其中,
所述辅音估计部根据检测到元音的定时,确定辅音发声帧,根据所述辅音发声帧中的所述人的嘴部的形状,估计所述人发出的辅音,该辅音发声帧是在元音之前、且被估计为所述视频流中的所述人发出了辅音的帧。
3.根据权利要求2所述的语音识别装置,其中,
所述辅音发声帧是直到检测出元音为止的多个帧,
所述辅音估计部根据多个所述辅音发声帧中的所述人的嘴部的形状变化,估计所述人发出的辅音。
4.根据权利要求3所述的语音识别装置,其中,
所述辅音估计部将比检测到元音的定时靠前规定时间的定时决定为所述辅音发声帧的起始。
5.根据权利要求3所述的语音识别装置,其中,
所述辅音估计部将开口面积成为规定值以上的定时决定为所述辅音发声帧的起始。
6.根据权利要求3所述的语音识别装置,其中,
所述辅音估计部将嘴部的横宽与纵宽之比成为规定值以上的定时决定为所述辅音发声帧的起始。
7.根据权利要求3所述的语音识别装置,其中,
所述辅音估计部将检测到规定音量以上的语音的定时决定为所述辅音发声帧的起始。
8.根据权利要求3所述的语音识别装置,其中,
所述辅音估计部将比检测到规定音量以上的语音的定时靠前规定时间的定时决定为所述辅音发声帧的起始。
9.根据权利要求2~8中的任意一项所述的语音识别装置,其中,
所述辅音估计部根据所述音频流,检测所述人发出元音的定时。
10.根据权利要求2~8中的任意一项所述的语音识别装置,其中,
所述辅音估计部根据所述视频流,检测所述人发出元音的定时。
11.根据权利要求1所述的语音识别装置,其中,
所述语音识别装置还具有单词识别部,该单词识别部根据由所述语音识别部识别出的元音、由所述辅音确定部确定的辅音和预先设定的单词识别辞典,识别单词。
12.根据权利要求11所述的语音识别装置,其中,
所述语音识别装置还具有项目选择部,该项目选择部选择表示识别对象的语音的种类的项目,
所述单词识别部根据由所述语音识别部识别出的元音、由所述辅音确定部确定的辅音、以及具有与由所述项目选择部选择的项目对应的单词的单词识别辞典,识别单词。
13.根据权利要求12所述的语音识别装置,其中,
所述语音识别装置还具有显示部,该显示部显示正在由所述取得部进行所述音频流和所述视频流的取得的情况。
14.根据权利要求13所述的语音识别装置,其中,
所述显示部在所述音频流和所述视频流的取得时,显示由所述项目选择部选择的项目。
15.一种语音识别装置中的语音识别方法,该语音识别装置具有取得部,该取得部取得对人发出的语音进行录音而得到的音频流和拍摄所述人的至少嘴部而得到的视频流,其中,
所述语音识别装置根据所述音频流,识别包含所述人发出的辅音在内的语音,
所述语音识别装置根据所述视频流的所述人的嘴部的形状,估计所述人发出的辅音,
所述语音识别装置根据基于所述视频流而估计出的辅音和基于所述音频流而识别出的辅音,来确定辅音。