本发明涉及人脸检测技术领域,更具体的是涉及一种基于口型识别的智能检测方法,用于辅助语音识别。
背景技术:
语音识别是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,但是,在外界噪声干扰下,机器对语音的识别率比较低,目前的处理方式往往是通过口型识别来辅助语音识别,以达到更好的语音识别效果。
口型识别又叫唇读识别,是一个动态过程,主要用于识别唇读的内容,一般通过提取唇部的特定参数,配合特定的识别算法来识别口型的内容,但是现有的口型识别在说话者快速说话或连续说话时识别效果较差。
技术实现要素:
本发明的目的在于:为了解决现有的口型识别在说话者快速说话或连续说话时识别效果较差的问题,本发明提供一种基于口型识别的智能检测方法。
本发明为了实现上述目的具体采用以下技术方案:
一种基于口型识别的智能检测方法,包括以下步骤:
(1)人脸检测与定位:通过hsv颜色模型与ycbcr颜色模型进行结合,得到肤色分割图,之后采用3x3中值滤波和小对象移除算法对肤色分割图进行去噪处理,之后在经过去噪处理的肤色分割图中计算得到二值图像每行和每列像素的和以及对应各行各列像素平均值,之后搜索到行列的像素值均高于平均值的区域,便得到人脸终选区域;
(2)人眼定位:在人脸终选区域中,利用灰度垂直积分曲线的人眼候选区域,之后利用眼球几何特征为圆形的特性对人眼候选区域进行hough圆检测遍历搜索,确定眼球的圆心坐标的位置和半径,从而确定眼球区域;
(3)嘴唇初步定位:过两个眼球的圆心向下巴方向作垂线垂直于双眼的连线,嘴唇先定位在上述两条垂线之间,之后嘴唇定位在两条垂线之间的眼睛到下巴二等分的下半部分,得到候选嘴唇区域;
(4)嘴唇精准定位:利用hsv模型变换对候选嘴唇区域的像素进行重新计算和处理,之后对经过变换之后的候选嘴唇区域二值图像作垂直灰度积分投影曲线,通过截取的方式得到精准嘴唇区域;
(5)嘴唇特征提取:运用凸包算法对精准嘴唇区域进行处理,得到和嘴唇形状接近的凸包轮廓,之后对凸包轮廓进行高度h、宽度w、面积a、周长p和长宽比r等几何特征提取;
(6)口型识别:对1000张嘴唇图片进行上述方法的处理,之后把得到的特征向量存入模板库中备用,之后以单个几何特征为标准与模板库进行匹配侧视单个几何特征的识别率,从而得到单个几何特征的加权系数,之后采用dtw动态时间规整算法将加权特征的时间序列与模板库匹配,用距离函数完成口型识别。
进一步地,步骤(1)中通过hsv颜色模型与ycbcr颜色模型进行结合得到肤色分割图的方法如下:
(1)在基于ycbcr颜色模型的人脸提取图中,提取人脸初步区域,计算得到二值图像每行和每列像素的和以及对应各行各列像素平均值;
(2)在步骤(1)中的人脸初步区域中搜索到行列的像素值均高于平均值的区域,得到人脸候选区域;
(3)将人脸候选区域上下左右分别扩展1/10,得到人脸待选区域;
(4)在人脸待选区域进行hsv颜色空间的人脸提取,得到肤色分割图。
本发明的有益效果如下:
(1)通过hsv颜色模型与ycbcr颜色模型进行结合,有效改善rgb、hsv颜色模型对红色分量十分敏感的缺点,同时解决ycbcr模型对于边界检测的不足,得到较好的肤色分割效果,并且具有运算量小、运算时间短的优点;
(2)通过眼球的距离来确定嘴巴的宽度,之后截取人眼候选区域,之后通过hough变换对人眼候选区域进行圆遍历搜索,定位到同为圆形的眼球,具有良好的稳定性和较高的准确率;
(3)通过两个眼球初步定位出候选嘴唇区域,之后利用hsv模型变换对候选嘴唇区域的像素进行重新计算和处理,增强了嘴唇区域像素点与周围像素点的对比度,使得分割效果更为理想,之后对经过变换之后的候选嘴唇区域二值图像作垂直灰度积分投影曲线,通过截取的方式得到精准嘴唇区域;
(4)对精准嘴唇区域进行边界跟踪和凸包处理,得到完整的口型轮廓,然后对该轮廓求取嘴唇的几何特征,将这些特征向量作为唇读模块的主要依据,包括高度h、宽度w、面积a、周长p和长宽比r,分别与模板库进行匹配测试各个几何特征的识别率,并得到相应的加权系数,最后采用dtw动态时间规整算法将加权特征的时间序列与模板库匹配,用距离函数完成口型识别,在说话者快速说话或连续说话时也具有良好的识别效果。
具体实施方式
为了本技术领域的人员更好的理解本发明,下面结合以下实施例对本发明作进一步详细描述。
实施例1
一种基于口型识别的智能检测方法,包括以下步骤:
(1)人脸检测与定位:通过hsv颜色模型与ycbcr颜色模型进行结合,得到肤色分割图,之后采用3x3中值滤波和小对象移除算法对肤色分割图进行去噪处理,之后在经过去噪处理的肤色分割图中计算得到二值图像每行和每列像素的和以及对应各行各列像素平均值,之后搜索到行列的像素值均高于平均值的区域,便得到人脸终选区域;
(2)人眼定位:在人脸终选区域中,利用灰度垂直积分曲线的人眼候选区域,之后利用眼球几何特征为圆形的特性对人眼候选区域进行hough圆检测遍历搜索,确定眼球的圆心坐标的位置和半径,从而确定眼球区域;
(3)嘴唇初步定位:过两个眼球的圆心向下巴方向作垂线垂直于双眼的连线,嘴唇先定位在上述两条垂线之间,之后嘴唇定位在两条垂线之间的眼睛到下巴二等分的下半部分,得到候选嘴唇区域;
(4)嘴唇精准定位:利用hsv模型变换对候选嘴唇区域的像素进行重新计算和处理,之后对经过变换之后的候选嘴唇区域二值图像作垂直灰度积分投影曲线,通过截取的方式得到精准嘴唇区域;
(5)嘴唇特征提取:运用凸包算法对精准嘴唇区域进行处理,得到和嘴唇形状接近的凸包轮廓,之后对凸包轮廓进行高度h、宽度w、面积a、周长p和长宽比r等几何特征提取;
(6)口型识别:对1000张嘴唇图片进行上述方法的处理,之后把得到的特征向量存入模板库中备用,之后以单个几何特征为标准与模板库进行匹配侧视单个几何特征的识别率,从而得到单个几何特征的加权系数,之后采用dtw动态时间规整算法将加权特征的时间序列与模板库匹配,用距离函数完成口型识别。
优选的,步骤(1)中通过hsv颜色模型与ycbcr颜色模型进行结合得到肤色分割图的方法如下:
(1)在基于ycbcr颜色模型的人脸提取图中,提取人脸初步区域,计算得到二值图像每行和每列像素的和以及对应各行各列像素平均值;
(2)在步骤(1)中的人脸初步区域中搜索到行列的像素值均高于平均值的区域,得到人脸候选区域;
(3)将人脸候选区域上下左右分别扩展1/10,得到人脸待选区域;
(4)在人脸待选区域进行hsv颜色空间的人脸提取,得到肤色分割图。
1.一种基于口型识别的智能检测方法,其特征在于,包括以下步骤:
(1)人脸检测与定位:通过hsv颜色模型与ycbcr颜色模型进行结合,得到肤色分割图,之后采用3x3中值滤波和小对象移除算法对肤色分割图进行去噪处理,之后在经过去噪处理的肤色分割图中计算得到二值图像每行和每列像素的和以及对应各行各列像素平均值,之后搜索到行列的像素值均高于平均值的区域,便得到人脸终选区域;
(2)人眼定位:在人脸终选区域中,利用灰度垂直积分曲线的人眼候选区域,之后利用眼球几何特征为圆形的特性对人眼候选区域进行hough圆检测遍历搜索,确定眼球的圆心坐标的位置和半径,从而确定眼球区域;
(3)嘴唇初步定位:过两个眼球的圆心向下巴方向作垂线垂直于双眼的连线,嘴唇先定位在上述两条垂线之间,之后嘴唇定位在两条垂线之间的眼睛到下巴二等分的下半部分,得到候选嘴唇区域;
(4)嘴唇精准定位:利用hsv模型变换对候选嘴唇区域的像素进行重新计算和处理,之后对经过变换之后的候选嘴唇区域二值图像作垂直灰度积分投影曲线,通过截取的方式得到精准嘴唇区域;
(5)嘴唇特征提取:运用凸包算法对精准嘴唇区域进行处理,得到和嘴唇形状接近的凸包轮廓,之后对凸包轮廓进行高度h、宽度w、面积a、周长p和长宽比r等几何特征提取;
(6)口型识别:对1000张嘴唇图片进行上述方法的处理,之后把得到的特征向量存入模板库中备用,之后以单个几何特征为标准与模板库进行匹配侧视单个几何特征的识别率,从而得到单个几何特征的加权系数,之后采用dtw动态时间规整算法将加权特征的时间序列与模板库匹配,用距离函数完成口型识别。
2.根据权利要求1所述的一种基于口型识别的智能检测方法,其特征在于,步骤(1)中通过hsv颜色模型与ycbcr颜色模型进行结合得到肤色分割图的方法如下:
(1)在基于ycbcr颜色模型的人脸提取图中,提取人脸初步区域,计算得到二值图像每行和每列像素的和以及对应各行各列像素平均值;
(2)在步骤(1)中的人脸初步区域中搜索到行列的像素值均高于平均值的区域,得到人脸候选区域;
(3)将人脸候选区域上下左右分别扩展1/10,得到人脸待选区域;
(4)在人脸待选区域进行hsv颜色空间的人脸提取,得到肤色分割图。