一种语音输入方法、装置和系统的制作方法

文档序号：9371979阅读：435来源：国知局

一种语音输入方法、装置和系统的制作方法
【技术领域】
[0001]本申请涉及语音识别的技术领域，特别是涉及一种语音输入方法、一种语音输入装置和一种语音输入系统。
【背景技术】
[0002]随着社会的不断发展和多媒体通信以及声音转换技术的深入发展，声音控制技术(即声控技术)已经得到广泛的关注。声控技术经过长期快速发展，已经投入到实际应用中，例如，用声音打开门窗、窗帘、电视机、电灯等。
[0003]在实现声控技术时，语音识别是其中一个重要环节。而目前的声控技术一般是基于用户的一系列声音识别技术，包括:接收音频信号；根据有效语音命令特征对所述音频信号进行分解和过滤，得到语音样本；对所述语音样本进行语义识别，确定对应的语音命令。
[0004]目前的声控技术需要清晰明了地获取用户的音频信号，才能进一步识别，因此在识别声音的时候容易出现错误，特别是在用户说话声音小、环境嘈杂等情况下，目前的声控技术不能完全准确的获取用户的音频信号，进而不能准确进行识别。
[0005]因此，目前需要本领域技术人员迫切解决的一个技术问题就是:如何提出一种语音输入机制，以提高语音识别的准确率。

【发明内容】

[0006]本申请实施例所要解决的技术问题是提供一种语音输入方法，用以提高语音识别的准确率。
[0007]相应的，本申请实施例还提供了一种语音输入装置和一种语音输入系统，用以保证上述方法的实现及应用。
[0008]为了解决上述问题，本申请实施例公开了一种语音输入方法，包括:
[0009]接收客户端发送的特征信息；所述特征信息包括语音信号和用户特征图像信号；
[0010]识别出与所述用户特征图像信号匹配的第一候选识别数据；
[0011]识别出与所述语音信号匹配的第二候选识别数据；
[0012]至少根据所述第一候选识别数据和第二候识别选数据确定目标识别数据；以及
[0013]将所述目标识别数据发送至所述客户端。
[0014]优选地，所述用户特征图像信号包括在输入所述语音信号时记录的一帧或多帧嘴型特征图信号。
[0015]优选地，所述第一候选识别数据对应有一帧或多帧嘴型参考图信号，所述识别出与所述用户特征图像信号匹配的第一候选识别数据的步骤包括:
[0016]计算所述一帧或多帧嘴型特征图信号和所述一帧或多帧嘴型参考图信号之间的嘴型相似度；以及
[0017]提取与最高值的嘴型相似度对应的第一候选识别数据，作为与所述用户特征图像信号匹配的第一候选识别数据。
[0018]优选地，每一帧嘴型参考图信号对应有一组嘴型参考向量，所述计算所述一帧或多帧嘴型特征图信号和所述一帧或多帧嘴型参考图信号之间的嘴型相似度的步骤包括:
[0019]从每一帧嘴型特征图信号中提取一组嘴型特征信息；
[0020]对每一组嘴型特征信息建立一组嘴型特征向量；
[0021]分别计算所述嘴型特征向量与对应的所述嘴型参考向量之间的向量相似度；以及
[0022]计算所述向量相似度之和，获得嘴型相似度。
[0023]优选地，每一组嘴型特征向量中包括如下至少一种向量:
[0024]特征嘴型大小向量、特征嘴型比例向量、特征牙齿能见向量、特征牙齿比例向量、特征舌头能见向量、特征舌头比例向量；
[0025]其中，所述特征嘴型大小为标识所述嘴型特征图信号中嘴型区域面积大小的向量;
[0026]所述特征嘴型比例向量为标识所述嘴型特征图信号中嘴型区域面积，与预置的标准嘴型区域面积之间的比例的向量；
[0027]所述特征牙齿能见向量为标识所述嘴型特征图信号中是否识别出牙齿区域的向量;
[0028]所述特征牙齿比例向量为标识所述嘴型特征图信号中牙齿区域与嘴型区域之间的比例的向量；
[0029]所述特征舌头能见向量为标识所述嘴型特征图信号中是否识别出舌头区域的向量;
[0030]所述特征舌头比例向量为标识所述嘴型特征图信号中舌头区域与嘴型区域之间的比例的向量。
[0031]优选地，每一组嘴型参考向量中包括如下至少一种向量:
[0032]参考嘴型大小向量、参考嘴型比例向量、参考牙齿能见向量、参考牙齿比例向量、参考舌头能见向量、参考舌头比例向量；
[0033]其中，所述参考嘴型大小为标识所述嘴型参考图信号中嘴型区域面积大小的向量;
[0034]所述参考牙齿能见向量为标识所述嘴型参考图信号中是否识别出牙齿区域的向量;
[0035]所述参考嘴型比例向量为标识所述嘴型参考图信号中嘴型区域面积，与预置的标准嘴型区域面积之间的比例的向量；
[0036]所述参考牙齿比例向量为标识所述嘴型参考图信号中牙齿区域与嘴型区域之间的比例的向量；
[0037]所述参考舌头能见向量为标识所述嘴型参考图信号中是否识别出舌头区域的向量;
[0038]所述参考舌头比例向量为标识所述嘴型参考图信号中舌头区域与嘴型区域之间的比例的向量。
[0039]优选地，所述分别计算所述嘴型特征向量与对应的嘴型参考向量之间的向量相似度的步骤包括:
[0040]分别将所述特征嘴型大小向量与所述特征嘴型比例向量的比值设置为标准嘴型大小向量；以及
[0041]至少根据所述标准嘴型大小向量、所述特征牙齿能见向量、所述特征牙齿比例向量、所述特征舌头能见向量、所述特征舌头比例向量，与所述参考嘴型大小向量、所述参考牙齿能见向量、所述参考牙齿比例向量、所述参考舌头能见向量、所述参考舌头比例向量中的一种或者多种，计算特征向量相似度。
[0042]优选地，所述识别出与所述语音信号匹配的第二候选识别数据的步骤包括:
[0043]从所述语音信号提取语音特征；
[0044]计算所述语音特征与预置的发音模板之间的发音相似度；
[0045]当所述发音相似度大于预设的相似度阈值时，提取所述发音相似度所属的发音模板对应的语音候选数据；
[0046]计算所述语音候选数据的出现概率；
[0047]当所述出现概率大于预设的第一概率阈值时，计算所述语音候选数据之间的连接概率；以及
[0048]当所述连接概率大于预设的第二概率阈值时，提取所述语音候选数据组成第二候选识别数据。
[0049]优选地，所述至少根据所述第一候选识别数据和第二候选识别数据确定目标识别数据的步骤包括:
[0050]对所述第一候选识别数据和所述第二候选识别数据进行交集处理，获得目标识别数据。
[0051]本申请实施例还公开了一种语音输入方法，包括:
[0052]采集特征信息；所述特征信息包括语音信号和用户特征图像信号；
[0053]识别出与所述用户特征图像信号匹配的第一候选识别数据；
[0054]识别出与所述语音信号匹配的第二候选识别数据；以及
[0055]至少根据所述第一候选识别数据和第二候识别选数据确定目标识别数据。
[0056]优选地，还包括:
[0057]执行所述目标识别数据对应的操作。
[0058]优选地，所述用户特征图像信号包括在输入所述语音信号时记录的一帧或多帧嘴型特征图信号。
[0059]优选地，所述第一候选识别数据对应有一帧或多帧嘴型参考图信号，所述识别出与所述用户特征图像信号匹配的第一候选识别数据的步骤包括:
[0060]计算所述一帧或多帧嘴型特征图信号和所述一帧或多帧嘴型参考图信号之间的嘴型相似度；以及
[0061]提取最高值的嘴型相似度对应的第一候选识别数据，作为与所述用户特征图像信号匹配的第一候选识别数据。
[0062]优选地，每一帧嘴型参考图信号对应有一组嘴型参考向量，所述计算所述一帧或多帧嘴型特征图信号和所述一帧或多帧嘴型参考图信号之间的嘴型相似度的步骤包括:
[0063]从每一帧嘴型特征图信号中提取一组嘴型特征信息；
[0064]对每一组嘴型特征信息建立一组嘴型特征向量；
[0065]分别计算所述嘴型特征向量与对应的所述嘴型参考向量之间的向量相似度；以及
[0066]计算所述向量相似度之和，获得嘴型相似度。
[0067]优选地，每一组嘴型特征向量中包括如下至少一种向量:
[0068]特征嘴型大小向量、特征嘴型比例向量、特征牙齿能见向量、特征牙齿比例向量、特征舌头能见向量、特征舌头比例向量；
[0069]其中，所述特征嘴型大小为标识所述嘴型特征图信号中嘴型区域面积大小的向量;
[0070]所述特征嘴型比例向量为标识所述嘴型特征图信号中嘴型区域面积，与预置的标准嘴型区域面积之间的比例的向量；
[0071]所述特征牙齿能见向量为标识所述嘴型特征图信号中是否识别出牙齿区域的向量;
[0072]所述特征牙齿比例向量为标识所述嘴型特征图信号中牙齿区域与嘴型区域之间的比例的向量；
[0073]所述特征舌头能见向量为标识所述嘴型特征图信号中是否识别出舌头区域的向量;
[0074]所述特征舌头比例向量为标识所述嘴型特征图信号中舌头区域与嘴型区域之间的比例的向量。
[0075]优选地，每一组嘴型参考向量中包括如下至少一种向量:
[0076]参考嘴型大小向量、参考嘴型比例向量、参考牙齿能见向量、参考牙齿比例向量、参考舌头能见向量、参考舌头比例向量；
[0077]其中，所述参考嘴型大小为标识所述嘴型参考图信号中嘴型区域面积大小的向量;
[0078]所述参考牙齿能见向量为标识所述嘴型参考图信号中是否识别出牙齿区域的向量;
[0079]所述参考嘴型比例向量为标识所述嘴型参考图信号中嘴型区域面积，与预置的标准嘴型区域面积之间的比例的向量；
[0080]所述参考牙齿比例向量为标识所述嘴型参考图信号中牙齿区域与嘴型区域之间的比例的向量；
[0081]所述参考舌头能见向量为标识所述嘴型参考图信号中是否识别出舌头区域的向量;
[0082]所述参考舌头比例向量为标识所述嘴型参考图信号中舌头区域与嘴型区域之间的比例的向量。
[0083]优选地，所述分别计算所述嘴型特征向量与对应的嘴型参考向量之间的向量相似度的步骤包括:
[0084]分别将所述特征嘴型大小向量与所述特征嘴型比例向量的比值设置为标准嘴型大小向量；以及
[0085]至少根据所述标准嘴型大小向量、所述特征牙齿能见向量、所述特征牙齿比例向量、所述特征舌头能见向量、所述特征舌头比例向量，与所述参考嘴型大小向量、所述参考牙齿能见向量、所述参考牙齿比例向量、所述参考舌头能见向量、所述参考舌头比例向量中的一种或者多种，计算特征向量相似度。
[0086]优选地，所述识别出与所述语音信号匹配的第二候选识别数据的步骤包括:
[0087]从所述语音信号提取语音特征；
[0088]计算所述语音特征与预置的发音模板之间的发音相似度；
[0089]当所述发音相似度大于预设的相似度阈值时，提取所述发音相似度所属的发音模板对应的语音候选数据；
[0090]计算所述语音候选数据的出现概率；
[0091]当所述出现概率大于预设的第一概率阈值时，计算所述语音候选数据之间的连接概率；以及
[0092]当所述连接概率大于预设的第二概率阈值时，提取所述语音候选数据组成第二候选识别数据。
[0093]优选地，所述至少根据所述第一候选识别数据和第二候选识别数据确定目标识别数据的步骤包括:
[0094]对所述第一候选识别数据和所述第二候选识别数据进行交集处理，获得目标识别数据。
[0095]本申请实施例还公开了一种语音输入装置，包括:
[0096]接收模块，用于接收客户端发送的特征信息；所述特征信息包括语音信号和用户特征图像信号；
[0097]第一识别模块，用于识别出与所述用户特征图像信号匹配的第一候选识别数据；
[0098]第二识别模块，用于识别出与所述语音信号匹配的第二候选识别数据；
[0099]确定模块，用于至少根据所述第一候选识别数据和第二候识别选数据确定目标识别数据；
[0100]发送模块，用于将所述目标识别数据发送至所述客户端。
[0101]优选地，所述用户特征图像信号包括在输入所述语音信号时记录的一帧或多帧嘴型特征图信号。
[0102]优选地，所述第一识别模块包括:
[0103]嘴型相似度计算子模块，用于计算所述一帧或多帧嘴型特征图信号和所述一帧或多帧嘴型参考图信号之间的嘴型相似度；
[0104]第一提取模块，用于提取与最高值的嘴型相似度对应的第一候选识别数据，作为与所述用户特征图像信号匹配的第一候选识别数据。
[0105]优选地，每一帧嘴型参考图信号对应有一组嘴型参考向量，所述第一嘴型相似度计算子模块包括:
[0106]特征提取子模块，用于对从每一帧嘴型特征图信号中提取一组嘴型特征信息；
[0107]向量建立子模块，用于对每一组嘴型特征信息建立一组嘴型特征向量；
[0108]第一计算子模块，用于分别计算所述嘴型特征向量与对应的所述嘴型参考向量之间的向量相似度；
[0109]第二计算子模块，用于计算所述向量相似度之和，获得嘴型相似度。
[0110]优选地，每一组嘴型特征向量中包括如下至少一种向量:
[0111]特征嘴型大小向量、特征嘴型比例向量、特征牙齿能见向量、特征牙齿比例向量、特征舌头能见向量、特征舌头比例向量；
[0112]其中，所述特征嘴型大小为标识所述嘴型特征图信号中嘴型区域面积大小的向量;
[0113]所述特征嘴型比例向量为标识所述嘴型特征图信号中嘴型区域面积，与预置的标准嘴型区域面积之间的比例的向量；
[0114]所述特征牙齿能见向量为标识所述嘴型特征图信号中是否识别出牙齿区域的向量;
[0115]所述特征牙齿比例向量为标识所述嘴型特征图信号中牙齿区域与嘴型区域之间的比例的向量；
[0116]所述特征舌头能见向量为标识所述嘴型特征图信号中是否识别出舌头区域的向量;
[0117]所述特征舌头比例向量为标识所述嘴型特征图信号中舌头区域与嘴型区域之间的比例的向量；
[0118]优选地，每一组嘴型参考向量中包括如下至少一种向量:
[0119]参考嘴型大小向量、参考嘴型比例向量、参考牙齿能见向量、参考牙齿比例向量、参考舌头能见向量、参考舌头比例向量；
[0120]其中，所述参考嘴型大小为标识所述嘴型参考图信号中嘴型区域面积大小的向量;
[0121]所述参考牙齿能见向量为标识所述嘴型参考图信号中是否识别出牙齿区域的向量;
[0122]所述参考嘴型比例向量为标识所述嘴型参考图信号中嘴型区域面积，与预置的标准嘴型区域面积之间的比例的向量；
[0123]所述参考牙齿比例向量为标识所述嘴型参考图信号中牙齿区域与嘴型区域之间的比例的向量；
[0124]所述参考舌头能见向量为标识所述嘴型参考图信号中是否识别出舌头区域的向量;
[0125]所述参考舌头比例向量为标识所述嘴型参考图信号中舌头区域与嘴型区域之间的比例的向量。
[0126]优选地，所述第一计算子模块包括:
[0127]设置子模块，用于分别将所述特征嘴型大小向量与所述特征嘴型比例向量的比值设置为标准嘴型大小向量；
[0128]向量计算子模块，用于至少根据所述标准嘴型大小向量、所述特征牙齿能见向量、所述特征牙齿比例向量、所述特征舌头能见向量、所述特征舌头比例向量，与所述参考嘴型大小向量、所述参考牙齿能见向量、所述参考牙齿比例向量、所述参考舌头能见向量、所述参考舌头比例向量中的一种或者多种，计算特征向量相似度。
[0129]优选地，所述第二识别模块包括:
[0130]第一提取子模块，用于从所述语音信号提取语音特征；
[0131]第三计算子模块，用于计算所述语音特征与预置的发音模板之间的发音相似度；
[0132]第二提取子模块，用于在所述发音相似度大于预设的相似度阈值时，提取所述发音相似度所属的发音模板对应的语音候选数据；
[0133]第四计

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李志宁;
技术所有人：阿里巴巴集团控股有限公司;
我是此专利的发明人