语音识别方法、装置、设备及存储介质与流程

文档序号：33394299发布日期：2023-03-08 12:34阅读：71来源：国知局

1.本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术：

2.得益于人工智能技术的不断发展，语音交互已逐渐成为主流的交互技术之一，为了提升交互中语音识别的准确率则需要降低噪声的干扰，目前的主流方式是通过mic阵列硬件的方式进行音频信号增强，屏蔽噪声。假如环境非常的嘈杂、声源较远或者混响比较严重的时候，即使增加mic阵列的硬件，语音指令也无法被准确的捕获，因此仅靠mic阵列也很难确保语音识别的准确率。

技术实现要素：

3.本发明的主要目的在于提供一种语音识别方法、装置、设备及存储介质，旨在解决现有技术如何提高语音交互过程中语音识别的准确率的技术问题。
4.为实现上述目的，本发明提供了一种语音识别方法，所述语音识别方法包括：
5.获取多个方位上的定位摄像模块反馈的唇语采集图像；
6.根据各唇语采集图像确定目标唇语和用户唇部坐标；
7.根据所述用户唇部坐标确定语音拾取阵列的语音拾取方向；
8.获取所述语音拾取阵列根据所述语音拾取方向反馈的采集语音；
9.根据所述目标唇语识别所述采集语音的语音内容。
10.可选地，所述根据各唇语采集图像确定目标唇语和用户唇部坐标，包括：
11.对各唇语采集图像进行图像组合，得到目标唇语图像；
12.对所述目标唇语图像进行特征提取，确定唇语特征；
13.根据所述唇语特征和预设唇语识别模型确定目标唇语；
14.根据所述目标唇语图像确定用户唇部坐标。
15.可选地，所述根据所述目标唇语图像确定用户唇部坐标，包括：
16.根据预设图像选取规则获取对比唇语图像；
17.根据所述目标唇语图像和目标空间网格确定用户的人脸三维位置信息；
18.根据所述人脸三维位置信息、所述对比唇语图像以及所述目标唇语图像确定用户唇部坐标。
19.可选地，所述根据所述人脸三维位置信息、所述对比唇语图像以及所述目标唇语图像确定用户唇部坐标，包括：
20.根据所述对比唇语图像和目标唇语图像对用户的唇部进行唇动判断，确定是否为有效唇动；
21.当确定所述对比唇语图像和所述目标唇语图像确定为有效唇动时，根据所述目标唇语图像确定唇部相对位置；
22.根据所述唇部相对位置和所述人脸三维位置信息确定用户唇部坐标。
23.可选地，所述根据所述目标唇语图像和目标空间网格确定用户的人脸三维位置信息之前，还包括：
24.获取多个方位上的定位摄像模块反馈的基准位置；
25.根据各基准位置计算目标区域的空间范围；
26.根据所述空间范围对所述目标区域进行网格划分，得到目标空间网格。
27.可选地，所述根据所述目标唇语识别所述采集语音的语音内容，包括：
28.对所述采集语音进行特征提取，确定语音特征；
29.根据所述语音特征和预设语音识别模型确定目标音频；
30.对所述目标唇语和所述目标音频进行帧级匹配，得到帧级匹配结果；
31.根据所述帧级匹配结果确定语音内容。
32.可选地，所述根据所述目标唇语识别所述采集语音的语音内容之后，还包括：
33.根据所述用户唇部坐标对各定位摄像模块的追踪方向进行调整，得到调整后的各定位摄像模块；
34.获取调整后的各定位摄像模块反馈的新的唇语采集图像，并通过所述新的唇语采集图像进行语音识别。
35.此外，为实现上述目的，本发明还提出一种语音识别装置，所述语音识别装置包括：
36.获取模块，用于获取多个方位上的定位摄像模块反馈的唇语采集图像；
37.确定模块，用于根据各唇语采集图像确定目标唇语和用户唇部坐标；
38.所述确定模块，还用于根据所述用户唇部坐标确定语音拾取阵列的语音拾取方向；
39.所述获取模块，还用于获取所述语音拾取阵列根据所述语音拾取方向反馈的采集语音；
40.识别模块，用于根据所述目标唇语识别所述采集语音的语音内容。
41.此外，为实现上述目的，本发明还提出一种语音识别设备，所述语音识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序配置为实现如上文所述的语音识别方法。
42.此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如上文所述的语音识别方法。
43.本发明通过获取多个方位上的定位摄像模块反馈的唇语采集图像；根据各唇语采集图像确定目标唇语和用户唇部坐标；根据所述用户唇部坐标确定语音拾取阵列的语音拾取方向；获取所述语音拾取阵列根据所述语音拾取方向反馈的采集语音；根据所述目标唇语识别所述采集语音的语音内容。通过上述方式，根据多个方位上的定位摄像反馈的唇语采集图像确定目标唇语和用户唇部坐标，基于用户唇部坐标确定语音拾取方向，实现了采集语音的定向拾取，并基于目标唇语识别采集语音的语音内容，融合多种模态下的内容降低环境中噪声的干扰，充分保障了远场语音交互和降噪效果，也使得非佩戴语音交互更加完善并具备良好的鲁棒性，实现了纯净信号的还原，提高了语音听感和语音识别的准确率速生成。
附图说明
44.图1是本发明实施例方案涉及的硬件运行环境的语音识别设备的结构示意图；
45.图2为本发明语音识别方法第一实施例的流程示意图；
46.图3为本发明语音识别方法一实施例的语音识别系统示意图；
47.图4为本发明语音识别方法第二实施例的流程示意图；
48.图5为本发明语音识别方法一实施例的整体流程示意图；
49.图6为本发明语音识别方法一实施例的定位流程示意图；
50.图7为本发明语音识别装置第一实施例的结构框图。
51.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
52.应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
53.参照图1，图1为本发明实施例方案涉及的硬件运行环境的语音识别设备结构示意图。
54.如图1所示，该语音识别设备可以包括：处理器1001，例如中央处理器(central processing unit，cpu)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity，wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory，ram)存储器，也可以是稳定的非易失性存储器(non-volatile memory，nvm)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
55.本领域技术人员可以理解，图1中示出的结构并不构成对语音识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
56.如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别程序。
57.在图1所示的语音识别设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明语音识别设备中的处理器1001、存储器1005可以设置在语音识别设备中，所述语音识别设备通过处理器1001调用存储器1005中存储的语音识别程序，并执行本发明实施例提供的语音识别方法。
58.本发明实施例提供了一种语音识别方法，参照图2，图2为本发明一种语音识别方法第一实施例的流程示意图。
59.语音识别方法包括以下步骤：
60.步骤s10：获取多个方位上的定位摄像模块反馈的唇语采集图像。
61.需要说明的是，本实施例的执行主体为语音识别系统中的控制器，包括语音拾取阵列、控制器以及多个定位摄像模块，定位摄像模块为带有uwb(ultra wide band，超宽带)的协同摄像模块，定位摄像模块数量不低于3个，能够从不同的视角对用户进行图像采集，定位摄像模块可视为微型的移动uwb基站，如图3所示，当用户(即发声对象)说话时，定位摄像模块采集用户的唇部采集图像，控制器获取多个方位上的定位摄像模块反馈的唇语采集
图像，根据各唇语采集图像确定目标唇语和用户唇部坐标，并根据用户唇部坐标确定语音拾取阵列的语音拾取方向，获取语音拾取阵列根据语音拾取方向反馈的采集语音，最终基于目标唇语识别采集语音的语音内容。
62.可以理解的是，定位摄像模块是带有uwb的协同摄像模块，相当于一个微型的移动uwb基站，为了保证语音识别的准确性，定位摄像模块的数量不低于3个，且位于不同的视角方位，从而保证能获取到用户在不同视角的唇部采集图像。多个定位摄像模块配合不仅仅实现非活动状态下人唇动的空间定位反馈，也可以实现活动中的人唇动的空间定位反馈，从而可以更灵活精确的满足多视角唇动图像拍摄和声音的拾取，同时实现空间区域位置的动态定标，从而使探测的范围可变，不受固定空间的限制。
63.在具体实现中，当用户开始进行语音交互时，各方位上的定位摄像模块开始进行图像采集，从而得到唇语采集图像，唇语采集图像中包含必须包含用户唇部，且多个方位上的定位摄像模块反馈的唇语采集图像中不仅包括用户唇部的正向视角图像，还包括非特定姿态和位置的视角图像。
64.需要说明的是，控制器实时获取多个方位上的定位摄像模块反馈的唇语采集图像。
65.步骤s20：根据各唇语采集图像确定目标唇语和用户唇部坐标。
66.需要说明的是，目标唇语指的是用户当前唇部动作所确定的发声内容，用户唇部坐标是在目标网格空间中基于用户人脸的相对位置确定的三维坐标。
67.可以理解的是，控制器对各方位上的唇语采集图像进行图像拼接、校正和视角变换组合，得到广角上的拼接图像，对广角上的拼接图像进行唇部特征提取并计算，从而确定目标唇语和用户唇语坐标。
68.步骤s30：根据所述用户唇部坐标确定语音拾取阵列的语音拾取方向。
69.需要说明的是，语音拾取阵列是可对用户进行语音采集的麦克风阵列，控制器在确定用户唇部坐标后，将用户唇部坐标作为语音拾取阵列形成的波束主瓣方向的负反馈输入，波束主瓣方向即为语音拾取方向。
70.步骤s40：获取所述语音拾取阵列根据所述语音拾取方向反馈的采集语音。
71.需要说明的是，语音拾取阵列的语音拾取方向精确对准用户进行语音采集，保证采集到的采集语音为直接从发声源位置获取到的高品质语音信号，并将采集语音发送至控制器。
72.步骤s50：根据所述目标唇语识别所述采集语音的语音内容。
73.需要说明的是，控制器在获得目标唇语和采集语音后，基于目标唇语和采集语音进行视听协同识别，从而得到对用户在进行语音交互时的交互内容，语音交互时的交互内容即为语音内容。
74.可以理解的是，为了保证语音识别过程的准确性，进一步地，所述根据所述目标唇语识别所述采集语音的语音内容，包括：对所述采集语音进行特征提取，确定语音特征；根据所述语音特征和预设语音识别模型确定目标音频；对所述目标唇语和所述目标音频进行帧级匹配，得到帧级匹配结果；根据所述帧级匹配结果确定语音内容。
75.在具体实现中，预设语音识别模型是经过大量样本语音和样本语音对应的语音内容训练后得到的模型，预设语音识别模型可根据输入的语音特征获取对应的语音音频内
容。
76.需要说明的是，控制器在获取到采集语音后对采集语音进行特征提取，得到采集语音的短时过零率、短时能量、短时自相关函数、短时平均幅度、频谱差分幅度、频谱质心、频谱宽度以及梅尔频率倒谱系数等特征，语音特征包括但不限于采集语音的短时过零率、短时能量、短时自相关函数、短时平均幅度、频谱差分幅度、频谱质心、频谱宽度以及梅尔频率倒谱系数。
77.可以理解的是，在得到语音特征后，将语音特征输入至预设语音识别模型进行内容识别，从而确定采集语音对应的目标音频内容，目标音频内容也可为用户在进行语音交互时确定的大概交互内容。
78.在具体实现中，由于每秒钟所获得的图像帧数和语音帧数相同，因此所获取的目标唇语和目标音频均对应有具体的图像帧和图像帧对应信息，基于目标唇语和目标音频所附带的帧级信息将目标唇语和目标音频进行帧级匹配，从而得到二者的帧级匹配结果，获取帧级匹配结果中目标唇语和目标音频内容匹配相同的目标唇语和目标音频，基于内容匹配相同的目标唇语和目标音频确定语音内容。例如，基于12：00：00～12：00：05时第一帧至第三帧唇语采集图像确定目标唇语为“我”，基于12：00：00～12：00：05时第一帧至第三帧采集语音确定目标音频为“我”，则二者内容匹配相同，则确定语音内容为“我”。
79.需要说明的是，为了实现定位摄像模块对用户唇部的动态追踪，从而提高语音识别的准确性，进一步地，所述根据所述目标唇语识别所述采集语音的语音内容之后，还包括：根据所述用户唇部坐标对各定位摄像模块的追踪方向进行调整，得到调整后的各定位摄像模块；获取调整后的各定位摄像模块反馈的新的唇语采集图像，并通过所述新的唇语采集图像进行语音识别。
80.可以理解的是，控制器将用户唇部坐标作为各定位摄像模块的负反馈输入，实时调整各定位追踪摄像模块的追踪方向，实现空间区域位置的动态定标，从而使探测的范围可变，不受固定空间的限制。调整后的各定位摄像模块实时进行图像采集，并将新的唇语采集图像发送至控制器，控制器根据新的唇语采集图像进行语音识别。
81.本实施例通过获取多个方位上的定位摄像模块反馈的唇语采集图像；根据各唇语采集图像确定目标唇语和用户唇部坐标；根据所述用户唇部坐标确定语音拾取阵列的语音拾取方向；获取所述语音拾取阵列根据所述语音拾取方向反馈的采集语音；根据所述目标唇语识别所述采集语音的语音内容。通过上述方式，根据多个方位上的定位摄像反馈的唇语采集图像确定目标唇语和用户唇部坐标，基于用户唇部坐标确定语音拾取方向，实现了采集语音的定向拾取，并基于目标唇语识别采集语音的语音内容，融合多种模态下的内容降低环境中噪声的干扰，充分保障了远场语音交互和降噪效果，也使得非佩戴语音交互更加完善并具备良好的鲁棒性，实现了纯净信号的还原，提高了语音听感和语音识别的准确率速生成。
82.参考图4，图4为本发明一种语音识别方法第二实施例的流程示意图。
83.基于上述第一实施例，本实施例语音识别方法中所述步骤s20，包括：
84.步骤s21：对各唇语采集图像进行图像组合，得到目标唇语图像。
85.需要说明的是，控制器获取的唇语采集图像为各方位上的图像，需要对各方位上的唇语采集图像进行图像拼接、校正和视角变换组合，得到广角上的拼接图像，广角上的拼
接图像即为目标唇语图像。
86.步骤s22：对所述目标唇语图像进行特征提取，确定唇语特征。
87.需要说明的是，控制器在获取到目标唇语图像后，对目标唇语图像进行检测，识别出用户唇部和用户唇部对应的图像块，对用户唇部对应的图像块进行特征提取，从而确定用户唇部的外唇高度、内唇高度、唇宽度以及三者随时间变化的一阶导数等特征，唇语特征包括但不限于用户唇部的外唇高度、内唇高度、唇宽度以及三者随时间变化的一阶导数。
88.步骤s23：根据所述唇语特征和预设唇语识别模型确定目标唇语。
89.需要说明的是，预设唇语识别模型是根据大量样本唇语特征和样本唇语特征对应内容训练后得到的模型，将唇语特征输入至预设唇语模型，可得到唇语特征对应的说话内容，唇语特征对应的说话内容即为目标唇语。
90.步骤s24：根据所述目标唇语图像确定用户唇部坐标。
91.需要说明的是，根据目标唇语图像可确定用户人脸在目标空间网格中的网格位置，基于用户唇部在人脸上的相对位置和用户人脸在目标空间网格中的网格位置可确定用户唇部坐标。
92.可以理解的是，为了得到准确的用户唇部坐标，进一步地，所述根据所述目标唇语图像确定用户唇部坐标，包括：根据预设图像选取规则获取对比唇语图像；根据所述目标唇语图像和目标空间网格确定用户的人脸三维位置信息；根据所述人脸三维位置信息、所述对比唇语图像以及所述目标唇语图像确定用户唇部坐标。
93.在具体实现中，预设图像选取规则指的是选取单位时间内目标唇语图像的上一帧唇语图像，对比唇语图像即为单位时间内目标唇语图像的上一帧唇语图像。目标空间网格是基于多个定位摄像模块进行组网作为定标后确定的空间网格。
94.需要说明的是，根据目标唇语图像提取用户人脸在目标空间网格中的网格位置，从而确定用户人脸的三维立体空间图像位置信息，用户人脸的三维立体空间图像位置信息即为人脸三维位置信息。
95.可以理解的是，在确定人脸三维位置信息后，可基于人脸三维位置信息、对比唇语图像以及目标唇语图像确定用户唇部坐标。
96.在具体实现中，为了基于人脸三维位置信息、对比唇语图像以及目标唇语图像进行准确的位置确定，进一步地，所述根据所述人脸三维位置信息、所述对比唇语图像以及所述目标唇语图像确定用户唇部坐标，包括：根据所述对比唇语图像和目标唇语图像对用户的唇部进行唇动判断，确定是否为有效唇动；当确定所述对比唇语图像和所述目标唇语图像确定为有效唇动时，根据所述目标唇语图像确定唇部相对位置；根据所述唇部相对位置和所述人脸三维位置信息确定用户唇部坐标。
97.需要说明的是，将对比唇语图像和目标唇语图像进行图像比较，确定用户的唇部是否发生变化，当用户唇部发生变化时则为有效唇动，此时根据目标唇语图像计算出用户唇部在用户人脸上的相对位置，用户唇部在用户人脸上的相对位置即为唇部相对位置，根据唇部相对位置和人脸三维位置信息即可计算出用户唇部在多个定位摄像模块组网范围内的三维坐标，用户唇部在多个定位摄像模块组网范围内的三维坐标即为用户唇部坐标。
98.可以理解的是，为了实现空间区域位置的动态定标以及动态追踪的准确性，进一步地，所述根据所述目标唇语图像和目标空间网格确定用户的人脸三维位置信息之前，还
包括：获取多个方位上的定位摄像模块反馈的基准位置；根据各基准位置计算目标区域的空间范围；根据所述空间范围对所述目标区域进行网格划分，得到目标空间网格。
99.在具体实现中，各定位摄像模块上的uwb可定标定位摄像模块位置，控制器基于各定位摄像模块反馈的基准位置进行组网后作为定标，可确定语音识别系统当前可进行语音采集的区域的空间范围，语音识别系统当前可进行语音采集的区域即为目标区域，控制器根据空间范围对目标区域进行网格划分，从而得到语音识别系统的目标区域划分得到的目标空间网格。
100.需要说明的是，如图5和图6所示，各定位摄像模块中的uwb定标定位摄像模块的基准位置，并将基准位置反馈给控制器计算出目标区域的空间范围，划分空间网格，控制器根据各唇部采集图像进行拼接、校正和视角变换组合得到目标唇语图像，并基于目标唇语图像提取用户人脸在目标空间网格中的网格位置并确定人脸三维位置信息，单位时间内对比上一帧图像和目标唇语图像，判断是否为有效唇动，当为有效唇动时，根据目标唇语图像计算用户唇部在人脸上的唇部相对位置，基于唇部相对位置和人脸三维位置信息确定用户唇部坐标，根据用户唇部坐标调整语音拾取阵列的语音拾取方向和各定位摄像模块的追踪方向，各定位摄像模块在追踪方向调整后重新进行位置定标。控制器根据目标唇语图像进行连续唇语特征提取，并将唇语特征输入至预设唇语识别模型得到目标唇语，根据采集语音进行语音特征提取，并将语音特征输入至预设语音识别模型确定目标音频，基于目标音频和目标唇语进行视听协同识别，最终得到语音识别结果从而确定用户在进行语音交互时的语音内容。
101.本实施例中通过对各唇语采集图像进行图像组合，得到目标唇语图像；对所述目标唇语图像进行特征提取，确定唇语特征；根据所述唇语特征和预设唇语识别模型确定目标唇语；根据所述目标唇语图像确定用户唇部坐标。通过对各唇语采集图像组合得到目标唇语图像，基于广角上的目标唇语图像确定目标唇语和用户唇部坐标，保证了后续进行图像动态追踪、语音采集以及语音识别过程的准确性。
102.此外，参照图7，本发明实施例还提出一种语音识别装置，所述语音识别装置包括：
103.获取模块10，用于获取多个方位上的定位摄像模块反馈的唇语采集图像。
104.确定模块20，用于根据各唇语采集图像确定目标唇语和用户唇部坐标。
105.所述确定模块20，还用于根据所述用户唇部坐标确定语音拾取阵列的语音拾取方向。
106.所述获取模块10，还用于获取所述语音拾取阵列根据所述语音拾取方向反馈的采集语音。
107.识别模块30，用于根据所述目标唇语识别所述采集语音的语音内容。
108.本实施例通过获取多个方位上的定位摄像模块反馈的唇语采集图像；根据各唇语采集图像确定目标唇语和用户唇部坐标；根据所述用户唇部坐标确定语音拾取阵列的语音拾取方向；获取所述语音拾取阵列根据所述语音拾取方向反馈的采集语音；根据所述目标唇语识别所述采集语音的语音内容。通过上述方式，根据多个方位上的定位摄像反馈的唇语采集图像确定目标唇语和用户唇部坐标，基于用户唇部坐标确定语音拾取方向，实现了采集语音的定向拾取，并基于目标唇语识别采集语音的语音内容，融合多种模态下的内容降低环境中噪声的干扰，充分保障了远场语音交互和降噪效果，也使得非佩戴语音交互更
加完善并具备良好的鲁棒性，实现了纯净信号的还原，提高了语音听感和语音识别的准确率速生成。
109.在一实施例中，所述确定模块20，还用于对各唇语采集图像进行图像组合，得到目标唇语图像；
110.对所述目标唇语图像进行特征提取，确定唇语特征；
111.根据所述唇语特征和预设唇语识别模型确定目标唇语；
112.根据所述目标唇语图像确定用户唇部坐标。
113.在一实施例中，所述确定模块20，还用于根据预设图像选取规则获取对比唇语图像；
114.根据所述目标唇语图像和目标空间网格确定用户的人脸三维位置信息；
115.根据所述人脸三维位置信息、所述对比唇语图像以及所述目标唇语图像确定用户唇部坐标。
116.在一实施例中，所述确定模块20，还用于根据所述对比唇语图像和目标唇语图像对用户的唇部进行唇动判断，确定是否为有效唇动；
117.当确定所述对比唇语图像和所述目标唇语图像确定为有效唇动时，根据所述目标唇语图像确定唇部相对位置；
118.根据所述唇部相对位置和所述人脸三维位置信息确定用户唇部坐标。
119.在一实施例中，所述确定模块20，还用于获取多个方位上的定位摄像模块反馈的基准位置；
120.根据各基准位置计算目标区域的空间范围；
121.根据所述空间范围对所述目标区域进行网格划分，得到目标空间网格。
122.在一实施例中，所述识别模块30，还用于对所述采集语音进行特征提取，确定语音特征；
123.根据所述语音特征和预设语音识别模型确定目标音频；
124.对所述目标唇语和所述目标音频进行帧级匹配，得到帧级匹配结果；
125.根据所述帧级匹配结果确定语音内容。
126.在一实施例中，所述识别模块30，还用于根据所述用户唇部坐标对各定位摄像模块的追踪方向进行调整，得到调整后的各定位摄像模块；
127.获取调整后的各定位摄像模块反馈的新的唇语采集图像，并通过所述新的唇语采集图像进行语音识别。
128.由于本装置采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。
129.此外，本发明实施例还提出一种存储介质，所述存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如上文所述的语音识别方法的步骤。
130.由于本存储介质采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。
131.需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。
132.另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的语音识别方法，此处不再赘述。
133.此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
134.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
135.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(read only memory，rom)/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
136.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：瞿盛安康
技术所有人：歌尔科技有限公司
我是此专利的发明人

上一篇：一种石墨制品用焙烧装置的制作方法
上一篇：一种智能家居机器人系统、控制方法、设备及介质与流程