语音识别方法、装置、设备及存储介质与流程

文档序号：28162488发布日期：2021-12-24 20:40阅读：93来源：国知局

1.本技术涉及计算机技术领域，特别涉及一种语音识别方法、装置、设备及存储介质。

背景技术：

2.语音识别技术是通过识别和解析过程将语音转换为文本的技术。相关的语音识别技术中通常会基于语音识别模型进行语音识别，这就需要先构建语音识别模型。
3.在构建语音识别模型时，通常是由技术人员人为确定语音识别模型的结构，之后按照确定的结构训练出相应的语音识别模型，然而语音识别模型的结构受到人为经验的限制，可能会导致语音识别模型的识别性能差。

技术实现要素：

4.本技术实施例提供了一种语音识别方法、装置、设备及存储介质，能够提高语音识别模型的语音识别性能。所述技术方案如下：
5.一方面，提供了一种语音识别方法，所述方法包括：
6.获取第一语音识别模型，所述第一语音识别模型包括输入网络、第一特征提取单元和输出网络，所述输入网络、所述第一特征提取单元与所述输出网络之间的连接方式已确定，所述第一特征提取单元包括注意力网络；
7.至少一次将至少一个特征提取网络添加至所述第一特征提取单元中，并与所述注意力网络连接，得到备选语音识别模型；
8.响应于得到至少两个备选语音识别模型，根据所述至少两个备选语音识别模型的识别性能，从所述至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型。
9.在一种可能的实现方式中，所述至少一次将至少一个特征提取网络添加至所述第一特征提取单元中，并与所述注意力网络连接，得到备选语音识别模型，包括：
10.至少一次从第一网络集合中选取至少一个特征提取网络，将所述至少一个特征提取网络添加至所述第一特征提取单元中，并与所述注意力网络连接，得到备选语音识别模型；
11.其中，所述第一网络集合包括多个备选的特征提取网络。
12.在一种可能的实现方式中，所述从第一网络集合中选取至少一个特征提取网络，包括：
13.从第一数量范围内选取任一个数量；
14.从所述第一网络集合中选取所述数量的特征提取网络。
15.在一种可能的实现方式中，所述第一网络集合包括多个不同的第二网络集合，所述从所述第一网络集合中选取所述数量的特征提取网络，包括：
16.从所述第一网络集合中，确定所述数量对应的多个第二网络集合，所述数量对应
的每个第二网络集合包括所述数量的特征提取网络；
17.选取所述数量对应的一个第二网络集合中的每个特征提取网络。
18.在一种可能的实现方式中，所述第一语音识别模型还包括第二特征提取单元，所述第二特征提取单元不包括所述注意力网络，所述输入网络、所述第一特征提取单元、所述第二特征提取单元与所述输出网络之间的连接方式已确定；
19.所述方法还包括：至少一次将至少一个特征提取网络添加至所述第二特征提取单元中，得到备选语音识别模型。
20.在一种可能的实现方式中，所述根据所述至少两个备选语音识别模型的识别性能，从所述至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型之前，所述方法还包括：
21.获取测试集，所述测试集包括第一样本语音和所述第一样本语音对应的第一样本文本；
22.基于每个备选语音识别模型，分别对所述第一样本语音进行识别，根据识别得到的文本与所述第一样本文本，确定所述每个备选语音识别模型的识别性能。
23.在一种可能的实现方式中，所述根据所述至少两个备选语音识别模型的识别性能，从所述至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型之前，所述方法还包括：
24.获取第一训练集，所述第一训练集包括第二样本语音和所述第二样本语音对应的第二样本文本；
25.基于每个备选语音识别模型，分别对所述第二样本语音进行识别，根据识别得到的文本与所述第二样本文本之间的误差，对所述每个备选语音识别模型进行训练。
26.在一种可能的实现方式中，所述从所述至少两个备选语音识别模型中选取第二语音识别模型之后，所述方法还包括：
27.基于所述第二语音识别模型进行语音识别。
28.在一种可能的实现方式中，所述基于所述第二语音识别模型进行语音识别之前，所述方法还包括：
29.获取第二训练集，所述第二训练集包括第三样本语音和所述第三样本语音对应的第三样本文本；
30.基于每个备选语音识别模型，分别对所述第三样本语音进行识别，根据识别得到的文本与所述第三样本文本之间的误差，对所述第二语音识别模型进行训练。
31.一方面，提供了一种语音识别方法，所述方法包括：
32.获取第一语音识别模型，所述第一语音识别模型包括多个网络，且所述多个网络之间的连接方式未确定，所述多个网络包括输入网络、注意力网络和输出网络；
33.至少一次将至少一个特征提取单元，与所述第一语音识别模型中的多个网络按照至少两种连接方式进行连接，得到至少两个备选语音识别模型；
34.根据所述至少两个备选语音识别模型的识别性能，从所述至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型。
35.在一种可能的实现方式中，所述至少一次将至少一个特征提取单元，与所述第一语音识别模型中的多个网络按照至少两种连接方式进行连接，得到至少两个备选语音识别
模型，包括：
36.至少一次从多个特征提取单元中选取至少一个特征提取单元，并将所述第一语音识别模型中的多个网络与选取的至少一个特征提取单元按照至少两种连接方式进行连接，得到所述至少一个备选语音识别模型。
37.在一种可能的实现方式中，所述从多个特征提取单元中选取至少一个特征提取单元，包括：
38.从第二数量范围内选取任一个数量；
39.从所述多个特征提取单元中选取所述数量的特征提取单元。
40.在一种可能的实现方式中，所述从所述多个特征提取单元中选取所述数量的特征提取单元，包括：
41.确定所述数量对应的多个单元集合，每个单元集合中包括所述数量的特征提取单元；
42.选取任一单元集合中的每个特征提取单元。
43.在一种可能的实现方式中，所述基于多个特征提取网络获取至少一个特征提取单元，包括：
44.从第一网络集合中选取一个特征提取网络，将所述特征提取网络确定为所述特征提取单元；或者，
45.从所述第一网络集合中选取至少两个特征提取网络，将所述至少两个特征提取网络进行连接，得到所述特征提取单元；
46.其中，所述第一网络集合包括多个备选的特征提取网络。
47.在一种可能的实现方式中，所述从所述第一网络集合中选取至少两个特征提取网络，包括：
48.从第一数量范围内选取任一个数量，所述第一数量范围中的数量不小于2；
49.从所述第一网络集合中选取所述数量的特征提取网络。
50.在一种可能的实现方式中，所述第一网络集合包括多个不同的第二网络集合，所述从所述第一网络集合中选取所述数量的特征提取网络，包括：
51.从所述第一网络集合中，确定所述数量对应的多个第二网络集合，所述数量对应的每个第二网络集合包括所述数量的特征提取网络；
52.选取所述数量对应的一个第二网络集合中的每个特征提取网络。
53.在一种可能的实现方式中，所述将所述至少两个特征提取网络进行连接，得到所述特征提取单元，包括：
54.将所述至少两个特征提取网络以至少两种连接方式进行连接，得到至少两个特征提取单元。
55.在一种可能的实现方式中，所述至少两个特征提取网络之间的连接方式包括双链式bi
‑
chain
‑
styled、链式chain
‑
styled、或密集式densely
‑
connected。
56.在一种可能的实现方式中，所述根据所述至少两个备选语音识别模型的识别性能，从所述至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型之前，所述方法还包括：
57.获取测试集，所述测试集包括第一样本语音和所述第一样本语音对应的第一样本
文本；
58.基于每个备选语音识别模型，分别对所述第一样本语音进行识别，根据识别得到的文本与所述第一样本文本，确定所述每个备选语音识别模型的识别性能。
59.在一种可能的实现方式中，所述根据所述至少两个备选语音识别模型的识别性能，从所述至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型之前，所述方法还包括：
60.获取第一训练集，所述第一训练集包括第二样本语音和所述第二样本语音对应的第二样本文本；
61.基于每个备选语音识别模型，分别对所述第二样本语音进行识别，根据识别得到的文本与所述第二样本文本之间的误差，对所述每个备选语音识别模型进行训练。
62.在一种可能的实现方式中，所述从所述至少两个备选语音识别模型中选取第二语音识别模型之后，所述方法还包括：
63.基于所述第二语音识别模型进行语音识别。
64.在一种可能的实现方式中，所述基于所述第二语音识别模型进行语音识别之前，所述方法还包括：
65.获取第二训练集，所述第二训练集包括第三样本语音和所述第三样本语音对应的第三样本文本；
66.基于每个备选语音识别模型，分别对所述第三样本语音进行识别，根据识别得到的文本与所述第三样本文本之间的误差，对所述第二语音识别模型进行训练。
67.在一种可能的实现方式中，所述根据所述至少两个备选语音识别模型的识别性能，从所述至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型之后，所述方法还包括：
68.响应于对所述第二语音识别模型中的第一特征提取单元的选择操作，创建与所述第一特征提取单元相同的第二特征提取单元；
69.将所述第二特征提取单元添加到所述第二语音识别模型中，并与所述第一特征提取单元连接，得到更新后的所述第二语音识别模型。
70.在一种可能的实现方式中，基于所述第二语音识别模型进行语音识别的过程中，输入至所述注意力网络的语音特征的形状为c*t*f，表示所述语音特征包含的通道维度个数为所述c，时间维度个数为所述t，频率维度个数为所述f，所述c、所述t和所述f均为正整数；
71.基于所述注意力网络进行语音识别的过程包括：
72.将所述语音特征的形状变换为t*z，以使变换后的所述语音特征不再包含通道维度和频率维度，且在每个时间维度上的特征尺寸为所述z，其中所述z为所述c和所述f的乘积；
73.基于变换后的所述语音特征，确定所述语音特征对应的注意力权重，基于所述注意力权重对变换后的所述语音特征进行加权处理，将加权处理后的语音特征的形状恢复为c*t*f，输出形状恢复后的语音特征。
74.另一方面，提供了一种语音识别装置，所述装置包括：
75.模型获取模块，用于获取第一语音识别模型，所述第一语音识别模型包括输入网
络、第一特征提取单元和输出网络，所述输入网络、所述第一特征提取单元与所述输出网络之间的连接方式已确定，所述第一特征提取单元包括注意力网络；
76.网络添加模块，用于至少一次将至少一个特征提取网络添加至所述第一特征提取单元中，并与所述注意力网络连接，得到备选语音识别模型；
77.模型选取模块，用于响应于得到至少两个备选语音识别模型，根据所述至少两个备选语音识别模型的识别性能，从所述至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型。
78.在一种可能的实现方式中，所述模型获取模块，用于将多个所述第一特征提取单元按照双链式bi
‑
chain
‑
styled连接方式、链式chain
‑
styled连接方式、或密集式densely
‑
connected连接方式进行连接，得到单元链；在所述单元链的两端分别连接所述输入网络和所述输出网络，得到所述第一语音识别模型。
79.在一种可能的实现方式中，所述网络添加模块，用于将所述至少一个特征提取网络以不同的方式添加至所述第一特征提取单元中，并与所述注意力网络连接，得到不同的备选语音识别模型。
80.在一种可能的实现方式中，所述网络添加模块，用于将所述至少一个特征提取网络添加至所述第一特征提取单元中，并与所述注意力网络按照双链式bi
‑
chain
‑
styled连接方式、链式chain
‑
styled连接方式、或密集式densely
‑
connected连接方式进行连接，得到所述备选语音识别模型。
81.在一种可能的实现方式中，所述第一语音识别模型包括多个所述第一特征提取单元，多个所述第一特征提取单元之间的连接方式已确定；所述第一特征提取单元中的多个网络的连接方式与多个所述第一特征提取单元之间的连接方式不同。
82.在一种可能的实现方式中，所述第一语音识别模型包括n
‑
1个所述第一特征提取单元和n个单元分组，每个单元分组包括m个第二特征提取单元，所述n为大于1的整数，所述m为正整数，所述第二特征提取单元不包括所述注意力网络，所述第一语音识别模型中网络的连接方式为：所述第一语音识别模型的两端为所述输入网络和所述输出网络，所述输入网络之后连接一个所述单元分组，所述输出网络之前连接一个所述单元分组，每两个所述单元分组之间连接一个所述第一特征提取单元。
83.在一种可能的实现方式中，所述装置还包括：
84.模型更新模块，用于响应于对所述第二语音识别模型中的第三特征提取单元的选择操作，创建与所述第三特征提取单元相同的第四特征提取单元；将所述第四特征提取单元添加到所述第二语音识别模型中，并与所述第三特征提取单元连接，得到更新后的所述第二语音识别模型。
85.在一种可能的实现方式中，基于所述第二语音识别模型进行语音识别的过程中，输入至所述注意力网络的语音特征的形状为c*t*f，表示所述语音特征包含的通道维度个数为所述c，时间维度个数为所述t，频率维度个数为所述f，所述c、所述t和所述f均为正整数；
86.基于所述注意力网络进行语音识别的过程包括：
87.将所述语音特征的形状变换为t*z，以使变换后的所述语音特征不再包含通道维度和频率维度，且在每个时间维度上的特征尺寸为所述z，其中所述z为所述c和所述f的乘
积；
88.基于变换后的所述语音特征，确定所述语音特征对应的注意力权重，基于所述注意力权重对变换后的所述语音特征进行加权处理，将加权处理后的语音特征的形状恢复为c*t*f，输出形状恢复后的语音特征。
89.在一种可能的实现方式中，所述网络添加模块，包括：
90.网络选取子模块，用于至少一次从第一网络集合中选取至少一个特征提取网络；
91.网络添加子模块，用于将所述至少一个特征提取网络添加至所述第一特征提取单元中，并与所述注意力网络连接，得到备选语音识别模型；
92.其中，所述第一网络集合包括多个备选的特征提取网络。
93.在一种可能的实现方式中，所述网络选取子模块，包括：
94.数量选取单元，用于从第一数量范围内选取任一个数量；
95.网络选取单元，用于从所述第一网络集合中选取所述数量的特征提取网络。
96.在一种可能的实现方式中，所述第一网络集合包括多个不同的第二网络集合，所述网络选取单元，用于从所述第一网络集合中，确定所述数量对应的多个第二网络集合，所述数量对应的每个第二网络集合包括所述数量的特征提取网络；选取所述数量对应的一个第二网络集合中的每个特征提取网络。
97.在一种可能的实现方式中，所述第一语音识别模型还包括第二特征提取单元，所述第二特征提取单元不包括所述注意力网络，所述输入网络、所述第一特征提取单元、所述第二特征提取单元与所述输出网络之间的连接方式已确定；所述网络添加模块，还用于至少一次将至少一个特征提取网络添加至所述第二特征提取单元中，得到备选语音识别模型。
98.在一种可能的实现方式中，所述装置还包括：
99.性能确定模块，用于获取测试集，所述测试集包括第一样本语音和所述第一样本语音对应的第一样本文本；基于每个备选语音识别模型，分别对所述第一样本语音进行识别，根据识别得到的文本与所述第一样本文本，确定所述每个备选语音识别模型的识别性能。
100.在一种可能的实现方式中，所述装置还包括：
101.第一训练模块，用于获取第一训练集，所述第一训练集包括第二样本语音和所述第二样本语音对应的第二样本文本；基于每个备选语音识别模型，分别对所述第二样本语音进行识别，根据识别得到的文本与所述第二样本文本之间的误差，对所述每个备选语音识别模型进行训练。
102.在一种可能的实现方式中，所述装置还包括：
103.语音识别模块，用于基于所述第二语音识别模型进行语音识别。
104.在一种可能的实现方式中，所述装置还包括：
105.第二训练模块，用于获取第二训练集，所述第二训练集包括第三样本语音和所述第三样本语音对应的第三样本文本；基于每个备选语音识别模型，分别对所述第三样本语音进行识别，根据识别得到的文本与所述第三样本文本之间的误差，对所述第二语音识别模型进行训练。
106.另一方面，提供了一种语音识别装置，所述装置包括：
107.模型获取模块，用于获取第一语音识别模型，所述第一语音识别模型包括多个网络，且所述多个网络之间的连接方式未确定，所述多个网络包括输入网络、注意力网络和输出网络；
108.网络连接模块，用于至少一次将至少一个特征提取单元，与所述第一语音识别模型中的多个网络按照至少两种连接方式进行连接，得到至少两个备选语音识别模型；
109.模型选取模块，用于根据所述至少两个备选语音识别模型的识别性能，从所述至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型。
110.在一种可能的实现方式中，所述连接方式包括双链式bi
‑
chain
‑
styled、链式chain
‑
styled、或密集式densely
‑
connected。
111.在一种可能的实现方式中，所述装置包括：
112.单元获取模块，用于基于多个特征提取网络获取至少一个特征提取单元，所获取的每个特征提取单元包括至少一个特征提取网络。
113.在一种可能的实现方式中，所述网络连接模块，包括：
114.单元选取子模块，用于至少一次从多个特征提取单元中选取至少一个特征提取单元；
115.单元连接子模块，用于将所述第一语音识别模型中的多个网络与选取的至少一个特征提取单元按照至少两种连接方式进行连接，得到所述至少一个备选语音识别模型。
116.在一种可能的实现方式中，所述单元选取子模块，包括：
117.第一数量选取单元，用于从第二数量范围内选取任一个数量；
118.单元选取单元，用于从所述多个特征提取单元中选取所述数量的特征提取单元。
119.在一种可能的实现方式中，所述单元选取单元，用于确定所述数量对应的多个单元集合，每个单元集合中包括所述数量的特征提取单元；选取任一单元集合中的每个特征提取单元。
120.在一种可能的实现方式中，所述单元获取模块，包括：
121.第一单元获取子模块，用于从第一网络集合中选取一个特征提取网络，将所述特征提取网络确定为所述特征提取单元；或者，
122.第二单元获取子模块，用于从所述第一网络集合中选取至少两个特征提取网络，将所述至少两个特征提取网络进行连接，得到所述特征提取单元；
123.其中，所述第一网络集合包括多个备选的特征提取网络。
124.在一种可能的实现方式中，所述第二单元获取子模块，包括：
125.第二数量选取单元，用于从第一数量范围内选取任一个数量，所述第一数量范围中的数量不小于2；
126.网络选取单元，用于从所述第一网络集合中选取所述数量的特征提取网络。
127.在一种可能的实现方式中，所述第一网络集合包括多个不同的第二网络集合，所述网络选取单元，用于从所述第一网络集合中，确定所述数量对应的多个第二网络集合，所述数量对应的每个第二网络集合包括所述数量的特征提取网络；选取所述数量对应的一个第二网络集合中的每个特征提取网络。
128.在一种可能的实现方式中，所述第二单元获取子模块，用于将所述至少两个特征提取网络以至少两种连接方式进行连接，得到至少两个特征提取单元。
129.在一种可能的实现方式中，所述至少两个特征提取网络之间的连接方式包括双链式bi
‑
chain
‑
styled、链式chain
‑
styled、或密集式densely
‑
connected。
130.在一种可能的实现方式中，所述装置还包括：
131.性能确定模块，用于获取测试集，所述测试集包括第一样本语音和所述第一样本语音对应的第一样本文本；基于每个备选语音识别模型，分别对所述第一样本语音进行识别，根据识别得到的文本与所述第一样本文本，确定所述每个备选语音识别模型的识别性能。
132.在一种可能的实现方式中，所述装置还包括：
133.第一训练模块，用于获取第一训练集，所述第一训练集包括第二样本语音和所述第二样本语音对应的第二样本文本；基于每个备选语音识别模型，分别对所述第二样本语音进行识别，根据识别得到的文本与所述第二样本文本之间的误差，对所述每个备选语音识别模型进行训练。
134.在一种可能的实现方式中，所述装置还包括：
135.语音识别模块，用于基于所述第二语音识别模型进行语音识别。
136.在一种可能的实现方式中，所述装置还包括：
137.第二训练模块，用于获取第二训练集，所述第二训练集包括第三样本语音和所述第三样本语音对应的第三样本文本；基于每个备选语音识别模型，分别对所述第三样本语音进行识别，根据识别得到的文本与所述第三样本文本之间的误差，对所述第二语音识别模型进行训练。
138.在一种可能的实现方式中，所述装置还包括：
139.模型更新模块，用于响应于对所述第二语音识别模型中的第一特征提取单元的选择操作，创建与所述第一特征提取单元相同的第二特征提取单元；将所述第二特征提取单元添加到所述第二语音识别模型中，并与所述第一特征提取单元连接，得到更新后的所述第二语音识别模型。
140.在一种可能的实现方式中，基于所述第二语音识别模型进行语音识别的过程中，输入至所述注意力网络的语音特征的形状为c*t*f，表示所述语音特征包含的通道维度个数为所述c，时间维度个数为所述t，频率维度个数为所述f，所述c、所述t和所述f均为正整数；
141.基于所述注意力网络进行语音识别的过程包括：
142.将所述语音特征的形状变换为t*z，以使变换后的所述语音特征不再包含通道维度和频率维度，且在每个时间维度上的特征尺寸为所述z，其中所述z为所述c和所述f的乘积；
143.基于变换后的所述语音特征，确定所述语音特征对应的注意力权重，基于所述注意力权重对变换后的所述语音特征进行加权处理，将加权处理后的语音特征的形状恢复为c*t*f，输出形状恢复后的语音特征。
144.另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述计算机程序由所述处理器加载并执行以实现上述任一种可能实现方式中的语音识别方法中执行的操作。
145.另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有
至少一条计算机程序，所述计算机程序由处理器加载并执行以实现上述任一种可能实现方式中的语音识别方法中执行的操作。
146.再一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括计算机程序，所述计算机程序存储在计算机可读存储介质中。电子设备的处理器从所述计算机可读存储介质读取所述计算机程序，所述处理器执行所述计算机程序，使得所述电子设备执行上述各种可选实现方式中的语音识别方法中执行的操作。
147.本技术实施例提供的技术方案带来的有益效果至少包括：
148.在本技术实施例中，语音识别模型的结构不是完全由用户来人为设计的，而是通过在第一语音识别模型中添加特征提取网络的方式来自动创建多个备选语音识别模型，再根据识别性能，从备选语音识别模型中选取需要的第二语音识别模型，这样得到的第二语音识别模型的结构能够摆脱人为经验的限制。并且，第二语音识别模型中包括注意力网络，使得第二语音识别模型在进行语音识别时，能够利用注意力机制来提高语音识别模型的语音识别性能。
附图说明
149.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
150.图1是本技术实施例提供的一种实施环境的示意图；
151.图2是本技术实施例提供的一种语音识别方法的流程图；
152.图3是本技术实施例提供的一种语音识别方法的流程图；
153.图4是本技术实施例提供的一种第一语音识别模型的结构示意图；
154.图5是本技术实施例提供的一种备选语音识别模型的结构示意图；
155.图6是本技术实施例提供的一种注意力网络的结构示意图；
156.图7是本技术实施例提供的一种语音识别方法的流程图；
157.图8是本技术实施例提供的一种语音识别方法的流程图；
158.图9是本技术实施例提供的一种语音识别装置的框图；
159.图10是本技术实施例提供的一种语音识别装置的框图；
160.图11是本技术实施例提供的一种语音识别装置的框图；
161.图12是本技术实施例提供的一种语音识别装置的框图；
162.图13是本技术实施例提供的一种终端的结构示意图；
163.图14是本技术实施例提供的一种服务器的结构示意图。
具体实施方式
164.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
165.本技术所使用的术语“第一”、“第二”、“第三”、“第四”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个
概念区分。举例来说，在不脱离本技术的范围的情况下，可以将第一训练样本称为训练样本，且类似地，可将第二训练样本称为第一训练样本。
166.本技术所使用的术语“至少一个”、“多个”、“每个”、“任一”，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，而每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个特征提取网络包括3个特征提取网络，而每个是指这3个特征提取网络中的每一个特征提取网络，任一是指这3个特征提取网络中的任意一个，可以是第一个，可以是第二个、也可以是第三个。
167.人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
168.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
169.语音技术(speech technology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。
170.自然语言处理(nature language processing，nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
171.机器学习(machine learning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
172.本技术实施例提供的方案，根据人工智能的语音技术、自然语言处理、机器学习等技术，能够获取语音识别模型，并通过语音识别模型进行语音识别。
173.图1是本技术实施例提供的一种实施环境的示意图。参见图1，该实施环境包括终端101和服务器102。终端101和服务器102之间通过无线或者有线网络连接。可选地，终端101为智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、摄像机、照相机、智能硬件/家居、医疗设备或者其他终端。可选地，服务器102是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn
(content delivery network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
174.可选地，终端101上安装有由服务器102提供服务的目标应用，终端101能够通过该目标应用实现例如数据传输、消息交互等功能。可选地，目标应用为终端101操作系统中的目标应用，或者为第三方提供的目标应用。该目标应用具有语音识别功能，当然，该目标应用还能够具有其他功能，本技术实施例对此不做限制。可选地，该目标应用为短视频应用、音乐应用、游戏应用、购物应用、聊天应用或者其他应用，本公开对此不做限制。
175.本技术实施例中，终端101或者服务器102用于获取第一语音识别模型，对第一语音识别模型的结构进行调整以获取第二语音识别模型，基于第二语音识别模型来进行语音识别。或者，服务器102用于在第一语音识别模型的基础上进行调整，得到第二语音识别模型，向终端101发送第二语音识别模型，然后终端101接收第二语音识别模型，基于第二语音识别模型进行语音识别。
176.本技术中的语音识别方法能够应用于各种语音识别的场景。例如，服务器通过本技术提供的语音识别方法获取到第二语音识别模型后，将第二语音识别模型的调用接口提供给终端，终端接收到用户输入的语音后，基于第二语音识别模型的调用接口，调用第二语音识别模型对用户输入的语音进行识别，输出对应的文本。或者，服务器获取到第二语音识别模型后，终端从服务器获取第二语音识别模型，存储该第二语音识别模型，后续接收到用户输入的语音后，调用存储的第二语音识别模型来对该语音进行识别，输出对应文本。
177.本技术实施例提供的语音识别方法还能够应用于智能问答的场景。例如，终端通过本技术提供的方法获取到第二语音识别模型后，对输入的语音进行语音识别得到对应的文本，然后获取与该文本对应的回复文本，输出回复文本，或者将回复文本转换成语音，输出转换后的语音。例如，用户输入语音“今天天气如何”，终端对该语音进行识别，得到对应的文本“今天天气如何”后，搜索该文本对应的回复文本，例如，搜索到的回复文本为“晴天”，则终端输出该文本，或者，终端将该文本转换为语音“晴天”，输出该语音。
178.实际上，本技术提供的语音识别方法还能够应用在其他语音识别场景下，本技术实施例对此不做限制。
179.图2是本技术实施例提供的一种语音识别方法的流程图。参见图2，该实施例包括：
180.201、电子设备获取第一语音识别模型，第一语音识别模型包括输入网络、第一特征提取单元和输出网络，输入网络、第一特征提取单元与输出网络之间的连接方式已确定，第一特征提取单元包括注意力网络。
181.第一语音识别模型的功能是进行语音识别，即将输入第一语音识别模型的语音转换成对应的文本。第一语音识别模型包括输入网络，第一特征提取单元和输出网络。其中，输入网络用于对输入的语音进行特征提取，输出语音特征。可选地，该语音特征包括mfcc(mel
‑
frequency ceptral coefficients，梅尔频率倒谱系数)、fbank(filter bank，基于滤波器组的特征)等，且语音特征为语谱图的形式。第一特征提取单元用于对输入的语音特征进行进一步的特征提取，输出语音特征。输出网络用于将输入的语音特征转换成对应的文本，输出文本。第一特征提取单元中包括注意力网络，注意力网络用于对输入的语音特征进行进一步特征提取，并且在进行特征提取时，通过注意力机制来保证提取的语音特征的准确率。可选地，第一特征提取单元中，除了注意力网络之外，还包括其他网络，例如卷积网
络、池化网络等。
182.可选地，第一特征提取单元的数量为多个。可选地，输入网络、第一特征提取单元与输出网络之间的连接方式为任意连接方式，本技术实施例对此不做限制。
183.需要说明的一点是，本技术实施例中的语音特征(feature mapping)，也能够称为神经网络隐层间的特征映射。
184.202、电子设备至少一次将至少一个特征提取网络添加至第一特征提取单元中，并与注意力网络连接，得到备选语音识别模型。
185.特征提取网络用于对输入的语音特征进行进一步的特征提取，输出语音特征。该特征提取网络包括卷积网络、池化网络等。并且，对于同一种特征提取网络来说，该种特征提取网络包括多种结构的特征提取网络。例如，对于卷积网络来说，卷积网络包括1*1的卷积网络、3*3的卷积网络等。
186.可选地，至少一个特征提取网络与注意力网络的连接方式为任意连接方式，本技术实施例对此不做限制。
187.在多次将至少一个特征提取网络添加至第一特征提取单元的情况下，电子设备每次添加的至少一个特征提取网络的个数相同或不同。例如，第一次添加1个特征提取网络，第二次还添加1个特征提取网络，或者第二次添加2个特征提取网络。在多次添加的特征提取网络的个数相同的情况下，每次添加的特征提取网络相同或不同。例如，第一次添加1个1*1的卷积网络，第二次添加一个3*3的卷积网络，或者第二次还添加1个1*1的卷积网络。在多次添加的特征提取网络相同的情况下，特征提取网络添加到第一特征提取单元的方式不同，例如，第一次添加一个1*1的卷积网络，第二次添加一个1*1的卷积网络，但两次将卷积网络添加至第一特征提取单元的方式不同。例如，第一次将卷积网络作为第一特征提取单元中的注意力网络的上层网络，添加至第一特征提取单元中，第二次将卷积网络作为第一特征提取单元中的注意力网络的下层网络，添加至第一特征提取单元中。
188.203、电子设备响应于得到至少两个备选语音识别模型，根据至少两个备选语音识别模型的识别性能，从至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型。
189.识别性能表示语音识别模型的语音识别效果，识别性能越好，语音识别的效果越好。可选地，通过识别准确率来表示语音识别模型的识别性能。当然，也能够通过其他参数表示识别性能，例如，识别效率，本技术实施例对此不做限制。
190.可选地，第二语音识别模型为至少两个备选语音识别模型中，识别准确率最高的备选语音识别模型。或者，第二语音识别模型为识别准确率达到准确率阈值，且结构最简单的备选语音识别模型。或者，第二语音识别模型为识别准确率达到准确率阈值的任一备选语音识别模型。或者，第二语音识别模型为识别效率最高的备选语音识别模型。或者，第二语音识别模型为识别效率达到效率阈值的任一备选语音识别模型。上述从备选语音识别模型中选取的第二语音识别模型仅是示例性说明，本技术实施例对此不做限制。
191.需要说明的一点是，步骤202
‑
203实际上是对第二语音识别模型的结构进行搜索的过程，即在第一语音识别模型的基础上，搜索得到多个备选语音识别模型，多个备选语音识别模型的结构不同，则能够从备选语音识别模型中选取出第二语音识别模型。
192.选取出第二语音识别模型后，则能够基于第二语音识别模型进行语音识别，例如，
将目标语音输入到第二语音识别模型中，第二语音识别模型则会对该目标语音进行识别，输出目标语音对应的文本。
193.需要说明的一点是，本技术中的语音识别模型为任意神经网络，例如，cnn(convolutional neural networks，卷积神经网络)，本技术实施例对此不做限制。
194.在本技术实施例中，语音识别模型的结构不是完全由用户来人为设计的，而是通过在第一语音识别模型中添加特征提取网络的方式来自动创建多个备选语音识别模型，再根据识别性能，从备选语音识别模型中选取需要的第二语音识别模型，这样得到的第二语音识别模型的结构能够摆脱人为经验的限制。并且，第二语音识别模型中包括注意力网络，使得第二语音识别模型在进行语音识别时，能够利用注意力机制来提高语音识别模型的语音识别性能。
195.图3是本技术实施例提供的一种语音识别方法的流程图。参见图3，该实施例包括：
196.301、电子设备获取第一语音识别模型，第一语音识别模型包括输入网络、第一特征提取单元和输出网络，输入网络、第一特征提取单元与输出网络之间的连接方式已确定，第一特征提取单元包括注意力网络。
197.在一种可能的实现方式中，电子设备获取第一语音识别模型，包括：电子设备将多个第一特征提取单元按照bi
‑
chain
‑
styled(双链式)连接方式、chain
‑
styled(链式)连接方式、或densely
‑
connected(密集式)连接方式进行连接，得到单元链；在单元链的两端分别连接输入网络和输出网络，得到第一语音识别模型。当然，多个第一特征提取单元还能够按照其他连接方式进行连接，本技术实施例对此不做限制。
198.在本技术实施例中，通过将多个特征提取单元按照确定的连接方式进行连接，则在基于第一语音识别模型进行结构搜索，得到备选语音识别模型的过程中，多个特征提取单元之间的连接方式则无需参与搜索，能够提高进行模型结构搜索的效率。
199.在一种可能的实现方式中，第一语音识别模型还包括第二特征提取单元，第二特征提取单元不包括注意力网络，且输入网络、第一特征提取单元、第二特征提取单元与输出网络之间的连接方式已确定。
200.可选地，输入网络、第一特征提取单元、第二特征提取单元与输出网络之间的连接方式为任意连接方式。可选地，第一语音识别模型中的第二特征提取单元的数量为任意数量。
201.可选地，在第一语音识别模型包括第二特征提取单元的情况下，电子设备获取第一语音识别模型，包括：电子设备将多个第一特征提取单元以及第二特征提取单元按照目标连接方式进行连接，得到单元链；在单元链的两端分别连接输入网络和输出网络，得到第一语音识别模型。可选地，目标连接方式包括bi
‑
chain
‑
styled、chain
‑
styled或densely
‑
connected，本技术实施例对此不做限制。
202.在一种可能的实现方式中，第一语音识别模型包括n
‑
1个第一特征提取单元和n个单元分组，每个单元分组包括m个第二特征提取单元，第二特征提取单元不包括注意力网络。第一语音识别模型中网络的连接方式为：第一语音识别模型的两端为输入网络和输出网络，输入网络之后连接一个单元分组，输出网络之前连接一个单元分组，每两个单元分组之间连接一个第一特征提取单元。其中，n为大于1的整数，m为正整数。例如，n为3，m为5，本技术实施例对此不做限制。以n为3为例，第一语音识别模型中网络的连接顺序为：输入网
络、单元分组、第一特征提取单元、单元分组、第一特征提取单元、单元分组、输出网络。
203.需要说明的一点是，经过试验得知，与其他连接方式相比，第一语音识别模型按照上述连接方式进行连接时语音识别性能更好。
204.图4为第一语音识别模型的结构示意图。参考图4，第一语音识别模型中的第一特征提取单元的数量为2，单元分组的数量为3，即第二特征提取单元的数量为3*m，第一语音识别模型的结构为：输入网络的后面为m个第二特征提取网络，这m个第二特征提取网络的后面为一个第一特征提取网络，该第一特征提取网络的后面是m个第二特征提取网络，这m个第二特征提取网络的后面为另一个第一特征提取网络，该第一特征提取网络的后面是m个第二特征提取网络，这m个第二特征提取网络的后面为一个第一特征提取网络的后面为输出网络，m为任意正整数。可选地，输入网络包括两个卷积层。可选地，输出网络包括全连接层和归一化层，当然，输入网络和输出网络还能够包括其他层，本技术实施例对此不做限制。
205.302、电子设备至少一次从第一网络集合中选取至少一个特征提取网络，将至少一个特征提取网络添加至第一特征提取单元中，并与注意力网络连接，得到备选语音识别模型。
206.其中，第一网络集合包括多个备选的特征提取网络。可选地，备选的特征提取网络的类型有多种，例如卷积网络、池化网络。可选地，对于同一种类型的特征提取网络，该种类型的特征提取网络具有多种结构。例如，对于卷积网络来说，包括1*1的卷积网络、3*3的卷积网络等。
207.在一种可能的实现方式中，电子设备从第一网络集合中选取至少一个特征提取网络，包括：电子设备从第一数量范围内选取任一个数量；从第一网络集合中选取该数量的特征提取网络。可选地，第一数量范围为任意数量范围，例如，第一数量范围为1
‑
10，本技术实施例对此不做限制。
208.电子设备选取的特征提取网络的数量，决定了第一特征提取单元中的网络的层数。例如，第一特征提取单元中，原来有一层注意力网络，电子设备选取3个特征提取网络，添加到第一特征提取单元中，第一特征提取单元中的网络层数则为4。
209.图5为备选语音识别模型的结构示意图。参考图5，备选语音识别模型中的多个特征提取单元按照bi
‑
chain
‑
styled方式进行连接，除了第一特征提取单元外，其余每个特征提取单元的输入特征均为前两个特征提取单元的输出特征。特征提取单元内部包括4个特征提取网络，这4个特征提取网络以densely
‑
connected方式连接，即每两个特征提取网络都相互连接，并且，特征提取单元中的每个特征提取网络的输入特征均为：该特征提取单元中的每个特征提取网络前面所有特征提取网络的输出特征。可选地，特征提取单元内的4个特征提取网络为任意网络。
210.在一种可能的实现方式中，第一网络集合包括多个不同的第二网络集合。相应的，电子设备从第一网络集合中选取该数量的特征提取网络，包括：电子设备从第一网络集合中，确定该数量对应的多个第二网络集合，电子设备选取该数量对应的一个第二网络集合中的每个特征提取网络。其中，该数量对应的每个第二网络集合包括该数量的特征提取网络。
211.由于备选网络集合中，有多个不同的特征提取网络，因此，对于选取某个数量的特
征提取网络来说，选取的特征提取网络可能有多种组合方式，例如，要选取2个特征提取网络，该两个特征提取网络的组合方式为：一个卷积网络和一个池化网络，或者，两个结构不同的卷积网络、或者两个结构相同的卷积网络等。因此，第一网络集合包括多个第二网络集合，每个第二网络集合对应一种特征提取网络的组合方式。
212.在本技术实施例中，由于第一网络集合包括多个第二网络集合，且每个第二网络集合对应一种特征提取网络的组合形式，因此，利用第二网络集合来选取特征提取网络，能够提高从第一网络集合中选取任一数量的特征提取网络的效率，且保证每次选取的特征提取网络的组合形式不同，从而保证基于选取的特征提取网络构建的备选语音识别模型的结构不同。
213.在一种可能的实现方式中，第一语音识别模型包括多个第一特征提取单元，多个第一特征提取单元之间的连接方式已确定；第一特征提取单元中的多个网络的连接方式与多个第一特征提取单元之间的连接方式不同。例如，多个第一特征提取单元之间的连接方式为bi
‑
chain
‑
styled，第一特征提取单元中的多个网络的连接方式为densely
‑
connected。这样，能够丰富备选语音识别模型中结构模块之间的连接方式，从而丰富备选语音识别模型的结构类型。
214.在一种可能的实现方式中，电子设备将至少一个特征提取网络添加至第一特征提取单元中，并与注意力网络连接，得到备选语音识别模型，包括：电子设备将至少一个特征提取网络添加至第一特征提取单元中，并与注意力网络按照双链式bi
‑
chain
‑
styled连接方式、链式chain
‑
styled连接方式、或密集式densely
‑
connected连接方式进行连接，得到备选语音识别模型。当然，至少一个特征提取网络与注意力网络还能够以其他方式进行连接，本技术实施例对此不做限制。
215.在本技术实施例中，提供了特征提取网络与注意力网络进行连接的多种连接方式，则在获取到至少一个特征提取网络后，能够将至少一个特征提取网络与第一特征提取单元中的注意力网络按照多种方式进行连接，从而得到多个结构不同的备选语音识别模型，扩充了备选语音识别模型的数量，便于从中选取识别性能更高的第二语音识别模型。并且这多个备选语音识别模型中，均设置有注意力网络，使得第二语音识别模型在进行语音识别时，能够利用注意力机制来提高语音识别模型的识别性能。
216.在一种可能的实现方式中，在第一语音识别模型还包括第二特征提取单元的情况下，方法还包括：电子设备至少一次将至少一个特征提取网络添加至第二特征提取单元中，得到备选语音识别模型。
217.可选地，在第二特征提取单元中不包括特征提取网络的情况下，电子设备将至少一个特征提取网络添加至第二特征提取单元的实现方式为：电子设备将多个特征提取网络进行连接，得到网络链，将该网络链的输入端确定为第二特征提取单元的输入端，将该网络链的输出端确定为第二特征提取单元的输出端。在第二特征提取单元中包括特征提取网络的情况下，电子设备将至少一个特征提取网络添加至第二特征提取单元的实现方式为：电子设备将至少一个特征提取网络与第二特征提取单元中原有的特征提取网络进行连接，得到网络链，将该网络链的输入端确定为第二特征提取单元的输入端，将该网络链的输出端确定为第二特征提取单元的输出端。
218.可选地，电子设备将至少一个特征提取网络添加至第二特征提取单元中，得到备
选语音识别模型，包括：电子设备将至少一个特征提取网络，以不同的添加方式添加至第二特征提取单元中，得到不同的备选语音识别模型。可选地，在第二特征提取单元中不包括特征提取网络的情况下，电子设备将多个特征提取网络以不同的连接方式连接，得到网络链，将该网络链的输入端确定为第二特征提取单元的输入端，将该网络链的输出端确定为第二特征提取单元的输出端。可选地，在第二特征提取单元中包括特征提取网络的情况下，电子设备将至少一个特征提取网络与第二特征提取单元中原有的特征提取网络，以不同的方式进行连接，得到网络链，将该网络链的输入端确定为第二特征提取单元的输入端，将该网络链的输出端确定为第二特征提取单元的输出端。
219.其中，添加至第二特征提取单元的至少一个特征提取网络的获取方式与添加至第一特征提取单元的至少一个特征提取网络的获取方式同理，此处不再赘述。
220.需要说明的一点是，步骤302实际上是对第一特征提取单元的结构进行搜索的过程，由于第一语音识别模型包括第一特征提取单元，因此，对第一特征提取单元的结构的搜索过程，也即是对备选的语音识别模型的结构的搜索过程。同理，在第一语音识别模型包括第二特征提取单元的情况下，电子设备至少一次将至少一个特征提取网络添加至第二特征提取单元中，得到备选语音识别模型的过程，则是对第二特征提取单元的结构进行搜索的过程。可选地，这两个过程分别进行，例如，电子设备先搜索完第一特征提取单元的结构以后，再搜索第二特征提取单元的结构，例如，电子设备多次将至少一个特征提取单元添加至第一特征提取单元，得到多个备选语音识别模型之后，对于每个备选语音识别模型，至少一次将至少一个特征提取单元添加至该备选语音识别模型中的第二特征提取单元，得到新的备选语音识别模型。或者，电子设备先搜索完第二特征提取单元的结构以后，再搜索第一特征提取单元的结构，例如，电子设备多次将至少一个特征提取单元添加至第二特征提取单元，得到多个备选语音识别模型之后，对于每个备选语音识别模型，至少一次将至少一个特征提取单元添加至该备选语音识别模型中的第一特征提取单元，得到新的备选语音识别模型。或者，对第一特征提取单元和第二特征提取单元的结构同时进行搜索，例如，每次将至少一个特征提取网络添加至第一特征提取单元，得到备选语音识别模型后，将至少一个特征提取网络添加至备选语音识别模型中的第二特征提取单元中，得到新的备选语音识别模型。
221.可选地，第一特征提取单元与第二特征提取单元除了注意力网络外，其余的网络结构不同。输出第一特征提取单元的语音特征相对于输入第一特征提取单元的语音特征来说，特征尺寸的长和宽各降低一半，即时频域分辨率减半。输出第二特征提取单元的语音特征相对于输入第二特征提取单元的语音特征来说，特征尺寸保持不变，即时频域分辨率保持不变。
222.需要说明的一点是，步骤302是至少一次将至少一个特征提取网络添加至第一特征提取单元中，并与注意力网络连接，得到备选语音识别模型的其中一种实现方法，当然还能够通过其他方法来获取备选语音识别模型，例如，将至少一个特征提取网络以不同的方式添加至第一特征提取单元中，并与注意力网络连接，得到不同的备选语音识别模型。
223.在本技术实施例中，在获取到至少一个特征提取网络后，将至少一个特征提取网络以不同的添加方式添加到第一特征提取单元，则能够得到多个结构不同的备选语音识别模型，扩充了备选语音识别模型的数量，便于从中选取识别性能更高的第二语音识别模型。
224.可选地，电子设备将至少一个特征提取网络添加至第一特征提取单元的实现方式为：电子设备将至少一个特征提取网络，以及第一特征提取单元中的注意力网络进行连接，得到网络链，将该网络链的输入端确定为第一特征提取单元的输入端，将该网络链的输出端确定为第一特征提取单元输出端。相应的，电子设备将至少一个特征提取网络以不同的方式添加至第一特征提取单元中，并与注意力网络连接，得到不同的备选语音识别模型，包括：电子设备将至少一个特征提取网络、以及第一特征提取单元中的注意力网络以不同的连接方式进行连接，得到网络链，将该网络链的输入端确定为第一特征提取单元的输入端，将该网络链的输出端确定为第一特征提取单元输出端。可选地，电子设备将至少一个特征提取网络、以及第一特征提取单元中的注意力网络以不同的连接方式进行连接，得到网络链，包括：电子设备将多个特征提取网络以不同的连接方式连接，得到网络链后，将注意力网络连接到该网络链的输出端，得到最终的网络链。
225.303、电子设备响应于得到至少两个备选语音识别模型，确定每个备选语音识别模型的识别性能。
226.在一种可能的实现方式中，电子设备确定每个备选语音识别模型的识别性能，包括：电子设备获取测试集，测试集包括第一样本语音和第一样本语音对应的第一样本文本；电子设备基于每个备选语音识别模型，分别对第一样本语音进行识别，根据识别得到的文本与第一样本文本，确定每个备选语音识别模型的识别性能。
227.在本技术实施例中，利用测试集来确定每个备选语音识别模型的识别性能，则能够方便从备选语音识别模型中选取语音识别性能好的第二语音识别模型，从而保证基于第二语音识别模型进行语音识别的识别性能。
228.可选地，电子设备根据识别得到的文本与第一样本文本，确定每个备选语音识别模型的识别性能的实现方式为：电子设备根据识别得到的文本与第一样本文本，确定每个备选语音识别模型的损失值，该损失值用于表示备选语音识别模型的识别性能，且该损失值与备选语义识别模型的识别性能呈负相关关系，即该损失值越小，表示识别性能越好。可选地，电子设备通过任意损失函数来确定每个备选语音识别模型的损失值，本技术实施例对此不做限制。
229.在一种可能的实现方式中，电子设备确定每个备选语音识别模型的识别性能之前，先对每个备选语音识别模型进行训练，实现方式为：电子设备获取第一训练集，第一训练集包括第二样本语音和第二样本语音对应的第二样本文本；电子设备基于每个备选语音识别模型，分别对第二样本语音进行识别，根据识别得到的文本与第二样本文本之间的误差，对每个备选语音识别模型进行训练。
230.可选地，电子设备根据识别得到的文本与第二样本文本之间的误差，对每个备选语音识别模型进行训练的实现方式为：电子设备调整每个备选语音识别模型的模型参数，以使基于调整后的每个备选语音识别模型识别得到的文本与第二样本文本之间的误差变小。可选地，第一训练集中用于训练备选语音识别模型的第二样本语音的数量为任意数量，本技术实施例对此不做限制。
231.在本技术实施例中，在确定每个备选语音识别模型的识别性能之前，先利用第一训练集对每个备选语音识别模型进行训练，则后续基于识别性能从备选语音识别模型中选取第二语音识别模型时，能够选取出学习能力和泛化能力强的第二语音识别模型。
232.304、电子设备根据至少两个备选语音识别模型的识别性能，从至少两个备选语音识别模型中选取用于进行语义识别的第二语音识别模型。
233.可选地，电子设备根据至少两个备选语音识别模型的识别性能，从至少两个备选语音识别模型中选取第二语音识别模型的实现方式为：电子设备根据至少两个备选语音识别模型的识别性能，从至少两个备选语音识别模型中选取识别性能最好的第二语音识别模型。例如，电子设备根据至少两个备选语音识别模型的识别准确率，从至少两个备选语音识别模型中选取识别准确率最高的第二语音识别模型。如此，能够保证后续基于第二语音识别模型进行语音识别的准确率最高。
234.可选地，电子设备根据至少两个备选语音识别模型的识别准确率，从至少两个备选语音识别模型中选取第二语音识别模型的实现方式为：电子设备根据至少两个备选语音识别模型的识别准确率，从识别准确率大于准确率阈值的多个备选语音识别模型中选取模型结构最简单的第二语音识别模型。如此，在保证了基于第二语音识别模型进行语音识别的准确率的同时，还能够提高第二语音识别模型进行语音识别的效率。当然，还能够通过其他方式选取第二语音识别模型，例如，从识别准确率大于准确率阈值的多个备选语音识别模型中选取任一备选语音识别模型，作为第二语音识别模型，本技术实施例对此不做限制。
235.在一种可能的实现方式中，电子设备响应于得到至少两个备选语音识别模型，根据至少两个备选语音识别模型的识别性能，从至少两个备选语音识别模型中选取第二语音识别模型之后，方法还包括：电子设备响应于对第二语音识别模型中的第三特征提取单元的选择操作，创建与第三特征提取单元相同的第四特征提取单元；电子设备将第四特征提取单元添加到第二语音识别模型中，并与第三特征提取单元连接，得到更新后的第二语音识别模型。可选地，第三特征提取单元为第二语音识别模型中的任一特征提取单元。
236.可选地，电子设备将第四特征提取单元添加到第二语音识别模型中，并与第三特征提取单元连接，得到更新后的第二语音识别模型的实现方式为：电子设备将第四特征提取单元插入到第三特征提取单元与其他特征提取单元之间，并且插入的第四特征提取单元与上层以及下层的特征提取单元的连接方式，与插入前第三特征提取单元与上层以及下层的特征提取单元的连接方式相同。当然，电子设备还能够将第四特征提取单元以其他方式添加到第二语音识别模型中，本技术实施例对此不做限制。可选地，第四特征提取单元的数量为任意数量，且在第二语音识别模型中添加每个第四特征提取单元的实现方式同理。
237.在本技术实施例中，通过在得到的第二语音识别模型中，添加与已有的特征提取单元相同的特征提取单元，能够增加第二语音识别模型的深度，进一步提高第二语音识别模型的识别性能。
238.305、电子设备基于第二语音识别模型进行语音识别。
239.在一种可能的实现方式中，电子设备基于第二语音识别模型进行语音识别的过程中，输入至注意力网络的语音特征的形状为c*t*f，表示语音特征包含的通道维度个数为c，时间维度个数为t，频率维度个数为f，c、t和f均为正整数。电子设备基于注意力网络进行语音识别的过程包括：电子设备将该语音特征的形状变换为t*z，以使变换后的语音特征不再包含通道维度和频率维度，且在每个时间维度上的特征尺寸为z，其中z为c和f的乘积；电子设备基于变换后的语音特征，确定语音特征对应的注意力权重，基于注意力权重对变换后的语音特征进行加权处理，将加权处理后的语音特征的形状恢复为c*t*f，输出形状恢复后
的语音特征。
240.在本技术实施例中，基于注意力网络先对语音特征的形状进行变换，以使变换后的语音特征不再包含通道维度和频率维度，则在基于变换后的语音特征生成注意力权重时，不会局限于通道内的语音特征，而能够结合语音特征的通道间相关性来生成该注意力权重，使得生成的注意力权重更加准确，从而提高了注意力网络输出的语音特征的准确率，进而提高了语音识别性能。
241.可选地，注意力网络为任意类型的注意力网络，例如，自注意力(self
‑
attention)网络，多头注意力(multi
‑
head attention)网络，多头自注意力(multi
‑
head self
‑
attention)网络等，本技术实施例对此不做限制。
242.图6为注意力网络的结构示意图，参考图6，虚线框中的部分表示注意力网络，从图中能够看出，注意网络的上层网络和下层网络分别为卷积网络，输入至注意力网络的语音特征的形状为c*t*f，对该语音特征进行形状变换，得到形状为t*z的语音特征，其中z为c和f的乘积，然后通过三个全连接层，分别对形状为t*z的语音特征进行特征映射，得到注意力机制对应的q(queries)，k(keys)、v(values)，其中q、k和v均表示不同时间维度的输入语音特征构成的矩阵，形状均为t*z，将k进行转置，则k的形状为z*t，然后将q与k相乘得到乘积t*t，t*t表示在确定每个时间维度的输入语音特征对应的输出语音特征时，不同时间维度的输入语音特征对应的注意力权重，注意力权重经过softmax层(归一化层)，得到归一化的注意力权重，将归一化的注意力权重与v相乘，则得到输出语音特征，将该输出语音特征的形状恢复为c*t*f后，输入下一个卷积网络，其中输入语音特征是指输入注意力网络的语音特征，输出语音特征是指输出注意力网络的语音特征。
243.需要说明的一点是，本技术实施例充分利用注意力机制能够对长时序列的相关性进行更好的建模能力，因此，利用注意力机制的神经网络模型来搜索出性能更好的模型结构。
244.在一种可能的实现方式中，电子设备基于第二语音识别模型进行语音识别之前，方法还包括：电子设备获取第二训练集，第二训练集包括第三样本语音和第三样本语音对应的第三样本文本；电子设备基于每个备选语音识别模型，分别对第三样本语音进行识别，根据识别得到的文本与第三样本文本之间的误差，对第二语音识别模型进行训练。其中，第二训练集与第一训练集不同。可选地，第二训练集中用于第二语音识别模型的第三样本语音的数量为任意数量，本技术实施例对此不做限制。电子设备通过第二训练集对第二语音识别模型进行训练的过程与通过第一训练集对备选语音识别模型进行训练的过程同理，此处不再赘述。
245.在本技术实施例中，在搜索得到第二语音识别模型后，通过第二训练集对第二语音识别模型进行训练，能够提高第二语音识别模型的泛化能力，从而提高第二语音识别模型的识别性能。
246.在本技术实施例中，语音识别模型的结构不是完全由用户来人为设计的，而是通过在第一语音识别模型中添加特征提取网络的方式来自动创建多个备选语音识别模型，再根据识别性能，从备选语音识别模型中选取需要的第二语音识别模型，这样得到的第二语音识别模型的结构能够摆脱人为经验的限制。并且，第二语音识别模型中包括注意力网络，使得第二语音识别模型在进行语音识别时，能够利用注意力机制来提高语音识别模型的语
音识别性能。
247.在本技术实施例中，通过将多个特征提取单元按照确定的连接方式进行连接，则在基于第一语音识别模型进行结构搜索，得到备选语音识别模型的过程中，多个特征提取单元之间的连接方式则无需参与搜索，能够提高进行模型结构搜索的效率。
248.在本技术实施例中，由于第一网络集合包括多个第二网络集合，且每个第二网络集合对应一种特征提取网络的组合形式，因此利用第二网络集合来选取特征提取网络，能够提高从第一网络集合中选取任一数量的特征提取网络的效率，且保证每次选取的特征提取网络的组合形式不同，从而保证基于选取的特征提取网络构建的备选语音识别模型的结构不同。
249.在本技术实施例中，在获取到至少一个特征提取网络后，将至少一个特征提取网络以不同的添加方式添加到第一特征提取单元，则能够得到多个结构不同的备选语音识别模型，扩充了备选语音识别模型的数量，便于从中选取识别性能更高的第二语音识别模型。
250.在本技术实施例中，提供了特征提取网络与注意力网络进行连接的多种连接方式，则在获取到至少一个特征提取网络后，能够将至少一个特征提取网络与第一特征提取单元中的注意力网络按照多种方式进行连接，从而得到多个结构不同的备选语音识别模型，扩充了备选语音识别模型的数量，便于从中选取识别性能更高的第二语音识别模型。并且这多个备选语音识别模型中，均设置有注意力网络，使得第二语音识别模型在进行语音识别时，能够利用注意力机制来提高语音识别模型的识别性能。
251.在本技术实施例中，利用测试集来确定每个备选语音识别模型的识别性能，则能够方便从备选语音识别模型中选取语音识别性能好的第二语音识别模型，从而保证基于第二语音识别模型进行语音识别的语音识别效果。
252.在本技术实施例中，在确定每个备选语音识别模型的识别性能之前，先利用第一训练集对每个备选语音识别模型进行训练，则后续基于识别性能从备选语音识别模型中选取第二语音识别模型时，能够选取出学习能力和泛化能力强的第二语音识别模型。
253.在本技术实施例中，通过在得到的第二语音识别模型中，添加与已有的特征提取单元相同的特征提取单元，能够增加第二语音识别模型的深度，进一步提高第二语音识别模型的识别性能。
254.在本技术实施例中，基于注意力网络先对语音特征的形状进行变换，以使变换后的语音特征不再包含通道维度和频率维度，则在基于变换后的语音特征生成注意力权重时，不会局限于通道内的语音特征，而能够结合语音特征的通道间相关性来生成该注意力权重，使得生成的注意力权重更加准确，从而提高了注意力网络输出的语音特征的准确率，进而提高了语音识别性能。
255.在本技术实施例中，在搜索得到第二语音识别模型后，通过第二训练集对第二语音识别模型进行训练，能够提高第二语音识别模型的泛化能力，从而提高第二语音识别模型的识别性能。
256.图7是本技术实施例提供的一种语音识别方法的流程图。参见图7，该实施例包括：
257.701、电子设备获取第一语音识别模型，第一语音识别模型包括多个网络，且多个网络之间的连接方式未确定，多个网络包括输入网络、注意力网络和输出网络。
258.可选地，第一语音识别模型除了包括输入网络、注意力网络、输出网络外，还包括
卷积网络、池化网络或者其他网络。
259.可选地，第一语音识别模型中，除了输入网络和输出网络的数量为1外，其他各种网络的数量为任意数量，本技术实施例对此不做限制。
260.702、电子设备至少一次将至少一个特征提取单元，与第一语音识别模型中的多个网络按照至少两种连接方式进行连接，得到至少两个备选语音识别模型。
261.在多次将至少一个特征提取单元，与第一语音识别模型中的多个网络进行连接的情况下，电子设备每次连接所针对的至少一个特征提取单元的个数相同或不同。例如，第一次为1个特征提取单元，第二次还为1个特征提取单元，或者第二次为2个特征提取单元。在多次连接，针对的特征提取单元的个数相同的情况下，每次连接针对的特征提取单元相同或不同。例如，第一次的特征提取单元为1个1*1的卷积网络，第二次的特征提取单元为一个3*3的卷积网络，或者第二次的特征提取单元还为1个1*1的卷积网络。在多次连接针对的特征提取单元相同的情况下，针对的至少一个特征提取单元与第一语音识别模型中的多个网络的连接方式不同，例如，第一次连接针对的特征提取单元为一个1*1的卷积网络，第二次连接针对的特征提取单元为一个1*1的卷积网络，但两次将卷积网络以及第一语音识别模型中的多个网络进行连接的方式不同。
262.其中，至少一个特征提取单元，与第一语音识别模型中的多个网络按照至少两种连接方式进行连接是指：至少一个特征提取单元中的每个特征提取单元，以及第一语音识别模型中的每个网络都是连接对象，在将这多个连接对象进行连接后，得到至少两个备选语音识别模型，每个备选语音识别模型对应一种连接方式。
263.703、电子设备根据至少两个备选语音识别模型的识别性能，从至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型。
264.在本技术实施例中，语音识别模型的结构不是完全由用户来人为设计的，而是通过将至少一个特征提取网络与第一语音识别模型中已有的多个网络进行连接的方式，自动创建多个备选语音识别模型，再根据识别性能，从备选语音识别模型中选取需要的第二语音识别模型，这样得到的第二语音识别模型的结构能够摆脱人为经验的限制。并且，第二语音识别模型中包括注意力网络，使得第二语音识别模型在进行语音识别时，能够利用注意力机制来提高语音识别模型的语音识别性能。
265.图8是本技术实施例提供的一种语音识别方法的流程图。参见图8，该实施例包括：
266.801、电子设备获取第一语音识别模型，第一语音识别模型包括多个网络，且多个网络之间的连接方式未确定，多个网络包括输入网络、注意力网络和输出网络。
267.802、电子设备至少一次从多个特征提取单元中选取至少一个特征提取单元，将至少一个特征提取单元，与第一语音识别模型中的多个网络按照至少两种连接方式进行连接，得到至少两个备选语音识别模型。
268.可选地，电子设备每次选取的至少一个特征提取单元不同，因此，通过将每次选取的至少一个特征提取单元与第一语音识别模型中的多个网络，按照至少两种连接方式进行连接，电子设备则能够得到多个不同的备选语音识别模型。
269.在一种可能的实现方式中，电子设备从多个特征提取单元中选取至少一个特征提取单元，包括：电子设备从第二数量范围内选取任一个数量；电子设备从多个特征提取单元中选取该数量的特征提取单元。可选地，第二数量范围为任意数量范围，例如，第二数量范
围为1
‑
5，本技术实施例对此不做限制。
270.在一种可能的实现方式中，电子设备从多个特征提取单元中选取该数量的特征提取单元，包括：电子设备确定数量对应的多个单元集合，每个单元集合中包括该数量的特征提取单元；电子设备选取任一单元集合中的每个特征提取单元。其中，每个单元集合对应一种特征提取单元的组合形式。
271.在本技术实施例中，由于每个单元集合对应一种特征提取单元的组合形式，因此，利用单元集合来选取特征提取单元，能够保证每次选取的特征提取单元的组合形式不同，从而保证基于选取的特征提取单元构建的备选语音识别模型的结构不同。
272.其中，至少一个特征提取单元与第一语音识别模型中的多个网络之间的连接方式包括双链式bi
‑
chain
‑
styled、链式chain
‑
styled、或密集式densely
‑
connected等，本技术实施例对此不做限制。
273.在本技术实施例中，提供了特征提取单元与第一语音识别模型中的网络之间的多种连接方式，使得在获取到至少一个特征提取单元后，能够将第一语音识别模型中的多个网络与选取的至少一个特征提取单元，以多种连接方式进行连接，从而得到多个结构不同的备选语音识别模型，扩充了备选语音识别模型的数量，便于从中选取识别性能更高的第二语音识别模型。
274.在一种可能的实现方式中，至少一次将至少一个特征提取单元，与第一语音识别模型中的多个网络按照至少两种连接方式进行连接，得到至少两个备选语音识别模型之前，电子设备要先获取特征提取单元，实现方式为：电子设备基于多个特征提取网络获取至少一个特征提取单元，所获取的每个特征提取单元包括至少一个特征提取网络。
275.在一种可能的实现方式中，电子设备基于多个特征提取网络获取至少一个特征提取单元，包括：电子设备从第一网络集合中选取一个特征提取网络，将特征提取网络确定为特征提取单元；或者，电子设备从第一网络集合中选取至少两个特征提取网络，将至少两个特征提取网络进行连接，得到特征提取单元；其中，第一网络集合包括多个备选的特征提取网络。
276.在本技术实施例中，基于特征提取网络来获取特征提取单元，即是对特征提取单元的内部结构进行搜索，也就是说，本技术实施例在搜索语音识别模型的结构时，不仅搜索语音识别模型的宏观结构，还搜索特征提取单元内部的微观结构，这样能够得到结构类型更加丰富的备选语音识别模型，从而便于选取出语音识别性能高的第二语音识别模型。
277.在一种可能的实现方式中，电子设备从第一网络集合中选取至少两个特征提取网络，包括：电子设备从第一数量范围内选取任一个数量，第一数量范围中的数量不小于2；从第一网络集合中选取该数量的特征提取网络。
278.在一种可能的实现方式中，第一网络集合包括多个不同的第二网络集合，从第一网络集合中选取该数量的特征提取网络，包括：电子设备从第一网络集合中，确定数量对应的多个第二网络集合，该数量对应的每个第二网络集合包括该数量的特征提取网络；电子设备选取该数量对应的一个第二网络集合中的每个特征提取网络。需要说明的一点是，从第一网络集合中选取至少一个特征提取网络的实现方式在步骤302已做介绍，此处不再详细介绍。
279.在一种可能的实现方式中，电子设备从第一网络集合中选取至少两个特征提取网
络后，将至少两个特征提取网络进行连接，得到特征提取单元，包括：电子设备将至少两个特征提取网络以至少两种连接方式进行连接，得到至少两个特征提取单元。
280.在本技术实施例中，从第一网络集合中选取至少两个特征提取网络后，将至少两个特征提取网络以至少两种连接方式进行连接，则能够得到多个结构不同的特征提取单元，扩充了特征提取单元的结构类型，则基于这多种特征提取单元来搜索语音识别模型的结构，扩充了备选语音识别模型的数量，便于从中选取识别性能更高的第二语音识别模型。
281.在一种可能的实现方式中，至少两个特征提取网络之间的连接方式包括双链式bi
‑
chain
‑
styled、链式chain
‑
styled、或密集式densely
‑
connected等。
282.在本技术实施例中，提供了多种特征提取网络之间的连接方式，使得在获取到至少两个特征提取网络后，能够将至少两个特征提取网络以多种连接方式进行连接，得到多个结构不同的特征提取单元，扩充了特征提取单元的结构类型，则基于这多种特征提取单元来搜索语音识别模型的结构，扩充了备选语音识别模型的数量，便于从中选取识别性能更高的第二语音识别模型。
283.803、电子设备确定每个备选语音识别模型的识别性能。
284.在一种可能的实现方式中，电子设备确定每个备选语音识别模型的识别性能，包括：电子设备获取测试集，测试集包括第一样本语音和第一样本语音对应的第一样本文本；基于每个备选语音识别模型，分别对第一样本语音进行识别，根据识别得到的文本与第一样本文本，确定每个备选语音识别模型的识别性能。
285.在本技术实施例中，利用测试集来确定每个备选语音识别模型的识别性能，则能够方便从备选语音识别模型中选取语音识别性能好的第二语音识别模型，从而保证基于第二语音识别模型进行语音识别的识别性能。
286.在一种可能的实现方式中，电子设备确定每个备选语音识别模型的识别性能之前，先对每个备选语音识别模型进行训练，实现方式为：电子设备获取第一训练集，第一训练集包括第二样本语音和第二样本语音对应的第二样本文本；电子设备基于每个备选语音识别模型，分别对第二样本语音进行识别，根据识别得到的文本与第二样本文本之间的误差，对每个备选语音识别模型进行训练。
287.在本技术实施例中，在确定每个备选语音识别模型的识别性能之前，先利用第一训练集对每个备选语音识别模型进行训练，则后续基于识别性能从备选语音识别模型中选取第二语音识别模型时，能够选取出学习能力和泛化能力强的第二语音识别模型。
288.需要说明的一点是，通过测试集确定每个备选语音识别模型的识别性能的实现方式，以及通过第一训练集对每个备选语音识别模型进行训练的实现方式，在步骤303中已做介绍，此处不再赘述。
289.804、电子设备根据至少两个备选语音识别模型的识别性能，从至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型。
290.在一种可能的实现方式中，电子设备响应于得到至少两个备选语音识别模型，根据至少两个备选语音识别模型的识别性能，从至少两个备选语音识别模型中选取第二语音识别模型之后，方法还包括：电子设备响应于对第二语音识别模型中的第一特征提取单元的选择操作，创建与第一特征提取单元相同的第二特征提取单元；电子设备将第二特征提取单元添加到第二语音识别模型中，并与第一特征提取单元连接，得到更新后的第二语音
识别模型。可选地，第一特征提取单元为第二语音识别模型中的任一特征提取单元。
291.可选地，电子设备将第二特征提取单元添加到第二语音识别模型中，并与第一特征提取单元连接，得到更新后的第二语音识别模型的实现方式为：电子设备将第二特征提取单元插入到第一特征提取单元与其他网络或单元之间，并且插入的第二特征提取单元与上层以及下层的网络或单元的连接方式，与插入前第一特征提取单元与上层以及下层的网络或单元的连接方式相同。当然，电子设备还能够将第二特征提取单元以其他方式添加到第二语音识别模型中，本技术实施例对此不做限制。可选地，第二特征提取单元的数量为任意数量，且在第二语音识别模型中添加每个第二特征提取单元的实现方式同理。
292.在本技术实施例中，通过在得到的第二语音识别模型中，添加与已有的特征提取单元相同的特征提取单元，能够增加第二语音识别模型的深度，进一步提高第二语音识别模型的识别性能。
293.805、电子设备基于第二语音识别模型进行语音识别。
294.在一种可能的实现方式中，电子设备基于第二语音识别模型进行语音识别的过程中，输入至注意力网络的语音特征的形状为c*t*f，表示语音特征包含的通道维度个数为c，时间维度个数为t，频率维度个数为f，c、t和f均为正整数；电子设备基于注意力网络进行语音识别的过程包括：电子设备将语音特征的形状变换为t*z，以使变换后的语音特征不再包含通道维度和频率维度，且在每个时间维度上的特征尺寸为z，其中z为c和f的乘积；基于变换后的语音特征，确定语音特征对应的注意力权重，将加权处理后的语音特征的形状恢复为c*t*f，输出形状恢复后的语音特征。
295.在本技术实施例中，基于注意力网络先对语音特征的形状进行变换，以使变换后的语音特征不再包含通道维度和频率维度，则在基于变换后的语音特征生成注意力权重时，不会局限于通道内的语音特征，而能够结合语音特征的通道间相关性来生成该注意力权重，使得生成的注意力权重更加准确，从而提高了注意力网络输出的语音特征的准确率，进而提高了语音识别的性能。
296.在一种可能的实现方式中，电子设备基于第二语音识别模型进行语音识别之前，方法还包括：电子设备获取第二训练集，第二训练集包括第三样本语音和第三样本语音对应的第三样本文本；电子设备基于每个备选语音识别模型，分别对第三样本语音进行识别，根据识别得到的文本与第三样本文本之间的误差，对第二语音识别模型进行训练。电子设备通过第二训练集对第二语音识别模型进行训练的过程与通过第一训练集对备选语音识别模型进行训练的过程同理，此处不再赘述。
297.在本技术实施例中，在搜索得到第二语音识别模型后，通过第二训练集对第二语音识别模型进行训练，能够提高第二语音识别模型的泛化能力，从而提高第二语音识别模型的识别性能。
298.在本技术实施例中，语音识别模型的结构不是完全由用户来人为设计的，而是通过将至少一个特征提取单元与第一语音识别模型中已有的多个网络按照多种连接方式进行连接的方式，自动创建多个备选语音识别模型，再根据识别性能，从备选语音识别模型中选取需要的第二语音识别模型，这样得到的第二语音识别模型的结构能够摆脱人为经验的限制。并且，第二语音识别模型中包括注意力网络，使得第二语音识别模型在进行语音识别时，能够利用注意力机制来提高语音识别模型的语音识别性能。
299.在本技术实施例中，提供了特征提取单元与第一语音识别模型中的网络之间的多种连接方式，使得在获取到至少一个特征提取单元后，能够将第一语音识别模型中的多个网络与选取的至少一个特征提取单元，以多种连接方式进行连接，从而得到多个结构不同的备选语音识别模型，扩充了备选语音识别模型的数量，便于从中选取识别性能更高的第二语音识别模型。
300.在本技术实施例中，由于每个单元集合对应一种特征提取单元的组合形式，因此，利用单元集合来选取特征提取单元，能够保证每次选取的特征提取单元的组合形式不同，从而保证基于选取的特征提取单元构建的备选语音识别模型的结构不同。
301.在本技术实施例中，基于特征提取网络来获取特征提取单元，即是对特征提取单元的内部结构进行搜索，也就是说，本技术实施例在搜索语音识别模型的结构时，不仅搜索语音识别模型的宏观结构，还搜索特征提取单元内部的微观结构，这样能够得到结构类型更加丰富的备选语音识别模型，从而便于选取出语音识别性能高的第二语音识别模型。
302.在本技术实施例中，从第一网络集合中选取至少两个特征提取网络后，将至少两个特征提取网络以至少两种连接方式进行连接，则能够得到多个结构不同的特征提取单元，扩充了特征提取单元的结构类型，则基于这多种特征提取单元来搜索语音识别模型的结构，扩充了备选语音识别模型的数量，便于从中选取识别性能更高的第二语音识别模型。
303.在本技术实施例中，利用测试集来确定每个备选语音识别模型的识别性能，则能够方便从备选语音识别模型中选取语音识别性能好的第二语音识别模型，从而保证第二语音识别模型进行语音识别的识别性能。
304.在本技术实施例中，在确定每个备选语音识别模型的识别性能之前，先利用第一训练集对每个备选语音识别模型进行训练，则后续基于识别性能从备选语音识别模型中选取第二语音识别模型时，能够选取出学习能力和泛化能力强的第二语音识别模型。
305.在本技术实施例中，通过在得到的第二语音识别模型中，添加与已有的特征提取网络相同的特征提取网络，能够增加第二语音识别模型的深度，进一步提高第二语音识别模型的识别性能。
306.在本技术实施例中，基于注意力网络先对语音特征的形状进行变换，以使变换后的语音特征不再包含通道维度和频率维度，则在基于变换后的语音特征生成注意力权重时，不会局限于通道内的语音特征，而能够结合语音特征的通道间相关性来生成该注意力权重，使得生成的注意力权重更加准确，从而提高了注意力网络输出的语音特征的准确率，进而提高了语音识别性能。
307.在本技术实施例中，在搜索得到第二语音识别模型后，通过第二训练集对第二语音识别模型进行训练，能够提高第二语音识别模型的泛化能力，从而提高第二语音识别模型的识别性能。
308.上述所有可选技术方案，可以采用任意结合形成本技术的可选实施例，在此不再一一赘述。
309.图9是本技术实施例提供的一种语音识别装置的框图。参见图9，该实施例包括：
310.模型获取模块91，用于获取第一语音识别模型，第一语音识别模型包括输入网络、第一特征提取单元和输出网络，输入网络、第一特征提取单元与输出网络之间的连接方式已确定，第一特征提取单元包括注意力网络；
311.网络添加模块92，用于至少一次将至少一个特征提取网络添加至第一特征提取单元中，并与注意力网络连接，得到备选语音识别模型；
312.模型选取模块93，用于响应于得到至少两个备选语音识别模型，根据至少两个备选语音识别模型的识别性能，从至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型。
313.在一种可能的实现方式中，模型获取模块91，用于将多个第一特征提取单元按照双链式bi
‑
chain
‑
styled连接方式、链式chain
‑
styled连接方式、或密集式densely
‑
connected连接方式进行连接，得到单元链；在单元链的两端分别连接输入网络和输出网络，得到第一语音识别模型。
314.在一种可能的实现方式中，网络添加模块92，用于将至少一个特征提取网络以不同的方式添加至第一特征提取单元中，并与注意力网络连接，得到不同的备选语音识别模型。
315.在一种可能的实现方式中，网络添加模块92，用于将至少一个特征提取网络添加至第一特征提取单元中，并与注意力网络按照双链式bi
‑
chain
‑
styled连接方式、链式chain
‑
styled连接方式、或密集式densely
‑
connected连接方式进行连接，得到备选语音识别模型。
316.在一种可能的实现方式中，第一语音识别模型包括多个第一特征提取单元，多个第一特征提取单元之间的连接方式已确定；第一特征提取单元中的多个网络的连接方式与多个第一特征提取单元之间的连接方式不同。
317.在一种可能的实现方式中，第一语音识别模型包括n
‑
1个第一特征提取单元和n个单元分组，每个单元分组包括m个第二特征提取单元，n为大于1的整数，m为正整数，第二特征提取单元不包括注意力网络，第一语音识别模型中网络的连接方式为：第一语音识别模型的两端为输入网络和输出网络，输入网络之后连接一个单元分组，输出网络之前连接一个单元分组，每两个单元分组之间连接一个第一特征提取单元。
318.在一种可能的实现方式中，参考图10，装置还包括：
319.模型更新模块94，用于响应于对第二语音识别模型中的第三特征提取单元的选择操作，创建与第三特征提取单元相同的第四特征提取单元；将第四特征提取单元添加到第二语音识别模型中，并与第三特征提取单元连接，得到更新后的第二语音识别模型。
320.在一种可能的实现方式中，基于第二语音识别模型进行语音识别的过程中，输入至注意力网络的语音特征的形状为c*t*f，表示语音特征包含的通道维度个数为c，时间维度个数为t，频率维度个数为f，c、t和f均为正整数；
321.基于注意力网络进行语音识别的过程包括：
322.将语音特征的形状变换为t*z，以使变换后的语音特征不再包含通道维度和频率维度，且在每个时间维度上的特征尺寸为z，其中z为c和f的乘积；
323.基于变换后的语音特征，确定语音特征对应的注意力权重，基于注意力权重对变换后的语音特征进行加权处理，将加权处理后的语音特征的形状恢复为c*t*f，输出形状恢复后的语音特征。
324.在一种可能的实现方式中，参考图10，网络添加模块92，包括：
325.网络选取子模块921，用于至少一次从第一网络集合中选取至少一个特征提取网
络；
326.网络添加子模块922，用于将至少一个特征提取网络添加至第一特征提取单元中，并与注意力网络连接，得到备选语音识别模型；
327.其中，第一网络集合包括多个备选的特征提取网络。
328.在一种可能的实现方式中，网络选取子模块921，参考图10，包括：
329.数量选取单元9211，用于从第一数量范围内选取任一个数量；
330.网络选取单元9212，用于从第一网络集合中选取数量的特征提取网络。
331.在一种可能的实现方式中，第一网络集合包括多个不同的第二网络集合，网络选取单元9212，用于从第一网络集合中，确定数量对应的多个第二网络集合，数量对应的每个第二网络集合包括数量的特征提取网络；选取数量对应的一个第二网络集合中的每个特征提取网络。
332.在一种可能的实现方式中，第一语音识别模型还包括第二特征提取单元，第二特征提取单元不包括注意力网络，输入网络、第一特征提取单元、第二特征提取单元与输出网络之间的连接方式已确定；网络添加模块92，还用于至少一次将至少一个特征提取网络添加至第二特征提取单元中，得到备选语音识别模型。
333.在一种可能的实现方式中，参考图10，装置还包括：
334.性能确定模块95，用于获取测试集，测试集包括第一样本语音和第一样本语音对应的第一样本文本；基于每个备选语音识别模型，分别对第一样本语音进行识别，根据识别得到的文本与第一样本文本，确定每个备选语音识别模型的识别性能。
335.在一种可能的实现方式中，参考图10，装置还包括：
336.第一训练模块96，用于获取第一训练集，第一训练集包括第二样本语音和第二样本语音对应的第二样本文本；基于每个备选语音识别模型，分别对第二样本语音进行识别，根据识别得到的文本与第二样本文本之间的误差，对每个备选语音识别模型进行训练。
337.在一种可能的实现方式中，参考图10，装置还包括：
338.语音识别模块97，用于基于第二语音识别模型进行语音识别。
339.在一种可能的实现方式中，装置还包括：
340.第二训练模块98，用于获取第二训练集，第二训练集包括第三样本语音和第三样本语音对应的第三样本文本；基于每个备选语音识别模型，分别对第三样本语音进行识别，根据识别得到的文本与第三样本文本之间的误差，对第二语音识别模型进行训练。
341.在本技术实施例中，语音识别模型的结构不是完全由用户来人为设计的，而是通过在第一语音识别模型中添加特征提取网络的方式来自动创建多个备选语音识别模型，再根据识别性能，从备选语音识别模型中选取需要的第二语音识别模型，这样得到的第二语音识别模型的结构能够摆脱人为经验的限制。并且，第二语音识别模型中包括注意力网络，使得第二语音识别模型在进行语音识别时，能够利用注意力机制来提高语音识别模型的语音识别性能。
342.图11是本技术实施例提供的一种语音识别装置的框图。参见图11，该实施例包括：
343.模型获取模块111，用于获取第一语音识别模型，第一语音识别模型包括多个网络，且多个网络之间的连接方式未确定，多个网络包括输入网络、注意力网络和输出网络；
344.单元连接模块112，用于至少一次将至少一个特征提取单元，与第一语音识别模型
中的多个网络按照至少两种连接方式进行连接，得到至少两个备选语音识别模型；
345.模型选取模块113，用于根据至少两个备选语音识别模型的识别性能，从至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型。
346.在一种可能的实现方式中，连接方式包括双链式bi
‑
chain
‑
styled、链式chain
‑
styled、或密集式densely
‑
connected。
347.在一种可能的实现方式中，参考图12，装置包括：
348.单元获取模块114，用于基于多个特征提取网络获取至少一个特征提取单元，所获取的每个特征提取单元包括至少一个特征提取网络。
349.在一种可能的实现方式中，单元连接模块112，参考图12，包括：
350.单元选取子模块1121，用于至少一次从多个特征提取单元中选取至少一个特征提取单元；
351.单元连接子模块1122，用于将第一语音识别模型中的多个网络与选取的至少一个特征提取单元按照至少两种连接方式进行连接，得到至少一个备选语音识别模型。
352.在一种可能的实现方式中，单元选取子模块1121，参考图12，包括：
353.第一数量选取单元11211，用于从第二数量范围内选取任一个数量；
354.单元选取单元11212，用于从多个特征提取单元中选取数量的特征提取单元。
355.在一种可能的实现方式中，单元选取单元11212，用于确定数量对应的多个单元集合，每个单元集合中包括数量的特征提取单元；选取任一单元集合中的每个特征提取单元。
356.在一种可能的实现方式中，单元获取模块114，参考图12，包括：
357.第一单元获取子模块1141，用于从第一网络集合中选取一个特征提取网络，将特征提取网络确定为特征提取单元；或者，
358.第二单元获取子模块1142，用于从第一网络集合中选取至少两个特征提取网络，将至少两个特征提取网络进行连接，得到特征提取单元；
359.其中，第一网络集合包括多个备选的特征提取网络。
360.在一种可能的实现方式中，第二单元获取子模块1142，包括：
361.第二数量选取单元11421，用于从第一数量范围内选取任一个数量，第一数量范围中的数量不小于2；
362.网络选取单元11422，用于从第一网络集合中选取数量的特征提取网络。
363.在一种可能的实现方式中，第一网络集合包括多个不同的第二网络集合，网络选取单元11422，用于从第一网络集合中，确定数量对应的多个第二网络集合，数量对应的每个第二网络集合包括数量的特征提取网络；选取数量对应的一个第二网络集合中的每个特征提取网络。
364.在一种可能的实现方式中，第二单元获取子模块1142，用于将至少两个特征提取网络以至少两种连接方式进行连接，得到至少两个特征提取单元。
365.在一种可能的实现方式中，至少两个特征提取网络之间的连接方式包括双链式bi
‑
chain
‑
styled、链式chain
‑
styled、或密集式densely
‑
connected。
366.在一种可能的实现方式中，参考图12，装置还包括：
367.性能确定模块115，用于获取测试集，测试集包括第一样本语音和第一样本语音对应的第一样本文本；基于每个备选语音识别模型，分别对第一样本语音进行识别，根据识别
得到的文本与第一样本文本，确定每个备选语音识别模型的识别性能。
368.在一种可能的实现方式中，参考图12，装置还包括：
369.第一训练模块116，用于获取第一训练集，第一训练集包括第二样本语音和第二样本语音对应的第二样本文本；基于每个备选语音识别模型，分别对第二样本语音进行识别，根据识别得到的文本与第二样本文本之间的误差，对每个备选语音识别模型进行训练。
370.在一种可能的实现方式中，参考图12，装置还包括：
371.语音识别模块117，用于基于第二语音识别模型进行语音识别。
372.在一种可能的实现方式中，装置还包括：
373.第二训练模块118，用于获取第二训练集，第二训练集包括第三样本语音和第三样本语音对应的第三样本文本；基于每个备选语音识别模型，分别对第三样本语音进行识别，根据识别得到的文本与第三样本文本之间的误差，对第二语音识别模型进行训练。
374.在一种可能的实现方式中，装置还包括：
375.模型更新模块119，用于响应于对第二语音识别模型中的第一特征提取单元的选择操作，创建与第一特征提取单元相同的第二特征提取单元；将第二特征提取单元添加到第二语音识别模型中，并与第一特征提取单元连接，得到更新后的第二语音识别模型。
376.在一种可能的实现方式中，基于第二语音识别模型进行语音识别的过程中，输入至注意力网络的语音特征的形状为c*t*f，表示语音特征包含的通道维度个数为c，时间维度个数为t，频率维度个数为f，c、t和f均为正整数；
377.基于注意力网络进行语音识别的过程包括：
378.将语音特征的形状变换为t*z，以使变换后的语音特征不再包含通道维度和频率维度，且在每个时间维度上的特征尺寸为z，其中z为c和f的乘积；
379.基于变换后的语音特征，确定语音特征对应的注意力权重，基于注意力权重对变换后的语音特征进行加权处理，将加权处理后的语音特征的形状恢复为c*t*f，输出形状恢复后的语音特征。
380.在本技术实施例中，语音识别模型的结构不是完全由用户来人为设计的，而是通过将至少一个特征提取单元与第一语音识别模型中已有的多个网络按照多种连接方式进行连接的方式，自动创建多个备选语音识别模型，再根据识别性能，从备选语音识别模型中选取需要的第二语音识别模型，这样得到的第二语音识别模型的结构能够摆脱人为经验的限制。并且，第二语音识别模型中包括注意力网络，使得第二语音识别模型在进行语音识别时，能够利用注意力机制来提高语音识别模型的识别性能。
381.需要说明的是：上述实施例提供的语音识别装置在进行语音识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音识别装置与语音识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
382.本技术实施例还提供了一种电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的语音识别方法中执行的操作。
383.可选地，该电子设备提供为终端。图13示出了本技术一个示例性实施例提供的终
端1300的结构框图。该终端1300可以是：智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii，动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
384.终端1300包括有：处理器1301和存储器1302。
385.处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用dsp(digital signal processing，数字信号处理)、fpga(field－programmable gate array，现场可编程门阵列)、pla(programmable logic array，可编程逻辑阵列)中的至少一种硬件形式来实现。一些实施例中，处理器1301还可以包括ai(artificial intelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。
386.存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器1301所执行以实现本技术中方法实施例提供的语音识别方法。
387.在一些实施例中，终端1300还可选包括有：外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。具体地，外围设备包括：音频电路1304和电源1305中的至少一种。
388.外围设备接口1303可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中，处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上；在一些其他实施例中，处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。
389.音频电路1304可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1301进行处理，或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1304还可以包括耳机插孔。
390.电源1305用于为终端1300中的各个组件进行供电。电源1305可以是交流电、直流电、一次性电池或可充电电池。当电源1305包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
391.本领域技术人员可以理解，图13中示出的结构并不构成对终端1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
392.可选地，该电子设备提供为服务器。图14是本技术实施例提供的一种服务器的结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)1401和一个或一个以上的存储器1402，其中，存储器1402中存储有至少一条计算机程序，至少一条计算机程序由处理器1401加载并执行以实现上述各个方法实施例提供的语音识别方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。
393.本技术实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的语音识别方法中执行的操作。
394.本技术实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或该计算机程序包括计算机程序，该计算机程序存储在计算机可读存储介质中。电子设备的处理器从该计算机可读存储介质读取该计算机程序，该处理器执行该计算机程序，使得该电子设备执行上述各种可选实现方式中的语音识别方法中执行的操作。
395.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
396.以上仅为本技术的可选实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏丹;贺利强
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：双转子双支点燃气轮机的制作方法
上一篇：一种分布式存储系统的数据同步方法和装置与流程