语音识别方法、装置、设备及存储介质与流程

文档序号：28162488发布日期：2021-12-24 20:40阅读：来源：国知局

技术特征：
1.一种语音识别方法，其特征在于，所述方法包括：获取第一语音识别模型，所述第一语音识别模型包括输入网络、第一特征提取单元和输出网络，所述输入网络、所述第一特征提取单元与所述输出网络之间的连接方式已确定，所述第一特征提取单元包括注意力网络；至少一次将至少一个特征提取网络添加至所述第一特征提取单元中，并与所述注意力网络连接，得到备选语音识别模型；响应于得到至少两个备选语音识别模型，根据所述至少两个备选语音识别模型的识别性能，从所述至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型。2.根据权利要求1所述的方法，其特征在于，所述获取第一语音识别模型，包括：将多个所述第一特征提取单元按照双链式bi
‑
chain
‑
styled连接方式、链式chain
‑
styled连接方式、或密集式densely
‑
connected连接方式进行连接，得到单元链；在所述单元链的两端分别连接所述输入网络和所述输出网络，得到所述第一语音识别模型。3.根据权利要求1所述的方法，其特征在于，所述至少一次将至少一个特征提取网络添加至所述第一特征提取单元中，并与所述注意力网络连接，得到备选语音识别模型，包括：将所述至少一个特征提取网络以不同的方式添加至所述第一特征提取单元中，并与所述注意力网络连接，得到不同的备选语音识别模型。4.根据权利要求1所述的方法，其特征在于，所述将至少一个特征提取网络添加至所述第一特征提取单元中，并与所述注意力网络连接，得到备选语音识别模型，包括：将所述至少一个特征提取网络添加至所述第一特征提取单元中，并与所述注意力网络按照双链式bi
‑
chain
‑
styled连接方式、链式chain
‑
styled连接方式、或密集式densely
‑
connected连接方式进行连接，得到所述备选语音识别模型。5.根据权利要求1所述的方法，其特征在于，所述第一语音识别模型包括多个所述第一特征提取单元，多个所述第一特征提取单元之间的连接方式已确定；所述第一特征提取单元中的多个网络的连接方式与多个所述第一特征提取单元之间的连接方式不同。6.根据权利要求1所述的方法，其特征在于，所述第一语音识别模型包括n
‑
1个所述第一特征提取单元和n个单元分组，每个单元分组包括m个第二特征提取单元，所述n为大于1的整数，所述m为正整数，所述第二特征提取单元不包括所述注意力网络，所述第一语音识别模型中网络的连接方式为：所述第一语音识别模型的两端为所述输入网络和所述输出网络，所述输入网络之后连接一个所述单元分组，所述输出网络之前连接一个所述单元分组，每两个所述单元分组之间连接一个所述第一特征提取单元。7.根据权利要求1
‑
6任一项所述的方法，其特征在于，所述响应于得到至少两个备选语音识别模型，根据所述至少两个备选语音识别模型的识别性能，从所述至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型之后，所述方法还包括：响应于对所述第二语音识别模型中的第三特征提取单元的选择操作，创建与所述第三特征提取单元相同的第四特征提取单元；将所述第四特征提取单元添加到所述第二语音识别模型中，并与所述第三特征提取单元连接，得到更新后的所述第二语音识别模型。8.根据权利要求1
‑
6任一项所述的方法，其特征在于，基于所述第二语音识别模型进行
语音识别的过程中，输入至所述注意力网络的语音特征的形状为c*t*f，表示所述语音特征包含的通道维度个数为所述c，时间维度个数为所述t，频率维度个数为所述f，所述c、所述t和所述f均为正整数；基于所述注意力网络进行语音识别的过程包括：将所述语音特征的形状变换为t*z，以使变换后的所述语音特征不再包含通道维度和频率维度，且在每个时间维度上的特征尺寸为所述z，其中所述z为所述c和所述f的乘积；基于变换后的所述语音特征，确定所述语音特征对应的注意力权重，基于所述注意力权重对变换后的所述语音特征进行加权处理，将加权处理后的语音特征的形状恢复为c*t*f，输出形状恢复后的语音特征。9.一种语音识别方法，其特征在于，所述方法包括：获取第一语音识别模型，所述第一语音识别模型包括多个网络，且所述多个网络之间的连接方式未确定，所述多个网络包括输入网络、注意力网络和输出网络；至少一次将至少一个特征提取单元，与所述第一语音识别模型中的多个网络按照至少两种连接方式进行连接，得到至少两个备选语音识别模型；根据所述至少两个备选语音识别模型的识别性能，从所述至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型。10.根据权利要求9所述的方法，其特征在于，所述连接方式包括双链式bi
‑
chain
‑
styled、链式chain
‑
styled、或密集式densely
‑
connected。11.根据权利要求9所述的方法，其特征在于，所述至少一次将至少一个特征提取单元，与所述第一语音识别模型中的多个网络按照至少两种连接方式进行连接，得到至少两个备选语音识别模型之前，所述方法包括：基于多个特征提取网络获取至少一个特征提取单元，所获取的每个特征提取单元包括至少一个特征提取网络。12.一种语音识别装置，其特征在于，所述装置包括：模型获取模块，用于获取第一语音识别模型，所述第一语音识别模型包括输入网络、第一特征提取单元和输出网络，所述输入网络、所述第一特征提取单元与所述输出网络之间的连接方式已确定，所述第一特征提取单元包括注意力网络；网络添加模块，用于至少一次将至少一个特征提取网络添加至所述第一特征提取单元中，并与所述注意力网络连接，得到备选语音识别模型；模型选取模块，用于响应于得到至少两个备选语音识别模型，根据所述至少两个备选语音识别模型的识别性能，从所述至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型。13.一种语音识别装置，其特征在于，所述装置包括：模型获取模块，用于获取第一语音识别模型，所述第一语音识别模型包括多个网络，且所述多个网络之间的连接方式未确定，所述多个网络包括输入网络、注意力网络和输出网络；网络连接模块，用于至少一次将至少一个特征提取单元，与所述第一语音识别模型中的多个网络按照至少两种连接方式进行连接，得到至少两个备选语音识别模型；模型选取模块，用于根据所述至少两个备选语音识别模型的识别性能，从所述至少两
个备选语音识别模型中选取用于进行语音识别的第二语音识别模型。14.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至权利要求11任一项所述的语音识别方法所执行的操作。15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求11任一项所述的语音识别方法所执行的操作。

技术总结
本申请提供了一种语音识别方法、装置、设备及存储介质，属于计算机技术领域。方法包括：获取第一语音识别模型，第一语音识别模型包括输入网络、第一特征提取单元和输出网络，第一特征提取单元包括注意力网络；至少一次将至少一个特征提取网络添加至第一特征提取单元中，并与注意力网络连接，得到备选语音识别模型；根据得到的至少两个备选语音识别模型的识别性能，从至少两个备选语音识别模型中选取用于进行语音识别的第二语音识别模型。上述方法得到的第二语音识别模型的结构能够摆脱人为经验的限制，能够根据识别性能得到需要的第二语音识别模型。并且，第二语音识别模型能够利用注意力机制提高语音识别的性能。注意力机制提高语音识别的性能。注意力机制提高语音识别的性能。

技术研发人员：苏丹贺利强
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2021.06.16
技术公布日：2021/12/23

完整全部详细技术资料下载

当前第2页1 2