语音识别方法、装置、设备及可读存储介质与流程

文档序号：23994168发布日期：2021-02-20 15:21阅读：来源：国知局

技术特征：
1.一种语音识别方法，其特征在于，包括：获取与待识别语音相关的多媒体数据；确定所述多媒体数据包含的内容信息；基于所述内容信息对预设模型进行训练，得到个性化语音识别模型，至少结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别，得到语音识别结果。2.根据权利要求1所述的语音识别方法，其特征在于，所述基于所述内容信息对预设模型进行训练，得到个性化语音识别模型，包括：在所述内容信息的数据量达到预设数据量阈值的情况下，将所述内容信息作为训练数据，对所述预设模型进行训练，以得到个性化语音识别模型。3.根据权利要求1所述的语音识别方法，其特征在于，所述基于所述内容信息对预设模型进行训练，得到个性化语音识别模型，包括：在所述内容信息的数据量小于预设数据量阈值的情况下，基于所述内容信息获取辅助语料，将所述辅助语料作为训练数据，对所述预设模型进行训练，以得到个性化语音识别模型。4.根据权利要求3所述的语音识别方法，其特征在于，所述基于所述内容信息获取辅助预料，包括：提取所述内容信息中的关键词，基于所述关键词获取辅助语料；或者，确定所述内容信息的摘要标签，基于所述摘要标签获取辅助语料。5.根据权利要求1所述的语音识别方法，其特征在于，所述至少结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别，得到语音识别结果，包括：确定所述待识别语音所属的行业领域；结合通用语音识别模型、所述个性化语音识别模型、以及与所述行业领域对应的行业语音识别模型对所述待识别语音进行语音识别，得到语音识别结果。6.根据权利要求1所述的语音识别方法，其特征在于，与待识别语音相关的多媒体数据为包含演讲文档影像的视频；所述确定所述多媒体数据包含的内容信息，包括：提取所述视频中的关键图像帧；对所述关键图像帧进行光学字符识别，以得到所述多媒体数据包含的内容信息。7.根据权利要求6所述的语音识别方法，其特征在于，所述提取所述视频中的关键图像帧，包括：按照预设时间间隔从所述视频中获取多个图像帧；分别提取所述多个图像帧的特征；根据所述多个图像帧的特征在所述多个图像帧中确定跳变图像帧；针对每一跳变图像帧，判断所述跳变图像帧与位于所述跳变图像帧之后的连续多个图像帧是否相同，如果相同，则将所述跳变图像帧确定为关键图像帧。8.根据权利要求6所述的语音识别方法，其特征在于，所述提取所述视频中的关键图像帧，包括：按照预设时间间隔从所述视频中获取多个图像帧；分别提取所述多个图像帧的特征；
根据所述多个图像帧的特征在所述多个图像帧中确定跳变图像帧；针对每一跳变图像帧，判断所述跳变图像帧与位于所述跳变图像帧之后的连续多个图像帧是否相同，如果相同，则将所述跳变图像帧确定为备选关键图像帧；针对每一备选关键图像帧，确定所述备选关键图像帧与已提取出的关键图像帧的相似度，如果所述相似度低于预设的相似度阈值，则将所述备选关键图像帧确定为关键图像帧。9.根据权利要求1所述的语音识别方法，其特征在于，与待识别语音相关的多媒体数据为演讲文档；所述确定所述多媒体数据包含的内容信息，包括：解析所述演讲文档，以得到所述演讲文档中每一页对应的第一文本内容；将所述演讲文档中的每一页转换为图片，对转换得到的每一个图片进行光学字符识别，以得到所述演讲文档中每一页对应的第二文本内容；将所述演讲文档中每一页对应的第一文本内容和第二文本内容进行去重处理，以得到所述演讲文档中每一页对应的文本内容，将所述演讲文档中各页对应的文本内容的集合作为所述多媒体数据包含的内容信息。10.一种语音识别装置，其特征在于，包括：数据获取单元，用于获取与待识别语音相关的多媒体数据；内容信息确定单元，用于确定所述多媒体数据包含的内容信息；训练单元，用于基于所述内容信息对预设模型进行训练，得到个性化语音识别模型；语音识别单元，用于至少结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别，得到语音识别结果。11.一种语音识别设备，其特征在于，包括处理器和存储器；所述存储器，用于存储程序；所述处理器，用于执行所述程序，实现如权利要求1至9中任一项所述的语音识别方法的各个步骤。12.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至9中任一项所述的语音识别方法的各个步骤。

完整全部详细技术资料下载

当前第2页1 2 3