基于交互页面的语音控制方法、装置、设备及存储介质与流程

文档序号：30648679发布日期：2022-07-05 23:31阅读：来源：国知局

技术特征：
1.一种基于交互页面的语音控制方法，其特征在于，所述方法包括：获取交互页面的显示图像，对所述显示图像进行图像分割，得到多个子图；生成所述显示图像及多个所述子图分别对应的特征码，并判断预设的数据表中是否存在所述显示图像及多个所述子图分别对应的特征码，根据判断结果获取所述显示图像或多个所述子图包含的操作文本，并将获取到的多个所述操作文本以缓存形式存储在操作文本缓存库中；接收针对所述交互页面的控制语音，将所述控制语音转化为控制文本；确定所述操作文本缓存库中与所述控制文本的匹配度满足匹配条件的操作文本为目标操作文本，以及控制所述交互页面执行所述目标操作文本对应的操作。2.如权利要求1所述的基于交互页面的语音控制方法，其特征在于，所述生成所述显示图像及多个所述子图分别对应的特征码，包括：将所述显示图像和所述多个子图压缩为预设尺寸，得到多个压缩图像，并对所述多个压缩图像进行灰度化；计算所述多个压缩图像中每一个像素点的灰度特征值，并将所述灰度特征值组合得到所述显示图像和所述多个子图的特征码。3.如权利要求1所述的基于交互页面的语音控制方法，其特征在于，所述判断预设的数据表中是否存在所述显示图像及多个所述子图分别对应的特征码，包括：提取所述显示图像对应的特征码在所述数据表中检索；若检索到所述显示图像对应的特征码，则判定所述数据表中存在所述显示图像对应的特征码；若检索不到所述显示图像对应的特征码，则逐一选取所述多个子图对应的特征码在所述数据表中检索，并判断是否能够检索到所有子图对应的特征码；若能够检索到所有子图对应的特征码，则判定所述数据表中存在所有所述子图对应的特征码；若检索不到任一子图对应的特征码，则判定所述数据表中不存在所述显示图像及多个所述子图对应的特征码；若能够检索到部分子图对应的特征码，则判定所述数据表中存在部分所述子图对应的特征码。4.如权利要求3所述的基于交互页面的语音控制方法，其特征在于，所述根据判断结果获取所述显示图像或多个所述子图包含的操作文本，包括：当判定所述数据表中存在所述显示图像对应的特征码时，从所述数据表中提取所述显示图像对应的特征码所对应的文本为所述显示图像包含的操作文本；当判定所述数据表中存在所有所述子图对应的特征码时，从所述数据表中提取所有所述子图对应的特征码所对应的文本为所有所述子图包含的操作文本；当判定所述数据表中存在部分所述子图对应的特征码时，确定不存在于所述数据表的子图为目标图像，根据所述目标图像获取所述操作文本；当判定所述数据表中不存在所述显示图像及多个所述子图对应的特征码时，确定所述显示图像及多个所述子图为目标图像；其中，所述根据所述目标图像获取所述显示图像或多个所述子图包含的操作文本包
括：利用预设的图像相似度算法计算得到所述数据表中存储的图像与所述目标图像的相似度分值，并判断所述相似度分值是否大于预设阈值；当所述相似度分值大于预设阈值，从所述数据表中提取所述目标图像所对应的文本作为所述目标图像包含的操作文本；当所述相似度分值小于或等于预设阈值，对所述目标图像进行文本识别，得到识别文本并将所述识别文本作为所述目标图像包含的操作文本。5.如权利要求1所述的基于交互页面的语音控制方法，其特征在于，所述对所述显示图像进行图像分割，得到多个子图，包括：利用预构建的分割网络对所述显示图像进行特征提取，得到所述显示图像的多重图像特征；根据多重图像特征对所述显示图像进行图像分割，得到所述显示图像的多个子图。6.如权利要求5所述的基于交互页面的语音控制方法，其特征在于，所述利用预构建的分割网络对所述显示图像进行特征提取，得到所述显示图像的多重图像特征，包括：利用所述分割网络对所述显示图像进行卷积处理和池化处理，得到池化图像；对所述池化图像进行全连接处理，得到全连接特征图；对所述全连接特征图进行多尺度的特征提取，得到所述显示图像的多重图像特征。7.如权利要求1至6中任一项所述的基于交互页面的语音控制方法，其特征在于，所述确定所述操作文本缓存库中与所述控制文本的匹配度满足匹配条件的操作文本为目标操作文本，包括：逐一计算所述操作文本缓存库中的缓存操作文本与所述语音文本的相似度，并判断是否存在大于第一阈值的相似度；若存在大于第一阈值的相似度，则在大于阈值的相似度中选取最大的相似度所对应的缓存操作文本作为目标操作文本；若不存在大于第一阈值的相似度，则对所述控制语音进行发音单元识别，根据识别结果确定目标操作文本。8.一种基于交互页面的基于交互页面的语音控制装置，其特征在于，所述装置包括：图像获取模块，用于获取交互页面的显示图像，对所述显示图像进行图像分割，得到多个子图；图像文本获取模块，用于生成所述显示图像及多个所述子图分别对应的特征码，并判断预设的数据表中是否存在所述显示图像及多个所述子图分别对应的特征码，根据判断结果获取所述显示图像或多个所述子图包含的操作文本，并将获取到的多个所述操作文本以缓存形式存储在操作文本缓存库中；控制语音获取模块，用于接收针对所述交互页面的控制语音，将所述控制语音转化为控制文本；语音控制模块，用于确定所述操作文本缓存库中与所述控制文本的匹配度满足匹配条件的操作文本为目标操作文本，以及控制所述交互页面执行所述目标操作文本对应的操作。9.一种电子设备，其特征在于，所述电子设备包括：
至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的基于交互页面的语音控制方法。10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于交互页面的语音控制方法。

技术总结
本发明涉及语音处理技术，揭露一种基于交互页面的语音控制方法，包括：获取显示图像，对显示图像进行图像分割，得到多个子图；生成显示图像及多个子图分别对应的特征码，并判断预设的数据表中是否存在所述特征码，根据判断结果获取显示图像或多个子图包含的操作文本，并将获取到的多个所述操作文本以缓存形式存储在操作文本缓存库中；接收针对所述交互页面的控制语音，将所述控制语音转化为控制文本；确定所述操作文本缓存库中与所述控制文本的匹配度满足匹配条件的操作文本为目标操作文本，以及控制所述交互页面执行所述目标操作文本对应的操作。本发明还提出一种基于交互页面的语音控制装置、设备以及介质。本发明可以提高语音控制的效率。语音控制的效率。语音控制的效率。

技术研发人员：陈诚黄石磊程刚
受保护的技术使用者：深圳市北科瑞声科技股份有限公司
技术研发日：2021.12.17
技术公布日：2022/7/4

完整全部详细技术资料下载

当前第2页1 2