1.一种静音点检测方法,其特征在于,包括:
在语音信息的频谱信息上获取多个检测窗口和各所述检测窗口的频谱信息;
根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数,其中,所述预测模型为具有三层2dcnn、五层bi-grurnn以及一个全连接层的端到端神经网络;
根据各所述检测窗口的静音分数并结合一预设分数确定静音窗口,并通过所述静音窗口确定静音点。
2.根据权利要求1所述的静音点检测方法,其特征在于,所述在语音信息的频谱信息上获取多个检测窗口和各所述检测窗口的频谱信息包括:
在所述语音信息的频谱信息上滑动一预设窗口以获取多个所述检测窗口和各所述检测窗口的频谱信息。
3.根据权利要求1所述的静音点检测方法,其特征在于,所述方法还包括:
获取所述语音信息,并通过一预设大小的傅里叶窗口按照一预设步长在所述语音信息上滑动,以得到所述语音信息的频谱信息。
4.根据权利要求1所述的静音点检测方法,其特征在于,所述方法还包括:根据所述端到端神经网络构建所述预测模型,其中:根据所述端到端神经网络构建所述预测模型包括:
获取多个语音信息样本,并将所述多个语音信息样本转化为多个频谱信息样本;
根据各所述频谱信息样本的文本信息对各所述频谱信息样本进行标注,以得到多个标注样本;
根据所述多个标注样本对所述端到端神经网络进行训练,以得到所述预测模型。
5.根据权利要求4所述的静音点检测方法,其特征在于,所述根据所述多个标注样本对所述端到端神经网络进行训练,以得到所述预测模型包括:
将所述多个标注样本划分为多个标注样本集合;
根据所述多个标注样本集合对所述端到端神经网络进行迭代训练,并获取每个迭代训练后的所述端到端神经网络的各参数的数值;
分别根据每个迭代训练后的所述端到端神经网络的各参数的数值并结合所述端到端神经网络生成多个端到端候选神经网络;
获取多个验证语音信息,并将所述多个验证语音信息转化为多个验证频谱信息;
根据所述多个验证频谱信息计算各所述端到端候选神经网络的准确度,并将所述准确度最高的所述端到端候选神经网络确定为所述预测模型。
6.根据权利要求1所述的静音点检测方法,其特征在于,所述根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数包括:
根据各所述检测窗口的频谱信息并基于所述预测模型计算各所述检测窗口的频谱信息中的每一帧的静音概率;
根据各所述检测窗口的频谱信息中的每一帧的静音概率计算各所述检测窗口的静音分数。
7.根据权利要求6所述的静音点检测方法,其特征在于,所述根据各所述检测窗口的频谱信息中的每一帧的静音概率计算各所述检测窗口的静音分数包括:
根据各所述检测窗口的频谱信息中的每一帧的静音概率并结合静音分数计算公式计算各所述检测窗口的静音分数,所述静音分数计算公式为:
其中,logqj为第j个所述检测窗口的静音分数,logpj,i为第j个所述检测窗口的频谱信息中的第i帧的静音概率,各所述检测窗口的频谱信息的范围为[t,t+w]。
8.根据权利要求6所述的静音点检测方法,其特征在于,所述根据各所述检测窗口的频谱信息并基于所述预测模型计算各所述检测窗口的频谱信息中的每一帧的静音概率包括:
通过将预设数量的所述检测窗口的频谱信息进行捆绑的方式,将所述多个检测窗口的频谱信息划分为多个绑定频谱信息;
调用多个线程并基于所述预测模型计算各所述绑定频谱信息中的各所述检测窗口的频谱信息中的每一帧的静音概率。
9.根据权利要求1所述的静音点检测方法,其特征在于,所述方法还包括:
判断任意两个所述静音点的时间间隔是否小于预设时间,并将时间间隔小于预设时间的任意两个所述静音点进行合并,以生成合并后的静音点。
10.一种静音点检测装置,其特征在于,包括:
获取模块,用于在语音信息的频谱信息上获取多个检测窗口和各所述检测窗口的频谱信息;
计算模块,用于根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数,其中,所述预测模型为具有三层2dcnn、五层bi-grurnn以及一个全连接层的端到端神经网络;
确定模块,用于根据各所述检测窗口的静音分数并结合一预设分数确定静音窗口,并通过所述静音窗口确定静音点。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~9中任意一项所述的静音点检测方法。
12.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~9中任意一项所述的静音点检测方法。