语音信息校验方法、装置、电子设备及介质与流程

文档序号:24415699发布日期:2021-03-26 21:04阅读:1133来源:国知局
语音信息校验方法、装置、电子设备及介质与流程

1.本发明涉及语音处理技术领域,尤其涉及一种语音信息校验方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.在生活工作中有些情况下会进行录音,并在录音之后对录音是否包含某些类别的信息进行复盘和查验。例如,商家与用户电话沟通时,或者面对面交流时,常常对电话内容或面对面谈话内容进行录音,并由核验人员判断录音内容是否包含某些类别的信息,当录音包含某些类别的信息时,确定录音内容为完整的,当录音不包含某些类别的信息时,确定录音内容为不完整的。
3.现有技术中,对此类语音信息的校验方法常需要核验人员梳理出关键词,再通过关键词匹配的方式实现对语音信息的校验,但是关键词梳理过程相当耗费人力,效率不高,且由于关键词往往无法穷举完全,因此若缺少相关关键词,可能导致校验效果不够准确。


技术实现要素:

4.本发明提供一种语音信息校验方法、装置、电子设备及计算机可读存储介质,其主要目的在于快速准确地对语音包含的内容进行校验。
5.为实现上述目的,本发明提供的一种语音信息校验方法,包括:
6.获取原始语音数据集,利用预设的语音识别模型对所述原始语音数据集进行语音识别,得到文本数据集;
7.标注所述文本数据集中文本数据的类别,得到标注数据集,结合预设的词典对所述标注数据集进行文本增强处理,得到训练数据集;
8.将所述训练数据集输入至预设文本检测模型中进行概率计算,得到分类概率值集,所述分类概率值集包括所述训练数据集中训练数据对应的不同类别的概率值;
9.计算所述分类概率值集中分类概率值和预设的真实概率值之间的交叉熵损失值,根据所述交叉熵损失值调整所述预设文本检测模型的内部参数,直到所述交叉熵损失值小于预设的损失阈值,得到标准文本检测模型;
10.获取待处理语音数据,将所述待处理语音数据输入至所述标准文本检测模型进行概率计算,得到预测概率值集,所述预测概率值集包括所述待处理语音数据对应不同预设类别的预测概率值;
11.将所述预测概率值集中大于预设概率阈值的预测概率值进行汇总,得到预测结果列表;
12.提取所述预测结果列表中的预测概率值对应的类别,当所述类别的个数大于等于预设数量阈值时,判定所述待处理语音数据通过校验,所述预设数量阈值等于所述不同预设类别的类别总数。
13.可选地,所述结合预设的词典对所述标注数据集进行文本增强处理,得到训练数
据集,包括:
14.根据所述标注数据集中文本的长度进行筛选处理,得到筛选数据集;
15.结合预设的词典对所述筛选数据集进行文本增强,得到训练数据集。
16.可选地,所述根据所述标注数据集中文本的长度进行筛选处理,得到筛选数据集,包括:
17.将所述标注数据集中文本长度小于第一文本阈值的文本进行剔除;
18.将所述标注数据集中文本长度大于所述第一文本阈值和小于第二文本阈值的文本进行保留,其中,所述第二文本阈值大于所述第一文本阈值;
19.若所述标注数据集中存在文本长度大于所述第二文本阈值的文本,按照从前往后的顺序直接截取所述标注数据集中若干数量的字符作为筛选数据集。
20.可选地,所述结合预设的词典对所述筛选数据集进行文本增强,得到训练数据集,包括:
21.从所述筛选数据集中随机抽取若干数量的目标词语;
22.在预设的词典中随机抽取所述目标词语的同义词;
23.将所述同义词加入到所述筛选数据集中,得到训练数据集。
24.可选地,所述将所述训练数据集输入至预设文本检测模型中,得到分类概率值集,包括:
25.对所述训练数据集进行编码处理,得到训练向量集;
26.对所述训练向量集进行特征提取处理,得到特征向量集;
27.将所述特征向量集输入至所述预设文本检测模型中的全连接层进行概率计算,得到分类概率值集。
28.可选地,所述对所述训练数据集进行编码处理,得到训练向量集,包括:
29.对所述训练数据集进行分词处理,得到分词数据集;
30.对所述分词数据集进行去停用词处理,得到标准数据集;
31.将所述标准数据集中的标准数据进行映射,得到训练向量集。
32.可选地,所述计算所述分类概率值集中分类概率值和预设的真实概率值之间的交叉熵损失值,包括:
33.利用如下计算公式计算交叉熵损失值:
[0034][0035]
其中,l为交叉熵损失值,x为训练数据集中的训练数据,y为预设的真实概率值,a为分类概率值,n表示训练数据集中训练数据的总数。
[0036]
为了解决上述问题,本发明还提供一种语音信息校验装置,所述装置包括:
[0037]
数据处理模块,用于获取原始语音数据集,利用预设的语音识别模型对所述原始语音数据集进行语音识别,得到文本数据集;标注所述文本数据集中文本数据的类别,得到标注数据集,结合预设的词典对所述标注数据集进行文本增强处理,得到训练数据集;将所述训练数据集输入至预设文本检测模型中进行概率计算,得到分类概率值集,所述分类概率值集包括所述训练数据集中训练数据对应的不同类别的概率值;
[0038]
模型训练模块,用于计算所述分类概率值集中分类概率值和预设的真实概率值之间的交叉熵损失值,根据所述交叉熵损失值调整所述预设文本检测模型的内部参数,直到所述交叉熵损失值小于预设的损失阈值,得到标准文本检测模型;
[0039]
预测结果列表生成模块,用于获取待处理语音数据,将所述待处理语音数据输入至所述标准文本检测模型进行概率计算,得到预测概率值集,所述预测概率值集包括所述待处理语音数据对应不同预设类别的预测概率值;将所述预测概率值集中大于预设概率阈值的预测概率值进行汇总,得到预测结果列表;
[0040]
数据校验模块,用于提取所述预测结果列表中的预测概率值对应的类别,当所述类别的个数大于等于预设数量阈值时,判定所述待处理语音数据通过校验,所述预设数量阈值等于所述不同预设类别的类别总数。
[0041]
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
[0042]
至少一个处理器;以及,
[0043]
与所述至少一个处理器通信连接的存储器;其中,
[0044]
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的语音信息校验方法。
[0045]
为了解决上述问题,本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音信息校验方法。
[0046]
本发明实施例通过结合预设的词典对所述标注数据集进行文本增强处理,得到训练数据集,增加了训练数据的鲁棒性,从而提高了通过训练数据得到的标准文本检测模型的鲁棒性和准确率,获取待处理语音数据,将所述待处理语音数据输入至所述标准文本检测模型进行概率计算,得到预测概率值集,所述预测概率值集包括所述待处理语音数据对应不同预设类别的预测概率值,通过再次利用标准文本检测模型对待处理语音数据包含的内容的类别进行确定,再根据标准文本检测模型得到的结果进行验证,由于标准文本检测模型能够快速准确地输出结果,因此,能够快速准确地得到校验结果。因此,本发明提出的语音信息校验方法、装置及计算机可读存储介质,可以快速准确地对语音包含的内容进行校验。
附图说明
[0047]
图1为本发明实施例提供的语音信息校验方法的流程示意图;
[0048]
图2为本发明实施例提供的语音信息校验装置的模块示意图;
[0049]
图3为本发明实施例提供的实现语音信息校验方法的电子设备的内部结构示意图。
[0050]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0051]
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0052]
本发明实施例提供一种语音信息校验方法,所述语音信息校验方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的
至少一种。换言之,所述语音信息校验方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
[0053]
参照图1所示,为本发明实施例提供的一种语音信息校验方法的流程示意图。在本实施例中,所述语音信息校验方法包括:
[0054]
s1、获取原始语音数据集,利用预设的语音识别模型对所述原始语音数据集进行语音识别,得到文本数据集。
[0055]
本发明实施例中,所述原始语音数据集包括多条一段时间内的语音信息,例如,原始语音数据集中包括多段信用卡审批人员向客户拨打电话进行核实资料信息的电话录音。
[0056]
具体地,利用预设的语音识别模型对录音数据进行语音识别,将原始语音数据集中的语音数据转换为文本数据,便于后续的评估处理,且更加直观和方便。
[0057]
其中,所述语音识别模型可以是crnn(convolutional recurrent neural network,卷积循环神经网络结构)。
[0058]
s2、标注所述文本数据集中文本数据的类别,得到标注数据集,结合预设的词典对所述标注数据集进行文本增强处理,得到训练数据集。
[0059]
本发明实施例中,可通过调用自动化标注工具的接口对所述文本数据集进行标注处理,将所述文本数据集中的文本数据标注为对应的类别,得到标注数据集。
[0060]
例如,所述文本数据集中包含的某个文本数据为以下:
[0061]“审批人员:

您好,请问是xx男士吗?’[0062]
客户:

是的。’[0063]
审批人员:

您目前是未婚状态吗?’[0064]
客户:

嗯,是。’[0065]
审批人员:

您的家是在x路,xx小区吗?’[0066]
客户:

对的。
’”
[0067]
则根据预先设定的8个类别对所述文本数据集进行标注,其中,所述8个类别依次为email、婚姻状况、学历、亲属联系人及手机号码、单位名称、单位地址、单位电话和居住地址。进行标注处理后得到的标注数据集为:婚姻状况:未婚,居住地址:x路,xx小区。
[0068]
具体地,所述结合预设的词典对所述标注数据集进行文本增强处理,得到训练数据集,包括:
[0069]
根据所述标注数据集中文本的长度进行筛选处理,得到筛选数据集;
[0070]
结合预设的词典对所述筛选数据集进行文本增强,得到训练数据集。
[0071]
进一步地,所述根据所述标注数据集中文本的长度进行筛选处理,得到筛选数据集,包括:
[0072]
将所述标注数据集中文本长度小于第一文本阈值的文本进行剔除;
[0073]
将所述标注数据集中文本长度大于所述第一文本阈值和小于第二文本阈值的文本进行保留,其中,所述第二文本阈值大于所述第一文本阈值;
[0074]
若所述标注数据集中存在文本长度大于所述第二文本阈值的文本,按照从前往后的顺序直接截取所述标注数据集中若干数量的字符作为筛选数据集。
[0075]
优选地,本发明实施例中,第一文本阈值可以为预设的,例如第一文本阈值为5,第
二文本阈值也可以为预设的,例如第二文本阈值为512。
[0076]
进一步地,所述结合预设的词典对所述筛选数据集进行文本增强,得到训练数据集,包括:
[0077]
从所述筛选数据集中随机抽取若干数量的目标词语;
[0078]
在预设的词典中随机抽取所述目标词语的同义词;
[0079]
将所述同义词加入到所述筛选数据集中,得到训练数据集。
[0080]
其中,进行文本增强处理可以将所述目标词语的同义词扩增到所述筛选数据集中,提高所述训练数据集的数量,提高模型训练的准确性。
[0081]
s3、将所述训练数据集输入至预设文本检测模型中进行概率计算,得到分类概率值集,所述分类概率值集包括所述训练数据集中训练数据对应的不同类别的概率值。
[0082]
本发明一可选实施例中,通过在信用卡审批领域获取的相关数据对预设的bert

base

chinese模型进行预训练,得到所述文本检测模型。
[0083]
具体地,所述将所述训练数据集输入至预设文本检测模型中,得到分类概率值集,包括:
[0084]
对所述训练数据集进行编码处理,得到训练向量集;
[0085]
对所述训练向量集进行特征提取处理,得到特征向量集;
[0086]
将所述特征向量集输入至所述预设文本检测模型中的全连接层进行概率计算,得到分类概率值集。
[0087]
进一步地,所述对所述训练数据集进行编码处理,得到训练向量集,包括:
[0088]
对所述训练数据集进行分词处理,得到分词数据集;
[0089]
对所述分词数据集进行去停用词处理,得到标准数据集;
[0090]
将所述标准数据集中的标准数据进行映射,得到训练向量集。
[0091]
s4、计算所述分类概率值集中分类概率值和预设的真实概率值之间的交叉熵损失值,根据所述交叉熵损失值调整所述预设文本检测模型的内部参数,直到所述交叉熵损失值小于预设的损失阈值,得到标准文本检测模型。
[0092]
本发明实施例中,所述计算所述分类概率值集中分类概率值和预设的真实概率值之间的交叉熵损失值,包括:
[0093]
利用如下计算公式计算交叉熵损失值:
[0094][0095]
其中,l为交叉熵损失值,x为训练数据集中的训练数据,y为预设的真实概率值,a为分类概率值,n表示训练数据集中训练数据的总数。
[0096]
具体地,根据所述交叉熵损失值调整所述文本检测模型的内部参数包括:若所述交叉熵损失值大于或者等于预设的损失阈值,调整所述文本检测模型的内部参数,将所述训练数据集输入至调整后的文本检测模型中,得到分类概率值并重新计算交叉熵损失值,直到所述交叉熵损失值小于预设的损失阈值,得到标准文本检测模型。
[0097]
优选地,内部参数可以为模型的梯度,模型的权重。
[0098]
s5、获取待处理语音数据,将所述待处理语音数据输入至所述标准文本检测模型
进行概率计算,得到预测概率值集,所述预测概率值集包括所述待处理语音数据对应不同预设类别的预测概率值。
[0099]
本发明实施例中,所述预测概率值集包括所述待处理语音数据对应的不同类别的预测概率值,例如,所述待处理语音数据包括句子a,句子b以及句子c,预设类别包括a类别、b类别和c类别,则预测概率值集包括,a句子属于a类别、b类别和c类别的预测概率值,b句子属于a类别、b类别和c类别的预测概率值,以及c句子属于a类别、b类别和c类别的预测概率值。
[0100]
s6、将所述预测概率值集中大于预设概率阈值的预测概率值进行汇总,得到预测结果列表。
[0101]
本发明实施例中,所述预测概率值集由多个预测概率值组成,当所述预测概率值大于所述预设概率阈值时,将所述预测概率值进行保留,遍历整个所述预测概率值集合,将保留的预测概率值进行汇总。
[0102]
例如,预设概率阈值为90%,则筛选出的预测概率值为待处理语音数据中每个句子对应的概率最高的类别。
[0103]
例如,若预测概率值集中包括a句子属于a类别、b类别和c类别的预测概率值30%,50%和95%,b句子属于a类别、b类别和c类别的预测概率值45%,25%和96%,c句子属于a类别、b类别和c类别的预测概率值35%,60%和91%,则将a句子属于c类别的预测值,b句子属于c类别的概率值,c句子属于c类别的概率值进行保留,即预测结果列表中包含{95%,96%,91%}。
[0104]
又比如,若预测概率值集中包括a句子属于a类别、b类别和c类别的预测概率值95%,50%和30%,b句子属于a类别、b类别和c类别的预测概率值45%,96%和25%,c句子属于a类别、b类别和c类别的预测概率值35%,60%和91%,则将a句子属于a类别的预测值,b句子属于b类别的概率值,c句子属于c类别的概率值进行保留,即预测结果列表中包含{95%,96%,91%}。
[0105]
s7、提取所述预测结果列表中的预测概率值对应的类别,当所述类别的个数大于等于预设数量阈值时,判定所述待处理语音数据通过校验,所述预设数量阈值等于所述不同预设类别的类别总数。
[0106]
本发明实施例中,当类别的个数不同于预设数量阈值时,说明待处理语音数据中句子缺乏某一个或多个类别的句子,则确定待校验语音数据不通过校验。
[0107]
例如,不同预设类别包括a类别,b类别和c类别,则不同预设类别的类别总数为3;当提取到预测结果列表中的预测概率值对应的类别仅包括c类别时,则确定待处理语音数据校验不通过;当提取到预测结果列表中的预测概率值对应的类别包括a类别,b类别以及c类别时,确定类别的个数为3个,确定待处理语音数据通过校验。
[0108]
本发明实施例通过结合预设的词典对所述标注数据集进行文本增强处理,得到训练数据集,增加了训练数据的鲁棒性,从而提高了通过训练数据得到的标准文本检测模型的鲁棒性和准确率,获取待处理语音数据,将所述待处理语音数据输入至所述标准文本检测模型进行概率计算,得到预测概率值集,所述预测概率值集包括所述待处理语音数据对应不同预设类别的预测概率值,通过再次利用标准文本检测模型对待处理语音数据包含的内容的类别进行确定,再根据标准文本检测模型得到的结果进行验证,由于标准文本检测
[0125]
客户:

是的。’[0126]
审批人员:

您目前是未婚状态吗?’[0127]
客户:

嗯,是。’[0128]
审批人员:

您的家是在x路,xx小区吗?’[0129]
客户:

对的。
’”
[0130]
则根据预先设定的8个类别对所述文本数据集进行标注,其中,所述8个类别依次为email、婚姻状况、学历、亲属联系人及手机号码、单位名称、单位地址、单位电话和居住地址。进行标注处理后得到的标注数据集为:婚姻状况:未婚,居住地址:x路,xx小区。
[0131]
具体地,所述结合预设的词典对所述标注数据集进行文本增强处理,得到训练数据集,包括:
[0132]
根据所述标注数据集中文本的长度进行筛选处理,得到筛选数据集;
[0133]
结合预设的词典对所述筛选数据集进行文本增强,得到训练数据集。
[0134]
进一步地,所述根据所述标注数据集中文本的长度进行筛选处理,得到筛选数据集,包括:
[0135]
将所述标注数据集中文本长度小于第一文本阈值的文本进行剔除;
[0136]
将所述标注数据集中文本长度大于所述第一文本阈值和小于第二文本阈值的文本进行保留,其中,所述第二文本阈值大于所述第一文本阈值;
[0137]
若所述标注数据集中存在文本长度大于所述第二文本阈值的文本,按照从前往后的顺序直接截取所述标注数据集中若干数量的字符作为筛选数据集。
[0138]
优选地,本发明实施例中,第一文本阈值可以为预设的,例如第一文本阈值为5,第二文本阈值也可以为预设的,例如第二文本阈值为512。
[0139]
进一步地,所述结合预设的词典对所述筛选数据集进行文本增强,得到训练数据集,包括:
[0140]
从所述筛选数据集中随机抽取若干数量的目标词语;
[0141]
在预设的词典中随机抽取所述目标词语的同义词;
[0142]
将所述同义词加入到所述筛选数据集中,得到训练数据集。
[0143]
其中,进行文本增强处理可以将所述目标词语的同义词扩增到所述筛选数据集中,提高所述训练数据集的数量,提高模型训练的准确性。
[0144]
所述数据处理模块101,还用于将所述训练数据集输入至预设文本检测模型中进行概率计算,得到分类概率值集,所述分类概率值集包括所述训练数据集中训练数据对应的不同类别的概率值。
[0145]
本发明实施例中,通过在信用卡审批领域获取的相关数据对预设的bert

base

chinese模型模型进行预训练,得到所述文本检测模型。
[0146]
具体地,所述将所述训练数据集输入至预设文本检测模型中,得到分类概率值集,包括:
[0147]
对所述训练数据集进行编码处理,得到训练向量集;
[0148]
对所述训练向量集进行特征提取处理,得到特征向量集;
[0149]
将所述特征向量集输入至所述预设文本检测模型中的全连接层进行概率计算,得到分类概率值集。
[0150]
进一步地,所述对所述训练数据集进行编码处理,得到训练向量集,包括:
[0151]
对所述训练数据集进行分词处理,得到分词数据集;
[0152]
对所述分词数据集进行去停用词处理,得到标准数据集;
[0153]
将所述标准数据集中的标准数据进行映射,得到训练向量集。
[0154]
所述模型训练模块102,用于计算所述分类概率值集中分类概率值和预设的真实概率值之间的交叉熵损失值,根据所述交叉熵损失值调整所述预设文本检测模型的内部参数,直到所述交叉熵损失值小于预设的损失阈值,得到标准文本检测模型。
[0155]
本发明实施例中,所述计算所述分类概率值集中分类概率值和预设的真实概率值之间的交叉熵损失值,包括:
[0156]
利用如下计算公式计算交叉熵损失值:
[0157][0158]
其中,l为交叉熵损失值,x为训练数据集中的训练数据,y为预设的真实概率值,a为分类概率值,n表示训练数据集中训练数据的总数。
[0159]
具体地,根据所述交叉熵损失值调整所述文本检测模型的内部参数包括:若所述交叉熵损失值大于或者等于预设的损失阈值,调整所述文本检测模型的内部参数,将所述训练数据集输入至调整后的文本检测模型中,得到分类概率值并重新计算交叉熵损失值,直到所述交叉熵损失值小于预设的损失阈值,得到标准文本检测模型。
[0160]
优选地,内部参数可以为模型的梯度,模型的权重。
[0161]
所述预测结果列表生成模块103,用于获取待处理语音数据,将所述待处理语音数据输入至所述标准文本检测模型进行概率计算,得到预测概率值集,所述预测概率值集包括所述待处理语音数据对应不同预设类别的预测概率值。
[0162]
本发明实施例中,所述预测概率值集包括所述待处理语音数据对应的不同类别的预测概率值,例如,所述待处理语音数据包括句子a,句子b以及句子c,预设类别包括a类别、b类别和c类别,则预测概率值集包括,a句子属于a类别、b类别和c类别的预测概率值,b句子属于a类别、b类别和c类别的预测概率值,以及c句子属于a类别、b类别和c类别的预测概率值。
[0163]
所述预测结果列表生成模块103,用于将所述预测概率值集中大于预设概率阈值的预测概率值进行汇总,得到预测结果列表。
[0164]
本发明实施例中,所述预测概率值集由多个预测概率值组成,当所述预测概率值大于所述预设概率阈值时,将所述预测概率值进行保留,遍历整个所述预测概率值集合,将保留的预测概率值进行汇总。
[0165]
例如,预设概率阈值为90%,则筛选出的预测概率值为待处理语音数据中每个句子对应的概率最高的类别。
[0166]
例如,若预测概率值集中包括a句子属于a类别、b类别和c类别的预测概率值30%,50%和95%,b句子属于a类别、b类别和c类别的预测概率值45%,25%和96%,c句子属于a类别、b类别和c类别的预测概率值35%,60%和91%,则将a句子属于c类别的预测值,b句子属于c类别的概率值,c句子属于c类别的概率值进行保留,即预测结果列表中包含{95%,
96%,91%}。
[0167]
又比如,若预测概率值集中包括a句子属于a类别、b类别和c类别的预测概率值95%,50%和30%,b句子属于a类别、b类别和c类别的预测概率值45%,96%和25%,c句子属于a类别、b类别和c类别的预测概率值35%,60%和91%,则将a句子属于a类别的预测值,b句子属于b类别的概率值,c句子属于c类别的概率值进行保留,即预测结果列表中包含{95%,96%,91%}。
[0168]
所述数据校验模块104,用于提取所述预测结果列表中的预测概率值对应的类别,当所述类别的个数大于等于预设数量阈值时,判定所述待处理语音数据通过校验,所述预设数量阈值等于所述不同预设类别的类别总数。
[0169]
本发明实施例中,当类别的个数不同于预设数量阈值时,说明待处理语音数据中句子缺乏某一个或多个类别的句子,则确定待校验语音数据不通过校验。
[0170]
例如,不同预设类别包括a类别,b类别和c类别,则不同预设类别的类别总数为3;当提取到预测结果列表中的预测概率值对应的类别仅包括c类别时,则确定待处理语音数据校验不通过;当提取到预测结果列表中的预测概率值对应的类别包括a类别,b类别以及c类别时,确定类别的个数为3个,确定待处理语音数据通过校验。
[0171]
本发明实施例通过结合预设的词典对所述标注数据集进行文本增强处理,得到训练数据集,增加了训练数据的鲁棒性,从而提高了通过训练数据得到的标准文本检测模型的鲁棒性和准确率,获取待处理语音数据,将所述待处理语音数据输入至所述标准文本检测模型进行概率计算,得到预测概率值集,所述预测概率值集包括所述待处理语音数据对应不同预设类别的预测概率值,通过再次利用标准文本检测模型对待处理语音数据包含的内容的类别进行确定,再根据标准文本检测模型得到的结果进行验证,由于标准文本检测模型能够快速准确地输出结果,因此,能够快速准确地得到校验结果。因此,本发明提出的语音信息校验装置可以快速准确地对语音包含的内容进行校验。
[0172]
如图3所示,是本发明实现语音信息校验方法的电子设备的结构示意图。
[0173]
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如语音信息校验程序12。
[0174]
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如语音信息校验程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0175]
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利
用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行语音信息校验程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
[0176]
所述总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
[0177]
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0178]
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、wi

fi模块等,在此不再赘述。
[0179]
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如wi

fi接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
[0180]
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light

emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
[0181]
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0182]
所述电子设备1中的所述存储器11存储的语音信息校验程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
[0183]
获取原始语音数据集,利用预设的语音识别模型对所述原始语音数据集进行语音识别,得到文本数据集;
[0184]
标注所述文本数据集中文本数据的类别,得到标注数据集,结合预设的词典对所述标注数据集进行文本增强处理,得到训练数据集;
[0185]
将所述训练数据集输入至预设文本检测模型中进行概率计算,得到分类概率值集,所述分类概率值集包括所述训练数据集中训练数据对应的不同类别的概率值;
[0186]
计算所述分类概率值集中分类概率值和预设的真实概率值之间的交叉熵损失值,根据所述交叉熵损失值调整所述预设文本检测模型的内部参数,直到所述交叉熵损失值小于预设的损失阈值,得到标准文本检测模型;
[0187]
获取待处理语音数据,将所述待处理语音数据输入至所述标准文本检测模型进行概率计算,得到预测概率值集,所述预测概率值集包括所述待处理语音数据对应不同预设
类别的预测概率值的;
[0188]
将所述预测概率值集中大于预设概率阈值的预测概率值进行汇总,得到预测结果列表;
[0189]
提取所述预测结果列表中的预测概率值对应的类别,当所述类别的个数大于等于预设数量阈值时,判定所述待处理语音数据通过校验,所述预设数量阈值等于所述不同预设类别的类别总数。
[0190]
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的,例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read

only memory)。
[0191]
本发明还提供一种计算机可读存储介质,所述可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
[0192]
获取原始语音数据集,利用预设的语音识别模型对所述原始语音数据集进行语音识别,得到文本数据集;
[0193]
标注所述文本数据集中文本数据的类别,得到标注数据集,结合预设的词典对所述标注数据集进行文本增强处理,得到训练数据集;
[0194]
将所述训练数据集输入至预设文本检测模型中进行概率计算,得到分类概率值集,所述分类概率值集包括所述训练数据集中训练数据对应的不同类别的概率值;
[0195]
计算所述分类概率值集中分类概率值和预设的真实概率值之间的交叉熵损失值,根据所述交叉熵损失值调整所述预设文本检测模型的内部参数,直到所述交叉熵损失值小于预设的损失阈值,得到标准文本检测模型;
[0196]
获取待处理语音数据,将所述待处理语音数据输入至所述标准文本检测模型进行概率计算,得到预测概率值集,所述预测概率值集包括所述待处理语音数据对应不同预设类别的预测概率值的;
[0197]
将所述预测概率值集中大于预设概率阈值的预测概率值进行汇总,得到预测结果列表;
[0198]
提取所述预测结果列表中的预测概率值对应的类别,当所述类别的个数大于等于预设数量阈值时,判定所述待处理语音数据通过校验,所述预设数量阈值等于所述不同预设类别的类别总数。
[0199]
进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
[0200]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0201]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目
的。
[0202]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0203]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
[0204]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图表记视为限制所涉及的权利要求。
[0205]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
[0206]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1