一种提升语音识别准确率的方法与流程

文档序号:18625642发布日期:2019-09-06 22:59阅读:2957来源:国知局
一种提升语音识别准确率的方法与流程

本发明涉及语音识别技术领域,特别涉及一种提升语音识别准确率的方法。



背景技术:

人机交互是通过输入,输出设备,以有效的方式实现人与机器对话的技术。已广泛应用在消费电子,通信,家电,医疗,汽车等各个行业。主要有基于传统硬件设备的交互技术,基于触控的交互技术,基于语音识别的交互技术等。近年来,随着人工智能的发展以及计算机处理能力的增强,使得语音识别技术日趋成熟并被广泛应用于智能终端上。电视行业也是人机交互比较频繁行业,之前的用户大部分都是通过遥控键来选择和点播电视节目,通过集成人工智能模块,以语音的方式来和电视机进行人机交互,可以用比较简单便捷的方式来操作电视机和获取各项信息,跳过了之前繁琐的设置功能选项和操作。因此,语音识别的效果就直接关系到了用户对产品的体验与评价,改善用户交互体验成为了消费电子,家电产品的核心需求之一。

目前市面上支持语音交互的电视机越来越多,基本上都是以普通话作为语音输入。但是每个人的普通话发音都或多或少存在不标准的情况,再加上一些的同音字的影响,导致语音识别的准确率随着不同的人存在比较明显的差别。而大部分的电视机都没有提供语音识别的纠错功能,导致对于错误识别的语音,一旦识别错误,后续无法进行修正,严重影响用户体验。考虑到电视机、家用空调、音箱等的使用用户是以家庭成员为主,使用的人数基本限定在个位数。所以可以通过建立针对当前使用用户的语音数据库,将那些无法通过标准语音库识别的语音数据存入数据库中,来解决某些特定语音输入无法识别和识别准确率低的问题。



技术实现要素:

本发明的目的是克服上述背景技术中不足,提供一种提升语音识别准确率的方法,通过在标准数据库之外,额外建立当前用户的专属语音数据库,将识别错误的用户语音数据(特征值)添加到用户语音数据库中,并将用户语音数据库优先进行模型匹配和检索,达到提升高频率用户的语音识别准确率的效果,提升用户的交互使用体验。

为了达到上述的技术效果,本发明采取以下技术方案:

一种提升语音识别准确率的方法,包括以下步骤:

a.实时采集用户录入的语音数据并获取采集到的语音数据的语音特征值;

b.将获取到的语音特征值先在用户语音数据库内进行检索比对并输出识别结果及该结果的可靠度分数值,计算识别结果的可靠度分数值为现有语音识别技术中较为成熟的计算方法,此处不再赘述;

c.再将获取到的语音特征值在标准语音数据库内进行检索比对并输出识别结果及该结果的可靠度分数值;

d.将由用户语音数据库得到的识别结果与由标准语音数据库得到的识别结果的可靠度分数值进行比较,在分数相同时,将由用户语音数据库得到的识别结果作为最终识别结果,否则,以分数高的识别结果作为最终识别结果;

e.向用户返回最终识别结果,并在用户对最终识别结果无修改时执行对应的指令。

进一步地,还包括以下步骤:

f.若用户对最终识别结果有修改时,则由用户重新输入语音及该语音对应的正确的文本信息;

g.将用户录入的语音的语音特征值及该语音特征值对应的正确的文本信息保存至用户语音数据库并对用户语音数据库进行刷新;

h.执行用户输入的正确的文本信息对应的指令。

进一步地,所述步骤a具体为:

a1.在获取到用户语音输入后通过采样量化得到数字语音数据;

a2.通过mfcc模型,提取输入语音数据的语音特征值。

进一步地,所述步骤b及步骤c中是将用户语音数据库或标准语音数据库中与步骤a获取到的语音特征值差异最小的数据库特征值样本作为的识别结果。

进一步地,所述步骤e中向用户返回最终识别结果时可通过将识别结果在设备的屏幕上进行显示或通过语音播放器进行语音播放告知。

本发明与现有技术相比,具有以下的有益效果:

本发明的提升语音识别准确率的方法,通过在标准数据库之外,额外建立当前用户的专属语音数据库,并通过增加接口提供用户增加或者修改用户语音数据库的功能,用户发现当前机器无法正确识别自己的语音输入时,可通过增加用户语音数据库输入当前无法识别的语音字或者词条,达到提升识别非标准语音准确率的效果,提升用户的使用体验。

附图说明

图1是本发明的提升语音识别准确率的方法的流程示意图。

具体实施方式

下面结合本发明的实施例对本发明作进一步的阐述和说明。

实施例:

实施例一:

如图1所示,一种提升语音识别准确率的方法,包括以下步骤:

步骤一:实时采集用户录入的语音数据并获取采集到的语音数据的语音特征值;

如用户通过语音输入设备(如遥控器,手机,麦克风等)发出语音指令,然后智能设备将输入的实时语音数据进行特征提取得到语音数据的语音特征值。

具体为:用户通过语音输入设备发出操作指令,机器通过取样,量化,然后将语音数据的特征提取出来;语音数据的特征就是音频信号中去掉无用的信息比如背景噪声、情绪等后剩下的具有辨识性的成分。且根据不同的模型,有不同的特征提取方法,本实施例中采用使用比较广泛的基于人耳听觉特性的梅尔倒谱系数(mfcc)模型获取语音特征值,可有效反映声道的形状在语音短时功率谱的包络的特征。

步骤二:将获取到的语音特征值在用户语音数据库内进行检索比对并输出识别结果及该结果的可靠度分数值,其中,计算识别结果的可靠度分数值为现有语音识别技术中较为成熟的计算方法,此处不再赘述;

大多数消费类电子电器的智能机器(电视机,手机,家庭智能音箱,家教机器人等)使用的用户都只有固定的几个人,而他们的发音和标准的语音数据库一般都存在或多或少的区别,另外,具有人工智能功能的消费类电子的用途也是有限的,像电视机常用的语音输入指令一般都是点播电视节目,看直播换台,设置图像等等,所能使用到的词汇是相对有限的,基于这两个特性,本发明的方法中是采用建立一个优先级比较高,容量相对较小的用户语音数据库,来存储用户使用比较频繁而通过标准语音数据库无法正确识别的语音数据。

当获取到用户语音输入后,通过采样量化即可得到数字语音数据;然后通过mfcc模型,提取输入语音数据的特征值;接着优先从用户语音数据库中检索和比较输入语音的mfcc特征值;将和输入语音数据的特征值之间差异最小的对应的数据库特征值样本作为的识别结果,并估算识别结果的可靠度分数值。

步骤三:再将获取到的语音特征值在标准语音数据库内进行检索比对并输出识别结果及该结果的可靠度分数值;

该步骤和现在主流的机器流程一样,从标准语音数据库中检索和比较输入语音特征值,得到识别的结果并估算识别结果的可靠度分数值。

步骤四:将由用户语音数据库得到的识别结果与由标准语音数据库得到的识别结果的可靠度分数值进行比较,在分数相同时,将由用户语音数据库得到的识别结果作为最终识别结果,否则,以分数高的识别结果作为最终识别结果;

本实施例中,输入用户的特征值和数据库中记录的特征值差异越小的,则认为意义相同的概率越大,即可靠度分数就越高,则在相同的分数下,用户语音数据库的特征值比标准语音数据库中的特征值优先级更高,具有更高的可信度,若在可靠度分数不同时,选取可靠度分数最高的识别结果作为最终的语音识别结果。其中,在设定标准语音数据库的可靠度分数评分规则时,可将其设定为一个较严格的评分标准,而在设定用户语音数据库的可靠度分数评分规则时,则可采用一个评分阈值范围较宽的评分标准。

步骤五:向用户返回最终识别结果,并在用户对最终识别结果无修改时执行对应的指令;

如将最终的识别结果显示在屏幕上或者通过智能机器回话告知用户,基于智能机器得到最终的结果,用户会选择是否要进行修正,在后期,用户语音数据库已经比较完善,识别率很高的情况下也可以通过设置忽略这一功能。

f.若用户对最终识别结果有修改时,则由用户重新输入语音及该语音对应的正确的文本信息;

如果用户认为智能机器给出的识别结果是错误的,需要进行修正,用户可以选择此功能,输入正确的识别结果及对应的语音。

g.将用户录入的语音的语音特征值及该语音特征值对应的正确的文本信息保存至用户语音数据库并对用户语音数据库进行刷新;

用户输入的正确的识别结果及对应的语音后,由智能机器提取语音特征值,并将语音特征值和正确结果存入用户数据库中,并修改当前的最终识别结果为用户给出的正确结果。

h.执行用户输入的正确的文本信息对应的指令;即机器将会按照用户的语言指令进行操作,比如电视切换到中央一台,上网浏览网页等。

可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1