一种语音处理方法及装置的制作方法

文档序号:2834918阅读:223来源:国知局
专利名称:一种语音处理方法及装置的制作方法
技术领域
本发明涉及音频处理技术领域,特别涉及一种语音处理方法及装置。
背景技术
随着通信领域的飞速发展,目前,语音识别技术已经能够使人机之间进行交互,通过系统对用户进行语音识别,来实现人机交互。而语音识别的原理具体如下如图1所示,S10,获得语音信息。S11,对语音信息进行预处理,如分帧、预加重、加窗等。S12,在预处理之后,提取特征参数。该特征参数是用来表征语音信息的特征参数。S13,将该特征参数带入在语音库存储的语音模型中进行搜索,输出与该特征参数最匹配的结果。在上述步骤中,使用了语音模型,语音模型是表示词汇的基于统计方法得到的模型,由多个语音特征参数样本经过训练得来的。而语音模型中的词汇是普通词汇,并且是基于标准的口音发音而形成的模型,因此,对于一些具体用户来说并不适用,比如某一个用户具有地方口音,或发音音调与语音模型中不同,则当用户输出一语音信息,即使是语音模型中已有的词汇,系统也很难识别。而为了解决这一问题,现有技术采用了下面的技术方案用户在需要进行人机交互时,向系统输入语音信息,系统会根据用户输入的语音信息,输出相应的文本在一文本框内,以便用户修改,并根据用户对文本的修改情况,综合用户输入的语音信息,来进行人机交互,以此解决了上述当用户具有地方口音,或发音音调与语音模型中不同,或者用户输入的词汇语音模型中并不存在时,系统无法识别的技术问题。而进一步的,系统还会根据判断结果,向系统添加新词汇、新发音,然后根据这些新词汇以及新发音来调整语言模型。而本申请人在实现本申请的过程中发现,使用上述方法时,系统会依赖于用户修改的输出文本进行语音识别操作,进而导致识别过程复杂,效率低,以及耗时长的技术问题。

发明内容
本发明提供一种语音处理方法及装置,用以解决现有技术中存在的系统会依赖于用户修改的输出文本进行语音识别操作,进而导致识别过程复杂,效率低,以及耗时长的技术问题。一方面,本发明通过本申请的一个实施例,提供如下技术方案
一种语音处理方法,所述方法包括接收第一语音信息;使用声纹识别模型对所述第一语音信息进行声纹识别,判断是否具有输出所述第一语音信息的声纹源的记录;若有所述记录,在所述声纹源对应的声纹库中搜索是否具有所述第一语音信息;若在所述声纹库中具有所述第一语音信息,输出与所述第一语音信息对应的第一语音结果;若在声纹库中没有所述第一语音信息,在基本语音库中搜索所述第一语音信息。另一方面,本发明通过本申请的另一实施例提供一种语音处理装置,包括接收单元,用于接收第一语音信息;第一判断单元,用于使用声纹识别模型对所述第一语音信息进行声纹识别,判断是否具有输出所述第一语音信息的声纹源的记录;第一搜索单元,用于若有所述记录,在所述声纹源对应的声纹库中在声纹库中搜索是否具有所述第一语音信息;第一输出单元,用于若在所述声纹库中具有所述第一语音信息,输出与所述第一语音信息对应的第一语音结果;第二搜索单兀,用于若在声纹库中没有所述第一语音信息,在基本语音库中搜索所述第一语音信息。上述技术方案中的一个或多个技术方案,至少具有如下技术效果或优点在本申请中,首先通过使用在系统中建立的声纹识别模型对获得的第一语音信息进行声纹识别。当识别正确时,则能够说明该用户在系统中有记录,即在系统中建立了该用户专属的声纹库。当具有声纹库时,首先会在为该用户建立的专属的暂存区中搜索是否存在该第一语音信息。当不存在暂存区时,则去声纹库中搜索。此时,当第一语音信息的内容已经存储于声纹库中时,则输出对应的语音结果。使用该方法进行语音识别操作,并没有依赖于用户修改的输出文本,仅使用了语音进行处理,因此处理过程简单,效率高,相较于基于修改的输出文本来说,还具有耗时低的特点。进一步的,在声纹库中不能够搜索的第一语音信息时,由于还可以转到基本语音库中进行搜索,所以具有保证该第一语音信息的识别准确率的技术效果。进一步的,由于在系统中没有记录的声纹源,在使用了该系统进行第一语音信息的识别之后,还能够建立其专属的声纹库,所以,在以后的使用中,通过不断的识别,记录更新等过程,能够实现不断地提高针对该用户的第一语音信息的准确识别率的技术效果。进一步的,在系统的暂存区中搜索该第一语音信息时,在识别的过程中,会经过识另IJ,判断,记录,更新等一系列操作,不断地刷新暂存区中的第一语音信息的记录,所以,具有提高对第一语音信息的识别率的技术效果。


图1为背景技术中语音识别的原理的流程图;图2为本申请实施例中系统中的语音库的示意图;图3为本申请实施例中语音处理方法的流程图;图4为本申请实施例中整体的流程图;图5为本申请实施例中语音处理装置的示意图。
具体实施例方式为了解决现有技术中存在的系统会依赖于用户修改的输出文本进行语音识别操作,进而导致识别过程复杂,效率低,以及耗时长的技术问题,本发明实施例提出了一种语音处理方法及装置,其解决方案总体思路如下在本申请中,为了解决上述技术问题,提供了一种语音处理方法,该方法首先使用声纹识别模型对第一语音信息进行声纹识别,判断是否具有输出第一语音信息的声纹源的记录。接着,若有记录,在声纹源对应的声纹库中搜索是否具有第一语音信息。进一步的,若在声纹库中具有第一语音信息,输出与第一语音信息对应的第一语音结果。若在声纹库中没有第一语音信息,在基本语音库中搜索第一语音信息。而声纹库则是用户专属的声纹库,记录了用户特有的语音习惯,比如,用户的口音,以及用户发出语音时,语音的音调等,使用用户专属的声纹库进行搜索,则避免了用户因为口音或者发出的语音音调不准确,而导致获得的结果不准确的问题。此时,当第一语音信息的内容已经存储于声纹库中时,则会在声纹库中进行搜索,并输出对应的语音结果。使用该方法进行语音识别操作,并没有依赖于用户修改的输出文本,仅使用了语音进行处理,因此处理过程简单,效率高,相较于基于修改的输出文本来说,还具有耗时低的特点。下面结合说明书附图对本发明实施例的主要实现原理、具体实施过程及其对应能够达到的有益效果进行详细的阐述。实施例一在本申请实施例中,首先,对该方法需要用到的装置进行介绍。即语音模型,基本语音库,暂存区,声纹识别模型,声纹库。下面的各个装置都存在于同一语音库中。其中语音模型,表示由词汇基于统计方法得到的模型,由多个语音特征参数样本经过训练得来的。基本语音库,包含了所有输入的词组,以及词组对应的语音模型。暂存区,是系统为声纹源建立的存储区域。更进一步的,暂存区是系统为每个采集声纹信息的用户开辟的一个用户专属的,暂时用于存储用户输入的词组的存储区域,其存放的内容包括语音信息,该语音信息对应的语音结果,对应的语音结果的序号,该语音信息被识别正确的次数,而语音信息即是系统接收到的由声纹源发出的词或者词组。声纹识别模型,通过采集用户的声纹建立的模型,用于对用户进行身份识别,声纹识别模型是针对特定的用户建立的,包含了用户的特定的口音,以及唯一的音色音调响度
等声音参数。声纹库,是为每个采集过声纹信息的用户建立的语音库。声纹库包含了用户的声纹识别模型,以及用户使用自己带有特色的口音输入的词组,该词组由于具有口音,因此在基本语音库中不易识别。而声纹库能够最大的特点,是能够通过用户持续使用该系统而不断提高声纹库的语音识别准确率。并且,系统提高声纹库的语音识别准确率的过程是在后台运行的,不影响用户的操作。请参看图2,下面用具体的示意图介绍基本语音库和声纹库的关系。在图2中,语音库20包含两大组成部分基本语音库20a和声纹库。其中,声纹库以用户A的声纹库20b与用户B的声纹库20c进行举例。而更为具体的,用户A的声纹库20b又包含了用户A的声纹识别模型20bb。用户B的声纹库20c包含了用户B的声纹识别模型20cc。
基本语音库与声纹库的区别在于:在两者中,同一词组对应的模型可以不相同,声纹库中的语音信息更具有用户特色,是系统为每一个用户单独建立的储存库,并且,声纹库中的语音信息对应的语音结果并不会如基本语音库中的模型,匹配度最高的语音结果,不一定是正确的语音结果。下面举例进行说明。比如在基本语音库中,用户输入的语音信息“音量减”对应有如下语音结果:表I
权利要求
1.一种语音处理方法,其特征在于,所述方法包括:接收第一语音信息;使用声纹识别模型对所述第一语音信息进行声纹识别,判断是否具有输出所述第一语音信息的声纹源的记录;若有所述记录,在所述声纹源对应的声纹库中搜索是否具有所述第一语音信息;若在所述声纹库中具有所述第一语音信息,输出与所述第一语音信息对应的第一语音结果;若在所述声纹库中没有所述第一语音信息,在基本语音库中搜索所述第一语音信息。
2.如权利要求1所述的方法,其特征在于,所述在基本语音库中搜索所述第一语音信息,具体为:判断所述第一语音信息在暂存区中是否为连续语音信息,其中,所述暂存区是为所述声纹源建立的存储区域;当所述第一语音信息是连续语音信息时,在所述基本语音库中搜索所述第一语音信肩、O
3.如权利要求2所述的方法,其特征在于,在所述基本语音库中搜索所述第一语音信息之后,所述方法还包括:当搜索出所述第一语音信息时,输出第二语音结果,所述第二语音结果为所述第一语音信息对应的第二语音结果;更新所述第一语音信 息在所述暂存区中的第一记录,所述第一记录包括所述第一语音信息,所述第二语音结果,所述第一语音信息在所述暂存区中始终被记录为I次的搜索记录,以及所述第二语音结果的序列号。
4.如权利要求2所述的方法,其特征在于,在所述判断所述第一语音信息是否为连续语音信息之后,所述方法还包括:当所述第一语音信息不是连续语音信息时,判断所述第一语音信息在所述暂存区中是否有记录;当所述第一语音信息在所述暂存区中有记录时,输出所述第二语音结果,并在所述暂存区中更新第二记录,所述第二记录包括所述第一语音信息,所述第二语音结果,所述第一语音信息在所述暂存区中被正确搜索的次数,以及所述第二语音结果的序列号;当所述第一语音信息在所述暂存区中没有记录时,在所述基本语音库中搜索所述第一语音信息,并输出与所述第一语音信息对应的第三语音结果;在输出所述第三语音结果之后,更新所述第一语音信息在所述暂存区中的第三记录,所述第三记录包括所述第一语音信息,所述第三语音结果,所述第一语音信息在所述暂存区中被正确搜索的次数,以及所述第三语音结果的序列号。
5.如权利要求4所述的方法,其特征在于,在所述在所述暂存区中的更新第二记录之后,所述方法还包括:判断所述第二记录中所述第一语音信息在所述暂存区中被正确搜索的次数是否满足一预设的数目阈值;当所述被正确搜索的次数满足所述数目阈值时,将所述第一语音信息存入所述声纹库;清除所述第一语音信息在所述暂存区中的记录。
6.如权利要求1所述的方法,其特征在于,所述方法还包括: 若不具有输出所述第一语音信息的声纹源的记录,在基本语音库中搜索所述第一语音信息,输出第四语音结果。
7.一种语音处理装置,其特征在于,包括: 接收单元,用于接收第一语音信息; 第一判断单元,用于使用声纹识别模型对所述第一语音信息进行声纹识别,判断是否具有输出所述第一语音信息的声纹源的记录; 第一搜索单元,用于 若有所述记录,在所述声纹源对应的声纹库中在声纹库中搜索是否具有所述第一语音信息; 第一输出单元,用于若在所述声纹库中具有所述第一语音信息,输出与所述第一语音信息对应的第一语音结果; 第二搜索单元,用于若在所述声纹库中没有所述第一语音信息,在基本语音库中搜索所述第一语音信息。
8.如权利要求7所述的装置,其特征在于,所述第二搜索单元具体包括: 第二判断单元,用于若在声纹库中没有所述第一语音信息,判断所述第一语音信息在暂存区中是否为连续语音信息 ; 第三搜索单元,用于当所述第一语音信息是连续语音信息时,在所述基本语音库中搜索所述第一语音信息。
9.如权利要求8所述的装置,其特征在于,所述装置还包括: 第二输出单元,用于在基本语音库中搜索所述第一语音信息之后,当搜索出所述第一语音信息时,输出第二语音结果,所述第二语音结果为所述第一语音信息对应的第二语音结果; 第一更新单元,用于更新所述第一语音信息在所述暂存区中的第二记录,所述第二记录包括所述第一语音信息,所述第二语音结果,所述第一语音信息在所述暂存区中始终被记录为I次的搜索记录,以及所述第二语音结果的序列号。
10.如权利要求8所述的装置,其特征在于,所述装置还包括: 第三判断单元,用于在判断所述第一语音信息是否为连续语音信息之后,当所述第一语音信息不是连续语音信息时,判断所述第一语音信息在所述暂存区中是否有记录; 第三输出单元,用于当所述第一语音信息在所述暂存区中有记录时,输出所述第二语音结果,并在所述暂存区中更新第二记录,所述第二记录包括所述第一语音信息,所述第二语音结果,所述第一语音信息在所述暂存区中被正确搜索的次数,以及所述第二语音结果的序列号; 第四输出单元,用于当所述第一语音信息在所述暂存区中没有记录时,在所述基本语音库中搜索所述第一语音信息,并输出与所述第一语音信息对应的第三语音结果; 第二更新单元,用于在输出所述第三语音结果之后,更新所述第一语音信息在所述暂存区中的第三记录,所述第三记录包括所述第一语音信息,所述第三语音结果,所述第一语音信息在所述暂存区中被正确搜索的次数,以及所述第三语音结果的序列号。
全文摘要
本申请公开了一种语音处理方法及装置,首先一种语音处理方法,所述方法包括接收第一语音信息;使用声纹识别模型对所述第一语音信息进行声纹识别,判断是否具有输出所述第一语音信息的声纹源的记录;若有所述记录,在所述声纹源对应的声纹库中搜索是否具有所述第一语音信息;若在所述声纹库中具有所述第一语音信息,输出与所述第一语音信息对应的第一语音结果;若在声纹库中没有所述第一语音信息,在基本语音库中搜索所述第一语音信息。使用该方法进行语音识别操作,并没有依赖于用户修改的输出文本,仅使用了语音进行处理,因此处理过程简单,效率高,相较于基于修改的输出文本来说,还具有耗时低的特点。
文档编号G10L15/08GK103077713SQ201310001239
公开日2013年5月1日 申请日期2013年1月4日 优先权日2012年12月25日
发明者张庆芬, 洪烨 申请人:青岛海信电器股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1