本发明属于语音识别技术领域,涉及一种语音识别方法,具体是一种基于用户行为特征的语音识别方法。
背景技术:
随着通信技术的发展,终端集成了越来越多的功能,从而使得终端的系统功能列表中包含了越来越多相应的应用程序,例如,电脑中安装的应用程序,第三方智能手机中安装的应用程序(App l i cat i on,APP)等。有些应用程序中会涉及一些语音识别服务,例如,QQ、微信等即时通信软件中的语音输入、百度地图中的语音输入等。现有技术中,语音处理引擎可以利用所接收到的语音数据作为输入,运行语音模型,以获得识别结果。
然而,由于每个用户表达同一件事情的方式和用词都不一样,同时不同用户的声音也存在一定的差异性,因此,采用已有的语音模型进行语音识别,会导致某些用户的语音识别准确率降低,从而导致了语音识别的可靠性的降低。
技术实现要素:
本发明的目的在于提供一种对用户行为进行数据采集和分析,进一步优化语音模型,实现自学习功能的基于用户行为特征的语音识别方法。
本发明的目的可以通过以下技术方案实现:
一种基于用户行为特征的语音识别方法,包括以下步骤:
步骤S1,首先,语音识别终端使用语音采集设备采集用户音频数据,上传至在线语音识别服务器;
步骤S2,在线语音识别服务器对用户的音频数据进行处理,结合该用户的信息,进一步分析得到用户的行为习惯和声音特征;
其中,所述的用户行为习惯包括用户说话的语法习惯和用词习惯;
步骤S3,在线语音识别服务器根据每个用户不同的行为习惯生成更加符合该用户行为习惯的语法规则和命令词库,推送给语音识别终端;
步骤S4,语音识别终端根据接收到新的语法规则和命令词库对现有的语法规则和命令词库进行调整,用户再次使用时采用新的语法规则和命令词库;
步骤S5,在线语音识别服务器将用户声音特征进一步转换为用户的声音特征模型,推送到语音识别终端;
步骤S6,语音识别终端根据接收到的用户声音特征模型对本地声音特征模型进行更新。
进一步地,所述的在线语音识别服务器对用户音频数据的处理包括对音频数据的识别处理和对音频数据的信号处理。
进一步地,所述的对音频数据的识别处理包括以下步骤:
步骤S211,将音频数据通过语音识别转换为文本信息;
步骤S212,识别出文本信息中的关键字;
步骤S213,根据识别出的关键字,采用预定策略的方法、神经网络的方法、模糊查询的方法或关联分析的方法分析出用户的行为习惯信息。
进一步地,所述的对音频数据的信号处理包括以下步骤:
步骤S221,将音频数据转换成与该音频对应的数据模型;
步骤S222,对该音频数据模型进行分析,抽取形成用户声音特征。
本发明的有益效果:本发明提供了一种基于用户行为特征的语音识别方法,先通过语音识别终端采集到的用户语音数据并发送到服务器进行处理分析,结合该用户的信息,分析得到用户的行为习惯和声音特征,根据每个用户不同的行为习惯生成更加符合该用户行为习惯的语法规则和命令词库,根据每个用户的声音特征生成声音特征模型,对语音识别终端的语法规则、命令词库以及声音特征模型进行调整更新,进一步优化语音模型,实现自学习功能,使得每个用户都有更加个性化的、符合自己行为习惯的体验,保证语音识别的准确率,提高语音识别的可靠性。
附图说明
下面结合附图和具体实施例对本发明作进一步详细描述。
图1是本发明的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种基于用户行为特征的语音识别方法,通过对用户行为进行数据采集和分析,进一步优化语音模型,实现自学习功能,包括以下步骤:
步骤S1,首先,语音识别终端使用语音采集设备采集用户音频数据,上传至在线语音识别服务器;其中,语音采集设备可使用麦克风、语音鼠标等,在线语音识别服务器使用讯飞在线语音识别服务器。
步骤S2,在线语音识别服务器对用户的音频数据进行处理,结合该用户的信息,进一步分析得到用户的行为习惯和声音特征;其中,用户行为习惯包括用户说话的语法习惯和用词习惯。
在线语音识别服务器对用户音频数据的处理包括对音频数据的识别处理和对音频数据的信号处理。
其中,对音频数据的识别处理包括:
步骤S211,将音频数据通过语音识别转换为文本信息。
步骤S212,识别出文本信息中的关键字。
步骤S213,根据识别出的关键字,采用预定策略的方法、神经网络的方法、模糊查询的方法或关联分析的方法分析出用户的行为习惯信息。
其中,对音频数据的信号处理包括:
步骤S221,将音频数据转换成与该音频对应的数据模型。
步骤S222,对该音频数据模型进行分析,抽取形成用户声音特征。
步骤S3,在线语音识别服务器根据每个用户不同的行为习惯生成更加符合该用户行为习惯的语法规则和命令词库,推送给语音识别终端;其中,语法规则使用BNF或ABNF进行描述。
步骤S4,语音识别终端根据接收到新的语法规则和命令词库对现有的语法规则和命令词库进行调整,用户再次使用时采用新的语法规则和命令词库,得到更加符合该用户行为习惯的结果。
步骤S5,在线语音识别服务器将用户声音特征进一步转换为用户的声音特征模型,推送到语音识别终端。
步骤S6,语音识别终端根据接收到的用户声音特征模型对本地声音特征模型进行更新,语音识别终端就可以结合每个用户所属的声音特征参数进行不同的语音识别以到达更加人性化的功能。
步骤S7,返回步骤1,形成良性的循环,使得每个用户都有更加个性化的、符合自己行为习惯的体验,提高语音识别的可靠性。
本发明提供了一种基于用户行为特征的语音识别方法,先通过语音识别终端采集到的用户语音数据并发送到服务器进行处理分析,结合该用户的信息,分析得到用户的行为习惯和声音特征,根据每个用户不同的行为习惯生成更加符合该用户行为习惯的语法规则和命令词库,根据每个用户的声音特征生成声音特征模型,对语音识别终端的语法规则、命令词库以及声音特征模型进行调整更新,进一步优化语音模型,实现自学习功能,使得每个用户都有更加个性化的、符合自己行为习惯的体验,保证语音识别的准确率,提高语音识别的可靠性。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。