一种语音关键词筛选方法、装置、出行终端、设备及介质与流程

文档序号:20373048发布日期:2020-04-14 13:30阅读:182来源:国知局
一种语音关键词筛选方法、装置、出行终端、设备及介质与流程

本发明涉及语音识别技术领域,具体涉及一种语音关键词筛选方法、装置、出行终端、设备及介质。



背景技术:

本部分向读者介绍可能与发明实施例的各个方面相关的背景技术,相信能够向读者提供有用的背景信息,从而有助于读者更好地理解本发明实施例的各个方面。因此,可以理解,本部分的说明是用于上述目的,而并非构成对现有技术的承认。

随着计算机计算能力的逐步提升,深度学习技术的快速发展,语音识别技术在近代飞跃发展,机器语音识别以及与人的交互能力与人与人之间的交流差距慢慢缩小。语音技术(speechtechnology)让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。随着语音技术的发展和交互体验的提升,用户也越来越乐于通过语音与电子设备进行交互,例如通过语音控制电子设备完成指定工作。语音作为信息传递的重要手段,在智能化时代必将成为人们关注的热点,目前,语音识别技术应用广泛,例如,手机语音服务助手、智能音箱、服务机器人等,虽然这些智能产品为我们的生活带来了便利,但其中也还有很大的提升空间,比如更强的噪声适应性,更多语言或者模式的支持。关键词识别技术是语音技术中的重要分支,用于对连续语音信号进行预定关键词的识别,即识别该连续语音信号中是否存在预定关键词,该技术在电子设备唤醒、对话交互界面初始化、音频索引和检索、以及语音密码验证等方面均有着广泛的应用。

语音关键词检测是从音频数据流中识别出特定语音关键词,以及确定该关键词出现的起止时间点的技术。当前主流的解决方案有两种,一类是将音频中的语音识别为文本,再从文本中检索出特定关键词的与语种相关的语音关键词检测;另一类是直接将音频数据逐段与关键词语音样例进行声学特征似然度匹配检索的与语种无关的语音关键词检测。在具备大量语言学先验知识基础的前提下,语种相关关键词检测方案的检测性能明显好于语种无关关键词检测方案,但对于小语种或小范围使用的密语等缺少大量语言学先验知识的场景下,只能选择语种无关关键词检测方案。

现有的语音关键词检测由于声源环境复杂多样等特点,而且语音数据又严重受短波、超短波等侦察信道高噪声的干扰。由于传统声学特征对带噪且时长很短的语音不鲁棒,直接通过声学特征似然度匹配进行检测往往效果不理想,降低关键词识别正确率。



技术实现要素:

要解决的技术问题是如何提供一种语音关键词筛选方法、装置、出行终端、设备及介质。

针对现有技术中的缺陷,本发明提供一种语音关键词筛选方法、装置、出行终端、设备及介质,可以有效降低环境噪音带来的干扰,有效提升语音识别效果。

第一方面,本发明提供了一种语音关键词筛选方法,包括:

采集第一预定时间段内的声音;

将所述声音识别转换成文本;

按照预定的工作分类对语音识别结果分析识别出目标词汇;

输出匹配识别的目标词汇。

可选地,所述采集第一预定时间段内的声音包括:

按预定数量的采样点计算第二预定时间段内的能量

根据所述能量确定当前音频信号是语音/噪音还是静音;

根据静音持续的时间结束录音。

可选地,所述第二预定时间为0.1s。

可选地,所述静音持续的时间为0.5s。

可选地,所述第一预定时间为1.5s。

可选地,所述按照预定的工作分类对语音识别结果分析识别出目标词汇,包括:

以不同的目标地点作为不同的模式,对识别结果进行模式分类;

判断段音频信号中是否包含目标关键词。

可选地,判断段音频信号中是否包含目标关键词,包括:

再将文本转换成拼音,判断拼音中是否包含目标词汇的拼音。

第二方面,本发明实施例还提供一种语音关键词筛选装置,包括:

语音采集单元,用于采集第一预定时间段内的声音;

语音转换单元,用于将所述声音识别转换成文本;

语音分析单元,用于按照预定的工作分类对语音识别结果分析识别出目标词汇;

语音输出单元,用于输出匹配识别的目标词汇。

可选地,所述语音采集单元包括:

语音采样模块,用于按预定数量的采样点计算第二预定时间段内的能量

静音识别模块,用于根据所述能量确定当前音频信号是语音/噪音还是静音;

录音控制单元,用于根据静音持续的时间结束录音。

可选地,所述第二预定时间为0.1s。

可选地,所述第一预定时间为1.5s。

可选地,所述语音分析单元包括:

语音分类模块,用于以不同的目标地点作为不同的模式,对识别结果进行模式分类;

语音判断模块,用于判断该段音频信号中是否包含目标关键词。

可选地,所述语音判断模块包括:

转换模块,用于将文本转换成拼音,判断拼音中是否包含目标词汇的拼音。

第三方面,本发明实施例还提供一种语音出行装置,其特征在于,所述装置包括上述的关键词筛选装置。

第四方面,本发明实施例还提供一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的一种语音出行方法。

第五方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述的一种语音关键词筛选方法。

由上述技术方案可知,本发明实施例提供的一种语音关键词筛选方法、装置、出行终端、设备及介质,通过在录音或语音转换过程中,消除不必要的静音部分,降低数据处理的负担,同语音转换可以可有效降低环境噪音带来的干扰,有效提升语音识别效果,使得应用更为广泛。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一个实施例中语音关键词筛选方法流程示意图;

图2为图1所示的实施例中采集第一预定时间段内的声音流程示意图;

图3为图1所示的实施例中按照预定的工作分类对语音识别结果分析识别出目标词汇流程示意图;

图4为本发明一个实施例中语音关键词筛选装置结构示意图;

图5为图4所示的实施例中语音采集单元结构示意图;

图6为图4所示的实施例中语音分析单元结构示意图;

图7为本发明一个实施例中运行本说明书实施例的电子设备一种硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种语音关键词筛选方法,如图1所示,该方法包括:采集第一预定时间段内的声音;将所述声音识别转换成文本;按照预定的工作分类对语音识别结果分析识别出目标词汇;输出匹配识别的目标词汇。下面对本发明提供的语音关键词筛选方法展开详细的说明。

本发明提供的语音关键词筛选方法,在录音和语音转换过程中消除了不必要的录音,可有效降低环境噪音带来的干扰,有效提升语音识别效果,使得应用更为广泛。

首先,介绍采集第一预定时间段内的声音。

在本发明实施例中,如图2所示,所述采集第一预定时间段内的声音包括:按预定数量的采样点计算第二预定时间段内的能量;根据所述能量确定当前音频信号是语音/噪音还是静音;如果静音持续静音持续的时间,则结束录音。在本发明中,所述第一预定时间可选为1.5s。一般我们向机器人发出语音指令只需要1秒左右的时间,因此该系统考虑到强噪声可能带来的影响,将录音时间限制在1.5秒以内。即如果1.5内无论信号的能量是否一直高于能量判别门限,最长录音时间都是1.5秒。例如,用户对机器发出命令“比如去哪里”,这句话只需要1秒左右,本发明为了险起见设置了1.5秒,正常人在这个时间段内都可以说完这句话如果录音时间长的话就要等待时间比较长。例如,置成10s,意味着用户一秒说完,机器还要等九秒录音才结束,机器才给出指令。按预定数量的采样点计算第二预定时间段内的能量。在本发明实施例中,所述第二预定时间可选为0.1s。在录音程序开始运行之后,选择采样率为16khz,每1600个采样点根据幅度谱计算一次该时间段(0.1秒)内的能量。在本发明实施例中,可以根据设备硬件的实际需要选择,例如可以选择16khz的采样率。当然可以理解,本发明实施例不仅限于此,选更高的采样率需要专业的录音设备,人耳听觉的话8khz以上的频率都够了。进一步地,根据所述能量确定当前音频信号是语音/噪音还是静音。在本发明实施例中,静音持续的时间可选为0.5s。通过设定能量门限阈值判断该时间段内的信号是语音/噪声信号还是静音段,为了避免不断地录制静音,若静音段连续时间超过0.5秒则结束录音。语音信号是短时平稳信号,因此要求语音信号的能量谱需要先对信号进行加窗、分帧,再提取能量。

假设一段,窗函数为w(n),加窗分帧之后为语音信号的能量按照式(1)计算:

其中,x’(n)表示语音信号强度,x(n)表示为语音信号强度,n表示原始信号时间轴上的第n个采样点,m表示样本点,n表示信号长度,w(n)为窗函数。

短时语音的能量是按照式(2)计算的:

其中,e(n)表示语音信号的幅度谱,n表示原始信号时间轴上的第n个采样点,m表示样本点,w(n)为窗函数,x(n)为语音信号强度。本发明实施例可选采用汉明窗函数。

在本发明实施例中,通过设定能量门限阈值判断该时间段内的信号是语音/噪声信号还是静音段,根据能量判断,可以有效区分出是静音还是非静音(噪音、语音),不能区分语音和噪声,能量大的是语音或噪声,能量小的是静音,中间的这个区分二者的值就是判别的阈值。在本法明实施例中,每次录音时间限制在1.5秒内就是为了防止一直在录噪声,录音完成后,将音频文件存为wav格式文件。

其次,介绍将所述声音识别转换成文本。

在本发明实施例中,在语音转文字阶段,将第一步录制的语音转换成文本。可选地,可以采用现有的成熟的语音转换方法将语音识别转换成文本,例如,可以采用科大讯飞的语音识别api,无需切换模式,可以直接进行中英文识别,且同时进行中英文识别的准确性不会和单语种识别的准确性相差太多,可以中英文控制。当然可以理解,本发明不仅限于此,其它具有同等语音识别功能的成熟语音识别方法依然可以实现本发明实施例。

再次,介绍按照预定的工作分类对语音识别结果分析识别出目标词汇。

在本发明实施例中,需要对语音识别的结果进行分析,所述按照预定的工作分类对语音识别结果分析识别出目标词汇,如图3所示,具体包括:以不同的目标地点作为不同的模式,对识别结果进行模式分类;判断该段音频信号中是否包含目标关键词。在本发明中,目标关键词可以根据实际情况设定的各种控制命令,也可以是各种按照需求设定的目标地点或带有目标特点的词汇。例如,目标地点有七个,那就是七种模式,从语音信号里面检测是否包含其中的某种模式,也就是是否包含地点。例如,用户说出口令:“请带我去厕所”,这时候如果厕所是设置的其中一种模式,那就会触发座舱,如果不包含任何一种,就不触发。在本发明实施例中,为了提升命令词识别的准确性和该系统对命令词的敏感性,不能只是简单地判断上一个步骤中的文本是否包含命令词文本,因为语音识别在多音字方面会有歧义。例如,某地点名为“常和”,对于语音识别系统而言,尽管某些时候可以根据上下文语意判断多音字的选择,但对于地点而言,上下文语意联系并无帮助,所以“常和”可以被识别为“昌河”,“场合”,“长河”,“长和”等等。本发明实施例考虑到这些同音结果的影响,抽取这些结果的共性,以拼音作为检查的标准,即对于目标“常和”而言。为了避免这种问题,判断该段音频信号中是否包含目标关键词,包括:再将文本转换成拼音,判断拼音中是否包含目标词汇的拼音。只需将整段音频转换成文本,再将文本转换成拼音,判断拼音(不考虑声调)中是否包含“changhe”即可。

最后,介绍输出匹配识别的目标词汇。

在本发明的一个实施例中,通过上述的方法进行匹配识别后,如果检测到目标地点,则输出文本结果“检测到您需要到往的目的地xxx”或者英文“ithasdetectedyourdestinationxxx”输出。进一步地,可以将文本结果合成语音,保存为wav文件,并播放出来给用户。与此同时,本发明可以调用机器人ros程序,向智能座舱发送指令,启动座舱并行驶至目的地。

本发明实施例的技术方案,通过在录音或语音转换过程中,消除不必要的静音部分,降低数据处理的负担,同语音转换可以可有效降低环境噪音带来的干扰,有效提升语音识别效果,使得应用更为广泛。

为进一步体现本发明提供的一种语音关键词筛选方法的优越性,如图4所示,本发明还提供一种应用上述一种语音关键词筛选方法的语音关键词筛选装置,该装置包括:语音采集单元,用于采集第一预定时间段内的声音;语音转换单元,用于将所述声音识别转换成文本;语音分析单元,用于按照预定的工作分类对语音识别结果分析识别出目标词汇;语音输出单元,用于输出匹配识别的目标词汇。下面对本发明提供的语音关键词筛选装置展开详细的说明。

本发明提供的语音关键词筛选装置与上述语音关键词筛选方法采用了相同的发明构思,能够取得相同的有益效果,具体方法和步骤可以参照上述方法,该装置在录音和语音转换过程中消除了不必要的录音,可有效降低环境噪音带来的干扰,有效提升语音识别效果,使得应用更为广泛。

为了便于理解本申请的方案,可以参见图5,所述语音采集单元包括:语音采样模块,用于按预定数量的采样点计算第二预定时间段内的能量;静音识别模块,用于根据所述能量确定当前音频信号是语音/噪音还是静音;录音控制单元,用于根据静音持续的时间结束录音。在本发明中,所述第一预定时间可选为1.5s。一般我们向机器人发出语音指令只需要1秒左右的时间,因此该系统考虑到强噪声可能带来的影响,将录音时间限制在1.5秒以内。即如果1.5内无论信号的能量是否一直高于能量判别门限,最长录音时间都是1.5秒。例如,用户对机器发出命令“比如去哪里”,这句话只需要1秒左右,本发明为了险起见设置了1.5秒,正常人在这个时间段内都可以说完这句话如果录音时间长的话就要等待时间比较长。例如,置成10s,意味着用户一秒说完,机器还要等九秒录音才结束,机器才给出指令。按预定数量的采样点计算第二预定时间段内的能量。在本发明实施例中,所述第二预定时间可选为0.1s。在录音程序开始运行之后,选择采样率为16khz,每1600个采样点根据幅度谱计算一次该时间段(0.1秒)内的能量。在本发明实施例中,可以根据设备硬件的实际需要选择,例如可以选择16khz的采样率。当然可以理解,本发明实施例不仅限于此,选更高的采样率需要专业的录音设备,人耳听觉的话8khz以上的频率都够了。进一步地,根据所述能量确定当前音频信号是语音/噪音还是静音。在本发明实施例中,静音持续的时间可选为0.5s。通过设定能量门限阈值判断该时间段内的信号是语音/噪声信号还是静音段,为了避免不断地录制静音,若静音段连续时间超过0.5秒则结束录音。语音信号是短时平稳信号,因此要求语音信号的能量谱需要先对信号进行加窗、分帧,再提取能量。在本发明实施例中,通过设定能量门限阈值判断该时间段内的信号是语音/噪声信号还是静音段,根据能量判断,可以有效区分出是静音还是非静音(噪音、语音),不能区分语音和噪声,能量大的是语音或噪声,能量小的是静音,中间的这个区分二者的值就是判别的阈值。在本法明实施例中,每次录音时间限制在1.5秒内就是为了防止一直在录噪声,录音完成后,将音频文件存为wav格式文件。

在本发明实施例中,在语音转文字阶段,通过语音转换单元将所述声音识别转换成文本。可选地,可以采用现有的成熟的语音转换方法将语音识别转换成文本,例如,可以采用科大讯飞的语音识别api,无需切换模式,可以直接进行中英文识别,且同时进行中英文识别的准确性不会和单语种识别的准确性相差太多,可以中英文控制。当然可以理解,本发明不仅限于此,其它具有同等语音识别功能的成熟语音识别方法依然可以实现本发明实施例。

为了便于理解本申请的方案,可以参见图6,所述语音分析单元包括:语音分类模块,用于以不同的目标地点作为不同的模式,对识别结果进行模式分类;语音判断模块,用于判断该段音频信号中是否包含目标关键词。在本发明实施例中,需要对语音识别的结果进行分析,所述按照预定的工作分类对语音识别结果分析识别出目标词汇,具体包括:以不同的目标地点作为不同的模式,对识别结果进行模式分类;判断该段音频信号中是否包含目标关键词。在本发明中,目标关键词可以根据实际情况设定的各种控制命令,也可以是各种按照需求设定的目标地点或带有目标特点的词汇。例如,目标地点有七个,那就是七种模式,从语音信号里面检测是否包含其中的某种模式,也就是是否包含地点。例如,用户说出口令:“请带我去厕所”,这时候如果厕所是设置的其中一种模式,那就会触发座舱,如果不包含任何一种,就不触发。在本发明实施例中,为了提升命令词识别的准确性和该系统对命令词的敏感性,不能只是简单地判断上一个步骤中的文本是否包含命令词文本,因为语音识别在多音字方面会有歧义。例如,某地点名为“常和”,对于语音识别系统而言,尽管某些时候可以根据上下文语意判断多音字的选择,但对于地点而言,上下文语意联系并无帮助,所以“常和”可以被识别为“昌河”,“场合”,“长河”,“长和”等等。本发明实施例考虑到这些同音结果的影响,抽取这些结果的共性,以拼音作为检查的标准,即对于目标“常和”而言。为了避免这种问题,判断该段音频信号中是否包含目标关键词,所述语音判断模块包括:转换模块,用于将文本转换成拼音,判断拼音中是否包含目标词汇的拼音。只需将整段音频转换成文本,再将文本转换成拼音,判断拼音(不考虑声调)中是否包含“changhe”即可。

在本发明实施例中,语音输出单元,用于输出匹配识别的目标词汇。通过上述的方法进行匹配识别后,如果检测到目标地点,则输出文本结果“检测到您需要到往的目的地xxx”或者英文“ithasdetectedyourdestinationxxx”输出。进一步地,可以将文本结果合成语音,保存为wav文件,并播放出来给用户。与此同时,本发明可以调用机器人ros程序,向智能座舱发送指令,启动座舱并行驶至目的地。

为进一步体现本发明提供的一种语音关键词筛选装置的优越性,本发明还提供一种应用上述一种语音关键词筛选装置的语音出行装置,所述装置包括所述关键词筛选装置。本发明提供的语音出行装置与上述语音关键词筛选装置采用了相同的发明构思,能够取得相同的有益效果,具体方法和步骤可以参照上述装置、方法执行,再次就不再一一赘述了。

本发明实施例还提供一种电子设备,包括所述电子设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如下的操作指令:采集第一预定时间段内的声音;将所述声音识别转换成文本;按照预定的工作分类对语音识别结果分析识别出目标词汇;输出匹配识别的目标词汇。需要说明的是,尽管上述设备仅示出了处理器、存储器以及总线,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。在本发明实施例中,操作的指令可以参照上述语音关键词筛选方法的流程执行,在此不再赘述。

本说明书一种电子设备的实施例可以应用在计算机设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在计算机设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本说明书一种电子设备所在计算机设备的一种硬件结构图,除了图7所示的处理器(processor)、存储器(memory)、内存、通信接口(communicationsinterface)、以及非易失性存储器之外,实施例中电子设备所在的计算机设备通常根据该设备的实际功能,还可以包括用于实现网络通信功能的板卡等其他硬件对此不再赘述。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

处理器可以采用通用的cpu(centralprocessingunit,中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit,asic)、或者是被配置成实施本发明实施例的一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。终端设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。

通信接口用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。

总线包括一通路,在设备的各个组件(例如处理器、存储器、输入/输出接口和通信接口)之间传输信息。总线可以包括任意数量的互联的总线和桥,总线将包括由处理器代表的一个或多个处理器和存储器代表的存储器的各种电路链接在一起。总线表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。处理器负责管理总线和通常的处理,而存储器可以被用于存储处理器在执行操作时所使用的数据。

存储器用于存放程序,存储器可以包括rom(readonlymemory,只读存储器)、ram(randomaccessmemory,随机存取存储器)、静态存储设备,动态存储设备等计算机系统可读存储介质形式实现。也可能还包括非易失性存储器(non-volatilememory)等计算机系统可读存储介质形式实现,例如随机存取存储器(ram)和/或高速缓存存储器。终端可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统可以用于读写不可移动的、非易失性磁存储介质(图中未显示,通常称为“硬盘驱动器”)。尽管图中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光存储介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据存储介质接口与总线相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。具有一组(至少一个)程序模块的程序/实用工具,可以存储在例如存储器中,这样的程序模块包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本发明所描述的实施例中的功能和/或方法。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

终端也可以与一个或多个外部终端(例如键盘、指向终端、显示器等)通信,还可与一个或者多个使得用户能与该终端交互的终端通信,和/或与使得该终端能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口进行。并且,终端还可以通过网络适配器与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器通过总线与终端的其它模块通信。应当明白,尽管图中未示出,可以结合终端使用其它硬件和/或软件模块,包括但不限于:微代码、终端驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理器通过运行存储在系统存储器中的多个程序中其他程序的至少一个,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种语音关键词筛选方法。

本发明实施例还提供一种计算机程序,具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。程序具体可以用于使得处理器执行以下操作:采集第一预定时间段内的声音;将所述声音识别转换成文本;按照预定的工作分类对语音识别结果分析识别出目标词汇;输出匹配识别的目标词汇。在本发明中,计算机程序可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本说明书的实施例提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,这些计算机程序在被处理器运行时,执行本说明书实施例中上述语音关键词筛选方法的各个步骤。语音关键词筛选实现方法的各个步骤的详细描述请参见之前的内容,不再重复。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的存储介质的任意组合。计算机可读存储介质可以是计算机可读信号存储介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明实施例中,计算机可读存储介质可以是任何包含或存储程序的有形存储介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号存储介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读存储介质上包含的程序代码可以用任何适当的存储介质传输,包括——但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。

综上所述,本发明实施例提供的语音关键词筛选方法、装置、出行终端、设备及介质,与现有技术相比,通过在录音或语音转换过程中,消除不必要的静音部分,降低数据处理的负担,同语音转换可以可有效降低环境噪音带来的干扰,有效提升语音识别效果,使得应用更为广泛。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmablelogicdevice,pld)(例如现场可编程门阵列(fieldprogrammablegatearray,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardwaredescriptionlanguage,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescriptionlanguage)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(rubyhardwaredescriptionlanguage)等,目前最普遍使用的是vhdl(very-high-speedintegratedcircuithardwaredescriptionlanguage)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器或处理器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机、也可装载到计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令执行一系列操作步骤以产生计算机实现的处理,产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同/相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例、装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行任何明显的变化、重新调整、修改、等同替换、改进等;而这些任何明显的变化、重新修改、等同替换、改进等,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1