一种离线语音增强方法及系统与流程

文档序号：28942921发布日期：2022-02-19 07:27阅读：146来源：国知局

1.本发明涉及语音识别技术领域，尤其涉及一种离线语音增强方法及系统。

背景技术：

2.当下，智能设备的应用越来越普及，用户通过语音来控制智能设备，极大地丰富了用户的体验。其中，绝大多数智能设备的工作必须依赖于网络。在常见的应用场景中，智能设备连接到网络，通过网络将用户的语音上传至云端的语音识别系统，以获取在线识别的内容服务。一旦离开网络，这些智能设备的使用就会受到影响，给用户带来不好的使用体验。
3.然而，针对一些处于移动状态的智能设备，其在工作时并不易于接入网络，例如，布置在车辆上的语音交互设备。此时，在智能设备上设置离线语音交互方案，就显得十分必要。离线语音交互方案，即无需wifi、app，直接用本地指令集对设备进行操控的语音识别。
4.以布置在车辆上的语音交互系统为例，目前传统的离线语音识别方案，往往需要针对各车型的功能和业务特点做定制。即，需要语音交互系统提供商为各种车型做离线语法的定制、以及各种参数的调优，这势必会导致较大的投入成本和研发周期。
5.鉴于此，需要一种新的离线语音增强方案。

技术实现要素：

6.为此，本发明提供了一种离线语音增强方法及系统，以力图解决或至少缓解上面存在的至少一个问题。
7.根据本发明的一个方面，提供了一种确定离线语音识别的阈值参数的方法，包括步骤：利用预置的语法，生成语音测试集；基于语音测试集，获取音频信息；通过对所获取的音频信息进行测试，输出包含识别指标的测试结果；以及根据识别指标的测试结果，确定出离线语音识别的阈值参数。
8.可选地，根据本发明的方法还包括步骤：设置离线语法；对离线语法进行处理，得到预置的语法；以及利用预置的语法，生成语音测试集。
9.可选地，在根据本发明的方法中，设置离线语法的步骤包括：基于语法定制格式，生成定制语法；将定制语法与基础语法相融合，得到离线语法。
10.可选地，根据本发明的方法还包括步骤：基于语音测试集，在不同测试环境下得到实时录制的至少一条音频信息；将至少一条音频信息进行混音，作为所获取的音频信息。
11.可选地，根据本发明的方法还包括步骤：在通过对所获取的音频信息进行测试，输出包含识别指标的测试结果的步骤之前，校验所获取的音频信息的有效性。
12.可选地，根据本发明的方法还包括步骤：对所获取的音频信息进行识别，得到识别结果；基于测试配置与所述识别结果，确定不同阈值下对应的识别指标的测试结果。
13.可选地，在根据本发明的方法中，识别指标至少包含以下指标中的一个：识别率、拒识率、最大等待时长。
14.可选地，在根据本发明的方法中，测试环境至少包括以下环境中的一种：安静环境和噪音环境。
15.根据本发明的另一个方面，提供了一种离线语音增强方法，包括步骤：确定离线语音识别的阈值参数；在阈值参数下，对接收到的语音进行离线识别，得到增强后的识别结果。其中，阈值参数通过执行如上所述的确定离线语音识别的阈值参数的方法来确定。
16.根据本发明的再一个方面，提供了一种语音测试系统，包括：测试集生成单元，适于利用预置的语法，生成语音测试集；音频获取单元，适于基于语音测试集，获取音频信息；测试单元，适于通过对所获取的音频信息进行测试，输出包含识别指标的测试结果；以及阈值调节单元，适于根据识别指标的测试结果，确定出离线语音识别的阈值参数。
17.可选地，根据本发明的语音测试系统还包括语法定制单元，适于设置离线语法，并对离线语法进行处理，得到预置的语法。
18.可选地，在根据本发明的语音测试系统中，测试单元包括：识别子单元，适于对所获取的音频信息进行识别，得到识别结果；计算子单元，适于基于测试配置与识别结果，确定不同阈值下对应的识别指标的测试结果。
19.可选地，在根据本发明的语音测试系统中，测试单元还包括：校验子单元，适于校验所获取的音频信息的有效性。
20.根据本发明的再一个方面，还提供了一种语音增强系统，包括：如上所述的语音测试系统，适于确定离线语音识别的阈值参数；增强识别单元，适于在阈值参数下，对接收到的离线语音进行识别，得到增强后的识别结果。
21.根据本发明的再一个方面，提供了一种车辆，包括语音交互模块，语音交互模块包括：输入输出组件，适于接收用户的语音信息；如上所述的语音增强系统，适于根据预先设置的阈值参数，对用户的语音信息进行识别，得到增强后的识别结果。
22.根据本发明的再一个方面，提供了一种计算设备，包括：至少一个处理器；和存储有程序指令的存储器，其中，程序指令被配置为适于由至少一个处理器执行，程序指令包括用于执行如上所述任一方法的指令。
23.根据本发明的再一个方面，提供了一种存储有程序指令的可读存储介质，当程序指令被计算设备读取并执行时，使得计算设备执行如上所述的任一方法。
24.根据本发明的方案，通过提供定制语法来生成相应的语音测试集，并根据语音测试集，来确定出用于离线语音识别的阈值参数。在生成语音测试集和确定阈值参数的过程中，充分考虑各车型各自的特点，以实现车型与阈值参数的最佳匹配。一方面提高了离线语音增强效果，另一方面，上述过程可以由汽车生产厂商来完成，极大缩短了开发周期。
附图说明
25.为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。
26.图1示出了根据本发明一个实施例的车辆100的示意图；
27.图2示出了根据本发明一个实施例的计算设备200的示意图；
28.图3示出了根据本发明一个实施例的确定离线语音识别的阈值参数的方法300的流程示意图；
29.图4示出了根据本发明一个实施例的阈值参数与语音识别能力的关系图；
30.图5示出了根据本发明一个实施例的离线语音增强方法500的流程示意图。
具体实施方式
31.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
32.语音交互已成为目前各大车厂推出的智能网联车标配的人机交互功能。其中，离线语音是语音交互系统中的关键能力。根据本发明的实施方式，将离线语音增强作为语音交互系统可扩展和可定制的能力开放给厂商，厂商可自助地完成离线语音增强，无需语音交互系统提供商的干预。图1示出了根据本发明一个实施例的车辆100的示意图。
33.如图1所示，除基本的配置外，车辆100上还布置有语音交互模块110。该语音交互模块110可以接收用户发出的语音指示，并在对用户的语音指示进行识别后，向用户返回语音或非语音信息。在根据本发明的一种实施例中，该语音交互模块110又包括输入输出组件112和语音增强系统114。输入输出组件112通常会包括麦克风等语音输入单元和扬声器等语音输出单元，用以接收用户的语音信息、以及向用户返回语音信息。
34.语音增强系统114根据预先设置的阈值参数，对用户的语音信息进行识别，来得到增强后的识别结果。该阈值参数是离线asr(automatic speech recognition,自动语音识别)置信度的门限值。通常，置信度低于阈值的识别结果，被认为是不可信的。进一步地，该阈值参数可以是针对不同识别指标所得到的一个综合数值。识别指标可以是识别率、拒识率、最大等待时长等、或它们的任意组合，不限于此。
35.根据本发明的实施例，语音增强系统114中又包含了语音测试系统600和增强识别单元1144。语音测试系统600通过自动化测试方法，来确定出在车辆100上，离线语音识别的阈值参数。这样，增强识别单元1144就可以在该阈值参数下，对接收到的离线语音进行识别，来得到增强后的识别结果。
36.进一步地，语音测试系统600又包括相互耦接的测试集生成单元610、音频获取单元620、测试单元630、阈值调节单元640和语法定制单元650。
37.根据本发明的实施例，由语法定制单元650预先设置离线语法，并对离线语法进行处理，得到预置的语法。根据本发明的实施例，在设置离线语法时，语法定制单元650可以为厂商提供定制的语法。在一种实施例中，先基于业界通用的语法定制格式，生成定制语法。业界通用的语法定制格式例如可以是xbnf、jsgf，不限于此。以jsgf为例，其遵从java规范，如下示出了以jsgf方式进行加载的代码示例：
38.asrcommonrecorder.loadgrammar("grammartype＝jsgf",grammar,id)；
39.以下示例性地示出了分别以xbnf、jsgf格式来定制语法：“打开或关闭车窗”。
40.1)xbnf语法：
41.$local_control_win＝(打开|关闭)车窗；
42.2)jsgf语法：
43.public＝；＝(打开|关闭)车窗；
44.在生成定制语法后，将这些定制语法与基础语法相融合，就得到最终的离线语法。根据本发明的实施例，基础语法可以是厂商的原始系统所自带的，本发明的实施例对此不做限制。换言之，离线语法至少有两部分来源，一部分是原始系统自带的基础语法，一部分是根据所提供的语法格式来生成的定制语法。
45.之后，语法定制单元650调用asr引擎，对离线语法做离线识别的定向增强，以保证较理想的识别结果。经定向增强后的语法就作为预置的语法。
46.测试集生成单元610利用预置的语法，生成语音测试集。根据本发明的实施例，语音测试集包括集内的语音测试集和集外的语音测试集。其中，集内的语音测试集包括一些离线语法所支持范围内的句式；集外的语音测试集包括一些离线语法支持范围外的句式。
47.在根据本发明的一种实施例中，测试集生成单元610利用预置的语法，生成集内的语音测试集。同时，测试集生成单元610还自带有一部分默认的集外的语音测试集。语音测试集例如可以包括“打开车窗”“打开空调”“调节驾驶座位的靠背”“关闭后备箱”“加热座椅”等等。
48.音频获取单元620基于语音测试集，获取音频信息。
49.考虑到各车型的噪音特性以及收音设备的选型、位置、角度等，均会影响到离线语音的识别效果。根据本发明的实施方式，语音测试系统600在确认离线语音识别的阈值参数时，必须根据实车录音来进行调整。因此，音频获取单元620所获取的音频信息，是由输入输出组件112在不同测试环境下，根据语音测试集中的测试用例，进行实时录制所得的。可选地，测试环境主要包括安静的环境和典型的噪音环境。例如，可以在车辆内部无噪音(关闭车窗、关闭车内音乐等)的情况下，录制至少一条音频信息，作为对比，将车辆停在嘈杂的市场、城市道路停车区等充满噪音的环境中，再次录制这至少一条音频信息。
50.之后，音频获取单元620将得到的音频信息进行混音，作为所获取的音频信息。
51.测试单元630通过对所获取的音频信息进行测试，输出包含识别指标的测试结果。在根据本发明的实施例中，测试单元630中预存有测试配置(如不同阈值下所对应的识别指标的测试预期等)。当然，测试配置也可以从云端下发到测试单元630，不限于此。测试单元630调用语音api将录音路径传递给底层的语音识别引擎，由该语音识别引擎读取相应的音频信息、对其进行识别来得到识别结果、并将识别结果上报给测试单元630。这样，测试单元630基于测试配置与识别结果，就可以确定出不同阈值下对应的识别指标的测试结果。
52.在一种实施例中，语音交互模块110还可以包含用于输出显示的显示组件(图1未示出)，如触摸显示屏。这样，不同阈值下对应的识别指标的测试结果，可以通过显示组件以图表的形式显示出来。
53.在又一种实施例中，测试结果例如可以是识别准确、一般、差、很差，也可以按照百分制、十分制等进行打分，本发明的实施例对此不做限制。
54.具体地，测试单元630包括识别子单元632和计算子单元634。根据一种实施例，识别子单元632对所获取的音频信息进行识别，得到识别结果。计算子单元634基于测试配置与识别结果，确定不同阈值下对应的识别指标的测试结果。更进一步地，在对音频信息进行
测试时，还可以区分来自集内测试集的音频信息和来自集外测试集的音频信息，分别对它们进行测试，来得到测试结果。
55.在另一些实施例中，测试单元630还包括校验子单元636。在进行测试之前，先由校验子单元636校验所获取的音频信息的有效性。例如，校验音频信息的声道数量、1khz～3khz频段上的人声频率等，不限于此。
56.最后，根据识别指标的测试结果，阈值调节单元640确定出离线语音识别的阈值参数。
57.在一种实施例中，阈值调节单元640综合考量和平衡各识别指标，并得到最优的阈值参数。该最优的阈值参数可以兼顾各识别结果的测试结果，例如在保证识别率和拒识率都高的前提下，更注重识别率的效果(即，识别率的测试结果更高)。
58.在另一些实施例中，阈值调节单元640也可以根据各识别指标的测试结果，得到阈值参数与语音识别能力的关系图，来展示实车环境中不同阈值下离线语音识别的各项关键指标数据。除了上述得到阈值参数的方式外，还可以通过显示组件显示阈值与语音识别能力的关系表，以便于厂商根据该关系表中所展示的测试结果，再结合本车型关心的指标项，挑选出满足业务需求的阈值参数，作为所确定的阈值参数。
59.总之，在确定出阈值参数后，语音测试系统600将该阈值参数输出给增强识别单元1144，以便于厂商将该阈值参数作为定制项，设置到语音增强系统114中。之后，车辆100在离线语音识别时，就在该阈值参数下对所接收到的语音进行离线asr识别，得到增强后的识别结果。关于asr识别，典型的方法例如可以是：基于声道模型和语音知识的方法、模板匹配的方法以及利用神经网络的方法等，本发明的实施例对采用何种asr技术进行语音识别并不做过多限制。另外，在通过asr技术进行离线语音识别时，还可以包括对语音指令的一些预处理操作，如：采样、量化、去除不包含语音内容的语音数据(如，静默的语音数据)、对语音数据进行分帧、加窗等处理，等等。本发明的实施例在此处不做过多展开。
60.根据本发明的语音增强系统114，通过语音测试系统600来对测试用的语音集进行识别，从而确定出离线语音识别的阈值参数。将该阈值参数设置到增强识别单元1144中，就可以在该阈值参数下进行离线语音识别，得到符合预期的识别结果。整个过程流程简单明了，测试用的语音集根据预置的语法来进行相应的录音得到。而预置的语法根据厂商的定制离线语法和基础离线语法融合得到。在整个测试过程中，如生成语音测试集、得到包含各识别指标的测试结果、确定最优的阈值参数等，都交由布置在车辆100中的测试系统600自动化完成，不仅实现了车型与阈值参数等的最优匹配，也极大地减轻了厂商的开发和调试工作量，缩短了研发周期。
61.应当了解，上述布置在车辆100中的语音交互模块110，亦可以布置在其它需要进行语音交互的场景中，如家庭、商场、机场、工厂、矿场、医院等。语音交互模块110可以是一个独立的智能设备(如，智能音箱)，也可以集成在可移动的智能设备(如，移动电话、平板)中，本发明的实施例对此均不作限制。
62.语音增强系统114根据预先设置的阈值参数，对用户的语音信息进行识别，来得到增强后的识别结果。如前文所述，语音增强系统114中又包含了语音测试系统600和增强识别单元1144。语音测试系统600又包括相互耦接的测试集生成单元610、音频获取单元620、测试单元630、阈值调节单元640和语法定制单元650。
63.根据本发明的实施例，由语法定制单元650预先设置离线语法，并对离线语法进行处理，得到预置的语法。在一种实施例中，先基于业界通用的语法定制格式，生成定制语法；在生成定制语法后，将这些定制语法与基础语法相融合，就得到最终的离线语法。根据本发明的实施例，在公共场所(如机场、车站、商场等)的使用场景中，定制的语法可以与使用场景相关，如，public＝；＝(打开|关闭)导航；
64.基础语法可以是语音交互模块110系统自带的。
65.之后，语法定制单元650调用asr引擎，对离线语法做离线识别的定向增强，以保证较理想的识别结果。经定向增强后的语法就作为预置的语法。
66.测试集生成单元610利用预置的语法，生成语音测试集。如前文所述，语音测试集包括集内的语音测试集和集外的语音测试集。在公共场所(如机场、车站、商场等)的使用场景中，语音测试集例如可以包括“开始导航”“开始录音”“查询天气预报”“定位”等等。
67.音频获取单元620基于语音测试集，获取音频信息。同样，考虑到环境信息对离线语音的识别效果的影响，例如，在家庭环境中，环境噪声远低于商场、机场、车站等公共场所；又如，在工厂、矿场等环境中以机器运转的噪声为主，而在医院、商场等环境中以人声为主。根据本发明的实施方式，语音测试系统600在确认离线语音识别的阈值参数时，必须在不同的测试环境下，根据语音测试集中的测试用例，进行实时录制。
68.之后，音频获取单元620将得到的音频信息进行混音，作为所获取的音频信息。
69.测试单元630通过对所获取的音频信息进行测试，输出包含识别指标的测试结果。在根据本发明的实施例中，测试单元630中预存有测试配置(如不同阈值下所对应的识别指标的测试预期等)。当然，测试配置也可以从云端下发到测试单元630，不限于此。测试单元630调用语音api将录音路径传递给底层的语音识别引擎，由该语音识别引擎读取相应的音频信息、对其进行识别来得到识别结果、并将识别结果上报给测试单元630。这样，测试单元630基于测试配置与识别结果，就可以确定出不同阈值下对应的识别指标的测试结果。关于测试单元630更具体地说明，可参考前文相关描述，篇幅所限，此处不做展开。
70.最后，根据识别指标的测试结果，阈值调节单元640确定出离线语音识别的阈值参数。同样，关于阈值调节单元640更具体地说明，亦可参考前文相关描述，此处不再展开。
71.在确定出阈值参数后，语音测试系统600将该阈值参数输出给增强识别单元1144，以便于厂商将该阈值参数作为定制项，设置到语音增强系统114中。之后，语音交互模块110在离线语音识别时，就在该阈值参数下对所接收到的语音进行离线asr识别，得到增强后的识别结果。
72.根据本发明的语音交互模块110，通过语音测试系统600来对测试用的语音集进行识别，从而确定出离线语音识别的阈值参数。将该阈值参数设置到增强识别单元1144中，就可以在该阈值参数下进行离线语音识别，得到符合预期的识别结果。基于语音测试系统600，自动完成生成语音测试集、得到包含各识别指标的测试结果、确定最优的阈值参数等，不仅实现了使用环境与阈值参数等的最优匹配，也极大地减轻了厂商的开发和调试工作量，缩短了研发周期。
73.需要说明的是，此处关于语音交互模块110的具体描述，可参考上文车辆100中的描述，此处不做赘述。
74.根据本发明的实施方式，语音交互模块110可以通过如下所述的计算设备200来实
现。图2示出了根据本发明一个实施例的计算设备200的示意图。
75.如图2所示，在基本的配置202中，计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
76.取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μp)、微控制器(μc)、数字信息处理器(dsp)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(alu)、浮点数单元(fpu)、数字信号处理核心(dsp核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。
77.取决于期望的配置，系统存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如ram)、非易失性存储器(诸如rom、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。在一些实施方式中，应用222可以布置为在操作系统上由一个或多个处理器204利用程序数据224执行指令。
78.计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个a/v端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个i/o端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。
79.网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(rf)、微波、红外(ir)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
80.计算设备200可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和web服务器等，也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。当然，计算设备200也可以实现为小尺寸便携(或者移动)电子设备的一部分。在根据本发明的实施例中，计算设备200被配置为执行根据本发明的识别目标区域的方法300和/或监控方法500。计算设备200的应用222中包含执行这些方法的多条程序指令。
81.图3示出了根据本发明一个实施例的确定离线语音识别的阈值参数的方法300的流程示意图。方法300在上述语音交互模块110、尤其是语音测试系统600中执行，如图3所述，方法300始于步骤s310。
82.在步骤s310中，利用预置的语法，生成语音测试集。
83.在根据本发明的实施例中，步骤s310可以按照如下方式来执行。
84.首先，设置离线语法。如前文中针对测试集生成单元610的相关描述，离线语法至少包括两种：一种是厂商提供的定制语法，另一种是一些离线语音识别自带的基础语法。故，在设置离线语法时，先基于语法定制格式(如jsgf)，生成定制语法，再将定制语法与基础语法相融合，得到离线语法。
85.然后，对所设置的离线语法进行处理，得到预置的语法。在一种实施例中，将离线语法发送至asr引擎做离线识别的定向增强，以保证较理想的识别结果。经定向增强后的语法就作为预置的语法，
86.之后，利用预置的语法，生成语音测试集。语音测试集中包含了多条用于测试的语音用例，包括集内测试集和集外测试集。
87.以下示出一些集内语音用例和集外语音用例的示例。
88.集内测试集：
89.{打开音乐，
90.关闭天窗，
91.打开空调，
92.……
}
93.集外测试集：
94.{今天天气，
95.股票行情，
96.……
}
97.关于语音测试集的更多描述，可参考前文中对测试集生成单元610的说明。此外，如前文所示例的那样，当语音交互模块110置于车辆100之外的其它场景中时，语音测试集也可以根据场景进行设置，此处不再展开赘述。
98.随后在步骤s320中，基于语音测试集，获取音频信息。
99.根据本发明的实施方式，先基于语音测试集，在不同测试环境(如基本无噪音的安静的测试环境、有噪音的嘈杂的测试环境等，亦或是不同的应用场景)下得到实时录制的至少一条音频信息。其次，将这至少一条音频信息进行混音，作为所获取的音频信息。
100.在一种实施例中，将语音测试集中的每条语音用例，与对应录制的不同测试环境下的音频信息相关联，以便于后期对识别结果的处理。
101.随后在步骤s330中，通过对所获取的音频信息进行测试，输出包含识别指标的测试结果。
102.根据本发明的一些实施例，在对所获取的音频信息进行测试之前，要先校验所获取的音频信息的有效性。在一种实施例中，对音频信息的校验包括校验音频信息的声道数量、1khz～3khz频段上的人声频率等录音属性参数，不限于此。
103.对音频信息进行测试的过程，可以分如下两步。
104.第一步，对所获取的音频信息进行识别，得到识别结果。在一种实施例中，调用语音识别引擎来对所获取的音频信息进行识别，得到识别结果。
105.第二步，基于测试配置与识别结果，确定不同阈值下对应的识别指标的测试结果。测试配置例如可以是不同阈值下所对应的识别指标的测试预期等。测试配置可以预先设置，本发明的实施例对此不做限制。
106.在一种实施例中，测试结果例如可以是识别准确、一般、差、很差，也可以按照百分制、十分制等进行打分，本发明的实施例对此不做限制。通常，识别结果越接近于测试预期，就认为测试结果越好，对应的分值也会越高。
107.此外，识别指标至少包含以下指标中的一个：识别率、拒识率、最大等待时长。
108.其中，识别率指，使用集内测试集测试得到的识别句准率，可以通过公式(1)来计算：
109.识别率＝100％*句准数/测试集总数
ꢀꢀꢀ
(1)
110.拒识率指，使用集外测试集测试得到的结果落在集外的概率，一般理解为不应该被接受的结果实际被拒绝的概率。可以通过公式(2)来计算：
111.拒识率＝1-100％*识别结果落在集内的句数/测试集总数
ꢀꢀꢀ
(2)
112.最大等待时长指，识别出一个音频信息所需的最长识别时间。
113.随后在步骤s340中，根据识别指标的测试结果，确定出离线语音识别的阈值参数。
114.在一种实施例中，综合考量和平衡各识别指标，并得到最优的阈值参数。该最优的阈值参数可以兼顾各识别结果的测试结果，使得各识别结果的测试结果都尽可能接近测试预期。例如识别率和拒识率尽量高、且最大等待时长尽量短。
115.在另一些实施例中，可以根据各识别指标的测试结果，得到阈值参数与语音识别能力的关系图，来展示实车环境中不同阈值下离线语音识别的各项关键指标数据。
116.如图4，示意性地示出了根据本发明一个实施例的阈值参数与语音识别能力的关系图。其中，横坐标表示不同阈值，纵坐标表示语音识别能力(图4中采用0～1区间中的值，来表示语音识别能力，值越大表示语音识别能力越好)。为便于区分显示，用两种不同的线型来分别表示识别率和拒识率的结果，如图4所示。从图4中可以看出，当阈值参数的取值在70附近时，拒识率和识别率均较为理想，语音识别能力好。应当指出，图4仅作为示例，并不限制本发明实施例对阈值参数的确定。
117.需要说明的是，厂商也可以根据该关系图中所展示的测试结果，结合本车型关心的指标项，挑选出满足业务需求的阈值参数，作为所确定的阈值参数。
118.应当理解，上述针对图1和图3所描述的语音交互模块110和确定阈值参数的方法300，两者内容互为补充，且篇幅所限，重复部分不再进行赘述。
119.进一步地，本公开还提供了一种离线语音增强方法，适于在如上所述的语音交互模块110、尤其是增强识别单元1144中执行。图5示出了根据本发明一个实施例的离线语音增强方法500的流程示意图。如图5所示，方法500始于步骤s510。
120.在步骤s510中，确定离线语音识别的阈值参数。
121.在根据本发明的一种实施例中，阈值参数通过执行如上所述的方法300来确定，可参考前文相关描述，此处不再展开赘述。
122.随后在步骤s520中，在所确定的阈值参数下，对接收到的语音进行离线识别，得到增强后的识别结果。需要说明的是，在确定出阈值参数的情况下，本发明的实施例对具体采用何种asr技术进行离线语音识别并不做过多限制，例如利用神经网络的方法。
123.根据本发明的离线语音增强方法500，加入厂商在车辆100上定制了“打开音乐”这个离线语法，那么经方法500处理后，针对用户语音——“打开音乐”，被识别为“打开音乐”并被成功采用的概率就大大增加，同时，被识别为“打开音乐”以外的其它文本(如“打开天
窗”)并被采用的概率也会大大降低。由此可见，根据本发明的方案，离线语音识别的效果很好。
124.根据本发明的方案，通过提供定制语法来生成相应的语音测试集，并根据语音测试集，来确定出用于离线语音识别的阈值参数。在生成语音测试集和确定阈值参数的过程中，充分考虑各车型各自的特点，以实现车型与阈值参数的最佳匹配。一方面提高了离线语音增强效果，另一方面，上述过程可以由汽车生产厂商来完成，极大缩短了开发周期。
125.此外，如前文所描述，在诸如家庭、商场、机场、工厂、矿场、医院等需要进行语音交互的其它场景中，基于本发明的方案，能够充分考虑环境信息对离线语音的识别效果的影响，实现使用场景与阈值参数的最佳匹配。
126.这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、u盘、软盘、cd-rom或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。
127.在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的方法。
128.以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
129.在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
130.在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。
131.类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。
132.本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备
不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
133.本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
134.此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
135.此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。
136.如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
137.尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李兴伟;袁志俊;王恺;李想
技术所有人：斑马智行网络(香港)有限公司
我是此专利的发明人

上一篇：一种制备新型聚羧酸纳米晶核型早强减水复合剂的方法与流程
上一篇：落地式空调室内机和空调器的制作方法