混合多语种导航语音指令处理方法、装置以及电子设备与流程

文档序号：34120709发布日期：2023-05-11 04:03阅读：77来源：国知局

本发明涉及语音交互，尤其涉及一种混合多语种导航语音指令处理方法、装置以及电子设备。

背景技术：

1、当前智能语音技术已经全面普及，语音产品广泛应用于智能家具、移动设备、车载领域。其中，用户在海外导航场景下的语音交互过程中，经常会出现主体语言和地名语言不一致的情况，例如英语+当地语言说“导航xx地名”的情况，比如“navigate to(英语)краснуюплощать(俄语)”等此类混合多语种涉及导航的语音指令，而现有的语音助手类产品通常无法准确识别此类场景下的语音指令，导致对用户导航意图的理解出现偏差。

2、目前针对上述特定场景下的特定问题，现有技术在原理上多是在原始的发音词典构建基础上，综合考虑几种混合语言的发音习惯，这个过程还需要搜集大量的音频标注数据，并且在模型训练层面也需要进行较大规模的参数调整。

3、但是由于语种之间的差异导致发音词典构建多语言依然存在局限性，尤其是针对多国家多地名此类千万量级的数据识别支持能力并不能符合预期。

技术实现思路

1、鉴于上述，本发明旨在提供一种混合多语种导航语音指令处理方法、装置以及电子设备，以解决混合多语种的导航语音指令采用现有构建发音词典并进行模型调整产生的弊端。

2、本发明采用的技术方案如下：

3、第一方面，本发明提供了一种混合多语种导航语音指令处理方法，其中包括：

4、在导航场景下，预先确定用户当前所在的国家或地区；

5、将用户输入的语音指令切割为地名段及非地名段；

6、调用与用户当前所在的国家或地区匹配的语音处理策略，对所述地名段对应的语音指令进行识别；

7、结合所述地名段以及所述非地名段二者的识别结果进行导航意图理解。

8、在其中至少一种可能的实现方式中，所述预先确定用户当前所在的国家或地区包括：从导航地图中获取对应于国境线或地区界线的电子围栏信息。

9、在其中至少一种可能的实现方式中，所述处理方法还包括：利用用户的位置信息更新获取到的所述电子围栏信息；或者，根据用户的位置信息、移动速度信息、与电子围栏的距离信息，动态调整获取所述电子围栏信息的周期。

10、在其中至少一种可能的实现方式中，将用户输入的语音指令切割为地名段及非地名段包括：

11、采用对语音识别内容进行语义理解的方式进行切割，或者采用对语音识别内容进行分类的方式进行切割，或者利用语音指令在音频维度上的差异进行切割。

12、在其中至少一种可能的实现方式中，在对所述地名段对应的语音指令进行识别后，判断识别结果是否满足预设的置信度要求，若否，则采用与所述非地名段相同的语音处理算法对所述地名段对应的语音指令进行识别。

13、在其中至少一种可能的实现方式中，在对所述地名段对应的语音指令进行识别后，当判断识别结果无法对应当前所在国家或地区的地名时，对识别结果进行纠正并提供纠正后的若干个接近识别结果的地名供用户确认。

14、在其中至少一种可能的实现方式中，所述处理方法还包括：在进行地名段与非地名段切割之前，检测用户输入的语音指令中是否包含地名，若否，则直接采用与主体语言对应的语音处理策略对输入的完整语音指令进行识别及意图理解。

15、第二方面，本发明提供了一种混合多语种导航语音指令处理装置，其中包括：

16、所在区域判定模块，用于在导航场景下，预先确定用户当前所在的国家或地区；

17、指令切割模块，用于将用户输入的语音指令切割为地名段及非地名段；

18、地名识别模块，用于调用与用户当前所在的国家或地区匹配的语音处理策略，对所述地名段对应的语音指令进行识别；

19、导航意图理解模块，用于结合所述地名段以及所述非地名段二者的识别结果进行导航意图理解。

20、第三方面，本发明提供了一种电子设备，其中包括：

21、一个或多个处理器、存储器以及一个或多个计算机程序，所述存储器可以采用非易失性存储介质，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

22、本发明的主要构思在于，在导航场景下预先确定用户当前所在的国家或地区，用户输入语音指令后，将指令切割为地名段及非地名段，调用与用户当前所在的国家或地区匹配的语音处理策略，对其中的地名段所对应的语音指令进行识别，最后结合地名段以及非地名段二者的识别结果进行导航意图理解。通过对当前所在国家或地区的判定替代常规的定位思路，从而可以预先确定匹配当地语种的语音处理策略，并通过对输入语音的切割，可以对输入的混合多语种的语音指令进行针对性的识别处理，从而提供更为可靠且精准的导航意图理解结果。本发明无需耗费成本构建词典，也不需要对已有模型进行大量参数调整，能够更为经济、高效地处理导航场景中出现混合语种的情况。

技术特征：

1.一种混合多语种导航语音指令处理方法，其特征在于，包括：

2.根据权利要求1所述的混合多语种导航语音指令处理方法，其特征在于，所述预先确定用户当前所在的国家或地区包括：从导航地图中获取对应于国境线或地区界线的电子围栏信息。

3.根据权利要求2所述的混合多语种导航语音指令处理方法，其特征在于，所述处理方法还包括：利用用户的位置信息更新获取到的所述电子围栏信息；或者，根据用户的位置信息、移动速度信息、与电子围栏的距离信息，动态调整获取所述电子围栏信息的周期。

4.根据权利要求1所述的混合多语种导航语音指令处理方法，其特征在于，将用户输入的语音指令切割为地名段及非地名段包括：

5.根据权利要求1所述的混合多语种导航语音指令处理方法，其特征在于，在对所述地名段对应的语音指令进行识别后，判断识别结果是否满足预设的置信度要求，若否，则采用与所述非地名段相同的语音处理算法对所述地名段对应的语音指令进行识别。

6.根据权利要求1所述的混合多语种导航语音指令处理方法，其特征在于，在对所述地名段对应的语音指令进行识别后，当判断识别结果无法对应当前所在国家或地区的地名时，对识别结果进行纠正并提供纠正后的若干个接近识别结果的地名供用户确认。

7.根据权利要求1～6任一项所述的混合多语种导航语音指令处理方法，其特征在于，所述处理方法还包括：在进行地名段与非地名段切割之前，检测用户输入的语音指令中是否包含地名，若否，则直接采用与主体语言对应的语音处理策略对输入的完整语音指令进行识别及意图理解。

8.一种混合多语种导航语音指令处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机数据存储介质，其特征在于，所述计算机数据存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得计算机执行权利要求1～7任一项所述的混合多语种导航语音指令处理方法。

技术总结
本发明公开了一种混合多语种导航语音指令处理方法、装置以及电子设备，预先确定用户当前所在国家或地区，将用户输入语音指令切割为地名段及非地名段，调用与所在国家或地区匹配的语音处理策略对地名段所对应的语音指令进行识别，最后结合地名段及非地名段二者的识别结果进行导航意图理解。通过对当前所在国家或地区的判定替代常规的定位，从而可以预先确定匹配当地语种的语音处理策略，并通过对输入语音的切割，可以对混合多语种的语音指令进行针对性的识别处理，从而提供更为可靠且精准的导航意图理解结果。本发明无需耗费成本构建词典，也无需对已有模型进行大量参数调整，能够更为经济、高效地处理导航场景中出现混合语种的情况。

技术研发人员：张睿智,雷琴辉,刘俊峰
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张睿智雷琴辉刘俊峰
技术所有人：合肥智能语音创新发展有限公司
我是此专利的发明人

上一篇：一种片式电阻正面电极浆料及其制备方法及片式电阻与流程
上一篇：整形装置的制作方法