语音仲裁方法、装置、电子设备及存储介质与流程

文档序号：33393557发布日期：2023-03-08 12:13阅读：98来源：国知局

1.本发明涉及智能座舱技术领域，更具体地，涉及一种语音仲裁方法、一种语音仲裁装置、一种电子设备以及一种存储介质。

背景技术：

2.智能化作为新能源汽车的重点方向之一，依托新的技术架构，车机达到了新的智能化水平。其中，语音交互作为新一代智能座舱最重要的交互入口，交互的便捷性、友好性、准确性和丰富性需要持续的提升和完善。
3.目前，针对部分用户发出的语音指令，其中的语音信号可能存在多种意图。例如，用户说“播放电台情歌”，此时语义存在多种可能。例如，“播放歌曲《电台情歌》”和“播放《情歌》电台”。传统的语音仲裁方法大多通过神经网络算法进行处理后，将指令分发给对应的车控或多媒体模块，由相应模块执行。而神经网络算法能够解决大部分车机语音交互场景下的语音仲裁问题，但由于其是基于固定的逻辑规则进行推理，存在部分场景下无法执行用户发出的语音指令所对应的操作，以达到用户预期效果的问题。
4.因此，亟需一种新的技术方案以解决上述技术问题。

技术实现要素：

5.在发明内容部分中引入了一系列简化形式的概念，这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征，更不意味着试图确定所要求保护的技术方案的保护范围。
6.第一方面，本发明提出一种语音仲裁方法，包括：获取语音信号，并判断语音信号是否需要进行仲裁；对于语音信号需要进行仲裁的情况，基于资源匹配对语音信号进行仲裁处理，以获得仲裁结果；基于仲裁结果下发对应的指令并执行相关操作；对于语音信号不需要进行仲裁的情况，下发语音信号并执行语音信号对应的操作。
7.可选地，对于语音信号需要进行仲裁的情况，基于资源匹配对语音信号进行仲裁处理，以获得仲裁结果，包括：基于神经网络算法对语音信号进行第一仲裁处理，以输出第一仲裁结果，其中，第一仲裁结果包括语音信号所属垂类信息。
8.可选地，对于语音信号需要进行仲裁的情况，基于资源匹配对语音信号进行仲裁处理，以获得仲裁结果，还包括：基于第一仲裁结果，在语音信号所属的每个垂类中分别进行资源匹配；对于其中一个垂类匹配成功的情况，输出匹配成功的垂类信息作为仲裁结果；对于资源匹配失败或多个垂类匹配成功的情况，判断语音信号所属垂类的应用的运行情况，并基于运行情况，获得对应的第二仲裁结果。
9.可选地，基于仲裁结果下发对应的指令并执行相关操作，包括：基于匹配成功的垂类信息，向对应的垂类中下发语音信号并执行相关操作。
10.可选地，基于仲裁结果下发对应的指令并执行相关操作，包括：对于第二仲裁结果表示语音信号所属垂类的一个应用处于运行状态的情况，向当前运行应用下发语音信号并
执行相关操作；对于第二仲裁结果表示语音信号所属垂类的所有应用均未处于运行状态的情况，忽略语音信号。
11.可选地，获取语音信号，并判断语音信号是否需要进行仲裁，包括：针对语音信号中的语音进行语义理解，并基于语义理解结果判断语音信号是否需要进行仲裁。
12.可选地，资源匹配通过多媒体资源库实现，多媒体资源库通过网络实时更新。
13.第二方面，还提出了一种语音仲裁装置，包括：
14.接收判断模块，用于获取语音信号，并判断语音信号是否需要进行仲裁；
15.仲裁模块，用于对于语音信号需要进行仲裁的情况，基于资源匹配对语音信号进行仲裁处理，以获得仲裁结果；
16.第一执行模块，用于基于仲裁结果下发对应的指令并执行相关操作；
17.第二执行模块，用于对于语音信号不需要进行仲裁的情况，下发语音信号并执行语音信号对应的操作。
18.第三方面，还提出了一种电子设备，包括处理器和存储器，其中，存储器中存储有计算机程序指令，计算机程序指令被处理器运行时用于执行如上所述的语音仲裁方法。
19.第四方面，还提出了一种存储介质，在存储介质上存储了程序指令，程序指令在运行时用于执行如上所述的语音仲裁方法。
20.根据上述技术方案，在获取语音信号之后，首先判断该语音信号是否需要进行仲裁处理，对于不需要仲裁处理的情况，直接根据语音信号下发对应指令并执行相关操作。反之，对于需要仲裁处理的情况，可以首先对该语音信号进行仲裁处理，以获得仲裁结果，之后基于仲裁结果下发对应的指令并执行相关操作。由此，可以以灵活的逻辑规则对用户发出的语音信号进行合理推理，以获得更优的执行结果，满足用户的心理预期，提升用户使用体验。
21.本发明的语音仲裁方法，本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
22.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本说明书的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
23.图1示出了根据本发明一个实施例的语音仲裁方法的示意性流程图；
24.图2示出了根据本发明一个实施例的对于语音信号需要进行仲裁的情况对语音信号进行仲裁处理以获得仲裁结果的示意性流程图；
25.图3示出了根据本发明另一个实施例的语音仲裁方法的示意性流程图；
26.图4示出了根据本发明一个实施例的语音仲裁装置的示意性框图；以及
27.图5示出了根据本发明一个实施例的电子设备的示意性框图。
具体实施方式
28.根据上述技术方案，在获取语音信号之后，首先判断该语音信号是否需要进行仲裁处理，对于不需要仲裁处理的情况，直接根据语音信号下发对应指令并执行相关操作。反
之，对于需要仲裁处理的情况，可以首先对该语音信号进行仲裁处理，以获得仲裁结果，之后基于仲裁结果下发对应的指令并执行相关操作。由此，可以以灵活的逻辑规则对用户发出的语音信号进行合理推理，以获得更优的执行结果，满足用户的心理预期，提升用户使用体验。
29.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。
30.根据本发明的第一方面，提出了一种语音仲裁方法。图1示出了根据本发明一个实施例的语音仲裁方法100的示意性流程图。如图1所示，方法100可以包括以下步骤。
31.步骤s110，获取语音信号，并判断语音信号是否需要进行仲裁。
32.可选地，可以利用车机端任意电子设备的声音采集设备(例如麦克风)接收到用户发出的语音信号，并通过模拟/数字转换电路进行转换，以将模拟信号即语音信号转换为电子设备能够识别和处理的数字信号。优选地，可以对语音信号进行预处理。预处理可以包括滤波、分帧等处理。例如，首先针对一个语音信号进行滤波与采样，由此减小除人体发声以外的其他频率的信号的干扰。可以首先提取到其中的语音，并针对所提取到的语音进行语义理解。任何现有的或未来的可以实现语义理解的技术方案均在本技术的保护范围之内。基于对语音信号的语义理解结果，判断该语音信号是否需要进行仲裁处理。可以理解，需要进行仲裁处理可以是指基于该语音信号无法准确执行一个操作，换言之，该语音信号可以指向多种意图，因此需要对其进行仲裁处理。
33.步骤s120，对于语音信号需要进行仲裁的情况，基于资源匹配对语音信号进行仲裁处理，以获得仲裁结果。
34.如前所述，若语音信号可以指向多种意图，即基于该语音信号可能执行多种操作，例如，用户说“播放电台情歌”，通过语义理解，可以表示“播放歌曲《电台情歌》”或“播放《情歌》电台”。因此，需要对语音信号进行仲裁。可选地，可以利用资源匹配算法对语音信号进行仲裁，其中，资源匹配可以指将语音信号所属垂类与多媒体资源库相匹配的过程。可以理解，根据不同的匹配结果可以获得不同的仲裁结果。
35.步骤s130，基于仲裁结果下发对应的指令并执行相关操作。
36.根据前述步骤s120获得的仲裁结果可以下发与仲裁结果相对应的指令，并基于该指令执行相关操作。
37.步骤s140，对于语音信号不需要进行仲裁的情况，下发语音信号并执行语音信号对应的操作。
38.若通过步骤s110判断确定语音信号不需要进行仲裁，则可以根据对该语音信号进行语义理解的结果下发该语音信号所对应的指令，并执行该指令所对应的操作。
39.根据上述技术方案，在获取语音信号之后，首先判断该语音信号是否需要进行仲裁处理，对于不需要仲裁处理的情况，直接根据语音信号下发对应指令并执行相关操作。反之，对于需要仲裁处理的情况，可以首先对该语音信号进行仲裁处理，以获得仲裁结果，之后基于仲裁结果下发对应的指令并执行相关操作。由此，可以以灵活的逻辑规则对用户发出的语音信号进行合理推理，以获得更优的执行结果，满足用户的心理预期，提升用户使用体验。
40.在一个实施例中，步骤s120对于语音信号需要进行仲裁的情况，对语音信号进行仲裁处理，以获得仲裁结果可以包括：基于神经网络算法对语音信号进行第一仲裁处理，以输出第一仲裁结果，其中，第一仲裁结果包括语音信号所属垂类信息。
41.可以理解，神经网络算法作为基于规则的语音仲裁处理的结果而获得的训练数据来对神经网络语音仲裁应用进行训练，在输入语音信号后，基于该神经网络算法可以输出该语音信号所属垂类信号。其中，对于一个语音信号而言，其可能属于多个垂类，也可能属于一个垂类。仍以语音信号是“播放电台情歌”为例，经过神经网络算法计算确定其可以属于歌曲垂类，也可以属于电台垂类。因此，在该实施例中，输出的第一仲裁结果包括歌曲垂类信号和电台垂类信息这两种。
42.神经网络算法简单容易实现，且可以获得准确的垂类信号，为后续方案的有效执行提供了可靠的保障。
43.图2示出了根据本发明一个实施例的步骤s120对于语音信号需要进行仲裁的情况对语音信号进行仲裁处理以获得仲裁结果的示意性流程图。如图2所示，步骤s120可以包括以下步骤。
44.步骤s121,基于第一仲裁结果，在语音信号所属的每个垂类中分别进行资源匹配。
45.根据上述垂类结果，可以在语音信号所属的每个垂类中分别进行资源匹配。在该实施例中，即可以在歌曲垂类中和电台垂类中分别进行资源匹配。优选地，资源匹配可以通过多媒体资源库实现，多媒体资源库通过网络实时更新。由此可以保证资源匹配结果的实时性和有效性，保证了语音信号所对应的指令可以准确执行。具体地，可以在歌曲对应的多媒体资源库中查找与《电台情歌》相匹配的资源，同时，还可以在电台对应的多媒体资源库中查找与《情歌》相匹配的资源。
46.步骤s122，对于其中一个垂类匹配成功的情况，输出匹配成功的垂类信息作为仲裁结果。
47.若通过上述资源匹配，可以确定其中一个垂类匹配成功，例如歌曲垂类匹配成功，则可以将歌曲垂类作为仲裁结果并输出。替代地，若电台垂类匹配成功，则可以将电台垂类作为仲裁结果并输出。
48.在步骤s122对应的实施例中，步骤s130基于仲裁结果下发对应的指令并执行相关操作可以包括：基于匹配成功的垂类信息，向对应的垂类中下发语音信号并执行相关操作。
49.在这个实施例中，仲裁结果表示匹配成功的垂类信息为歌曲垂类，则可以向歌曲垂类下发语音信号“播放电台情歌”，即所对应的操作是播放《电台情歌》这首歌曲。替代地，若电台垂类匹配成功，则可以将电台垂类作为仲裁结果并输出，即，仲裁结果表示语音信号“播放电台情歌”所对应的操作是播放《情歌》这个电台。
50.步骤s123，对于资源匹配失败或多个垂类匹配成功的情况，判断语音信号所属垂
类的应用的运行情况，并基于运行情况，获得对应的第二仲裁结果。
51.若根据上述步骤s121进行资源匹配确定没有一个垂类匹配成功或多个垂类均匹配成功的情况，可以判断该语音信号所属垂类的应用的运行情况，仍以歌曲垂类和电台垂类为例进行描述。若通过上述资源匹配可以确定这两个垂类均未匹配成功，或者两个垂类均匹配成功，那么进一步地，可以判断该语音信号所属垂类的应用的运行情况。在该实施例中，可以判断播放歌曲的应用的运行情况以及播放电台的应用的运行情况。并根据应用的不同运行情况获得第二仲裁结果。
52.可以理解，步骤s122和步骤s123仅为在资源匹配结果不同的情况下执行的不同步骤，二者没有执行上的先后顺序。
53.由此，在神经网络算法的基础上，加入基于资源匹配的判断逻辑，此逻辑可以根据音乐、电台、视频等多媒体垂类的资源库进行实时更新，使得语音仲裁能够满足绝大多数场景下的语音交互，有效解决了语音仲裁误入的问题，提升了仲裁结果的准确性，同时满足了用户的语音交互需求，交互结果准确可靠，提升用户的使用体验。
54.在步骤s123对应的实施例中，步骤s130基于仲裁结果下发对应的指令并执行相关操作可以包括：对于第二仲裁结果表示语音信号所属垂类的一个应用处于运行状态的情况，向当前运行应用下发语音信号并执行相关操作；对于第二仲裁结果表示语音信号所属垂类的所有应用均未处于运行状态的情况，忽略语音信号。
55.可以理解，若语音信号所属垂类的一个应用当前处于运行状态，可以在前述未有资源库匹配成功或多个匹配成功的情况下，将该当前运行的应用确定为将要执行语音信号对应指令的应用。具体地，若当前播放歌曲的应用处于运行状态，那么在歌曲垂类和电台垂类均未匹配或均匹配成功的情况下，可以向该播放歌曲的应用下发指令并播放歌曲《情歌电台》。替代地，若语音信号所属垂类的所有应用均未处于运行状态时，可以忽略该语音信号，即将该语音信号视为无效语音指令，车机端不进行任何操作。
56.由此，可以对语音仲裁结果的准确性和可靠性进行进一步地保障，避免仲裁结果错误而导致用户不想执行的操作被执行，影响用户使用体验。
57.图3示出了根据本发明另一个实施例的语音仲裁方法的示意性流程图。如图3所示，首先接收语音信号并进行语义理解，其次判断该语音信号是否需要进行仲裁，对于不需要进行仲裁的情况，直接下发语音信号并执行该语音信号对应的操作；对于需要进行仲裁的情况，首先对语音信号进行神经网络算法处理，输出第一仲裁结果，接着，基于第一仲裁结果进行垂类资源匹配，并根据匹配情况执行不同的操作。具体地，对于其中一个垂类匹配成功的情况，向该匹配成功的垂类下发语音信号所对应的指令并执行相关操作，反之，若没有垂类匹配成功或多个垂类匹配成功，则进一步判断语音信号所属垂类的应用的运行情况或匹配成功的垂类的应用的运行情况，基于运行状态执行不同的操作。
58.根据本发明的第二方面，还提供了一种语音仲裁装置。图4示出了根据本发明一个实施例的语音仲裁装置400的示意性框图。如图4所示，装置400可以包括接收判断模块410、仲裁模块420、第一执行模块430以及第二执行模块440。
59.接收判断模块410用于获取语音信号，并判断语音信号是否需要进行仲裁。
60.仲裁模块420用于对于语音信号需要进行仲裁的情况，对语音信号进行仲裁处理，以获得仲裁结果。
61.第一执行模块430用于基于仲裁结果下发对应的指令并执行相关操作。
62.第二执行模块440用于对于语音信号不需要进行仲裁的情况，下发语音信号并执行语音信号对应的操作。
63.根据本发明的第三方面，还提供了一种电子设备。图5示出了根据本发明一个实施例的电子设备500的示意性框图。如图5所示，电子设备500可以包括处理器510和存储器520，其中，存储器520中存储有计算机程序指令，计算机程序指令被处理器510运行时用于执行如上所述的语音仲裁方法。
64.根据本发明的第四方面，还提供了一种存储介质，在存储介质上存储了程序指令，程序指令在运行时用于执行如上所述的语音仲裁方法。存储介质例如可以包括平板电脑的存储部件、计算机的硬盘、只读存储器(rom)、可擦除可编程只读存储器(eprom)、便携式紧致盘只读存储器(cd-rom)、usb存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合
65.本领域普通技术人员通过阅读上述有关语音仲裁方法的相关描述可以理解语音仲裁装置、电子设备以及存储介质的具体细节以及有益效果，为了简洁在此不再赘述。
66.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和/或设备，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。
67.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
68.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
69.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
70.以上，以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李平周冰段至诚涂威
技术所有人：岚图汽车科技有限公司
我是此专利的发明人

上一篇：一种白酒工艺用勾兑检测装置的制作方法
上一篇：热失控预警阈值确定方法、预警方法、装置、设备及介质与流程