一种语音处理方法、语音处理设备及计算机可读存储介质与流程

文档序号：29861449发布日期：2022-04-30 11:13阅读：118来源：国知局

1.本技术涉及通信技术领域，具体是涉及一种语音处理方法、语音处理设备及计算机可读存储介质。

背景技术：

2.随着互联网技术的发展，通信技术的发展也越来越迅速，越来越多的场所使用智能设备为用户提供便利服务，比如使用智能机器人通过音频播放的方式进行服务信息的介绍，但是在音频播放的过程中，会出现人机自然语言交互的情况。
3.现有技术中，一般采用语音识别的方式对人机自然语言交互过程中的用户语音进行分析，来判断用户的意图，并根据判断结果确定是否中断当前音频的播放，但是这种方式对用户意图的判断准确率较低，容易出现误判的情况，从而导致当前音频被错误中断或者错误的继续播放。

技术实现要素：

4.本技术主要是提供一种语音处理方法、语音处理设备及计算机可读存储介质，能够在人机自然语言交互过程中，提高对用户当前意图的判断准确性，避免当前音频被错误中断或者错误的继续播放，提高人机交互的沟通效率。
5.为解决上述技术问题，本技术采用的一个技术方案是：提供一种语音处理方法，所述语音处理方法包括：在当前音频播放过程中，获取用户的语音信息；对所述语音信息进行文本转换，得到文本信息，并对所述文本信息进行语义分析，以得到语义分析结果；对所述语音信息和/或所述文本信息进行情感分析，以得到情感分析结果；根据所述语义分析结果及所述情感分析结果选择相应的处理策略。
6.在一具体实施方式中，其特征在于，所述根据所述语义分析结果及所述情感分析结果选择相应的处理策略之前还包括：确定所述语音信息的获取时间与所述当前音频播放时间的时间关系；所述根据所述语义分析结果及所述情感分析结果选择相应的处理策略包括：根据所述语义分析结果、所述情感分析结果及所述时间关系选择相应的处理策略。
7.在一具体实施方式中，其特征在于，所述确定所述语音信息的获取时间与所述当前音频播放时间的时间关系包括：获取所述当前音频的起止时间段；确定所述语音信息的获取时间在所述当前音频的起止时间段中的当前时间位置。
8.在一具体实施方式中，所述根据所述语义分析结果及所述情感分析结果选择相应的处理策略包括：根据所述语义分析结果及所述情感分析结果中断所述当前音频播放或继续播放所述当前音频。
9.在一具体实施方式中，根据所述语义分析结果、所述情感分析结果及所述时间关系选择相应的处理策略包括：计算所述当前时间位置的对应时间与所述起止时间段的起始时间或结束时间之间的当前时间差；获取所述当前时间差、所述语义分析结果及所述情感分析结果与所述处理策略的第一关联关系；在所述第一关联关系中选择对应的处理策略，
以中断所述当前音频播放或继续播放所述当前音频。
10.在一具体实施方式中，根据所述语义分析结果、所述情感分析结果及所述时间关系选择相应的处理策略包括：获取所述当前时间位置、所述语义分析结果及所述情感分析结果与所述处理策略的第二关联关系；在所述第二关联关系中选择对应的处理策略，以中断所述当前音频播放或继续播放所述当前音频。
11.在一具体实施方式中，所述中断所述当前音频播放包括：根据所述语义分析结果及所述情感分析结果在所述当前音频中设置至少一个时间节点；在至少一个所述时间节点中选择预设时间节点，并在所述预设时间节点中断所述当前音频播放。
12.在一具体实施方式中，所述根据所述语义分析结果及所述情感分析结果继续播放所述当前音频包括：根据所述语义分析结果及所述情感分析结果继续播放所述当前音频，且在所述当前音频播放完毕后，播放与所述语音信息对应的回复音频；或根据所述语义分析结果及所述情感分析结果继续播放所述当前音频，且忽略所述语音信息。
13.在一具体实施方式中，所述当前音频为单个音频段或多个音频段组成的音频序列。
14.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种语音处理设备，所述语音处理设备包括处理器以及存储器，所述存储器存储有计算机指令，所述处理器耦合所述存储器，所述处理器在工作时执行所述计算机指令以实现如上述的语音处理方法。
15.为解决上述技术问题，本技术采用的一个技术方案是：提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如上述的语音处理方法。
16.本技术的有益效果是：区别于现有技术的情况，本技术实施方式提供的语音处理方法包括：在当前音频播放过程中，获取用户的语音信息；对所述语音信息进行文本转换，得到文本信息，并对所述文本信息进行语义分析，以得到语义分析结果；对所述语音信息和/或所述文本信息进行情感分析，以得到情感分析结果；根据所述语义分析结果及所述情感分析结果选择相应的处理策略，提高了对用户当前意图的判断准确性，避免当前音频被错误中断或者错误的继续播放，提高人机交互的沟通效率。
附图说明
17.为了更清楚地说明本技术实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
18.图1是本技术提供的语音处理方法一实施方式的流程示意图；
19.图2是图1中语音处理方法的应用场景示意图；
20.图3是本技术提供的语音处理方法另一实施方式的流程示意图；
21.图4是图3中步骤s24一实施方式的具体流程示意图；
22.图5是图4中步骤s241的起止时间段示意图；
23.图6是图3中步骤s25一实施方式的具体流程示意图；
24.图7是图3中步骤s25另一实施方式的具体流程示意图；
25.图8是图3中步骤s25又一实施方式的具体流程示意图；
26.图9是图3中步骤s25的中断当前音频播放一实施方式的具体流程示意图；
27.图10是本技术提供的语音处理设备实施方式的示意框图；
28.图11是本技术提供的计算机可读存储介质实施方式的示意框图。
具体实施方式
29.下面结合附图和实施方式，对本技术作进一步的详细描述。特别指出的是，以下实施方式仅用于说明本技术，但不对本技术的范围进行限定。同样的，以下实施方式仅为本技术的部分实施方式而非全部实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施方式，都属于本技术保护的范围。
30.本技术中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本技术的描述中，“多个”的含义是至少两个，方式如两个，三个等，除非另有明确具体的限定。本技术实施方式中所有方向性指示(诸如上、下、左、右、前、后
……
)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。方式如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
31.在本文中提及“实施方式”意味着，结合实施方式描述的特定特征、结构或特性可以包含在本技术的至少一个实施方式中。在说明书中的各个位置出现该短语并不一定均是指相同的实施方式，也不是与其它实施方式互斥的独立的或备选的实施方式。本领域技术人员显式地和隐式地理解的是，本文所描述的实施方式可以与其它实施方式相结合。
32.请一并参阅图1及图2，图1是本技术提供的语音处理方法一实施方式的流程示意图，图2是图1中语音处理方法的应用场景示意图，本实施方式中的语音处理方法是基于图2中的语音处理设备10进行实施，该语音处理设备可以是智能客服、机器人等终端设备，对此不做限定，本实施方式中的语音处理方法可具体包括：
33.s11：在当前音频播放过程中，获取用户的语音信息；
34.具体的，语音处理设备10包括音频播放模块及监听模块，该音频播放模块播放上述的当前音频，并在当前音频的播放过程中，监听模块实时采集用户的语音信息，比如，语音处理设备10为安装在商场的智能机器人，该智能机器人正在播放对商场的业务信息进行介绍的音频，此时，用户说“请问，m商铺在什么位置？”，那么语音处理设备10即采集“m商铺在什么位置？”的语音信息。
35.其中，当前音频为单个音频段或多个音频段组成的音频序列，也即在具体应用时，语音处理设备10播放的当前音频，可以是对单个音频段构成的音频进行播放，也可以是按照多个音频段的衔接顺序，对音频序列进行顺序播放。
36.在一具体示例中，当用户开始说话，监听模块获取用户的语音信息，当用户停止说话，且停止说话超过预设时间后，监听模块结束对用户语音信息的获取，也即当监听模块在
获取到用户的语音信息之后的预设时间内，没有继续获取到用户的语音信息，则结束对用户语音信息的获取。
37.s12：对语音信息进行文本转换，得到文本信息，并对文本信息进行语义分析，以得到语义分析结果；
38.具体的，语音处理设备10还包括语义分析模块，当语音处理设备10的监听模块获取到用户的语音信息后，语义分析模块采用语音识别技术对语音信息进行语音识别，从而得到与语音信息对应的文本信息，并对文本信息进行语义关系提取、词槽提取等语义分析，比如，通过获取文本信息的候选领域，从预设的领域字典中选取与该候选领域对应的领域字典，并利用选取的领域字典对目标文本进行领域内的依存句法分析，通过领域内的依存句法分析可以明确文本信息的各词汇之间的依存关系，找到关键的词汇来确定文本信息的意图领域；进而从该意图领域内的依存句法分析结果中进行实体词槽的抽取，来得到用于表示文本信息的目的意图的实体词汇，并基于文本信息实体词槽和意图领域确定语义分析结果。
39.其中，在对语音信息进行语义分析的过程中，语音处理设备10持续播放当前音频，也即在对语音信息进行语义分析的过程中，不对当前音频进行中断或者暂停处理。
40.s13：对语音信息和/或文本信息进行情感分析，以得到情感分析结果。
41.其中，在实际应用时，可以通过情感分析模型对语音信息和/或文本信息进行情感分析，该情感分析模型可以预先设置，也可以在获取到用户的语音信息之后，构建该情感分析模型，然后通过该情感分析模型对语音信息和/或文本信息进行情感分析，也即本实施方式中的情感分析包括两个层面，一个是对语音信息进行情感分析，一个是对语音信息转换后的文本信息进行情感分析，在具体应用时，可以对两者中的一个进行情感分析，也可以对两者都进行情感分析。
42.s14：根据语义分析结果及情感分析结果选择相应的处理策略。
43.具体的，在获取语音信息、语义分析及情感分析的过程中，当前音频持续播放，当情感分析结束后，根据语义分析结果及情感分析结果中断当前音频播放或者继续播放当前音频，在语音分析的基础上，结合情感分析，进一步提高对用户意图的判断准确性，避免当前音频被错误中断或者错误的继续播放，提高人机交互的沟通效率。
44.可以理解的，上述中断当前音频播放或者继续播放当前音频，可以是中断或者继续播放单个音频段构成的音频，也可以是中断或者继续播放多个音频段组合而成的音频序列。
45.其中，根据语义分析结果及情感分析结果继续播放当前音频还包括：继续播放当前音频，且在当前音频播放完毕后，播放与语音信息对应的回复音频，以此来回复用户；或者继续播放当前音频，且忽略用户的语音信息，也即不对用户的语音信息进行处理。
46.请参阅图3，图3是图1中步骤s14处理策略为中断当前音频播放一实施方式的具体流程示意图，在该一实施方式中，中断当前音频播放可具体包括：
47.s141：在当前音频中设置至少一个时间节点；
48.具体的，当步骤s14中根据语义分析结果及情感分析结果选择的处理策略为中断当前音频播放时，执行该步骤s141，比如当前音频的播放内容为“本商场包括餐饮、超市及电影院服务，餐饮服务在本商场的二楼，超市服务在本商场的三楼，电影院服务在本商场的
四楼”，在该当前音频中设置四个时间节点，分别设置在“本商场包括餐饮、超市及电影院服务”之后的第一时间节点，“餐饮服务在本商场的二楼”之后的第二时间节点，“超市服务在本商场的三楼”之后的第三时间节点，“电影院服务在本商场的四楼”之后的第四时间节点。
49.s142：在至少一个时间节点中选择预设时间节点，并在预设时间节点中断当前音频播放。
50.比如，当前音频播放至“本商场包括餐饮、超市及电影院服务，餐饮服务”时，获取到用户的语音信息，那么语音信息的当前时间位置即为“本商场包括餐饮、超市及电影院服务，餐饮服务”之后，且在“在本商场的二楼”之前，那么可以选择第二时间节点作为预设时间节点，并在第二时间节点中断当前音频播放，也即在当前音频中“本商场包括餐饮、超市及电影院服务，餐饮服务在本商场的二楼”这段音频播放完成后中断当前音频播放，并不是立即中断当前音频播放，而是在预设时间节点之前的音频内容播放完毕后再中断当前音频播放，这种设置更加符合人为沟通过程中的交流方式，使得人机交互更加人性化。
51.可以理解的，上述时间节点的数量、位置以及预设时间节点可以根据实际情况或实际所需进行设置，比如预设时间节点可以为与当前时间位置最近的一个，或者与当前时间位置的时间差在预设范围内的一个，对此不做限定。
52.在一可选实例中，当前音频为多个音频段组合而成的音频序列，那么可以根据多个音频段的衔接位置设置时间节点，那么在需要中断当前音频播放时，可以在当前播放的某个音频段播放完毕后，中断播放。
53.请参阅图4，图4是本技术提供的语音处理方法另一实施方式的流程示意图，本实施方式中的步骤s21～s23分别与上述实施方式中的步骤s11～s13相同，本实施方式中的语音处理方法还包括：
54.s24：确定语音信息的获取时间与当前音频播放时间的时间关系；
55.请一并参阅图5及图6，图5是图4中步骤s24一实施方式的具体流程示意图，图6是图5中步骤s241的起止时间段示意图，在该一实施方式中，步骤s24可具体包括：
56.s241：获取当前音频的起止时间段；
57.比如如图6所示的，当前音频的总播放时间为10秒，那么该当前音频的起始时间a0即为a0＝0，结束时间a10即为a10＝10秒，起止时间段即为a0～a10＝0～10秒。
58.s242：确定语音信息的获取时间在当前音频的起止时间段中的当前时间位置。
59.比如，语音信息的获取时间为a3＝3秒，那么该语音信息的获取时间在当前音频的起止时间段中的当前时间位置，即为0～10秒中第3秒的位置。
60.其中，在本实施方中，语音信息的获取时间可以为语音信息的起始时间，也可以为语音的结束时间，在具体应用时，可以根据实际情况或实际所需进行设置，对此不做限定。
61.s25：根据语义分析结果及情感分析结果选择相应的处理策略。
62.具体的，根据语义分析结果、情感分析结果及时间关系选择相应的处理策略。
63.在实际应用时，会出现这种情况，在同样的语义分析结果及情感分析结果时，用户在不同时间说的同一句话，也即同一个语音信息所表示的用户意图可能是不同的，因此，为了提高对用户当前意图的判断准确性，本实施方式中，在语义分析及情感分析的基础上，还根据语音信息的获取时间在当前音频的起止时间段中的当前时间位置，进一步判断用户的当前意图，从而选择中断当前音频播放或继续播放当前音频的处理策略，提高了对用户当
前意图的判断准确性，避免当前音频被错误中断或者错误的继续播放，提高人机交互的沟通效率。
64.为了便于理解，本实施方式中以一实例进行举例说明，比如当前音频的播放内容为“本商场包括餐饮、超市
…
电影院服务，餐饮服务在本商场的二楼，超市服务在本商场的三楼，
…
，电影院服务在本商场的四楼”，在该当前音频播放的过程中，获取到用户的语音信息“嗯，好的”，假如该语音信息获取时间的当前时间位置在“本商场包括餐饮、超市
…
电影院服务”之后，且在“餐饮服务在本商场的二楼，超市服务在本商场的三楼，
…
，电影院服务在本商场的四楼”之前，那么说明用户的当前意图仅是对商场业务的认可，此时，不需要中断当前音频的播放，假如该语音信息获取时间的当前时间位置在“餐饮服务在本商场的二楼，超市服务在本商场的三楼，
…
，电影院服务在本商场的四楼”之后，说明用户已经通过该当前音频知道了自己想要的信息，比如知道了“电影院服务在本商场的四楼”这一信息，此时，则不需继续播放当前音频，也即可以中断当前音频的播放，因此，本实施方式中，根据语音信息的获取时间在当前音频的起止时间段中的当前时间位置，进一步判断了用户的当前意图。
65.其中，在步骤25之后，如果选择中断当前音频播放的处理策略，还可以对用户的语音信息进行回复。
66.进一步的，在一实例中，根据语义分析结果、情感分析结果及当前时间位置继续播放当前音频包括：根据语义分析结果、情感分析结果及当前时间位置继续播放当前音频，且在当前音频播放完毕后，播放与语音信息对应的回复音频；或根据语义分析结果、情感分析结果及当前时间位置继续播放当前音频，且忽略语音信息，也即当选择继续播放当前音频的处理策略时，可以在继续播放当前音频之后，播放回复音频，以对用户的语音信息进行回复，也可以在继续播放当前音频之后忽略用户的语音信息，不对用户的语音信息进行处理。
67.请参阅图7，图7是图4中步骤s25一实施方式的具体流程示意图，在该一实施方式中，步骤s25可具体包括：
68.s251：计算当前时间位置的对应时间与起止时间段的起始时间或结束时间之间的当前时间差；
69.比如，当前时间位置的对应时间为a9＝9秒，当前音频起止时间段的结束时间a10＝10秒，那么两者的当前时间差即为b1＝10-9＝1秒，又比如，当前时间位置的对应时间为a8＝8秒，那么当前时间差即为b2＝2秒，依次类推。
70.s252：获取当前时间差、语义分析结果及情感分析结果与处理策略的第一关联关系；
71.具体的，当前时间差的数量为多个，语义分析结果的数量为多个，情感分析结果的数量为多个，处理策略包括中断当前音频播放或继续播放当前音频，然后将多个当前时间差中的一个、多个语义分析结果中的一个、多个情感分析结果中的一个与处理策略中的一个进行关联，从而形成第一关联关系。
72.其中，上述的第一关联关系可以预先设置，在具体应用时，当前时间差、语义分析结果及情感分析结果与处理策略的具体关联结果可以根据实际情况或实际所需进行设置，对此不做限定。
73.s253：在第一关联关系中选择对应的处理策略，以中断当前音频播放或继续播放
当前音频。
74.具体的，在第一关联关系中选择于语音信息对应的处理策略，以中断当前音频播放，或继续播放当前音频，且在播放结束后播放语音信息对应的回复音频，或继续播放当前音频，且忽略用户的语音信息。
75.请参阅图8，图8是图4中步骤s25另一实施方式的具体流程示意图，在该另一实施方式中，步骤s25可具体包括：
76.s25a：获取当前时间位置、语义分析结果及情感分析结果与处理策略的第二关联关系；
77.具体的，当前时间位置的数量为多个，语义分析结果的数量为多个，情感分析结果的数量为多个，处理策略包括中断当前音频播放或继续播放当前音频，然后将多个当前时间位置中的一个、多个语义分析结果中的一个、多个情感分析结果中的一个与处理策略中的一个进行关联，从而形成第二关联关系。
78.其中，上述的第二关联关系可以预先设置，当前时间位置、语义分析结果及情感分析结果与处理策略的具体关联结果可以根据实际情况或实际所需进行设置，对此不做限定。
79.s25b：在第二关联关系中选择对应的处理策略，以中断当前音频播放或继续播放当前音频。
80.具体的，在第二关联关系中选择于语音信息对应的处理策略，以中断当前音频播放，或继续播放当前音频，且在播放结束后播放语音信息对应的回复音频，或继续播放当前音频，且忽略用户的语音信息。
81.请参阅图9，图9是图4中步骤s25又一实施方式的具体流程示意图，在该又一实施方式中，步骤s25可具体包括：
82.s25d：判断当前音频的播放内容是否包含与语音信息对应的回复音频；
83.具体的，当根据语音分析结果及情感分析结果确定需要对用户进行回复时，判断当前音频的播放内容是否包含与语音信息对应的回复音频比如，当前音频的播放内容为“本商场包括餐饮、超市
…
电影院服务，餐饮服务在本商场的二楼，超市服务在本商场的三楼，
…
，电影院服务在本商场的四楼”，假如用户的语音信息为“请问，超市在几楼”，那么该语音信息对应的回复音频即为“超市服务在本商场的三楼”，说明当前音频的播放内容包含与语音信息对应的回复音频，则执行步骤s25e，假如用户的语音信息为“请问，本商场有停车场吗”，说明当前音频的播放内容不包含与语音信息对应的回复音频，则结束，或者执行其他步骤，比如直接对用户进行语音回复“本商场没有停车场”。
84.s25e：判断回复音频的播放时间位置是否在当前时间位置之前；
85.具体的，当判断当前音频的播放内容中包含与语音信息对应的回复音频时，判断回复音频的播放时间位置是否在当前时间位置之前，若回复音频的播放时间位置在当前时间位置之前，则执行步骤s25f，若回复音频的播放时间位置不在当前时间位置之前，则执行步骤s25g。
86.s25f：中断所述当前音频播放，并播放回复音频；
87.具体的，当回复音频的播放时间位置在当前时间位置之前时，说明回复音频已经播放完毕，这种情况下，如果需要对用户的语音信息进行回复，那么就需要中断当前音频，
并在当前音频中选择回复音频进行播放，从而完成对用户的回复。
88.s25g：继续播放当前音频。
89.具体的，当回复音频的播放时间位置不在当前时间位置之前时，说明回复音频还未播放，这种情况下，不需要中断当前音频，只需要继续播放，用户即可在后续的播放过程中，观看自己所需的回复音频。
90.请参阅图10，图10是本技术提供的语音处理设备实施方式的示意框图，本实施方式中的语音处理设备包括处理器31以及存储器32，存储器32存储有计算机指令，处理器31耦合存储器32，处理器31在工作时执行计算机指令以实现如上述任一实施方式中的语音处理方法。
91.其中，处理器31可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(fieldprogrammable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
92.请参阅图11，图11是本技术提供的计算机可读存储介质实施方式的示意框图，本实施方式中的计算机可读存储介质存储有计算机程序41，该计算机程序41被处理器执行以实现如上述任一实施方式中的语音处理方法。
93.其中，计算机程序41包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。
94.区别于现有技术的情况，本技术实施方式提供的语音处理方法包括：在当前音频播放过程中，获取用户的语音信息；对所述语音信息进行文本转换，得到文本信息，并对所述文本信息进行语义分析，以得到语义分析结果；对所述语音信息和/或所述文本信息进行情感分析，以得到情感分析结果；根据所述语义分析结果及所述情感分析结果选择相应的处理策略，提高了对用户当前意图的判断准确性，避免当前音频被错误中断或者错误的继续播放，提高人机交互的沟通效率。
95.以上所述仅为本技术的部分实施方式，并非因此限制本技术的保护范围，凡是利用本技术说明书及附图内容所作的等效设备或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡上峰李进峰
技术所有人：深圳市人马互动科技有限公司
我是此专利的发明人

上一篇：一种不锈钢酸洗污泥制备含硫复合烧结矿的方法
上一篇：一种用于封闭园区的辅助泊车装置及其使用方法与流程