基于数据处理的语音交互方法和系统与流程

文档序号：30425782发布日期：2022-06-15 14:56阅读：136来源：国知局

1.本发明涉及语音交互技术领域，具体涉及一种基于数据处理的语音交互方法和系统。

背景技术：

2.远程会议是指利用现代化的通讯手段，实现跨区域召开会议。现有的远程会议通常是指视频会议系统，只有视频、文字与图片的交互，沉浸感和交互便利程度都有明显的不足。为了提高远程会议的沉浸感和交互便利程度，目前已有相关技术将虚拟现实引入视频会议系统，通过在虚拟空间中渲染出会议场景和参会人员的虚拟形象，同时参会人员佩戴虚拟现实设备来模拟真实世界的会议体验，能够极大的提高远程会议的沉浸感和交互便利程度。
3.现有的基于虚拟现实的远程会议中，需要通过虚拟现实设备的麦克风采集参会人员的语音信息，并广播给虚拟会议场景中的所有人。但目前的基于虚拟现实的远程会议的语音交互功能与普通的视频会议系统语音交互功能类似，如果参会人员需要与虚拟会议场景中的某一人通话，有如下两种方式：1）类似与现实会议的悄悄话，距离说话者的距离越远，声音越小，即在开麦的状态下，降低说话音量，以和附近的人进行私密的语音交流，但这种方式的私密性较差，且需要两人在虚拟场景中相互靠近，说话声音不好控制。
4.2）由参会人员手动选择目标后实现两人的私密交流，如果参会人员过多，则在参会人员手动选择的操作难度和繁琐程度就会大幅提高。
5.显然，目前的语音交互方式并不能很好适用在基于虚拟现实的远程会议场景，因此，目前亟需一种能够适配基于虚拟现实的远程会议的语音交互方法。

技术实现要素：

6.（一）解决的技术问题针对现有技术的不足，本发明提供了一种基于数据处理的语音交互方法和系统，解决了目前的语音交互方案无法适配基于虚拟现实的远程会议场景的问题。
7.（二）技术方案为实现以上目的，本发明通过以下技术方案予以实现：第一方面，提供了一种基于数据处理的语音交互方法，该方法包括：在收到第一参会人员的私密交流请求后，实时采集第一参会人员的语音信息；所述第一参会人员为录入私密语音的参会人员；利用语音识别算法从所述语音信息中提取出第二参会人员的会议名称，构建备选会议名称集合；所述第二参会人员为除第一参会人员以外的参会人员；基于备选会议名称集合确定目标第二参会人员；将所述语音信息发送至目标第二参会人员的虚拟现实设备。
8.进一步的，所述利用语音识别算法从所述语音信息中提取出第二参会人员的会议名称，构建备选会议名称集合，包括：获取所有参会人员的真实名称和参会昵称构建会议名称库；基于会议名称库识别出语音信息中所有第二参会人员的会议名称以及第二参会人员的会议名称在语音信息中的词序信息；基于第二参会人员的会议名称在语音信息中的词序顺序构建备选会议名称集合。
9.进一步的，所述基于备选会议名称集合确定目标第二参会人员，包括：当备选会议名称集合不为空集时，获取备选会议名称集合中首个第二参会人员的会议名称，作为备选第二参会人员；若备选第二参会人员的词序信息为前n个词，则将备选第二参会人员作为目标第二参会人员；否则，将备选会议名称集合设为空集。
10.进一步的，该方法还包括：在收到第一参会人员的私密交流请求后，同时实时采集第一参会人员的虚拟现实设备的显示画面信息以及第一参会人员的注视区域；利用目标识别算法识别出所述显示画面中的第二参会人员的虚拟形象，构建备选形象集合；且所述基于备选会议名称集合确定目标第二参会人员，还包括：当备选会议名称集合为空集时，基于备选形象集合和所述第一参会人员的注视区域确定第一参会人员注视的虚拟形象作为目标第二参会人员。
11.进一步的，所述当备选会议名称集合为空集时，基于备选形象集合和所述第一参会人员的注视区域确定第一参会人员注视的虚拟形象作为目标第二参会人员，包括：若第一参会人员的注视区域中仅有一个虚拟形象时，将该虚拟形象对应的第二参会人员作为目标第二参会人员；否则，则将最接近注视区域中心的虚拟形象对应的第二参会人员作为目标第二参会人员。
12.第二方面，提供了一种基于数据处理的语音交互系统，该系统包括：数据采集模块，用于在收到第一参会人员的私密交流请求后，实时采集第一参会人员的语音信息；所述第一参会人员为录入私密语音的参会人员；语音识别模块，用于利用语音识别算法从所述语音信息中提取出第二参会人员的会议名称，构建备选会议名称集合；所述第二参会人员为除第一参会人员以外的参会人员；目标第二参会人员确定模块，用于基于备选会议名称集合确定目标第二参会人员；语音交互模块，用于将所述语音信息发送至目标第二参会人员的虚拟现实设备。
13.进一步的，所述语音识别模块包括：会议名称库构建单元，用于获取所有参会人员的真实名称和参会昵称构建会议名称库；会议名称提取单元，用于基于会议名称库识别出语音信息中所有第二参会人员的会议名称以及第二参会人员的会议名称在语音信息中的词序信息；备选会议名称集合构建单元，基于第二参会人员的会议名称在语音信息中的词序顺序构建备选会议名称集合。
14.进一步的，所述目标第二参会人员确定模块，包括：第一确定策略单元，用于当备选会议名称集合不为空集时，获取备选会议名称集合中首个第二参会人员的会议名称，作为备选第二参会人员；若备选第二参会人员的词序信息为前n个词，则将备选第二参会人员作为目标第二参会人员；否则，将备选会议名称集合设为空集。
15.进一步的，所述数据采集模块还用于在收到第一参会人员的私密交流请求后，同时实时采集第一参会人员的虚拟现实设备的显示画面信息以及第一参会人员的注视区域；且该系统还包括：虚拟形象识别模块，用于利用目标识别算法识别出所述显示画面中的第二参会人员的虚拟形象，构建备选形象集合；且所述目标第二参会人员确定模块，还包括：第二确定策略单元，用于当备选会议名称集合为空集时，基于备选形象集合和所述第一参会人员的注视区域确定第一参会人员注视的虚拟形象作为目标第二参会人员。
16.进一步的，所述当备选会议名称集合为空集时，基于备选形象集合和所述第一参会人员的注视区域确定第一参会人员注视的虚拟形象作为目标第二参会人员，包括：若第一参会人员的注视区域中仅有一个虚拟形象时，将该虚拟形象对应的第二参会人员作为目标第二参会人员；否则，则将最接近注视区域中心的虚拟形象对应的第二参会人员作为目标第二参会人员。
17.（三）有益效果本发明实施例针对基于虚拟现实的远程会议场景进行了适配，通过在收到第一参会人员的私密交流请求后，实时采集第一参会人员的语音信息，并利用语音识别技术来构建备选会议名称，并基于备选会议名称确定目标第二参会人员，最终将所述语音信息发送至目标第二参会人员的虚拟现实设备，实现两个参会人员在多人会议的场景下方便、快速的进行私密交流。
附图说明
18.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
19.图1为本发明实施例的流程图；图2为本发明实施例的系统框图。
具体实施方式
20.为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
21.本技术实施例通过提供一种基于数据处理的语音交互方法和系统，解决了目前的
语音交互方案无法适配基于虚拟现实的远程会议场景的问题。
22.为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
23.实施例1：本发明实施例提出了一种基于数据处理的语音交互方法，参见图1，该方法包括：在收到第一参会人员的私密交流请求后，实时采集第一参会人员的语音信息；所述第一参会人员为录入私密语音的参会人员；利用语音识别算法从所述语音信息中提取出第二参会人员的会议名称，构建备选会议名称集合；所述第二参会人员为除第一参会人员以外的参会人员；基于备选会议名称集合确定目标第二参会人员；将所述语音信息发送至目标第二参会人员的虚拟现实设备。
24.本实施例的有益效果：本发明实施例针对基于虚拟现实的远程会议场景进行了适配，通过在收到第一参会人员的私密交流请求后，实时采集第一参会人员的语音信息，并利用语音识别技术来构建备选会议名称，并基于备选会议名称确定目标第二参会人员，最终将所述语音信息发送至目标第二参会人员的虚拟现实设备，实现两个参会人员在多人会议的场景下方便、快速的进行私密交流。
25.下面对本发明实施例的具体实现方式进行详细说明：本发明实施例的使用场景如下：有若干个参会人员共同在一个虚拟空间中进行远程会议，其中，每个参会人员都通过佩戴虚拟现实设备（例如pcvr或vr一体机）来进入虚拟会议室中，在会议室中，每个参会人员都有一个对应的虚拟形象，通过虚拟现实设备采集参会人员在现实空间的行为，并将其映射在虚拟形象上，以模拟真实会议的场景。
26.在会议休息、讨论时间或其他场景下，参会人员可分为第一参会人员和第二参会人员两类，其中第一参会人员为录入私密语音的参会人员（说话者），第二参会人员为除第一参会人员以外的参会人员（说话者可能的说话对象）。
27.显然，需要从众多的第二参会人员中选择出一个接收并播放第一参会人员的语音信息的对象，也就是目标第二参会人员。
28.为了实现上述功能，具体可采用如下步骤：s1、在收到第一参会人员的私密交流请求后，实时采集第一参会人员的语音信息。
29.具体的，私密交流请求可以通过点击虚拟现实设备的显示画面中的一个虚拟按键或是虚拟现实设备的控制器的组合按键来激活，进而生成并发送私密交流请求。
30.语音信息的采集也可通过虚拟现实设备的麦克风阵列来拾取。
31.s2、利用语音识别算法从所述语音信息中提取出第二参会人员的会议名称，构建备选会议名称集合。
32.具体实施时，可以采用如下步骤实现：s201、获取所有参会人员的真实名称和参会昵称构建会议名称库。
33.其中，真实名称可以为参会人员的真实姓名，而参会昵称可以由用户自由拟定。
34.s202、基于会议名称库识别出语音信息中所有第二参会人员的会议名称以及第二
参会人员的会议名称在语音信息中的词序信息；具体的，利用现有的语音识别技术，可将一句话转化为文本，并进一步进行处理，得到一串包含词序信息的词语集合，并通过与会议名称库的对比，即可得到语音信息中的所有第二参会人员的会议名称。
35.而用户在进行沟通时，语音信息大多数属于以下两种场景：1）直接说内容。
36.2）先喊对方名称再说内容。
37.而内容中也可能会出现其他参会人员的名称，因此在提取时，需要考虑到第二参会人员的会议名称在语音信息中的出现位置。
38.例如，语音信息为：“xxxxx会议名称1xxx”和“会议名称2，xxxxxxxx”。
39.显然上面两种情况中会议名称并不是用户想要沟通的目标。为此，需要记录词序信息，词序信息即为该词语是语音信息中的第几个词，表征了第二参会人员的会议名称在语音信息中的出现位置。
40.s203、基于第二参会人员的会议名称在语音信息中的词序顺序构建备选会议名称集合。
41.例如，语音信息为：“会议名称1，xxxxx会议名称2xxx会议名称3”，显然，这一句话中出现了3个会议名称，根据词序顺序，即可得到备选会议名称集合=｛会议名称1、会议名称2、会议名称3｝。
42.s3、所述基于备选会议名称集合确定目标第二参会人员。
43.根据上述举例，备选会议名称集合=｛会议名称1、会议名称2、会议名称3｝，显然，这三个会议名称中越靠后作为目标的可能性也就越低，因此：s301a、当备选会议名称集合不为空集时，即语音信息中识别到用户说出了某个参会人员的名称，此时，获取备选会议名称集合中首个第二参会人员的会议名称，作为备选第二参会人员。
44.显然，第一个第二参会人员的会议名称的可能性最大，但仍需考虑该会议名称的词序信息后才能确定是否为目标第二参会人员，因此：s302a、若备选第二参会人员的词序信息为前n个词，则将备选第二参会人员作为目标第二参会人员；否则，如果一个备选第二参会人员的词序信息过大，则大概率是该语音信息中提及了该参会人员，并非是用户想要沟通的目标，说明备选会议名称集合中的内容可信度很低，需要舍弃，因此将备选会议名称集合设为空集。
45.其中， n为经验值，由人工设定，考虑到用户说话前可能会带有如“嗯”、“喂”、“哎”等语气词和习惯用词。n的值一般可设置为1~4。
46.显然，上述仅考虑到识别到用户说出了某个参会人员的名称时的场景，若用户直接说未涉及其他参会用户的内容，则备选会议名称集合即为空集，该额外的场景也有一定概率出现，因此需要设定有效的处理方式，具体可采用如下步骤：进一步的，在s1中采集第一参会人员的语音信息的同时，实时采集第一参会人员的虚拟现实设备的显示画面信息以及第一参会人员的注视区域。以便从另一维度对目标第二参会人员进行预测。
47.具体的，可在虚拟现实设备中内置视线追踪功能，使得可以实时获取用户的注视
区域，所述注视区域为显示画面的一局部区域。
48.进一步的，在进行s3之前利用目标识别算法识别出所述显示画面中的第二参会人员的虚拟形象，构建备选形象集合。
49.具体的，由于虚拟形象是个类似人体的实体，因此，可利用现有的目标识别算法来实现，例如关键点检测算法，也可利用现有的训练方法单独训练出一个深度学习模型来识别，每个识别到的虚拟形象都对应一个矩形识别框。为了进一步方便辨别每个参会人员，可在虚拟会议室中的每个虚拟形象的附近都显示对应的参会昵称，例如在虚拟形象的头顶显示参会昵称。这样，即可以将识别到的虚拟形象和参会名称关联起来。
50.举例说明，备选形象集合=｛虚拟形象1、虚拟形象2、虚拟形象3、....｝。
51.因此，所述基于备选会议名称集合确定目标第二参会人员，还包括：s301b、当备选会议名称集合为空集时，基于备选形象集合和所述第一参会人员的注视区域确定第一参会人员注视的虚拟形象作为目标第二参会人员。
52.具体的，第一参会人员的注视区域仍覆盖有一定大小，还需要考虑到注视区域中虚拟形象的数量，因此：若第一参会人员的注视区域中仅有一个虚拟形象时，该虚拟形象是语音信息的接收目标的可能性很大，因此，将该虚拟形象对应的第二参会人员作为目标第二参会人员；否则，对于注视区域存在多个虚拟形象时，越靠近视线中心，可能性也就越大，因此将最接近注视区域中心的虚拟形象对应的第二参会人员作为目标第二参会人员。
53.目前的眼球追踪的识别区域为一个类似圆形的区域，可通过边缘提取算法获取该区域的轮廓，并将该轮廓拟合成一个圆形后将其圆心作为注视区域中心，通过计算该圆心距离虚拟形象对应的矩形识别框中心点确定最接近视线中心的虚拟形象。
54.s4、在确定目标第二参会人员后，即可将所述语音信息发送至目标第二参会人员的虚拟现实设备。
55.具体实施时，也可在发送前提示第一参会人员当前确定的目标第二参会人员，例如弹窗通知或是将目标第二参会人员的虚拟形象上增加显著的标识信息，以便准确沟通。如果用户选择取消，则不发送。
56.具体的，与私密交流请求类似，也可以通过点击虚拟现实设备的显示画面中的一个虚拟按键或是虚拟现实设备的控制器的组合按键来选择取消。
57.在目标第二参会人员的虚拟现实设备的收到语音信息后，即可将该语音信息进行播放，随后即可将这两个参会人员进行关联，后续就无需再次确认，直至任一一方取消关联，私密交流请求类似，也可以通过点击虚拟现实设备的显示画面中的一个虚拟按键或是虚拟现实设备的控制器的组合按键来选择取消。
58.实施例2：参见图2，提供了一种基于数据处理的语音交互系统，该系统包括数据采集模块，用于在收到第一参会人员的私密交流请求后，实时采集第一参会人员的语音信息；所述第一参会人员为录入私密语音的参会人员；语音识别模块，用于利用语音识别算法从所述语音信息中提取出第二参会人员的会议名称，构建备选会议名称集合；所述第二参会人员为除第一参会人员以外的参会人员；目标第二参会人员确定模块，用于基于备选会议名称集合确定目标第二参会人
员；语音交互模块，用于将所述语音信息发送至目标第二参会人员的虚拟现实设备。
59.进一步的，所述语音识别模块包括：会议名称库构建单元，用于获取所有参会人员的真实名称和参会昵称构建会议名称库；会议名称提取单元，用于基于会议名称库识别出语音信息中所有第二参会人员的会议名称以及第二参会人员的会议名称在语音信息中的词序信息；备选会议名称集合构建单元，基于第二参会人员的会议名称在语音信息中的词序顺序构建备选会议名称集合。
60.进一步的，所述目标第二参会人员确定模块，包括：第一确定策略单元，用于当备选会议名称集合不为空集时，获取备选会议名称集合中首个第二参会人员的会议名称，作为备选第二参会人员；若备选第二参会人员的词序信息为前n个词，则将备选第二参会人员作为目标第二参会人员；否则，将备选会议名称集合设为空集。
61.进一步的，所述数据采集模块还用于在收到第一参会人员的私密交流请求后，同时实时采集第一参会人员的虚拟现实设备的显示画面信息以及第一参会人员的注视区域；且该系统还包括：虚拟形象识别模块，用于利用目标识别算法识别出所述显示画面中的第二参会人员的虚拟形象，构建备选形象集合；且所述目标第二参会人员确定模块，还包括：第二确定策略单元，用于当备选会议名称集合为空集时，基于备选形象集合和所述第一参会人员的注视区域确定第一参会人员注视的虚拟形象作为目标第二参会人员。
62.可理解的是，本发明实施例提供的一种基于数据处理的语音交互系统与上述一种基于数据处理的语音交互方法相对应，其有关内容的解释、举例、有益效果等部分可以参考一种基于数据处理的语音交互方法中的相应内容，此处不再赘述。
63.综上所述，与现有技术相比，具备以下有益效果：1、本发明针对基于虚拟现实的远程会议场景进行了适配，通过在收到第一参会人员的私密交流请求后，实时采集第一参会人员的语音信息，并利用语音识别技术来构建备选会议名称集合，并基于备选会议名称确定目标第二参会人员，最终将所述语音信息发送至目标第二参会人员的虚拟现实设备，实现两个参会人员在多人会议的场景下方便、快速的进行私密交流。
64.2、本发明还针对未提取到有用的选会议名称集合情景，通过在采集第一参会人员的语音信息的同时，实时采集第一参会人员的虚拟现实设备的显示画面信息以及第一参会人员的注视区域，并利用目标识别算法识别出所述显示画面中的第二参会人员的虚拟形象，构建备选形象集合，当备选会议名称集合为空集时，基于备选形象集合和所述第一参会人员的注视区域确定第一参会人员注视的虚拟形象作为目标第二参会人员。
65.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要
素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
66.以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张腾飞马骏谭维涛彭超
技术所有人：深圳市一恒科电子科技有限公司
我是此专利的发明人

上一篇：PCP4作为神经母细胞瘤的肿瘤分化标志物的应用
上一篇：一种汽车座椅用调角器滑槽板的连续精冲模具的制作方法