语音分离方法、装置及存储介质与流程

文档序号：21091224发布日期：2020-06-12 17:14阅读：221来源：国知局

本发明涉及计算机领域，具体而言，涉及一种语音分离方法、装置及存储介质。

背景技术：

目前，利用机器实现语音识别为生活带来了诸多便利，但是在对话场景中，不但需要识别语音对应的语义，往往还需要进一步识别语音的发出者是对话场景中的哪个人物。

例如，在服务员与顾客对话的场景中，服务员与顾客都会发出语音，机器需要识别语音的发出者是服务员还是顾客，以此通过对区分了说话者的语音进行分析，可对服务员的话术进行校验以及获取顾客需求等。在上述场景下，需要对机器接收到的语音进行语音分离，分离出服务员的语音和顾客的语音。目前往往是通过语音特征提取来实现上述场景中的语音分离，但是在语音特征提取的过程中往往需要进行大量运算，从而导致语音分离复杂度高的问题。

针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

本发明实施例提供了一种语音分离方法、装置及存储介质，以至少解决语音分离复杂度高的技术问题。

根据本发明实施例的一个方面，提供了一种语音分离方法，包括：在语音输入设备检测到语音的情况下，获取所述语音和所述语音对应的时间区间，所述语音输入设备所在的位置与第一音源对象所在的位置之间的距离小于第一阈值，所述语音输入设备包括环境数据采集装置，所述环境数据采集装置朝向所述第一音源对象的嘴部；确定所述环境数据采集装置在所述时间区间中获取到的环境数据；在所述环境数据符合预设数据条件的情况下，将所述语音确定为所述第一音源对象发出的第一语音。

根据本发明实施例的另一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述语音分离方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的语音分离方法。

在本发明实施例中，在语音输入设备检测到语音的情况下，获取所述语音和所述语音对应的时间区间，所述语音输入设备所在的位置与第一音源对象所在的位置之间的距离小于第一阈值，所述语音输入设备包括环境数据采集装置，所述环境数据采集装置朝向所述第一音源对象的嘴部；确定所述环境数据采集装置在所述时间区间中获取到的环境数据；在所述环境数据符合预设数据条件的情况下，将所述语音确定为所述第一音源对象发出的第一语音。这一过程可以借助环境数据采集装置获取到的环境数据分离出第一音源对象发出的第一语音，无需对语音特征进行提取计算等复杂操作，能够降低语音分离复杂度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的语音分离方法的流程图；

图2是根据本发明实施例的另一种可选的语音分离方法的流程图；

图3是根据本发明实施例的另一种可选的语音分离方法的流程图；

图4是根据本发明实施例的另一种可选的语音分离方法的流程图；

图5是根据本发明实施例的一种可选的语音分离装置的结构示意图；

图6是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例中提供了一种语音分离方法，如图1所示，可以包括以下步骤：

s101，在语音输入设备检测到语音的情况下，获取语音和语音对应的时间区间，语音输入设备所在的位置与第一音源对象所在的位置之间的距离小于第一阈值，语音输入设备包括环境数据采集装置，环境数据采集装置朝向第一音源对象的嘴部；

s102，确定环境数据采集装置在时间区间中获取到的环境数据；

s103，在环境数据符合预设数据条件的情况下，将语音确定为第一音源对象发出的第一语音。

本发明实施例中，语音输入设备为可以接收语音输入的电子设备，可以包括但不限于麦克风设备、录音笔、具有语音输入功能的手机或者具有语音输入功能的平板等，本发明实施例中不做限定。在语音输入设备检测到语音的情况下，该语音可以为第一音源对象发出的第一语音，该语音也可以为第二音源对象发出的第二语音，可以获取该语音以及该语音对应的时间区间，其中，该语音对应的时间区间为该语音的发出时间点与该语音的停止时间点之间的时间段。此外，语音输入设备包括环境数据采集装置，其中，环境数据采集装置可以为风速感应器、湿度感应器或者温度感应器中的任一装置。

可选的，环境数据采集装置的位置可以设置为靠近第一音源对象的一侧，例如，在语音输入设备为麦克风设备且说话者通过将麦克风设备佩戴于胸前的情况下，环境数据采集装置可以设置位于麦克风设备的上部靠近说话者嘴部的位置，此时可以更好的检测环境数据，提高环境数据检测的准确度。进一步的，在环境数据采集装置为风速感应器的情况下，预设数据条件可以为风速感应器在时间区间中获取到的风速大于预设风速，在风速感应器在时间区间中获取到的风速大于预设风速的情况下，将上述语音确定为第一音源对象发出的第一语音，在风速感应器在时间区间中获取到的风速小于或者等于预设风速的情况下，将上述语音确定为第二音源对象发出的第二语音。又或者，在环境数据采集装置为湿度感应器的情况下，预设数据条件可以为湿度感应器在时间区间中获取到的湿度大于预设湿度，在湿度感应器在时间区间中获取到的湿度大于预设湿度的情况下，将上述语音确定为第一音源对象发出的第一语音，在湿度感应器在时间区间中获取到的湿度小于或者等于预设湿度的情况下，将上述语音确定为第二音源对象发出的第二语音。又或者，在环境数据采集装置为温度感应器的情况下，预设数据条件可以为温度感应器在时间区间中获取到的温度高于预设温度，在温度感应器在时间区间中获取到的温度高于预设温度的情况下，将上述语音确定为第一音源对象发出的第一语音，在温度感应器在时间区间中获取到的温度低于或者等于预设温度的情况下，将上述语音确定为第二音源对象发出的第二语音。

可以理解的是，此时确定的在上述时间区间中获取到的风速、湿度或者温度受到说话者说话的影响会产生一定的变化，例如佩戴麦克风设备的用户说话时产生的风速或者湿度会比距离麦克风设备较远的用户说话时产生的风速或者湿度大，并且佩戴麦克风设备的用户说话时产生的温度会比距离麦克风设备较远的用户说话时产生的温度高，因而可以根据风速、湿度或者温度等环境数据确定麦克风设备接收到的语音的发出者是靠近麦克风设备的用户还是远离麦克风设备的用户，从而确定语音的发出者为第一音源对象或者第二音源对象。进一步地，预设风速、预设湿度和预设温度为预先设置好的阈值，如果风速大于该预设风速，可以将语音确定为靠近语音输入设备的第一语音，如果风速小于或者等于该预设风速，可以将语音确定为远离语音输入设备的第二语音；如果湿度大于该预设湿度，可以将语音确定为靠近语音输入设备的第一语音，如果湿度小于或者等于该预设湿度，可以将语音确定为远离语音输入设备的第二语音；如果温度高于该预设温度，可以将语音确定为靠近语音输入设备的第一语音，如果温度低于或者等于该预设温度，可以将语音确定为远离语音输入设备的第二语音。

作为一种可选的实施方式，在获取语音和语音对应的时间区间之前，还可以执行以下步骤：

将语音输入设备设于与第一音源对象所在位置之间的距离小于第一阈值的位置。

本发明实施例中，第一阈值为事先设置的语音输入设备与第一音源对象所在位置之间的距离值，例如第一阈值可以为10厘米，此时应该将语音输入设备设于与第一音源对象所在位置之间的距离小于10厘米的位置。这一过程可以确保语音输入设备和第一音源对象之间的距离较近，从而环境数据采集装置获取到的环境数据受第一音源对象的影响更大，更易确定出第一音源对象发出的语音，提高了语音分离的准确度。

作为一种可选的实施方式，在确定环境数据采集装置在时间区间中获取到的环境数据之后，还可以执行以下步骤：

在环境数据不符合预设数据条件、且语音输入设备所在的环境中存在第二音源对象的情况下，将语音确定为第二音源对象发出的第二语音。

本发明实施例中，在环境数据采集装置为风速传感器的情况下，环境数据为风速，在环境数据采集装置为湿度传感器的情况下，环境数据为湿度，在环境数据采集装置为温度传感器的情况下，环境数据为温度。在环境数据为风速的情况下，如果风速小于或者等于预设风速，则认为环境数据不符合预设数据条件；在环境数据为湿度的情况下，如果湿度小于或者等于预设湿度，则认为环境数据不符合预设数据条件；在环境数据为温度的情况下，如果温度小于或者等于预设温度，则认为环境数据不符合预设数据条件。

进一步的，如果语音输入设备所在的环境中存在第二音源对象，则可以在环境数据不符合预设数据条件的情况下，将上述语音确定为第二音源对象发出的第二语音。可选的，可以向摄像装置发送获取请求，获取请求用于获取语音输入设备所在的环境中的人脸图像信息，摄像装置在获取人脸图像信息之后，可以对人脸图像信息进行识别，以此判断语音输入设备所在的环境中是否存在第二音源对象。例如，在门店导购场景下，第一音源对象可以为导购人员，第二音源对象可以为顾客，语音输入设备可以与摄像装置建立连接，获取语音输入设备所在的环境是否存在第二音源对象的信息，如果语音输入设备所在的环境存在第二音源对象，并且环境数据不符合预设数据条件，可以将语音确定为第二音源对象发出的第二语音，从而实现将第一音源对象和第二音源对象的语音进行分离。

作为一种可选的实施方式，在将语音确定为第一音源对象发出的第一语音之后，还可以执行以下步骤：

为第一语音添加第一身份标记，第一身份标记用于指示第一音源对象的身份。

作为一种可选的实施方式，在为第一语音添加第一身份标记之后，还可以执行以下步骤：

s1，获取第一语音与预设语音之间的匹配度，预设语音为与第一身份标记对应存储的语音；

s2，在匹配度高于第二阈值的情况下，将第一语音确定为标准语音。

本发明实施例中，可以为第一语音添加第一身份标记，第一身份标记用于指示靠近语音输入设备的第一角色对象的身份，也即是第一音源对象的身份，具体的，第一身份标记可以包括但不限于身份编码、姓名等，在上述服务员与顾客的对话场景中，第一身份标记可以包括服务员的身份编码、姓名等。进一步地，可以获取第一语音与预设语音之间的匹配度，预设语音为预先设置好的服务员标准用语对应的语音，第一语音与预设语音之间的匹配度越高说明服务员的话术符合标准，在匹配度高于或者等于第二阈值的情况下，可以将第一语音确定为标准语音。第二阈值为预先设置的用于区分标准语音和不标准语音的匹配度，在匹配度低于第二阈值的情况下，可以将第一语音确定为不标准语音。

作为一种可选的实施方式，还可以执行以下步骤：

s1，调取第一身份标记对应的若干第一语音，以及每一第一语音对应的匹配度；

s2，确定第一语音中匹配度低于第二阈值的不标准语音数量，以及第一语音中匹配度高于或者等于第二阈值的标准语音数量；

s3，计算上述不标准语音数量占总语音数量的第一比值，以及上述标准语音数量占总语音数量的第二比值；

s4，在上述第一比值达到第三阈值或者上述第二比值达到第四阈值的情况下，对该第一身份标记打上异常标记，该异常标记用于指示该第一身份标记对应的服务员话术不合格，以便后续根据异常标记对相应的服务员进行管理。

通过实施这种可选的实施方式，可以根据第一身份标记对应的若干第一语音的匹配度情况确定出话术不合格的服务员，对这些服务员对应的第一身份标记可以打上异常标记，便于后续管理，这一过程加强了对服务员的管理，便于提高服务质量。

在本发明实施例中，不仅能够借助环境数据采集装置获取到的环境数据将语音分离为靠近语音输入设备的第一语音以及远离语音输入设备的第二语音，在需要分离靠近语音输入设备和远离语音输入设备的场景下，无需对语音特征进行提取计算等复杂操作，仅需对获取到的环境数据进行比对判断即可实现语音分离，解决了语音分离复杂度高的技术问题。此外，还可以为第一语音添加第一身份标记，实现对第一语音的身份标记，可以方便地看到第一语音的身份归属，便于针对不同身份归属的语音进行分类管理，提高了语音管理效率。此外，还可以根据第一语音和预设语音之间的匹配度来确定第一语音是否为标准语音，在佩戴语音输入设备的服务员和顾客进行对话的场景下，实现了语音分离，并且对服务员的语音与标准服务话术进行匹配，监控服务员的服务质量，提高了对服务员的监控力度以及监控智能化程度。

作为一种可选的实施方式，在环境数据不符合预设数据条件、且语音输入设备所在的环境中存在第二音源对象的情况下，将语音确定为第二音源对象发出的第二语音之后，还可以执行以下步骤：

对第二语音进行语音识别和语义分析，获取第二音源对象的需求信息。

为第二语音添加第二身份标记，第二身份标记用于指示第二音源对象的身份。

作为一种可选的实施方式，对第二语音进行语音识别和语义分析，获取第二音源对象的需求信息可以包括以下步骤：

s1，对第二语音进行语音识别和语义分析，获取语义内容，得到目标文本；

s2，根据目标文本提取需求信息，需求信息至少包括需求商品名称以及需求商品数量。

本发明实施例中，还可以为第二语音添加第二身份标记，第二身份标记用于指示远离语音输入设备的第二角色对象的身份，在上述服务员与顾客进行对话的场景中，第二身份标记可以包括但不限于顾客编号、顾客姓名等。进一步地，可以对第二语音进行语义分析，获取语义内容，并根据语义内容提取需求信息，需求信息至少包括需求商品名称以及需求商品数量。

作为一种可选的实施方式，在根据语义内容提取需求信息之后，还可以执行以下步骤：

将需求信息所包括的需求商品名称以及需求商品数量发送至指定终端，以使该指定终端的使用者按照需求商品名称以及需求商品数量进行备货。

通过实施这种可选的实施方式，可以利用语音输入设备与指定终端预先建立连接，然后将语音输入设备接收到的需求信息发送至指定终端，用以满足顾客需求，例如，在顾客和服务员的对话场景为点菜场景的情况下，需求信息所包括的需求商品名称可以为菜名，需求商品数量可以为对应的菜品数量，指定终端可以为后厨使用的终端，这一过程可以实现后厨高效备菜，能够提高顾客体验。

作为另一种可选的实施方式，在根据语义内容提取需求信息之后，还可以执行以下步骤：

s1，在预设数据库中查询并获取上述第二身份标记对应的历史需求信息；

s2，从历史需求信息中提取第二身份标记对应的需求特征；

s3，根据该需求特征对需求信息进行调整，获得调整后的需求信息，并将调整后的需求信息所包括的需求商品名称以及需求商品数量发送至指定终端，以使该指定终端的使用者按照需求商品名称以及需求商品数量进行备货。

通过实施这种可选的实施方式，可以存储有第二身份标记对应的历史需求信息，并根据历史需求信息对需求信息进行调整，以此完善需求信息，并将调整后的需求信息发送至指定终端，以使指定终端的使用者进行备货，例如，在服务员和顾客的对话场景为点菜场景的情况下，第二身份标记对应的历史需求信息中包含该顾客历史点菜记录，可以从历史需求信息中提取需求特征，需求特征可以为菜品口味，按照该需求特征对需求信息进行调整，可以对未包含菜品口味的需求信息进行菜品口味的补充，然后将补充后的信息发送给后厨备菜，提高了备货的智能化程度，用户体验更佳。

作为一种可选的实施方式，确定风速感应器在时间区间中获取到的风速可以包括：

s1，在时间区间中确定若干时间点，并获取该若干时间点中每一时间点对应的风速；

s2，计算上述每一时间点对应的风速的平均值，将该平均值确定为风速感应器在时间区间中获取到的风速。

作为一种可选的实施方式，确定湿度感应器在时间区间中获取到的湿度可以包括：

s1，在时间区间中确定若干时间点，并获取该若干时间点中每一时间点对应的湿度；

s2，计算上述每一时间点对应的湿度的平均值，将该平均值确定为湿度感应器在时间区间中获取到的湿度。

作为一种可选的实施方式，确定温度感应器在时间区间中获取到的温度可以包括：

s1，在时间区间中确定若干时间点，并获取该若干时间点中每一时间点对应的温度；

s2，计算上述每一时间点对应的温度的平均值，将该平均值确定为温度感应器在时间区间中获取到的温度。

通过实施这种可选的实施方式，可以将时间区间所包含的若干时间点中每一时间点对应的风速的平均值确定为风速感应器在时间区间中获取到的风速，提高了风速确定的可靠性。

举例来说，本发明实施例中所描述的语音分离方法可以应用于服务员与顾客之间的对话场景，其中服务员佩戴有上述语音输入设备，服务员在和顾客对话来完成顾客对相应业务的咨询服务的过程中，语音输入设备中检测到的语音可能会服务员发出的语音，也可能为顾客发出的语音。语音输入设备中可以设有风速感应器、湿度感应器或者温度感应器，如果检测到的语音对应的风速比较大，说明该语音为服务员发出的语音，如果检测到的语音对应的风速比较小，说明该语音为顾客发出的语音，如果检测到的语音对应的湿度比较大，说明该语音为服务员发出的语音，如果检测到的语音对应的湿度比较小，说明该语音为顾客发出的语音，如果检测到的语音对应的温度比较高，说明该语音为服务员发出的语音，如果检测到的语音对应的温度比较低，说明该语音为顾客发出的语音。通过风速检测、湿度检测或者温度检测可以对顾客发出的语音和服务员发出的语音进行区分，对于顾客发出的语音而言，可以通过语音识别和语义分析等技术获取顾客的需求信息，对于服务员发出的语音，也可以通过语音识别和语义分析与预设标准话术进行比对，以此监控服务员的工作，提高工作质量。

可选的，在环境数据采集装置同时包括风速感应器、湿度感应器和温度感应器的情况下，确定出的环境数据采集装置在时间区间中获取到的环境数据可以包括风速、湿度和温度。预设数据条件可以为风速大于预设风速且湿度大于预设湿度，以及温度大于预设温度。在风速大于预设风速且湿度大于预设湿度且温度大于预设温度的情况下，可以将语音确定为第一音源对象发出的第一语音。又或者，预设数据条件可以拆分为三个预设数据子条件，第一个预设数据子条件为风速大于预设风速，第二个预设数据子条件为湿度大于预设湿度，第三个预设数据子条件为温度大于预设温度，这三个预设数据子条件中满足任意两个预设数据子条件，则可以将语音确定为第一音源对象发出的第一语音。

进一步地，在获取到风速感应器在时间区间中获取到的风速、湿度感应器在时间区间中获取到的湿度以及温度感应器在时间区间中获取到的温度之后，还可以判断风速是否处于预设风速区间、湿度是否处于预设湿度区间以及温度是否处于预设温度区间。在判断出风速不处于预设风速区间的情况下，可以不判断风速是否大于预设风速，而判断湿度是否大于预设湿度以及温度是否大于预设温度，在湿度大于预设湿度且温度大于预设温度的情况下，将语音确定为第一音源对象发出的第一语音。在判断出湿度不处于预设湿度区间的情况下，可以不判断湿度是否大于预设湿度，而判断风速是否大于预设风速以及温度是否大于预设温度，在风速大于预设风速且温度大于预设温度的情况下，将语音确定为第一音源对象发出的第一语音。在判断出温度不处于预设温度区间的情况下，可以不判断温度是否大于预设温度，而判断风速是否大于预设风速以及湿度是否大于预设湿度，在风速大于预设风速且湿度大于预设湿度的情况下，将语音确定为第一音源对象发出的第一语音。这一过程可以通过预设风速区间、预设湿度区间和预设温度区间来过滤异常数据，减少异常数据对于判断结果的影响，从而提高了确定第一语音的准确度。

在本发明实施例中，将语音输入设备设于与第一音源对象所在位置之间的距离小于第一阈值的位置，语音输入设备包括环境数据采集装置，所环境数据采集装置朝向第一音源对象的嘴部；在语音输入设备检测到语音的情况下，获取语音和语音对应的时间区间；确定环境数据采集装置在时间区间中获取到的环境数据；在环境数据符合预设数据条件的情况下，将语音确定为第一音源对象发出的第一语音；在环境数据不符合预设数据条件的情况下，将语音确定为第二音源对象发出的第二语音。这一过程可以借助环境数据采集装置获取到的环境数据将语音分离为第一音源对象发出的第一语音以及第二音源对象发出的第二语音，在需要分离第一音源对象发出的语音和第二音源对象发出的语音的场景下，无需对语音特征进行提取计算等复杂操作，解决了语音分离复杂度高的技术问题。

请参阅图2，图2是本发明实施例中公开的另一种语音分离方法，并且图2所示的语音分离方法是在环境数据采集装置包括风速感应器的情况下执行的，具体的，可以执行以下步骤：

s201，将语音输入设备设于与第一音源对象所在位置之间的距离小于第一阈值的位置；

s202，在语音输入设备检测到语音的情况下，获取语音和语音对应的时间区间，语音输入设备所在的位置与第一音源对象所在的位置之间的距离小于第一阈值，语音输入设备包括风速感应器，风速感应器朝向第一音源对象的嘴部；

s203，确定风速感应器在时间区间中获取到的风速；

s204，在风速大于预设风速的情况下，将语音确定为第一音源对象发出的第一语音；

s205，为第一语音添加第一身份标记，第一身份标记用于指示第一音源对象的身份；

s206，获取第一语音与预设语音之间的匹配度，预设语音为与第一身份标记对应存储的语音；

s207，在匹配度高于第二阈值的情况下，将第一语音确定为标准语音；

s208，在风速小于或者等于预设风速、且语音输入设备所在的环境中存在第二音源对象的情况下，将语音确定为第二音源对象发出的第二语音。

本发明实施例中，可以将风速感应器设于语音输入设备中朝向第一音源对象的嘴部，并确定风速感应器在时间区间中获取到的风速，如果风速大于预设风速，将语音确定为第一音源对象发出的第一语音，如果风速小于或者等于预设风速，将语音确定为第二音源对象发出的第二语音，以此通过测量风速来区分距离语音输入设备较近的第一音源对象发出的语音以及距离语音输入设备较远的第二音源对象发出的语音。在区分出第一音源对象发出的第一语音和第二音源对象发出的第二语音之后，可以为第一语音添加第一身份标记，并为第二语音添加第二身份标记。进一步的，可以获取第一语音与预设语音之间的匹配度，在匹配度高于第二阈值的情况下，将第一语音确定为标准语音。以此在实现第一语音和第二语音分离的基础上，实现对第一语音的自动校验，校验第一语音是否标准。

请参阅图3，图3是本发明实施例中公开的另一种语音分离方法，并且图3所示的语音分离方法是在环境数据采集装置包括湿度感应器的情况下执行的，具体的，可以执行以下步骤：

s301，将语音输入设备设于与第一音源对象所在位置之间的距离小于第一阈值的位置；

s302，在语音输入设备检测到语音的情况下，获取语音和语音对应的时间区间，语音输入设备所在的位置与第一音源对象所在的位置之间的距离小于第一阈值，语音输入设备包括湿度感应器，湿度感应器朝向第一音源对象的嘴部；

s303，确定湿度感应器在时间区间中获取到的湿度；

s304，在湿度大于预设湿度的情况下，将语音确定为第一音源对象发出的第一语音；

s305，为第一语音添加第一身份标记，第一身份标记用于指示第一音源对象的身份；

s306，获取第一语音与预设语音之间的匹配度，预设语音为与第一身份标记对应存储的语音；

s307，在匹配度高于第二阈值的情况下，将第一语音确定为标准语音；

s308，在湿度小于或者等于预设湿度、且语音输入设备所在的环境中存在第二音源对象的情况下，将语音确定为第二音源对象发出的第二语音。

本发明实施例中，可以将湿度感应器设于语音输入设备中朝向第一音源对象的嘴部，并确定湿度感应器在时间区间中获取到的湿度，如果湿度大于预设湿度，将语音确定为第一音源对象发出的第一语音，如果湿度小于或者等于预设湿度，将语音确定为第二音源对象发出的第二语音，以此通过测量湿度来区分距离语音输入设备较近的第一音源对象发出的语音以及距离语音输入设备较远的第二音源对象发出的语音。在区分出第一音源对象发出的第一语音和第二音源对象发出的第二语音之后，可以为第一语音添加第一身份标记，并为第二语音添加第二身份标记。进一步的，可以获取第一语音与预设语音之间的匹配度，在匹配度高于第二阈值的情况下，将第一语音确定为标准语音。以此在实现第一语音和第二语音分离的基础上，实现对第一语音的自动校验，校验第一语音是否标准。

请参阅图4，图4是本发明实施例中公开的另一种语音分离方法，并且图4所示的语音分离方法是在环境数据采集装置包括温度感应器的情况下执行的，具体的，可以执行以下步骤：

s401，将语音输入设备设于与第一音源对象所在位置之间的距离小于第一阈值的位置；

s402，在语音输入设备检测到语音的情况下，获取语音和语音对应的时间区间，语音输入设备所在的位置与第一音源对象所在的位置之间的距离小于第一阈值，语音输入设备包括温度感应器，温度感应器朝向第一音源对象的嘴部；

s403，确定温度感应器在时间区间中获取到的温度；

s404，在温度大于预设温度的情况下，将语音确定为第一音源对象发出的第一语音；

s405，为第一语音添加第一身份标记，第一身份标记用于指示第一音源对象的身份；

s406，获取第一语音与预设语音之间的匹配度，预设语音为与第一身份标记对应存储的语音；

s407，在匹配度高于第二阈值的情况下，将第一语音确定为标准语音；

s408，在温度小于或者等于预设温度、且语音输入设备所在的环境中存在第二音源对象的情况下，将语音确定为第二音源对象发出的第二语音。

本发明实施例中，可以将温度感应器设于语音输入设备中朝向第一音源对象的嘴部，并确定温度感应器在时间区间中获取到的温度，如果温度大于预设温度，将语音确定为第一音源对象发出的第一语音，如果温度小于或者等于预设温度，将语音确定为第二音源对象发出的第二语音，以此通过测量温度来区分距离语音输入设备较近的第一音源对象发出的语音以及距离语音输入设备较远的第二音源对象发出的语音。在区分出第一音源对象发出的第一语音和第二音源对象发出的第二语音之后，可以为第一语音添加第一身份标记，并为第二语音添加第二身份标记。进一步的，可以获取第一语音与预设语音之间的匹配度，在匹配度高于第二阈值的情况下，将第一语音确定为标准语音。以此在实现第一语音和第二语音分离的基础上，实现对第一语音的自动校验，校验第一语音是否标准。

根据本发明实施例的另一个方面，还提供了一种用于实施上述语音分离方法的语音分离装置。如图5所示，该装置包括：

获取单元501，用于在语音输入设备检测到语音的情况下，获取语音和语音对应的时间区间，语音输入设备所在的位置与第一音源对象所在的位置之间的距离小于第一阈值，语音输入设备包括环境数据采集装置，环境数据采集装置朝向第一音源对象的嘴部；

第一确定单元502，用于确定环境数据采集装置在时间区间中获取到的环境数据；

第二确定单元503，用于在环境数据符合预设数据条件的情况下，将语音确定为第一音源对象发出的第一语音。

作为一种可选的实施方式，在环境数据采集装置包括风速感应器的情况下，第一确定单元502用于确定环境数据采集装置在时间区间中获取到的环境数据的方式具体可以为：第一确定单元502用于确定风速感应器在时间区间中获取到的风速，环境数据至少包括风速；第二确定单元503用于在环境数据符合预设数据条件的情况下，将语音确定为第一音源对象发出的第一语音的方式具体可以为：在风速大于预设风速的情况下，将语音确定为第一音源对象发出的第一语音。

作为一种可选的实施方式，在环境数据采集装置包括湿度感应器的情况下，第一确定单元502用于确定环境数据采集装置在时间区间中获取到的环境数据的方式具体可以为：第一确定单元502用于确定湿度感应器在时间区间中获取到的湿度，环境数据至少包括湿度；第二确定单元503用于在环境数据符合预设数据条件的情况下，将语音确定为第一音源对象发出的第一语音的方式具体可以为：在湿度大于预设湿度的情况下，将语音确定为第一音源对象发出的第一语音。

作为一种可选的实施方式，在环境数据采集装置包括温度感应器的情况下，第一确定单元502用于确定环境数据采集装置在时间区间中获取到的环境数据的方式具体可以为：第一确定单元502用于确定温度感应器在时间区间中获取到的温度，环境数据至少包括温度；第二确定单元503用于在环境数据符合预设数据条件的情况下，将语音确定为第一音源对象发出的第一语音的方式具体可以为：在温度大于预设温度的情况下，将语音确定为第一音源对象发出的第一语音。

作为一种可选的实施方式，上述装置还可以包括：

设置单元，用于在获取语音和语音对应的时间区间之前，将语音输入设备设于与第一音源对象所在位置之间的距离小于第一阈值的位置。

作为一种可选的实施方式，上述装置还可以包括：

第三确定单元，用于在确定环境数据采集装置在时间区间中获取到的环境数据之后，在环境数据不符合预设数据条件、且语音输入设备所在的环境中存在第二音源对象的情况下，将语音确定为第二音源对象发出的第二语音。

作为一种可选的实施方式，上述装置还可以包括：

添加单元，用于在将语音确定为第一音源对象发出的第一语音之后，为第一语音添加第一身份标记，第一身份标记用于指示第一音源对象的身份。

作为一种可选的实施方式，上述装置还可以包括：

第四确定单元，用于在为第一语音添加第一身份标记之后，获取第一语音与预设语音之间的匹配度，预设语音为与第一身份标记对应存储的语音；在匹配度高于第二阈值的情况下，将第一语音确定为标准语音。

根据本发明实施例的又一个方面，还提供了一种用于实施上述语音分离方法的电子装置，如图6所示，该电子装置包括存储器602和处理器604，该存储器602中存储有计算机程序，该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

s1，在语音输入设备检测到语音的情况下，获取语音和语音对应的时间区间，语音输入设备所在的位置与第一音源对象所在的位置之间的距离小于第一阈值，语音输入设备包括环境数据采集装置，环境数据采集装置朝向第一音源对象的嘴部；

s2，确定环境数据采集装置在时间区间中获取到的环境数据；

s3，在环境数据符合预设数据条件的情况下，将语音确定为第一音源对象发出的第一语音。

可选地，本领域普通技术人员可以理解，图6所示的结构仅为示意，电子装置也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobileinternetdevices，mid)、pad等终端设备。图6其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图6中所示更多或者更少的组件(如网络接口等)，或者具有与图6所示不同的配置。

其中，存储器602可用于存储软件程序以及模块，如本发明实施例中的虚拟对象控制方法和装置对应的程序指令/模块，处理器604通过运行存储在存储器602内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的虚拟对象控制方法。存储器602可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器602可进一步包括相对于处理器604远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。作为一种示例，如图6所示，上述存储器602中可以但不限于包括上述语音分离装置中的获取单元501、第一确定单元502和第二确定单元503。此外，还可以包括但不限于上述语音分离装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置606包括一个网络适配器(networkinterfacecontroller，nic)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置606为射频(radiofrequency，rf)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器608，用于显示环境数据；和连接总线614，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

s2，确定环境数据采集装置在时间区间中获取到的环境数据；

s3，在环境数据符合预设数据条件的情况下，将语音确定为第一音源对象发出的第一语音。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-onlymemory，rom)、随机存取器(randomaccessmemory，ram)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴梅;梁志婷;徐浩;徐世超
技术所有人：上海明略人工智能(集团)有限公司
我是此专利的发明人

上一篇：用于呼吸监测的方法和系统与流程
上一篇：一种内环缝焊接的定位装置及焊接系统的制作方法