语音数据比对处理方法、装置、电子设备和存储介质与流程

文档序号：28867644发布日期：2022-02-12 10:18阅读：219来源：国知局

1.本技术涉及语音处理技术领域，更具体地，涉及一种语音数据比对处理方法、装置、电子设备和存储介质。

背景技术：

2.声纹鉴定（voice identification）作为生物识别技术的一种，又称为语音同一性鉴定。在鉴定过程中，当需要对不同的语音数据进行比对时，例如需要确认不同的语音数据是否为同一说话者时，需要对不同的语音数据中的相关片段分别进行复制，操作复杂，比对效率较低。

技术实现要素：

3.鉴于上述问题，本技术提出了一种语音数据比对处理方法、装置、电子设备和存储介质。
4.第一方面，本技术实施例提供了一种语音数据比对处理方法，该方法包括：获取待比对的第一语音数据及第二语音数据，在第一界面中显示表征第一语音数据的第一图谱及显示表征第二语音数据的第二图谱，响应于接收到的片段标记指令标记出第一语音数据的第一语音片段及第二语音数据中与第一语音片段对应的第二语音片段，以及在第二界面中显示表征第一语音片段的第三图谱，及显示表征第二语音片段的第四图谱。
5.第二方面，本技术实施例提供了一种语音数据比对处理装置，该装置包括：数据获取模块，用于获取待比对的第一语音数据及第二语音数据；第一显示模块，用于在第一界面中显示表征第一语音数据的第一图谱及显示表征第二语音数据的第二图谱；片段标记模块，用于响应于接收到的片段标记指令标记出第一语音数据的第一语音片段及第二语音数据中与第一语音片段对应的第二语音片段；以及第二显示模块，用于在第二界面中显示表征第一语音片段的第三图谱，及显示表征第二语音片段的第四图谱。
6.第三方面，本技术实施例提供了一种电子设备，包括一个或多个处理器、存储器以及一个或多个应用程序。其中，一个或多个所述应用程序被存储在所述存储器中并被配置为由一个或多个所述处理器执行，一个或多个所述应用程序配置用于执行如上述第一方面提供的语音数据比对处理方法。
7.第四方面，本技术实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述第一方面提供的语音数据比对处理方法。
8.本技术的语音数据比对处理方法、装置、电子设备和存储介质，涉及语音处理技术领域。该语音数据比对处理方法包括：获取待比对的第一语音数据及第二语音数据，在第一界面中显示表征第一语音数据的第一图谱及显示表征第二语音数据的第二图谱，响应于接收到的片段标记指令标记出第一语音数据的第一语音片段及第二语音数据中与第一语音片段对应的第二语音片段，以及在第二界面中显示表征第一语音片段的第三图谱，及显示
表征第二语音片段的第四图谱，从而可以方便、快速地对标记的语音数据进行比对，提高比对效率。
附图说明
9.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
10.图1示出了本技术一实施例提出的一种语音数据比对处理方法的流程示意图；图2示出了本技术一实施例提出的一种语音数据比对处理方法中第一界面的示意图；图3示出了本技术另一实施例提出的一种语音数据比对处理方法的流程示意图；图4示出了本技术另一实施例提出的一种语音数据比对处理方法中第二界面的示意图；图5示出了本技术又一实施例提出的一种语音数据比对处理的流程示意图；图6示出了本技术又一实施例提出的一种语音数据比对处理方法中第三界面的示意图；图7示出了本技术再一实施例提出的一种语音数据比对处理方法的流程示意图；图8示出了本技术一实施例提出的一种语音数据比对处理装置的结构框图；图9示出了本技术一实施例提出的一种电子设备的结构框图；图10示出了本技术一实施例提出的一种计算机可读取存储介质的结构框图。
具体实施方式
11.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。
12.声纹鉴定（voice identification）作为生物识别技术的一种，又称为语音同一性鉴定。语音同一性鉴定又称声纹鉴定、话者识别鉴定、说话人鉴定和嗓音鉴定，指通过比较、分析，对声像资料记载的语音数据的同一性问题所进行的科学判断。在鉴定过程中，经常需要对不同的语音数据进行比对分析，如对不同的语音数据的特征（如共振峰频率、走势等）进行逐一比对。
13.目前常见的鉴定方法是将需要进行比对的语音数据分别复制到比对软件，然后对语音的特征进行逐一调整和比对，还需要手动将比对结果复制到另一软件上进行排版。这种方法需要用户手动操作，且若存在比对特征不理想，还需要反复手动重新进行调整并重复进行拷贝粘贴，需要花费大量的时间和精力，操作复杂，比对效率低。
14.因此，为了克服上述缺陷，本技术的发明人提出了本技术提供的一种语音数据比对处理方法、装置、电子设备和存储介质，涉及语音处理技术领域。该语音数据比对处理方法包括：获取待比对的第一语音数据及第二语音数据，在第一界面中显示表征第一语音数据的第一图谱及显示表征第二语音数据的第二图谱，响应于接收到的片段标记指令标记出第一语音数据的第一语音片段及第二语音数据中与第一语音片段对应的第二语音片段，以
及在第二界面中显示表征第一语音片段的第三图谱，及显示表征第二语音片段的第四图谱，从而可以方便、快速地对标记的语音数据进行比对，提高比对效率。
15.下面将结合具体实施例对其进行介绍。
16.请参阅图1，图1示出了本技术实施例提供的一种语音数据比对处理方法，该方法可以应用于终端设备。具体地，该方法可以包括步骤s110至步骤s140。
17.步骤s110、获取待比对的第一语音数据及第二语音数据。
18.在一些实施方式中，终端设备可以响应于用户的操作获取第一语音数据和第二语音数据。在另一些实施方式中，移动终端也可以接收其它设备发送的用于进行比对的第一语音数据和第二语音数据。
19.在一些实施方式中，终端设备可以响应于用户的选择操作，在本地存储的文件中读取语音数据。在一些实施方式中，终端设备也可以从本地设置的数据库或者其它设备设置的数据库中读取语音数据。在一些实施方式中，终端设备还可以通过网络接口从服务器或其他设备读取语音数据。
20.在一些实施方式中，终端设备可以例如是笔记本电脑、台式电脑、平板电脑、智能手机等，具体的终端设备种类可根据实际需要进行选择，本技术对此不作限制。
21.在一种实施方式中，文件的存储类型可以是块存储、文件存储和对象存储。文件的存储格式可以为wav（waveform，波形文件）文件格式、mp3（moving picture experts group audio layer iii，动态影像专家压缩标准音频层面3）文件格式、flac（free lossless audio codec，自由无损音频压缩编码）文件格式、ape（adaptive prencdictive encoding，自适应预测编码）文件格式等。
22.在一种实施方式中，数据库可以为关系型数据库，例如可以是mysql、sql server。数据库也可以为非关系型数据库，例如可以是mongodb、redis、memcache。
23.在一种实施方式中，服务器可以是指单独的服务器，也可以是指服务器集群；可以是本地服务器，也可以是云端服务器。终端设备可以是智能手机、笔记本电脑、台式电脑、平板电脑等。
24.进一步地，通过网络接口从服务器或其他终端设备读取语音数据时所使用的网络通常为因特网、但也可以是任何网络，包括但不限于局域网(local area network，lan)、城域网(metropolitan area network，man)、广域网(wide area network，wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。此外，通过网络接口从服务器或其他终端设备读取数据可以通过特定的通信协议进行通信传输，通信协议包括但不限于ble（bluetooth low energy，低功耗蓝牙）协议、wlan（wireless local area network，无线局域网）协议、蓝牙协议、zigbee（紫峰）协议或者wi-fi（wireless fidelity，无线保真）协议等。
25.在一些实施方式中，终端设备可以接收从其他设备发送的用于进行比对的语音数据，例如终端设备在与手机连接后，用户可以在手机上选择需要进行比对的语音数据，并通过手机发送给终端设备，从而终端设备接收从手机上传输的语音数据进行语音比对。
26.在一些实施方式中，终端设备与其他设备的连接可以是有线连接，也可以是无线连接。其中，有线连接媒介可以包括但不限于光纤、同轴电缆、双绞线等，无线连接媒介可以包括但不限于zigbee（紫峰）、wifi（wireless fidelity，无线保真）、蓝牙、激光、红外线等。
27.在一些实施方式中，待比对的语音数据的数量可以是多个，即可以获取两个以上的语音数据进行比对，例如可以是获取待比对的第一语音数据、第二语音数据和第三语音数据。本技术实施例以两个待比对的语音数据为例进行解释说明。
28.步骤s120、在第一界面中显示表征第一语音数据的第一图谱及显示表征第二语音数据的第二图谱。
29.在本技术的实施例中，第一图谱和第二图谱可以采用多种类型的图谱用于表示语音数据的特征。例如可以采用语谱图、频谱图、时域图等，具体可以根据实际使用的需要设置进行显示的图谱类型，本技术对此不作限制。
30.其中，语谱图是频谱分析视图，采用二维平面表达三维信息，能量值的大小可以通过颜色来表示，颜色越深表示该点的语音能量越强。显示的语谱图可以为窄带语谱图和宽带语谱图。窄带语谱图可以清晰显示谐波的结构，反映基频的时变过程；宽带语谱图能清晰显示共振峰结构，能反映频谱的快速时变过程。在实际应用中根据需求的不同可以选择显示窄带语谱图或宽带语谱图其中任意一种语谱图，也可以同时将两种语谱图同时显示。
31.其中，频谱图能表现一段音频数据在某一时刻各个频率的音量的高低，其横轴是频率，纵轴为振幅，常见的有振幅频谱图和相位频谱图。
32.其中，时域图能描述数学函数或物理信号与时间关系，一个信号的时域波形可以表达信号随着时间的变化。
33.具体地，终端设备可以在第一界面显示获取的第一语音数据对应的第一图谱以及第二语音数据对应的第二图谱，从而方便用户进行比对。
34.在本技术的实施方式中，可以根据实际使用的需要设置第一图谱、第二图谱在第一界面中的显示位置，第一图谱和第二图谱的显示位置可以根据实际需要进行设置，本技术对此不作限制。
35.在一些实施方式中，第一图谱和第二图谱可以分别位于第一界面的上下两部分。例如可以在第一界面的上半部分显示第一图谱，下半部分显示第二图谱；也可以是在第一界面的上半部分显示第二图谱，下半部分显示第一图谱。进一步地，为了方便用户进行比对，第一图谱与第二图谱可以对齐设置，例如，第一图谱与第二图谱的纵轴可以位于同一直线，以方便用户进行比较。
36.在另一些实施方式中，第一图谱和第二图谱可以分别位于第一界面的左右两部分。例如可以在第一界面的右半部分显示第一图谱，左半部分显示第二图谱；也可以是在第一界面的右半部分显示第二图谱，左半部分显示第一图谱。
37.在一些实施方式中，第一界面可以包括图像显示区域和功能区域，图像显示区域显示第一图谱和第二图谱。功能区域可以用来显示功能菜单等。
38.在一些实施方式中，用户可以在第一界面对第一图谱和第二图谱进行调整。例如：放大、缩小、标记等，以方便用户进行语音比对。
39.在一些实施方式中，用户还可以在第一界面直接调整第一图谱和第二图谱的位置。例如，可以直接选中第一图谱，将第一图谱拖动至合适位置。又如，可以对换第一图谱和第二图谱的位置。示例性地，将原来第一图谱在第一界面中的显示区域设为a区域，将原来第二图谱在第一界面中的显示区域设为b区域，当选中第一图谱，然后将第一图谱拖动到第二图谱显示的区域后，可以自动将第一图谱和第二图谱原本的显示区域对换，即第一图谱
在第一界面中的显示区域变为b区域，第二图谱在第一界面中的显示区域变为a区域。
40.在一些实施方式中，当第一语音数据和第二语音数据过大导致对应的第一图谱和第二图谱在第一界面中各自的显示区域无法完整显示时，可以给图谱设置滑条，用户可手动拖动滑条来改变第一图谱和第二图谱的显示范围。示例性地，第一图谱总共时长为1min，第一图谱的显示区域只能显示40ms即显示范围为40ms，因此可以将第一图谱从0ms~40ms的显示时长通过拖动滑条变为10ms~50ms，即将第一图谱在第一界面中显示的0ms~40ms的图谱变为10ms~50ms对应的图谱。其中，滑条的具体位置可以根据实际需要自行设置，对此不作限制。
41.步骤s130、响应于接收到的片段标记指令标记出第一语音数据的第一语音片段及第二语音数据中与第一语音片段对应的第二语音片段。
42.其中，片段标记指令用于在第一语音数据和第二语音数据对应的第一图谱和第二图谱上划定需要进行比对的图谱片段。
43.在一些实施方式中，用户可以先在语音数据对应的图谱上设置标记点，通过标记点确定需要进行比对的语音片段。例如，用户可以在图谱上确定一个时间点作为第一标记点，例如，用户可以通过点击确定第一标记点；再根据需要的片段范围确定另一个时间点作为第二标记点，例如用户可以再次点击确定另一标记点。根据第一标记点和第二标记点确定标记时长，标记时长对应的图谱即为根据片段标记指令标记的语音片段。示例性地，可以在第一语音数据对应的第一图谱中将时间为10ms的位置确定为第一标记点，再将20ms的位置确定为第二标记点，10ms~20ms区间对应的图谱即为根据片段标记指令标记第一语音数据对应的第一语音片段。
44.在一些实施方式中，片段标记指令可以是先在语音数据对应的图谱上确定一个时间点作为第一标记点，例如，用户可以通过点击确定第一标记点，该标记点即为语音数据中需要标记的语音片段的一端。再选中第一标记点并拖动至需要标记的语音片段的另一端，例如，用户停止拖动，并松手时，用户最后接触位置确定为第二标记点。两端围成的标记区间即为根据片段标记指令得到的语音片段。示例性地，可以在第一语音数据对应的第一图谱中将时间为10ms的位置确定为第一标记点，选中第一标记点并向后拖动至时间为20ms的位置，10ms~20ms对应的标记区间即为根据片段标记指令标记第一语音数据得到的第一语音片段。
45.在一些实施方式中，已标记的标记点可以根据需要删除。例如已经在10ms位置确定了第一标记点，但后续想将第一标记点改为12ms位置，因此可以删除原有10ms位置的第一标记点，并将12ms位置设为第一标记点。
46.当接收到片段标记指令后可以在第一语音数据对应的第一图谱上选中需要标记的第一图谱片段，得到第一语音数据中需要标记的第一语音片段，再在第二语音数据对应的第二图谱中标记与第一语音片段对应的第二语音片段。
47.在一些实施方式中，第二语音片段可以参照第一语音片段的标记方法进行确定，即用户可以直接在第二语音数据对应的第二图谱上设置标记点以确定第二语音数据中与第一语音片段对应的第二语音片段。
48.在一些实施方式中，第二语音片段也可以根据第一语音片段进行确定。可选地，第二语音片段可以是第二语音数据中与第一语音片段相似的片段，例如与第一语音片段的相
似度大于预设阈值的片段。示例性地，请参阅图2，第一界面100中显示第一图谱110和第二图谱120，先在第一图谱110中确定第一语音片段a，根据第一语音片段a对应的图谱在第二图谱120中找到与其最相似的片段进行标记得到第二语音片段b。
49.在一些实施方式中，与第一语音片段对应的第二语音片段也可以是第一语音数据和第二语音数据中读音相同或相似的片段。例如当检测到第一语音数据为内容“是的我叫小明”对应的图谱，第二语音数据为内容“不要浪费食物”对应的图谱，当在第一语音数据对应的第一图谱中将内容“是”对应的语音片段标记为第一语音片段时，从第二语音数据中检测与内容“是”对应的语音片段相似度最高的片段作为第二语音片段。例如当检测到第二语音数据中内容“食”对应的语音片段与第一语音数据中内容“是”的相似度最高，则将第二语音数据中“食”对应的语音片段标记为第二语音片段。
50.进一步地，当检测到第二语音数据的中存在多个与第一语音数据中的第一语音片段对应的内容相同或相似的片段，则用户可在第二图谱中读音相同或相似的片段中选择图谱与第一语音片段最相近的片段作为第二语音片段。例如，终端设备可以将检测结果进行展示，例如可以通过高亮、设置标记等方式在第二图谱中进行提醒，用户在检测结果中选择其中一个片段作为第二语音片段。
51.步骤s140、在第二界面中显示表征第一语音片段的第三图谱，及显示表征第二语音片段的第四图谱。
52.在一些实施方式中，终端设备可以将当前的第一界面切换为第二界面。在另一些实施方式中，终端设备也可以在当前的第一界面的基础上生成浮动窗口显示第二界面，也即同时显示第一界面和第二界面，用户可以根据需要调整浮动窗口的位置和大小。
53.在一些实施方式中，根据片段标记指令确定第一语音片段和第二语音片段后，用户可以启动比对操作，从而触发终端设备生成第二界面。在一些实施方式中，终端设备可以同时显示第一界面和第二界面，当在第一界面确定第一语音片段时，第二界面可以同步显示表征第一语音片段的第三图谱。当在第二界面确定第二语音片段时，第二界面可以同步显示表征第二语音片段的第四图谱，从而方便用户快速进行比对，简化操作过程。
54.在一些实施方式中，比对操作可以是确定第一语音片段和第二语音片段后自动启动，即当检测到第一语音片段和第二语音片段后自动开启比对操作，对第一语音片段和第二语音片段的音频特征进行比对。
55.可以理解地，与第一界面显示的第一语音数据的第一图谱和第二语音数据的第二图谱相比，第二界面中显示的是第一语音数据的第一语音片段和第二语音数据的第二语音片段，在第二界面可以更加清晰地看到标记的第一语音片段和第二语音片段对应的图谱，从而可以更加清楚地对两个语音片段中的音频特征进行比对。
56.在一些实施方式中，第三图谱和第四图谱在第二界面中的显示位置可以根据需要自行设置，在此不作限制。
57.在一些实施方式中，第二界面中除了显示第三图谱和第四图谱，还可以显示功能菜单、目录等内容。
58.在一些实施方式中，用户还可以在第二界面中控制第三图谱和第四图谱对应的语音数据进行播放。可以理解地，第三图谱和第四图谱对应的音频可以各自单独播放，也可以同步播放。
59.在本技术的实施例中，通过获取待比对的第一语音数据及第二语音数据，在第一界面中显示表征第一语音数据的第一图谱及显示表征第二语音数据的第二图谱，响应于接收到的片段标记指令标记出第一语音数据的第一语音片段及第二语音数据中与第一语音片段对应的第二语音片段，以及在第二界面中显示表征第一语音片段的第三图谱，及显示表征第二语音片段的第四图谱，从而可以方便、快速地对标记的语音数据进行比对，提高比对效率。
60.请参阅图3，图3示出了本技术实施例提供的另一种语音数据比对处理方法，在本实施例中，片段标记指令包括针对第一语音数据的第一标记指令及针对第二语音数据的第二标记指令，具体地，该方法可以包括步骤s210至步骤s250。
61.步骤s210、获取待比对的第一语音数据及第二语音数据。
62.步骤s220、在第一界面中显示表征第一语音数据的第一图谱及显示表征第二语音数据的第二图谱。
63.在本技术实施例中，步骤s210至步骤s220的具体描述可以参考前述实施例中的内容，在此不再赘述。
64.步骤s230、根据与第一标记指令对应的第一时间段确定第一目标时间段；根据与第二标记指令对应的第二时间段确定第二目标时间段。
65.其中，终端设备可以响应于用户对第一语音数据的标记操作生成第一标记指令，根据第一标记指令可以确定用户在第一语音数据所标记的第一时间段。第一时间段为用户在第一语音数据中所选择的语音片段的时间范围。
66.第一目标时间段为根据第一时间段确定的第一语音数据中需要进行显示的语音片段的时间范围。
67.类似地，终端设备可以响应于用户对第二语音数据的标记操作生成第二标记指令，根据第二标记指令可以确定用户在第二语音数据所标记的第二时间段。第二时间段为用户在第二语音数据中所选择的语音片段的时间范围。
68.第二目标时间段为根据第二时间段确定的第二语音数据中需要进行显示的语音片段的时间范围。
69.为显示用户所选择的语音片段，第一目标时间段包含第一时间段、第二目标时间段包含第二时间段，为确保语音比对效果，第一目标时间段大于第一时间段、第二目标时间段大于第二时间段，从而可以避免遗漏、减少误差。
70.用户对语音数据的标注操作可能由于操作误差，导致所选择的语音片段不完整，影响比对效果。为了减少操作误差，在一些实施方式中，可以根据第一时间段的时间范围确定第一预设时间段，第一预设时间段包括第一时间段之前的第一前预设时间段和/或第一时间段之后的第一后预设时间段，将第一时间段以及第一预设时间段作为第一目标时间段，从而第一目标时间段可以覆盖范围比第一时间段更大的语音片段，避免显示遗漏，影响比对效果。
71.类似地，可以根据第二时间段的时间范围确定第二预设时间段，将第二时间段以及第二预设时间段作为第二目标时间段，第二预设时间段包括第二时间段之前的第二前预设时间段和/或第二时间段之后的第二后预设时间段，将第二时间段和第二预设时间段作为第二目标时间段。
72.在一些实施方式中，可以根据第一时间段的时间范围的预设比例确定第一预设时间段。例如第一前预设时间段可以根据第一时间段的时间范围的第一预设比例进行确定。第一后预设时间段可以根据第一时间段的时间范围的第二预设比例进行确定。类似地，可以根据第二时间段的时间范围的预设比例确定第二预设时间段。例如第二前预设时间段可以根据第二时间段的时间范围的第三预设比例进行确定。第二后预设时间段可以根据第二时间段的时间范围的第四预设比例进行确定。
73.其中，第一预设比例、第二预设比例、第三预设比例、第四预设比例的具体数值可以根据实际需要进行选择，本技术对此不作限制。
74.可选地，第一预设时间段可以包括第一前预设时间段。可选地，第一预设时间段也可以包括第一后预设时间段。可选地，第一预设时间段还可以同时包括第一前预设时间段和第一后预设时间段。具体可以根据实际需要进行选择，本技术对此不作限制。
75.可选地，第二预设时间段可以包括第二前预设时间段。可选地，第二预设时间段也可以包括第二后预设时间段。可选地，第二预设时间段还可以同时包括第二前预设时间段和第二后预设时间段。具体可以根据实际需要进行选择，本技术对此不作限制。
76.示例性的，若第一时间段对应的时间段为00:00:20min~00:00:30min，时间范围是10ms，第一目标时间段包括第一前预设时间段，第一预设比例为0.1，则第一前预设时间段的时间范围为1ms。进而第一预设时间段对应的时间段为00:00:19min~00:00:20min，从而第一目标时间段可以根据第一时间段以及第一预设时间段得到，即00:00:19min~00:00:30min。
77.在一些实施方式中，在根据第一时间段的时间范围确定第一预设时间段之前，还可以对第一时间段对应的语音片段进行识别，根据识别结果确定语音片段是否完整，从而确定是否需要设置第一预设时间段；在根据第二时间段的时间范围确定第二预设时间段之前，还可以对第二时间段对应的语音片段进行识别，根据识别结果确定语音片段是否完整，从而确定需要设置第二预设时间段。
78.在一些实施方式中，终端设备可以对第一时间段对应的语音片段进行语音识别，根据识别结果判断第一时间段对应的语音片段是否完整。终端设备可以对第二时间段对应的语音片段进行语音识别，根据识别结果判断第二时间段对应的语音片段是否完整。
79.在一些情况下，如果语音片段完整，则可以根据语音识别得到识别结果。例如语音片段“我”，通过语音识别可以得到“我”对应的识别结果。如果语音片段存在不完整，则可能导致语音片段无法根据语音识别得到识别结果，例如语音片段只包括“我”的部分片段，则由于部分片段缺失，语音片段不完整，语音识别可能无法得到识别结果。不完整的语音片段可能影响语音比对效果，为此，可以进一步获取语音片段中比所选择的时间范围更大的范围进行显示。例如获取第一时间段之前的第一前预设时间段和/或第一时间段之后的第一后预设时间段、获取第二时间段之前的第二前预设时间段和/或第二时间段之后的第二后预设时间段，从而增加语音正常识别的概率。
80.在一些情况下，在所选取的语音片段时间范围较长的情况下，如语音片段范围至少包括两个字对应的语音，此时，若语音片段中仅有部分音频不完整，例如“我们”的语音片段中，“我”对应的语音片段完整，而“们”对应的语音片段存在缺失。语音片段可以根据语音识别得到识别至少部分语音片段的识别结果，例如可以识别到“我”。但是识别结果与语音
片段的时间范围不符合，如“我们”对应的语音片段时间范围为2s，而语音识别结果只有“我”，即1个字对应的识别结果。假设每个文字对应的平均时长为1s，则2s的语音片段应对应2个文字的识别结果。语音片段的时长与识别结果的内容不匹配，则可以判断语音片段存在部分缺失，不完整的语音片段可能影响语音比对效果，为此，可以进一步获取语音片段中比所选择的时间范围更大的范围进行显示。
81.在一些实施方式中，对第一时间段对应的语音片段进行识别后，还可以获取第一时间段的时间范围，根据识别到的内容和第一时间段的时间范围确定是否需要设置第一预设时间段；对第二时间段对应的语音片段进行识别后，获取第二时间段的时间范围，根据识别到的内容和第二时间段的时间范围确定是否需要设置第一预设时间段。
82.具体地，对第一时间段对应的语音片段进行识别后，终端设备获取第一时间段的时间范围，根据识别到的内容和每个文字的平均时长确定识别到的内容对应的原始时间范围，将原始时间范围与第一时间段的时间范围进行比较，若原始时间范围小于第一时间段的时间范围，则确定需要设置第一预设时间段。确定是否需要设置第二预设时间段的方法与第一预设时间段类似，在此不做赘述。
83.示例性的，设置每个文字的平均时长为1s，对第一时间段对应的语音片段的内容进行识别，若识别结果为“你”，即识别结果对应的原始时间范围为1s，而第一时间段对应的时间范围为2s，则第一时间段中存在不完整的语音片段，因此可以获取第一时间段之前的第一前预设时间段和/或第一时间段之后的第一后预设时间段，从而增加语音完整识别的概率。
84.在语音数据比对时，具有完整含义的语音片段更有利于提升比对的效率和准确性，而根据用户的标记操作所确定的语音片段，为第一语音数据中的部分语音数据，所确定的部分语音数据可能存在语义不完整的情况，影响语音比对效果。
85.为此，在一些实施方式中，还可以对第一时间段对应的语音片段进行识别，根据识别结果确定与第一时间段对应的语音片段语境相似的片段，从而根据语境相似的片段确定第一预设时间段，将第一时间段以及第一预设时间段作为第一目标时间段；对第二时间段对应的语音片段进行识别，根据识别结果确定第二预设时间段，将第二时间段以及第二预设时间段作为第二目标时间段。
86.具体地，终端设备对第一时间段对应的语音片段的具体内容进行语音识别，对获得的语音识别结果进行语义判断，根据第一时间段对应的语音片段的语义确定第一预设时间段，然后将第一时间段和第一预设时间段作为第一目标时间段；终端设备对第一时间段对应的语音片段的具体内容进行语音识别，对获得的语音识别结果进行语义判断，根据第一时间段对应的语音片段的语义确定第一预设时间段，然后将第二时间段和第二预设时间段作为第二目标时间段。
87.其中，第一预设时间段包括第一时间段之前的第一前预设时间段和/或第一时间段之后的第一后预设时间段；第二预设时间段包括第二时间段之前的第二前预设时间段和/或第二时间段之后的第二后预设时间段。具体地，第一前/后预设时间段为根据第一时间段的语音识别结果的语境确定的符合语境相似度要求的时间段，第二前/后预设时间段为根据第二时间段的语音识别结果的语境确定的符合语境相似度要求的时间段。
88.在一些实施方式中，可以预先设置语境对应表格，语境对应表格中可以预先存储
语境对应内容。例如“吃饭”、“苹果”、“奶茶”等。
89.示例性地，对第一时间段对应的语音片段进行识别，确定识别结果，可以根据识别结果在语境对应表格中查找语境对应内容，例如识别结果为“饭”，则可以查找到语境对应内容“吃饭”，进而将第一时间段的第一前预设时间段作为第一预设时间段。
90.示例性地，还可以对第二时间段对应的语音片段进行识别，确定识别结果，可以根据识别结果在语境对应表格中查找语境对应内容，例如识别结果为“苹”，则可以查找到语境对应内容“苹果”，进而获取第二时间段的第一后预设时间段的语音片段进行识别，若识别结果为“果”，则将第二时间段的第二后预设时间段作为第二预设时间段。
91.在一些实施方式中，还可以预先训练用于识别语境相似度的神经网络模型，以用于确定语音片段的语境相似度。
92.可选地，可以获取第一前预设时间段和/或第一后预设时间段对应的语音片段，对获取的语音片段进行识别，将符合语境相似度要求的语音片段对应的时间段作为第一预设时间段。类似地，可以获取第二前预设时间段和/或第二后预设时间段对应的语音片段，对获取的语音片段进行识别，将符合语境相似度要求的语音片段对应的时间段作为第二预设时间段。
93.示例性的，可以将第一时间段对应的语音片段与第一时间段之前的第一前预设时间段对应的语音片段、第一时间段之后的第一后预设时间段对应的语音片段通过预先训练的神经网络模型处理，得到第一时间段对应的语音片段与第一时间段之前的第一前预设时间段对应的语音片段之间的第一语境相似度，以及第一时间段对应的语音片段与第一时间段之前的第一后预设时间段对应的语音片段之间的第二语境相似度，若语音片段的语境相似度大于预设阈值，则将语音片段对应的时间段作为第一预设时间段。例如，若第一语境相似度大于预设阈值，则将第一前预设时间段对应的时间段作为第一预设时间段。若第二语境相似度大于预设阈值，则将第一后预设时间段对应的时间段作为第一预设时间段。又如，若第一语境相似度、第二语境相似度均大于预设阈值，则将第一前预设时间段对应的时间段以及第一后预设时间段对应的时间段一起作为第一预设时间段。第二预设时间段的确定可以参照第一预设时间段实施例的阐述，在此不再赘述。
94.可选地，语境相似度的预设阈值可以根据使用需要进行设置，例如可以设置语境相似度的预设阈值为60%，识别第一前预设时间段与第一时间段对应的语音片段的语境相似度，若语境相似度为80%，即语境相似度大于预设阈值60%，则将第一前预设时间段作为第一预设时间段。
95.在一些实施方式中，第一/二前预设时间段和第一/二后预设时间段的时间段的时间范围可参照上述实施例的阐述，在此不再赘述。
96.步骤s240、选取第一语音数据中与第一目标时间段对应的语音片段作为第一语音片段；选取第二语音数据中与第二目标时间段对应的语音片段作为第二语音片段。
97.其中，第一语音片段为在第一语音数据中根据第一目标时间段确定的语音片段。第二语音片段为在第二语音数据中根据第二目标时间段确定的语音片段。
98.在本技术的实施例中，终端设备可以根据第一标记指令的第一时间段，确定第一目标语音片段。其中，第一目标语音片段包括第一时间段和第一预设时间段对应的语音片段。终端是可以根据第二标记指令的第二时间段，确定第二目标语音片段，其中，第二语音
片段是指包括第二时间段和第二预设时间段对应的语音片段。
99.在一些实施方式中，为了使第一语音数据和第二语音数据具有相同的长度，以便于比较，可以设置第一时间段和第二时间段的长度相同，设置第一时间段前后预定时间和第二时间段前后预定时间的长度相同。
100.可以理解地，显示标记的时间段其前后预设时间的语音片段对应的图谱，可以结合前后语境对标记的语音片段进行分析，例如可以在播放对应的语音数据时更好地理解标记的时间段对应的标记语音片段前后的语境，能方便用户对第一语音片段和第二语音片段进行比对。
101.步骤s250、在第二界面中显示表征第一语音片段的第三图谱，及显示表征第二语音片段的第四图谱。
102.具体地，在确定第一语音片段和第二语音片段后，终端设备在第二界面中显示第一语音片段对应的第三图谱和第二语音片段对应的第四图谱。
103.在一些实施方式中，在第二界面中，第三图谱可以以第一时间段为中心居中显示，第四图谱可以以第二时间段为中心居中显示。
104.具体地，在第二界面中，第三图谱在第二界面中对应的区域显示时以标记的第一时间段为中心居中进行显示，第四图谱在第二界面中对应的区域显示时以标记的第二时间段为中心居中进行显示。从而可以方便用户进行特征比对。
105.进一步地，如图4所示，第二界面200中除了显示以第一时间段为中心居中显示的第三图谱210和以第二时间段为中心居中显示的第四图谱220，还可以显示第三图谱和第四图谱中第一语音片段和第二语音片段的lpc（linear predictive coding，线性预测编码）频谱230，根据lpc频谱230可以进一步对第一语音片段和第二语音片段进行比对分析，例如可以得到共振峰相关参数，例如中心频率、带宽、强度、第一语音片段和第二语音片段对应的lpc频谱的偏差比例等。示例性地，如图4所示，可以通过图表等形式展现共振峰相关参数240。
106.在一些实施方式中，在第二界面中显示第三图谱和第四图谱后，还可以根据第二界面接收到的调整指令重新确定第一目标时间段和第二目标时间段并刷新对应的第三图谱和第四图谱。
107.具体地，响应于第二界面接收到的第一调整指令重新确定第一目标时间段，并根据重新确定的第一目标时间段刷新第三图谱；响应于第二界面接收到的第二调整指令重新确定第二目标时间段，并根据重新确定的第二目标时间段刷新第四图谱。
108.其中，第一调整指令作用于第二界面用以重新确定第一目标时间段，使得在第二界面中根据重新确定的第一目标时间段刷新第三图谱；第二调整指令作用于第二界面用以重新确定第二目标时间段，使得在第二界面中根据重新确定的第二目标时间段刷新第四图谱。在第二界面根据调整指令重新确定标记的时间段并刷新对应的图谱，从而用户在比对过程中，如果需要调整比对片段的范围，用户可以不需要重新返回第一界面重新根据片段标记指令标记得到重新标记的时间段对应的图谱，可以直接在第二界面进行调整，极大地减少了用户花费的时间，节省了操作流程，提高了比对效率。
109.示例性地，第一目标时间段原本为00:00:10min~00:00:20min，当第二界面接收到第一调整指令后确定需要将第一目标时间段调整为00:00:05min~00:00:10min，于是根据
第一调整指令的内容获取第一语音数据中00:00:05min~00:00:10min的图谱，刷新第二界面将调整得到的图谱在原来第三图谱显示的区域居中显示。
110.在一些实施方式中，根据第一调整指令或第二调整指令刷新第二界面时除了可以是只刷新对应的第三图谱或第四图谱，还可以是每次都刷新两个图谱。当第二界面除了第三图谱和第四图谱还显示其他内容时，也可以同时刷新其他内容，即全部刷新。具体刷新区域可根据需要进行设置，在此不作限制。
111.在本技术实施例中，选取与第一标记指令对应的第一时间段及第一时间段前后预定时间的语音片段为第一语音片段，并且选取与第二标记指令对应的第二时间段及第二时间段前后预定时间的语音片段为第二语音片段。由此，根据标记指令得到对应的时间段及时间段前后预定时间的语音片段，使得用户在第二界面播放音频时可以更好地理解被标记的时间段对应的语音片段前后的语境信息，方便用户进行比对。此外，由于可以在第二界面根据调整指令重新确定标记的时间段并刷新对应的图谱，从而用户在比对过程中，如果需要调整比对片段的范围，用户可以不需要返回第一界面重新根据片段标记指令标记得到重新标记的时间段对应的图谱，可以直接在第二界面进行调整，极大地减少了用户花费的时间，节省了操作流程，提高了比对效率。
112.请参阅图5，图5示出了本技术实施例提供的又一种语音数据比对处理方法。具体地，该方法可以包括步骤s310至s380。
113.步骤s310、获取待比对的第一语音数据及第二语音数据。
114.步骤s320、在第一界面中显示表征第一语音数据的第一图谱及显示表征第二语音数据的第二图谱。
115.步骤s330、响应于接收到的片段标记指令标记出第一语音数据的第一语音片段及第二语音数据中与第一语音片段对应的第二语音片段。
116.步骤s340、在第二界面中显示表征第一语音片段的第三图谱，及显示表征第二语音片段的第四图谱。
117.在本技术实施例中，步骤s310至步骤s340的具体描述可以参考前述实施例中的内容，在此不再赘述。
118.步骤s350、在第三界面中显示至少一个用于接收用户输入的图谱参数的界面元件。
119.具体地，图谱参数作用于第二界面中的第三图谱或第四图谱，并根据具体的参数调整第三图谱或第四图谱；界面元件是可以用来使用户输入图谱参数的元件。可以理解地，每个界面元件对应一个图谱参数，即选择的界面元件不同用户输入的图谱参数也不同。
120.在一些实施方式中，图谱参数可以是加窗类型、窗长、fft（fast fourier transform，快速傅立叶变换）点数、lpc阶数、最大带宽、共振峰限制条件等。
121.在一些实施方式中，第三界面中可以显示一个用来使用户输入图谱参数的界面元件，也可以显示两个或两个以上即多个用来使用户输入图谱参数的界面元件。
122.在一些实施方式中，第三界面是响应于第二界面中相应触发事件，并根据该触发事件显示的。
123.可选地，可以是直接在第二界面中选择并点击显示第三界面的控件。
124.可选地，可以点击鼠标右键并在探出的对话框中选择显示第三界面。
125.可选地，还可以先设置显示第三界面的方式，之后在执行该方法后显示第三界面。例如可以设置双击图谱的显示区域后显示第三界面，则当用户点击第三图谱或第四图谱在第二界面中的显示区域后显示第三界面。
126.步骤s360、响应于界面元件接收到的输入内容获取图谱参数。
127.用户选择界面元件后根据在该界面元件中输入相应的内容并根据该内容获取得到相应的图谱参数。例如用户选择窗长界面元件后在该界面元件中输入窗长数值40s，根据该数值获取得到图谱的窗长为40ms。
128.在一些实施方式中，界面元件输入内容的方式可以是直接输入内容，也可以是在给出的内容中选择需要的内容，还可以是通过滑条调整内容，还可以是其他方式。具体界面元件输入内容的方式可以根据需要输入内容的特点自行设置，本技术对此不作限制。示例性地，如图6所示，第三界面中300的界面元件为窗长和fft点数，用户在可输入相应界面元件对应的图谱参数。
129.步骤s370、根据图谱参数触发图谱更新指令。
130.具体地，图谱更新指令用于在第三界面获取图谱参数后根据该参数更新图谱。
131.在一些实施方式中，触发图谱更新指令的方式可以是在第三界面获取得到图谱参数后直接触发。例如在第三界面获取到窗长从50ms调整为40ms后，直接根据窗长40ms触发图谱更新指令将图谱的窗长更新为40ms。
132.在一些实施方式中，触发图谱更新指令的方式也可以是在第三界面获取得到图谱参数后点击确认后再触发图谱更新指令来更新图谱。
133.步骤s380、响应于接收到的图谱更新指令，根据图谱更新指令对应的图谱参数处理第一语音片段及第二语音片段的语音数据，并相应更新第三图谱及第四图谱。
134.在本技术的实施例中，当第二界面接收到图谱更新指令后根据该图谱更新指令中对应的图谱参数处理第一语音片段及第二语音片段的语音数据，同时相应更新第三图谱和第四图谱。
135.示例性地，若原窗长为50ms，第一语音片段和第二语音片段的时间范围为50ms，其中第一时间段和第二时间段的时间范围为30ms，则第一预设时间段和第二预设时间段的时间范围为20ms。而根据接收到图谱更新指令确定需要将原窗长50ms调整为窗长数据为40ms，因此需要将第一语音片段中的第一预设时间段和第二语音片段中的第二预设时间段的时间范围调整为10ms。
136.在本技术实施例中，在第三界面中显示至少一个用于接收用户输入的图谱参数的界面元件，响应于界面元件接收到的输入内容获取图谱参数，然后根据图谱参数触发图谱更新指令，第二界面响应于接收到的图谱更新指令，根据图谱更新指令对应的图谱参数处理第一语音片段及第二语音片段的语音数据，并相应更新第三图谱及第四图谱。由此，可以将第二窗口中显示的第一语音片段和第二语音片段与原始的第一语音数据和第二语音数据进行关联，从而使得在第二窗口对第一语音片段和第二语音片段的处理与原始语音数据同步而不需要重新返回第一界面对原始语音数据进行处理，提高了比对效率。
137.请参阅图7，图7示出了本技术实施例提供的再一种语音数据比对处理方法。具体地，该方法包括：s410至s460。
138.步骤s410、获取待比对的第一语音数据及第二语音数据。
139.步骤s420、在第一界面中显示表征第一语音数据的第一图谱及显示表征第二语音数据的第二图谱。
140.步骤s430、响应于接收到的片段标记指令标记出第一语音数据的第一语音片段及第二语音数据中与第一语音片段对应的第二语音片段。
141.步骤s440、在第二界面中显示表征第一语音片段的第三图谱，及显示表征第二语音片段的第四图谱。
142.在本技术实施例中，步骤s410至步骤s440的具体描述可以参考前述实施例中的内容，在此不再赘述。
143.步骤s450、响应于接收到的截图指令，生成至少包括第三图谱及第四图谱的截图。
144.具体地，截图指令用于对第二界面中显示的内容进行截图，该截图中至少包括第三图谱和第四图谱。
145.在一些实施方式中，截图指令可以是预先设置的快捷操作，例如设置按键alt+d+f即可进行截图。
146.在一些实施方式中，截图指令也可以根据用户的截图操作语音进行截图，例如当检测到用户说出“截图”时响应截图指令对第二界面进行截图。其中，截图操作语音可以是通过音频采集装置（例如麦克风、麦克风阵列等）得到。
147.在一些实施方式中，生成截图的方式可以是响应截图指令后直接生成包含第三图谱和第四图谱的截图。
148.在一些实施方式中，生成截图的方式可以是响应截图指令后停留在截图界面，用户可根据需要选择截图界面中的需要截图的区域。
149.进一步地，在选择截图的区域后可以设置确认控件，用于确认该截图区域无误需要生成截图。进一步地，当截图区域有误时用户可以重新选择需要截图的区域。
150.步骤s460、将截图复制至剪贴板或者保存至文件。
151.在一些实施方式中，生成截图后用户可以自行选择将截图复制至剪贴板或保存至文件，用以后续查看该截图。
152.在一些实施方式中，将截图复制至剪贴板后可以将截图粘贴至例如文档中，还可以粘贴至其他软件例如微信、钉钉中将其发送给其他用户。
153.在本技术实施例中，第二界面响应于接收到的截图指令，生成至少包括第三图谱及第四图谱的截图，并将截图复制至剪贴板或者保存至文件。由此，可以将不同条件下的第三图谱和第四图谱通过截图的方式保存下来，使得后续用户可以方便的查找和比对不同条件的第三图谱和第四图谱，提高了比对效率。
154.请参阅图8，图8示出了本技术实施例提供的一种语音数据比对处理装置400的结构框图。该语音数据比对处理装置400包括数据获取模块410、第一显示模块420、片段标记模块430、第二显示模块440。
155.具体地，数据获取模块410，用于获取待比对的第一语音数据及第二语音数据。
156.第一显示模块420，用于在第一界面中显示表征第一语音数据的第一图谱及显示表征第二语音数据的第二图谱。
157.片段标记模块430，用于响应于接收到的片段标记指令标记出第一语音数据的第一语音片段及第二语音数据中与第一语音片段对应的第二语音片段。
158.第二显示模块440，用于在第二界面中显示表征第一语音片段的第三图谱，及显示表征第二语音片段的第四图谱。
159.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
160.在本技术所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。
161.另外，在本技术各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。
162.请参阅图9，图9示出了本技术实施例提供的一种电子设备500的结构框图。该电子设备500可以是pc电脑、移动终端等能够运行应用程序的电子设备。本技术中的电子设备500可以包括一个或多个如下部件：处理器510、存储器520以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器520中并被配置为由一个或多个处理器510执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。
163.处理器510可以包括一个或者多个处理核。处理器510利用各种接口和线路连接整个电子设备500内的各个部分，通过运行或执行存储在存储器520内的指令、程序、代码集或指令集，以及调用存储在存储器520内的数据，执行电子设备500的各种功能和处理数据。可选地，处理器510可以采用数字信号处理（digital signal processing，dsp）、现场可编程门阵列（field－programmable gate array，fpga）、可编程逻辑阵列（programmable logic array，pla）中的至少一种硬件形式来实现。处理器510可集成中央处理器（central processing unit，cpu）、图像处理器（graphics processing unit，gpu）和调制解调器等中的一种或几种的组合。其中，cpu主要处理操作系统、用户界面和应用程序等；gpu用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器510中，单独通过一块通信芯片进行实现。
164.存储器520可以包括随机存储器（random access memory，ram），也可以包括只读存储器（read-only memory）。存储器520可用于存储指令、程序、代码、代码集或指令集。存储器520可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令（比如获取数据功能、标记功能、截图功能等）、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备500在使用中所创建的数据（比如第一语音片段、第二语音片段、第三图谱、第四图谱、截图、图谱参数等）。
165.请参阅图10，图10示出了本技术实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质600中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的语音数据比对处理方法。
166.计算机可读取存储介质600可以是诸如闪存、eeprom（电可擦除可编程只读存储器）、eprom、硬盘或者rom之类的电子存储器。可选地，计算机可读存储介质600包括非易失性计算机可读介质（non-transitory computer-readable storage medium）。计算机可读存储介质600具有执行上述方法中的任何方法步骤的程序代码610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。
167.本技术实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实施方式中描述的语音数据比对处理方法。
168.本技术的语音数据比对处理方法、装置和存储介质，涉及语音处理技术领域。该语音数据比对处理方法包括：获取待比对的第一语音数据及第二语音数据，在第一界面中显示表征第一语音数据的第一图谱及显示表征第二语音数据的第二图谱，响应于接收到的片段标记指令标记出第一语音数据的第一语音片段及第二语音数据中与第一语音片段对应的第二语音片段，以及在第二界面中显示表征第一语音片段的第三图谱，及显示表征第二语音片段的第四图谱，从而可以方便、快速地对标记的语音数据进行比对，提高比对效率。
169.最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张伟彬;丁俊豪
技术所有人：深圳市声扬科技有限公司
我是此专利的发明人

上一篇：一种沟渠整平装置及其使用方法与流程
上一篇：一种弧面抛光机的制作方法