一种台词对应人物的确定方法、装置及电子设备与流程

文档序号：33636217发布日期：2023-03-29 00:40阅读：100来源：国知局

1.本发明涉及语音处理技术领域，特别是涉及一种台词对应人物的确定方法、装置及电子设备。

背景技术：

2.在视频剪辑、视频解说等场景中，需要确定视频中的每句台词对应的人物，也就是台词的说话人，这样，才能对视频进行较好地剪辑、解说等。为了确定视频中的每句台词对应的人物，需要提取视频中每个人物的声纹特征，从而建立声纹特征库，然后提取视频中的每句台词对应的声纹特征，进而，将提取到的每个声纹特征逐一与声纹特征库中的每个人物的声纹特征进行比对，从声纹特征库中找到最为相似的声纹特征，将该声纹特征对应的人物，确定为台词的说话人。
3.然而，上述台词对应的人物的确定方式中，由于不同场景下的背景声可能不同，人物的情绪可能不同，所以在不同场景提取的同一人物的声纹特征的差异可能较大，以及由于配音演员相同导致不同人物角色音色非常相近等，因此通过声纹特征库确定台词对应的人物，人物确定的准确度并不高。

技术实现要素：

4.本发明实施例的目的在于提供一种台词对应人物的确定方法、装置及电子设备，以提高确定台词对应人物的准确度。具体技术方案如下：
5.第一方面，一种台词对应人物的确定方法，所述方法包括：
6.获取待处理声纹特征，其中，所述待处理声纹特征为目标视频中的台词对应的声纹特征；
7.将所述声纹特征进行聚类，确定每个声纹特征所属的类别；
8.针对每个类别，基于该类别对应的所述目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例；
9.根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物。
10.可选的，所述基于该类别对应的所述目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例的步骤，包括：
11.对该类别对应的所述目标视频中视频片段的画面进行说话人检测，确定处于说话状态的人物所在区域，并对所述人物所在区域进行人脸识别，确定所述人物所在区域的处于说话状态的人物；
12.基于所述处于说话状态的人物在所述视频片段中的出现次数，确定该类别的声纹特征所对应的处于说话状态的人物在所述视频片段中的出现时长比例。
13.可选的，所述对该类别对应的所述目标视频中视频片段的画面进行说话人检测，确定处于说话状态的人物所在区域，并对所述人物所在区域进行人脸识别，确定所述人物
所在区域的处于说话状态的人物的步骤，包括：
14.将所述目标视频按照台词的开始时间和结束时间，划分为每句台词对应的视频片段；
15.采用说话人检测模型，对该类别对应的视频片段的画面进行说话人检测，确定处于说话状态的人物所在区域，并对所述人物所在区域进行人脸识别，确定所述人物所在区域的处于说话状态的人物。
16.可选的，所述根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物的步骤，包括：
17.将出现时长比例大于第一预设阈值的处于说话状态的人物中，对应的出现时长比例最高的人物，确定为该类别的声纹特征对应的台词所对应的人物。
18.可选的，所述获取待处理声纹特征的步骤，包括：
19.将所述目标视频对应的音频按照台词的开始时间和结束时间，划分为每句台词对应的音频片段；
20.提取每个音频片段的声纹特征，得到待处理声纹特征。
21.可选的，所述将所述声纹特征进行聚类，确定每个声纹特征所属的类别的步骤，包括：
22.基于所述目标视频的场景信息，确定所述目标视频包括的每个场景对应的时间段；
23.将每个时间段对应的声纹特征进行聚类，确定每个时间段对应的声纹特征所属的类别。
24.可选的，所述方法还包括：
25.在根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词无对应人物的情况下，基于该类别对应的所述目标视频的画面信息，确定该类别的声纹特征所对应的备选人物；
26.根据该类别的声纹特征对应的备选人物的数量，确定该类别的声纹特征对应的台词所对应的人物。
27.可选的，所述基于该类别对应的所述目标视频的画面信息，确定该类别的声纹特征所对应的备选人物的步骤，包括：
28.获取该类别包括的声纹特征对应的时间段内所述目标视频的视频帧；
29.对所述视频帧进行人脸识别，确定该时间段所包括的视频帧中每个人物出现时长的比例；
30.将对应的比例达到预设比例的人物，确定为该类别的声纹特征所对应的备选人物。
31.可选的，所述根据该类别的声纹特征对应的备选人物的数量，确定该类别的声纹特征对应的台词所对应的人物的步骤，包括：
32.如果该类别的声纹特征对应的备选人物的数量为一个，确定该备选人物为该类别的声纹特征对应的台词所对应的人物；
33.如果该类别的声纹特征对应的备选人物的数量为多个，基于该类别的聚类中心与第一目标类别的聚类中心之间的相似度，确定该类别的声纹特征对应的台词所对应的人
物，其中，所述第一目标类别包括与该类别对应的场景相同，且对应的备选人物的数量为一个的类别以及与该类别对应的场景相同，且已基于处于说话状态的人物的出现时长比例确定对应人物的类别。
34.可选的，所述基于该类别的聚类中心与第一目标类别的聚类中心之间的相似度，确定该类别的声纹特征对应的台词所对应的人物的步骤，包括：
35.分别计算该类别的聚类中心与每个第一目标类别的聚类中心之间的相似度；
36.将对应的相似度达到第一预设相似度的第一目标类别所对应的人物，确定为该类别的声纹特征对应的台词所对应的人物。
37.可选的，所述方法还包括：
38.如果该类别的聚类中心与每个第一目标类别的聚类中心之间的相似度均未达到所述第一预设相似度，分别计算该类别的聚类中心与每个第二目标类别的聚类中心之间的相似度，其中，所述第二目标类别为与该类别对应的场景不同，且对应的备选人物的数量为一个的类别以及与该类别对应的场景不同，且已基于处于说话状态的人物的出现时长比例确定对应人物的类别；
39.将对应的相似度达到第二预设相似度的第二目标类别所对应的人物，确定为该类别的声纹特征对应的台词所对应的人物。
40.可选的，所述方法还包括：
41.如果该类别的聚类中心与每个第二目标类别的聚类中心之间的相似度均未达到所述第二预设相似度，针对该类别的每个声纹特征，计算该声纹特征与该类别中的其他声纹特征之间的相似度；
42.如果达到第二预设阈值的相似度的占比小于预设占比，获取包括该声纹特征对应的视频时间点的预设时长内的各待比对声纹特征；
43.分别计算该声纹特征与每个待比对声纹特征之间的相似度；
44.将对应的相似度最高待比对声纹特征对应的人物，确定为该声纹特征对应的台词所对应的人物。
45.第二方面，一种台词对应人物的确定装置，所述装置包括：
46.声纹特征获取模块，用于获取待处理声纹特征，其中，所述待处理声纹特征为目标视频中的台词对应的声纹特征；
47.声纹特征聚类模块，用于将所述声纹特征进行聚类，确定每个声纹特征所属的类别；
48.比例确定模块，用于针对每个类别，基于该类别对应的所述目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例；
49.第一人物确定模块，用于根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物。
50.第三方面，一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
51.存储器，用于存放计算机程序；
52.处理器，用于执行存储器上所存放的程序时，实现上述第一方面任一所述的方法步骤。
53.第四方面，一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。
54.本发明实施例的有益效果：
55.本发明实施例提供的方案中，电子设备可以获取待处理声纹特征，其中，所述待处理声纹特征为目标视频中的台词对应的声纹特征；将所述声纹特征进行聚类，确定每个声纹特征所属的类别；针对每个类别，基于该类别对应的所述目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例；根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物。在本方案中，由于同一人物在目标视频中所说的台词对应的声纹特征是相似的，因此可以将目标视频中台词对应的声纹特征进行聚类，确定每个声纹特征所属的类别，由于视频画面信息中处于说话状态的出现时长比例较高的人物通常为该段台词对应的人物，因此可以基于该类别对应的目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，进而根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物，而不需要基于声纹特征库对声纹特征进行检索和比对，提高了确定台词对应人物的准确度。
附图说明
56.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
57.图1为本发明实施例所提供的台词对应人物的确定方法的流程图；
58.图2为基于图1所示实施例的处于说话状态的人物的出现时长比例确定方式的流程图；
59.图3为基于图2所示实施例的处于说话状态的人物所在区域确定方式的流程图；
60.图4为基于图1所示实施例的待处理声纹特征获取方式的流程图；
61.图5为本发明实施例所提供的一种声纹特征提取方式的流程示意图；
62.图6为基于图1所示实施例的声纹特征所属类别确定方式的流程图；
63.图7为本发明实施例所提供的根据备选人物数量确定台词对应的人物的方式的流程图；
64.图8为基于图7所示实施例的声纹特征对应的备选人物的确定方式的流程图；
65.图9为本发明实施例所提供的基于第一目标类别确定台词对应的人物的方式的流程图；
66.图10为本发明实施例所提供的基于第二目标类别确定台词对应的人物的方式的流程图；
67.图11为本发明实施例所提供的声纹特征相似度计算的方式的流程图；
68.图12为本发明实施例所提供的台词对应人物的确定方法的流程示意图；
69.图13为本发明实施例所提供的台词对应人物的确定装置的结构示意图；
70.图14为本发明实施例所提供的电子设备的结构示意图。
具体实施方式
71.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。
72.在视频剪辑、视频解说等场景中，需要确定视频中的每句台词对应的人物，也就是台词的说话人，以对视频更好地进行剪辑、解说等。为了确定视频中的每句台词对应的人物，需要提取视频中每个人物的声纹特征，基于提取到的每个人物的声纹特征与人物的对应关系，建立声纹特征库。
73.然后，提取视频中的每句台词对应的声纹特征，进而，将提取到的每个声纹特征逐一与声纹特征库中的每个人物的声纹特征进行比对，从声纹特征库中找到最为相似的声纹特征，将该声纹特征对应的人物，确定为台词的说话人。
74.然而，上述台词对应的人物的确定方式中，由于不同场景下的背景声可能不同，人物的情绪可能不同，所以在不同场景提取的同一人物的声纹特征的差异可能较大，以及由于配音演员相同导致不同人物角色音色非常相近等，因此通过声纹特征库确定台词对应的人物，人物确定的准确度并不高。
75.为了提高确定台词对应人物的准确度，本发明实施例提供了一种台词对应人物的确定方法、装置及电子设备。下面首先对本发明实施例所提供的一种台词对应人物的确定方法进行介绍。
76.如图1所示，一种台词对应人物的确定方法，所述方法包括：
77.s101，获取待处理声纹特征；
78.其中，所述待处理声纹特征为目标视频中的台词对应的声纹特征；
79.s102，将所述声纹特征进行聚类，确定每个声纹特征所属的类别；
80.s103，针对每个类别，基于该类别对应的所述目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例；
81.s104，根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物。
82.可见，本发明实施例提供的方案中，电子设备可以获取待处理声纹特征，其中，所述待处理声纹特征为目标视频中的台词对应的声纹特征；将所述声纹特征进行聚类，确定每个声纹特征所属的类别；针对每个类别，基于该类别对应的所述目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例；根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物。在本方案中，由于同一人物在目标视频中所说的台词对应的声纹特征是相似的，因此可以将目标视频中台词对应的声纹特征进行聚类，确定每个声纹特征所属的类别，由于视频画面信息中处于说话状态的出现时长比例较高的人物通常为该段台词对应的人物，因此可以基于该类别对应的目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，进而根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物，而不需要基于声纹特征库对声纹特征进行检索和比对，提高了确定台词对应人物的准确度。
83.本发明公开的台词对应人物的确定方法应用于语音处理技术领域，具体的，可以应用于视频剪辑、视频解说等场景中，在此不做具体限定。
84.由于声纹特征可以表示目标视频中台词对应人物的声音，为了确定台词对应的人物，电子设备可以获取待处理声纹特征，其中，待处理声纹特征为目标视频中的台词对应的声纹特征。
85.由于同一人物在目标视频中所说的台词对应的声纹特征是相似的，因此可以将声纹特征进行聚类，确定每个声纹特征所属的类别。其中，聚类可以基于k均值聚类算法、层次聚类算法等方式实现，在此不做具体限定。
86.例如，目标视频中包括五句台词，分别为台词1、台词2、台词3、台词4和台词5，其中，台词1和台词3为同一人物所说的，台词2、台词4和台词5为另一人物所说的。如果将台词对应的声纹特征进行聚类，可以得到两个类别，台词1和台词3对应的声纹特征属于一个类别，台词2、台词4和台词5对应的声纹特征属于另一个类别。
87.由于台词的说话人通常在目标视频的画面信息中处于说话状态，因此可以基于该类别对应的目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例。处于说话状态的人物的出现时长比例可以为该视频片段中处于说话状态的人物的出现时长与该视频片段时长之间的比例。
88.例如，如下表所示，目标视频中包括台词1-10，对台词1-10对应的声纹特征1-10进行聚类，得到声纹特征类别1-4。分别基于每个声纹特征类别所对应的目标视频中视频片段的画面信息，确定类别1-4对应的处于说话状态的人物以及该人物处于说话状态的出现时长比例。
[0089][0090]
至此，每个声纹特征类别都已经确定了对应的处于说话状态的人物的出现时长比
例。电子设备可以根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物。
[0091]
承接上一个例子，见上表，对于类别2，处于说话状态的人物为人物a，人物a在类别2对应的视频片段中处于说话状态的时长比例为95％。如果电子设备确定该类别声纹特征对应的台词所对应的人物的方式为，将大于85％的处于说话状态的时长比例对应的人物确定为该类别声纹特征对应的台词所对应的人物。那么电子设备可以确定类别2的声纹特征2、4所对应的台词2、4所对应的人物为人物a。
[0092]
可见，由于同一人物在目标视频中所说的台词对应的声纹特征是相似的，因此可以将目标视频中台词对应的声纹特征进行聚类，确定每个声纹特征所属的类别，由于视频画面信息中处于说话状态的出现时长比例较高的人物通常为该段台词对应的人物，因此可以基于该类别对应的目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，进而根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物，而不需要基于声纹特征库对声纹特征进行检索和比对，提高了确定台词对应人物的准确度。
[0093]
作为本发明实施例的一种实施方式，如图2所示，上述基于该类别对应的所述目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例的步骤，可以包括：
[0094]
s201，对该类别对应的所述目标视频中视频片段的画面进行说话人检测，确定处于说话状态的人物所在区域，并对所述人物所在区域进行人脸识别，确定所述人物所在区域的处于说话状态的人物；
[0095]
由于台词对应的人物通常为该台词对应的视频片段中处于说话状态的人，因此可以对该类别对应的目标视频中视频片段的画面进行说话人检测(activate speaker detect)，确定处于说话状态的人物所在区域，并对人物所在区域进行人脸识别，进而确定出人物所在区域的处于说话状态的人物。
[0096]
s202，基于所述处于说话状态的人物在所述视频片段中的出现次数，确定该类别的声纹特征所对应的处于说话状态的人物在所述视频片段中的出现时长比例。
[0097]
通过步骤s201可以确定出视频片段中处于说话状态的人物，因此电子设备可以基于处于说话状态的人物在视频片段中的出现次数，确定该类别的声纹特征所对应的处于说话状态的人物在视频片段中的出现时长比例。
[0098]
由于视频片段由视频帧组成，因此处于说话状态的人物在视频片段中的出现次数可以通过画面中包括处于说话状态的人物的视频帧的帧数反映。针对该类别对应的目标视频中视频片段所包括的视频帧，基于包括说话状态的人物的视频帧在该视频片段所包括的全部视频帧中的出现次数，确定该类别的声纹特征所对应的处于说话状态的人物在视频片段中的出现时长比例。
[0099]
例如，台词对应的目标视频中的视频片段的时长为5秒，每秒所包括的帧数为24帧。经步骤s201的步骤确定该视频片段中处于说话状态的人物后，可以基于该视频片段所包括的视频帧中，画面包括处于说话状态的人物的视频帧，确定该类别的声纹特征所对应的处于说话状态的人物在视频片段中的出现时长比例。
[0100]
如果该视频片段中处于说话状态的人物为人物a，画面中包括人物a处于说话状态
的视频帧的帧数为93帧。由于总帧数为120帧，因此可以确定该类别的声纹特征所对应的处于说话状态的人物在视频片段中的出现时长比例为93/120。
[0101]
可见，本发明实施例中，电子设备可以对该类别对应的所述目标视频中视频片段的画面进行说话人检测，确定处于说话状态的人物所在区域，并对所述人物所在区域进行人脸识别，确定所述人物所在区域的处于说话状态的人物；基于所述处于说话状态的人物在所述视频片段中的出现次数，确定该类别的声纹特征所对应的处于说话状态的人物在所述视频片段中的出现时长比例。由于台词对应的人物通常为该台词对应的视频片段中处于说话状态的人，因此电子设备可以基于处于说话状态的人物在所述视频片段中的出现次数，进而确定该类别的声纹特征所对应的处于说话状态的人物在视频片段中的出现时长比例。这样，可以提高确定处于说话状态的人物在视频片段中的出现时长比例的准确度，进而提高了确定台词对应人物的准确度。
[0102]
作为本发明实施例的一种实施方式，如图3所示，上述对该类别对应的所述目标视频中视频片段的画面进行说话人检测，确定处于说话状态的人物所在区域，并对所述人物所在区域进行人脸识别，确定所述人物所在区域的处于说话状态的人物的步骤，可以包括：
[0103]
s301，将所述目标视频按照台词的开始时间和结束时间，划分为每句台词对应的视频片段；
[0104]
由于一句台词通常为一个人物所说，该句台词对应的目标视频中的视频片段通常包含该人物，因此电子设备可以将目标视频按照台词的开始时间和结束时间，划分为每句台词对应的视频片段。
[0105]
例如，如果台词在目标视频的开始时间和结束时间分别为5分20秒和5分23秒，那么可以划分出目标视频上述时间段对应的视频片段，该视频片段即为目标视频中开始时间和结束时间分别为5分20秒和5分23秒的台词所对应的视频片段。
[0106]
s302，采用说话人检测模型，对该类别对应的视频片段的画面进行说话人检测，确定处于说话状态的人物所在区域，并对所述人物所在区域进行人脸识别，确定所述人物所在区域的处于说话状态的人物。
[0107]
电子设备可以采用说话人检测(activate speaker detect)模型，针对该类别对应的视频片段的画面进行说话人检测，确定处于说话状态的人物所在区域。由于视频中处于说话状态的人物通常为该段台词对应的说话人，因此电子设备可以对人物所在区域进行人脸识别，进而确定任务所在区域的处于说话状态的人物。
[0108]
承接步骤s301的例子，电子设备可以采用说话人检测模型，识别目标视频开始时间和结束时间分别为5分20秒和5分23秒的视频片段，并确定处于说话状态的人物所在区域，并对人物所在区域进行人脸识别，确定人物所在区域的处于说话状态的人物。
[0109]
可见，本发明实施例中，电子设备可以将所述目标视频按照台词的开始时间和结束时间，划分为每句台词对应的视频片段；采用说话人检测模型，对该类别对应的视频片段的画面进行说话人检测，确定处于说话状态的人物所在区域，并对所述人物所在区域进行人脸识别，确定所述人物所在区域的处于说话状态的人物。由于一句台词通常为一个人物所说的，为了确定台词对应的说话人，电子设备可以将目标视频按照台词的开始时间和结束时间，划分为每句台词对应的视频片段，进而采用说话人检测模型对视频片段的画面进行说话人检测，确定处于说话状态的人物所在区域，并对人物所在区域进行人脸识别，确定
人物所在区域的处于说话状态的人物。这样，可以提高确定处于说话状态的人物所在区域的准确度，进而提高确定台词对应人物的准确率。
[0110]
作为本发明实施例的一种实施方式，上述根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物的步骤，可以包括：
[0111]
将出现时长比例大于第一预设阈值的处于说话状态的人物中，对应的出现时长比例最高的人物，确定为该类别的声纹特征对应的台词所对应的人物。
[0112]
由于该类别的声纹特征对应的台词所对应的人物的出现时长比例应当大于同类别中其他人物的出现时长比例，并且该人物的出现时长比例还应当大于第一预设阈值，因此电子设备可以将出现时长比例大于第一预设阈值的处于说话状态的人物中，对应的出现时长比例最高的人物，确定为该类别的声纹特征对应的台词所对应的人物。
[0113]
例如，如下表所示，目标视频中包括台词1-10，对台词1-10对应的声纹特征1-10进行聚类，得到声纹特征类别1-4。分别基于每个声纹特征类别所对应的目标视频中视频片段的画面信息，确定类别1-4对应的处于说话状态的人物以及该人物处于说话状态的出现时长比例。
[0114]
如果第一预设阈值为85％，对于类别1，大于第一预设阈值的出现时长比例的人物为人物b，可以将该类别对应的声纹特征1、声纹特征3和声纹特征5所对应的台词1、台词3和台词5对应的人物确定为人物b。对于类别2，大于第一预设阈值的出现时长比例的人物为人物a，可以将该类别对应的声纹特征2和声纹特征4所对应的台词2和台词4对应的人物确定为人物a。
[0115]
对于类别3，大于第一预设阈值的出现时长比例的人物为人物c，可以将该类别对应的声纹特征6、声纹特征7和声纹特征8所对应的台词6、台词7和台词8对应的人物确定为人物c。对于类别4，大于第一预设阈值的出现时长比例的人物为人物d，可以将该类别对应的声纹特征9和声纹特征10所对应的台词9和台词10对应的人物确定为人物d。
[0116]
[0117][0118]
可见，本发明实施例中，电子设备可以将出现时长比例大于第一预设阈值的处于说话状态的人物中，对应的出现时长比例最高的人物，确定为该类别的声纹特征对应的台词所对应的人物。由于该类别的声纹特征对应的台词所对应的人物的出现时长比例应当大于同类别中其他人物的出现时长比例，并且该人物的出现时长比例还应当大于第一预设阈值，因此电子设备可以将出现时长比例大于第一预设阈值的处于说话状态的人物中，对应的出现时长比例最高的人物，确定为该类别的声纹特征对应的台词所对应的人物。这样，可以提高确定台词对应人物的准确度。
[0119]
作为本发明实施例的一种实施方式，如图4所示，上述获取待处理声纹特征的步骤，可以包括：
[0120]
s401，将所述目标视频对应的音频按照台词的开始时间和结束时间，划分为每句台词对应的音频片段；
[0121]
由于一句台词通常是一个人物所说的，为了确定台词对应的人物，电子设备可以将目标视频对应的音频按照台词的开始时间和结束时间进行划分，例如，电子设备可以采用ocr(文字识别)确定每一句台词的起始时间点信息来划分音频，进而得到每句台词对应的音频片段，音频片段可以用于进行后续确定台词对应人物的操作。
[0122]
在步骤s401之前，电子设备可以从目标视频中分离音频文件，提取无压缩的wav音频文件，并将wav音频文件分割成说话人音频片段。音频片段为单声道，采样率为16k的音频片段。
[0123]
承接上一个例子，如下表所示，以类别1所包括的声纹特征为例，电子设备可基于ocr(文字识别)来确定台词时间段，即台词在目标视频中的开始时间和结束时间，其中，台词1的时间段为视频中的1秒-4秒，台词3的时间段为视频中的8秒-10秒，台词5的时间段为视频中的13秒-15秒，进而划分为每句台词对应的音频片段。
[0124]
台词台词时间段台词11秒-4秒台词38秒-10秒台词513秒-15秒
[0125]
s402，提取每个音频片段的声纹特征，得到待处理声纹特征。
[0126]
由于声纹特征可以表示音频片段中人物的声音，因此电子设备可以提取每个音频片段的声纹特征，进而得到待处理声纹特征，即目标视频中的台词对应的声纹特征。
[0127]
需要说明的是，在获取待处理声纹特征的时候不需要获取目标视频中的所有台词对应的待处理声纹特征，只获取几句台词或者视频片段对应的台词都是可以的。
[0128]
承接步骤s401的例子，如下表所示，对步骤s401中划分得到的台词1、3、5分别提取声纹特征，分别得到台词1、3、5的声纹特征1、3、5。
[0129]
声纹特征台词台词时间段声纹特征1台词11秒-4秒声纹特征3台词38秒-10秒声纹特征5台词513秒-15秒
[0130]
例如，可以用于提取音频片段的声纹特征的模型有ecapa-tdnn模型、wavlm模型等，在声纹特征提取中，可以采用一个模型进行提取，也可以采用多个模型提取后再进行归一化、拼接、pca(主成分分析)降维，可以得到声纹特征的声纹提取方式都是可以的，在此不做具体限定。
[0131]
如图5所示，图5为一种声纹特征提取方式的流程示意图，该声纹特征提取方式的步骤包括：
[0132]
s501，ecapa-tdnn模型；
[0133]
电子设备可以基于ecapa-tdnn模型提取音频片段的声纹特征；
[0134]
s502，wavlm模型；
[0135]
电子设备可以基于wavlm模型提取音频片段的声纹特征；
[0136]
s503，归一化；
[0137]
对步骤s501中提取到的声纹特征进行归一化，以使步骤s501和步骤s502中得到的声纹特征可以进行拼接；
[0138]
s504，归一化；
[0139]
对步骤s502中提取到的声纹特征进行归一化，以使步骤s501和步骤s502中得到的声纹特征可以进行拼接；
[0140]
s505，拼接并且作pca降维。
[0141]
电子设备可以对步骤s503和步骤s504中得到的归一化的声纹特征进行拼接，并且作pca降维，进而得到音频片段对应的声纹特征。
[0142]
可见，本发明实施例中，电子设备可以将所述目标视频对应的音频按照台词的开始时间和结束时间，划分为每句台词对应的音频片段；提取每个音频片段的声纹特征，得到待处理声纹特征。由于声纹特征可以用于表示音频片段对应人物的声音，本发明实施例所提供的声纹特征提取方式可以准确地提取音频片段对应的声纹特征，可以提高确定台词对应人物的准确性。
[0143]
作为本发明实施例的一种实施方式，如图6所示，上述将所述声纹特征进行聚类，确定每个声纹特征所属的类别的步骤，可以包括：
[0144]
s601，基于所述目标视频的场景信息，确定所述目标视频包括的每个场景对应的时间段；
[0145]
由于相同的目标视频场景信息下，人物情绪和场景的背景声通常是相近的，因此在相同的目标视频场景信息下所获取的声纹特征之间人物情绪和场景的场景声较为相像，对相同的目标视频场景信息下所获取的声纹特征聚类，可以近似忽略掉人物情绪的变化以及场景的背景声对声纹的影响，对相同场景下的视频对应的声纹特征聚类，得到声纹特征类别，进而根据备选人物数量确定该类别声纹特征对应台词对应的人物，提高了确定台词对应人物的准确度。
[0146]
这样，可以快速有效地进行台词对应人物的确定，而不需要先提取人物的声纹特
征，再根据说话人声纹特征检索库逐条去比对声纹。
[0147]
为了将目标视频按照不同的场景划分，电子设备可以基于目标视频的场景信息，利用转场点检测技术，确定目标视频包括的每个场景所对应的时间段，这样，场景信息可以用时间段来对应表示。
[0148]
例如，目标视频时长为三十秒，目标视频开始的十五秒场景为户外，称为场景a，剩下十五秒场景为室内，称为场景b，那么电子设备可以分别基于目标视频中户外的草坪、树木等场景信息以及室内的壁纸、家具等场景信息，确定开始的十五秒为目标视频的一个场景，剩下的十五秒为目标视频的另一个场景。
[0149]
s602，将每个时间段对应的声纹特征进行聚类，确定每个时间段对应的声纹特征所属的类别。
[0150]
由于在目标视频相同场景下的人物情绪和背景声相近，因此可以对相同场景下的声纹特征进行聚类。由于目标视频的不同场景已经被划分成了不同的时间段，因此可以对不同场景对应的时间段所对应的声纹特征进行聚类，这样在聚类的过程中受到人物情绪变化及背景声的影响较小。
[0151]
承接步骤s601中的例子，目标视频前十五秒所对应的声纹特征为声纹特征1-5，声纹特征1-5分别对应台词1-5，后十五秒所对应的声纹特征为声纹特征6-10，声纹特征6-10分别对应台词6-10，对前十五秒和后十五秒所对应的声纹特征分别聚类，结果如下表所示：
[0152][0153][0154]
对场景a对应的声纹特征聚类得到的类别为类别1、类别2，其中，类别1包括声纹特征1、3、5，类别2包括声纹特征2、4；而对场景b对应的声纹特征聚类得到的类别为类别3、类别4，其中，类别3包括声纹特征6、7、8，类别4包括声纹特征9、10。根据上表所示的聚类操作的结果可知，由于场景a和场景b中的声纹特征都聚类成了两个类别，因此场景a和场景b中
的台词对应的人物都可以为两个。
[0155]
可见，本发明实施例中，电子设备可以基于所述目标视频的场景信息，确定所述目标视频包括的每个场景对应的时间段；将每个时间段对应的声纹特征进行聚类，确定每个时间段对应的声纹特征所属的类别。由于相同场景下的人物情绪和背景声相近，因此可以确定目标视频中每个场景对应的时间段，进而对每个时间段所对应的声纹特征进行聚类。这样，可以提高识别台词对应人物的准确率，同时减少单次分析的资源消耗。
[0156]
作为本发明实施例的一种实施方式，如图7所示，上述方法还可以包括：
[0157]
s701，在根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词无对应人物的情况下，基于该类别对应的所述目标视频的画面信息，确定该类别的声纹特征所对应的备选人物；
[0158]
在根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词无对应人物的情况下，也就是说，该类别没有出现时长比例大于第一预设阈值的处于说话状态的人物。
[0159]
造成该种情况可能的原因包括：该类别的声纹特征所对应的目标视频中的视频片段画面为空镜头，即视频画面中没有人物，但是有人说话。
[0160]
由于台词对应的人物通常会出现在目标视频的画面中，因此可以对每个类别对应的目标视频的画面信息进行识别，进而确定声纹特征所对应的备选人物。
[0161]
例如，如下表所示，目标视频中包括台词1-10，对台词1-10对应的声纹特征1-10进行聚类，得到声纹特征类别1-4。分别对每个声纹特征类别所对应的目标视频进行识别，基于目标视频的画面信息，确定类别1的声纹特征对应的备选人物为人物a、b，类别2的声纹特征对应的备选人物为人物a，类别3的声纹特征对应的备选人物为人物b、c，类别4的声纹特征对应的备选人物为人物d。
[0162][0163]
至此，每个声纹特征都已经确定了对应的备选人物，电子设备可以针对每个类别，基于该类别声纹特征对应的备选人物的数量，确定该类别的声纹特征对应的台词所对应的人物。
[0164]
s702，根据该类别的声纹特征对应的备选人物的数量，确定该类别的声纹特征对应的台词所对应的人物。
[0165]
电子设备可以根据该类别的声纹特征对应的备选人物的数量，进而确定该类别的声纹特征对应的台词所对应的人物。
[0166]
承接步骤s701中的例子，见上表，对于类别2，备选人物的数量为一个，那么电子设备可以确定类别2的声纹特征2、4所对应的台词2、4所对应的人物为人物a。
[0167]
可见，本发明实施例中，电子设备可以在根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词无对应人物的情况下，基于该类别对应的所述目标视频的画面信息，确定该类别的声纹特征所对应的备选人物；根据该类别的声纹特征对应的备选人物的数量，确定该类别的声纹特征对应的台词所对应的人物。由于视频画面信息中出现频率较高的人物通常为该段台词对应的人物，因此可以基于每个类别对应的目标视频的画面信息确定该类别声纹特征所对应的备选人物，进而根据备选人物的数量确定该类别声纹特征对应的台词所对应的人物，而不需要基于声纹特征库对声纹特征进行检索和比对，提高了确定台词对应人物的准确度。
[0168]
作为本发明实施例的一种实施方式，如图8所示，上述基于该类别对应的所述目标视频的画面信息，确定该类别的声纹特征所对应的备选人物的步骤，可以包括：
[0169]
s801，获取该类别包括的声纹特征对应的时间段内所述目标视频的视频帧；
[0170]
由于在视频中，人物在讲话的时候通常会在画面中出现，因此可以针对每个类别，获得该类别的声纹特征对应的时间段内所述目标视频的视频帧，以便于后续计算台词对应时间段中每个人物出现的比例。
[0171]
承接步骤s401的例子，如下表所示，以类别1所包括的声纹特征为例，其中，台词时间段是步骤s401中确定的。类别1所包括的声纹特征1、3、5对应的台词时间段总计是7秒，假设目标视频每秒所包括的帧数为24帧，那么电子设备可以获取声纹特征1、3、5对应的台词时间段的总计168帧。
[0172][0173]
s802，对所述视频帧进行人脸识别，确定该时间段所包括的视频帧中每个人物出现时长的比例；
[0174]
由于台词对应的人物通常出现在视频画面中，因此可以计算在同一类别的声纹特征对应的时间段内目标视频的视频帧中每个人物出现时长的比例，基于出现比例可以确定声纹特征所对应的人物。
[0175]
承接步骤s801的例子，如下表所示，对该类别的声纹特征对应的时间段内目标视频的视频帧进行逐帧的人脸识别，进而确定在每个人物出现的比例。一共的帧数为168帧，人物a在117帧中出现，因此人物a的出现比例为117/168，人物b和人物c分别在121帧和21帧中出现，同理，人物b和人物c的出现比例分别为121/168和21/168。相应的，该时间段内所包括的视频帧中，人物a、人物b和人物c的出现时长的比例分别为117/168、121/168和21/168。
[0176][0177]
s803，将对应的比例达到预设比例的人物，确定为该类别的声纹特征所对应的备选人物。
[0178]
由于人物出现时长比例较高，该人物是该声纹特征所对应的人物的可能性较大，因此，可以预先设置一个比例，如果步骤s402中得到的任务出现比例达到预设比例，可以将该人物确定为该类别的声纹特征所对应的备选人物。
[0179]
承接步骤s802的例子，如下表所示，预先设置的比例为0.65，由于人物a与人物b的
出现时长比例达到0.65，因此，人物a与人物b被确定为该类别的声纹特征所对应的备选人物。
[0180][0181][0182]
可见，本发明实施例中，电子设备可以获取该类别包括的声纹特征对应的时间段内所述目标视频的视频帧；对所述视频帧进行人脸识别，确定该时间段所包括的视频帧中每个人物出现时长的比例；将对应的比例达到预设比例的人物，确定为该类别的声纹特征所对应的备选人物。由于目标视频中台词对应的人物通常会出现在视频画面中，因此可以对同一类别包括的声纹特征所对应的时间段内目标视频的视频帧进行人脸识别，将出现比例达到预设比例的人物确定为该声纹特征所对应的备选人物。基于上述方式，可以准确地获取各人物在声纹特征所对应的时间段内目标视频的视频帧中出现的比例，进而提高台词对应人物的准确度。
[0183]
作为本发明实施例的一种实施方式，上述根据该类别的声纹特征对应的备选人物的数量，确定该类别的声纹特征对应的台词所对应的人物的步骤，可以包括：
[0184]
如果该类别的声纹特征对应的备选人物的数量为一个，确定该备选人物为该类别的声纹特征对应的台词所对应的人物；
[0185]
如果该类别的声纹特征对应的备选人物的数量为多个，基于该类别的聚类中心与第一目标类别的聚类中心之间的相似度，确定该类别的声纹特征对应的台词所对应的人物。
[0186]
其中，所述第一目标类别包括与该类别对应的场景相同，且对应的备选人物的数量为一个的类别以及与该类别对应的场景相同，且已基于处于说话状态的人物的出现时长比例确定对应人物的类别。
[0187]
由于备选人物是该类别的声纹特征对应的时间段内目标视频的视频帧中出现比例达到预设比例的人物，并且台词对应的人物通常出现在视频画面中的频率较高，因此如果该类别的声纹特征对应的备选人物的数量为一个，那么电子设备可以确定该备选人物为该类别的声纹特征对应的台词所对应的人物。
[0188]
承接步骤s702中的例子，如下表所示，由于类别2和类别4的声纹特征对应的备选人物的数量为一个，因此可以确定人物a为类别2的声纹特征对应的台词所对应的人物，人物d为类别4的声纹特征对应的台词所对应的人物。
[0189][0190]
由于声纹特征在进行聚类操作后得到的每个类别都具有聚类中心，聚类中心可以用于表示该类别的声纹特征所具有的特点，因此，同一人物的声纹特征经过聚类得到的两个类别的聚类中心之间的相似度较高。由于相同场景下人物情绪与场景噪声相近，因此两个场景相同的类别的聚类中心之间进行比较可以使得结果更加准确。
[0191]
在该类别的声纹特征对应的备选人物数量为多个的情况下，也就是说，该类别包括的声纹特征对应的时间段内目标视频的视频帧中有多个出现比例达到预设比例的人物，可以比较该类别的聚类中心与第一目标类别的聚类中心之间的相似度，其中，第一目标类别包括与该类别对应的场景相同，且备选人物的数量为一个的类别以及与该类别对应的场景相同，且已基于处于说话状态的人物的出现时长比例确定对应人物的类别。由于第一目标类别对应的人物的数量为一个，因此第一目标类别的聚类中心有较大的参考价值。
[0192]
承接上一个例子，如下表所示，类别1和类别3的声纹特征对应的备选人物的数量为多个，由于类别2与类别1对应的场景相同，且对应的备选人物的数量为一个，因此类别2可以作为类别1的第一目标类别。同理，类别4可以作为类别3的第一目标类别。电子设备可以基于类别1的聚类中心与类别2的聚类中心之间的相似度，确定类别1的声纹特征对应的台词所对应的人物。同理，电子设备还可以基于类别3的聚类中心与类别4的聚类中心之间的相似度，确定类别3的声纹特征对应的台词所对应的人物。
[0193][0194]
可见，本发明实施例中，如果该类别的声纹特征对应的备选人物的数量为一个，电子设备可以确定该备选人物为该类别的声纹特征对应的台词所对应的人物；如果该类别的声纹特征对应的备选人物的数量为多个，电子设备可以基于该类别的聚类中心与第一目标类别的聚类中心之间的相似度，确定该类别的声纹特征对应的台词所对应的人物，其中，所述第一目标类别包括与该类别对应的场景相同，且对应的备选人物的数量为一个的类别以及与该类别对应的场景相同，且已基于处于说话状态的人物的出现时长比例确定对应人物的类别。由于台词对应的人物在视频画面中通常出现的频率较高，因此如果该类别声纹特征对应的备选人物的数量为一个，那么可以确定该备选人物为该类别的声纹特征对应的台词所对应的人物；由于聚类中心表示声纹特征聚类得到的类别，并且相同场景下比较聚类中心可以减小背景噪声与人物情绪带来的干扰，因此对于声纹特征对应的备选人物的数量为多个的类别，可以与第一目标类别进行聚类中心相似度的比较，进而确定该类别声纹特征对应台词所对应的人物，可以基于第一目标类别更快速地确定与台词对应的人物，提高了确定台词对应人物的运算速度。
[0195]
作为本发明实施例的一种实施方式，如图9所示，上述基于该类别的聚类中心与第一目标类别的聚类中心之间的相似度，确定该类别的声纹特征对应的台词所对应的人物的步骤，可以包括：
[0196]
s901，分别计算该类别的聚类中心与每个第一目标类别的聚类中心之间的相似度；
[0197]
由于聚类中心之间的相似度可以表示类别的声纹特征之间的相似程度，如果聚类中心之间的相似度较高，可以确定第一目标类别对应的人物为该类别的声纹特征所对应的
人物，因此，电子设备可以计算该类别的聚类中心与每个第一目标类别的聚类中心之间的相似度。
[0198]
例如，场景c对应视频中的时间段所对应的声纹特征聚类得到类别5-9，类别5-9对应的备选人物分别为人物a和人物b、人物c、人物a、人物d、人物b。对于类别5，由于类别6-9对应的备选人物的数量都为一个，并且与类别5对应的场景相同，因此类别6-9是第一目标类别，类别5可以分别与类别6-9的聚类中心的相似度进行比较。
[0199][0200]
承接上一个例子，如果场景c对应的声纹特征类别还包括类别10，类别10为已基于处于说话状态的人物的出现时长比例确定对应人物的类别，那么类别10为第一目标类别，类别5可以与类别10的聚类中心的相似度进行比较。
[0201]
s902，将对应的相似度达到第一预设相似度的第一目标类别所对应的人物，确定为该类别的声纹特征对应的台词所对应的人物。
[0202]
由于聚类中心的相似度较高可以说明二者之间的声纹特征较为接近，因此，该类别可以将对应的相似度达到第一预设相似度的第一目标类别所对应的人物，确定为该类别的声纹特征对应的台词所对应的人物。
[0203]
承接步骤s901中的第一个例子，假如第一预设相似度为0.8，而类别5的聚类中心与类别6、7、8、9的聚类中心之间的相似度分别为0.1、0.2、0.1、0.9，由于类别5与类别9的聚类中心相似度达到第一预设相似度，因此可以确定类别9对应的人物b是类别5的声纹特征对应的台词所对应的人物。
[0204]
可见，本发明实施例中，电子设备可以分别计算该类别的聚类中心与每个第一目标类别的聚类中心之间的相似度；将对应的相似度达到第一预设相似度的第一目标类别所对应的人物，确定为该类别的声纹特征对应的台词所对应的人物。由于聚类中心的相似度较高可以表明聚类中心所对应的声纹特征较为接近，因此如果该类别与第一目标类别的聚类中心的相似度达到第一预设相似度，那么可以确定对应的相似度达到第一预设相似度的第一目标类别所对应的人物为该类别的声纹特征对应的台词所对应的人物；比较对应备选人物数量为多个的类别与第一目标类别聚类中心的相似度，可以快速地确定对应备选人数为多个的类别所对应人物，提高了台词对应人物的运算效率。
[0205]
作为本发明实施例的一种实施方式，如图10所示，上述方法还可以包括：
[0206]
s1001，如果该类别的聚类中心与每个第一目标类别的聚类中心之间的相似度均
未达到所述第一预设相似度，分别计算该类别的聚类中心与每个第二目标类别的聚类中心之间的相似度；
[0207]
其中，所述第二目标类别为与该类别对应的场景不同，且对应的备选人物的数量为一个的类别以及与该类别对应的场景不同，且已基于处于说话状态的人物的出现时长比例确定对应人物的类别；
[0208]
由于该类别的聚类中心与每个第一目标类别的聚类中心之间的相似度均小于第一预设相似度，并且第二目标类别的聚类中心可以与该类别的聚类中心的相似度进行比较，因此如果该类别的聚类中心与每个第一目标类别的聚类中心之间的相似度均未达到第一预设相似度，分别计算该类别的聚类中心与每个第二目标类别的聚类中心之间的相似度。
[0209]
例如，如下表所示，由于类别4对应的备选人物的数量是一个，并且类别4与类别3对应的场景相同，但是类别3与类别4求得的聚类中心之间的相似度小于第一预设相似度。至此，类别3与每个第一目标类别的聚类中心之间的相似度均未达到第一预设相似度。由于类别2对应的备选人物为一个，并且类别2与类别3对应的场景不同，因此类别3可以与类别3计算聚类中心之间的相似度。
[0210][0211]
承接上一个例子，如果另有场景c，场景c中包括类别5，类别5为已基于处于说话状态的人物的出现时长比例确定对应人物的类别，类别5对应的人物为人物b。那么由于类别3的聚类中心与类别4的聚类中心之间的相似度未达到第一预设相似度，类别5与类别3对应的场景不同，并且已基于处于说话状态的人物的出现时长比例确定对应人物的类别，因此电子设备可以计算类别3的聚类中心与类别5的聚类中心之间的相似度。
[0212]
s1002，将对应的相似度达到第二预设相似度的第二目标类别所对应的人物，确定为该类别的声纹特征对应的台词所对应的人物。
[0213]
由于第二目标类别与该类别对应的场景不同，因此二者场景的背景声与人物情绪都可能会不同，因此第二预设相似度可以小于第一预设相似度。
[0214]
如果该类别与第二目标类别的聚类中心的相似度达到第二预设相似度，那么可以确定对应的相似度达到第二预设相似度的第二目标类别所对应的人物为该类别的声纹特征对应的台词所对应的人物。
[0215]
可见，本发明实施例中，如果该类别的聚类中心与每个第一目标类别的聚类中心之间的相似度均未达到所述第一预设相似度，电子设备可以分别计算该类别的聚类中心与每个第二目标类别的聚类中心之间的相似度，其中，所述第二目标类别为与该类别对应的场景不同，且对应的备选人物的数量为一个的类别以及与该类别对应的场景不同，且已基于处于说话状态的人物的出现时长比例确定对应人物的类别；将对应的相似度达到第二预设相似度的第二目标类别所对应的人物，确定为该类别的声纹特征对应的台词所对应的人物。由于第一目标类别的聚类中心与该类别的聚类中心的相似度没有达到第一预设相似度，因此该类别可以与第二目标类别计算聚类中心之间的相似度，如果该类别与第二目标类别的聚类中心之间的相似度达到第二预设相似度，那么可以将对应的相似度达到第二预设相似度的第二目标类别所对应的人物确定为该类别的声纹特征对应的台词所对应的人物；这样，可以提高台词对应人物的成功率。
[0216]
作为本发明实施例的一种实施方式，如图11所示，上述方法还可以包括：
[0217]
s1101，如果该类别的聚类中心与每个第二目标类别的聚类中心之间的相似度均未达到所述第二预设相似度，针对该类别的每个声纹特征，计算该声纹特征与该类别中的其他声纹特征之间的相似度；
[0218]
由于该类别的聚类中心与每个第二目标类别的聚类中心之间的相似度均未达到第二预设相似度，因此，电子设备可以计算该声纹特征与该类别中的其他声纹特征之间的相似度，以此检验是否该声纹特征在聚类操作中的被分到的类别错误。
[0219]
s1102，如果达到第二预设阈值的相似度的占比小于预设占比，获取包括该声纹特征对应的视频时间点的预设时长内的各待比对声纹特征；
[0220]
由于该声纹特征与该类别中的其他声纹特征之间计算的相似度达到第二预设阈值的相似度占比小于预设占比，也就是说该声纹特征与同类别的其他声纹特征之间的相似度达到第二预设阈值的占比偏低，因此该声纹特征可能被错分至该类别中，电子设备可以获取包括该声纹特征对应的视频时间点的预设时长内的各待比对声纹特征。
[0221]
例如，假如预设时长为45秒，如果声纹特征a与同类别的其他声纹特征计算相似度，相似度达到阈值的占比小于预设占比，那么电子设备可以获取声纹特征a对应的台词在目标视频中的时间点前后45秒时间段中的其他待比对声纹特征。
[0222]
s1103，分别计算该声纹特征与每个待比对声纹特征之间的相似度；
[0223]
相似度可以表示声纹特征与待比对声纹特征之间的相似程度，为了判断该声纹特征是否聚类错误，可以分别计算该声纹特征与每个待比对声纹特征之间的相似度。
[0224]
承接步骤s1102中的例子，电子设备可以分别计算声纹特征a与声纹特征a对应的台词在目标视频中的时间点前后45秒时间段中的其他待比对声纹特征之间的相似度。
[0225]
s1104，将对应的相似度最高待比对声纹特征对应的人物，确定为该声纹特征对应的台词所对应的人物。
[0226]
由于该声纹特征原来的聚类发生错误，因此在计算该声纹特征与每个待比对声纹特征之间的相似度时，可以将相似度最高的待比对声纹特征对应的人物确定为该声纹特征对应的台词所对应的人物，并且将该声纹特征加入与其相似度最高的待比对声纹特征所属的类别中，以便后续使用该声纹特征。
[0227]
可见，本发明实施例中，如果该类别的聚类中心与每个第二目标类别的聚类中心之间的相似度均未达到所述第二预设相似度，针对该类别的每个声纹特征，计算该声纹特征与该类别中的其他声纹特征之间的相似度；如果达到第二预设阈值的相似度的占比小于预设占比，获取包括该声纹特征对应的视频时间点的预设时长内的各待比对声纹特征；分别计算该声纹特征与每个待比对声纹特征之间的相似度；将对应的相似度最高待比对声纹特征对应的人物，确定为该声纹特征对应的台词所对应的人物；由于该声纹特征在聚类过程中的类别被分错，因此可以将该声纹特征与该声纹特征对应的视频时间点的预设时长内的各待比对声纹特征进行相似度计算，并将对应的相似度最高待比对声纹特征对应的人物确定为该声纹特征对应的台词所对应的人物；可以修正聚类错误的声纹特征，进一步提高台词对应人物的成功率。
[0228]
如图12所示，图12为本发明实施例所提供的一种台词对应人物方法的流程示意图：
[0229]
s1201，说话人检测(activate speaker detect)；
[0230]
电子设备可以将目标视频按照台词1-n的开始时间和结束时间，划分为每句台词对应的视频片段，得与台词1-n对应的视频片段1-n。采用说话人检测模型，对该类别对应的视频片段的画面进行说话人识别，确定处于说话状态的人物所在区域。
[0231]
s1202，转场点切分、按场景聚类；
[0232]
电子设备可以将目标视频对应的音频按照台词1-n的开始时间和结束时间，划分为每句台词对应的音频片段1-n，基于ecapa-tdnn模型以及wavlm模型对音频片段1、音频片段2
…
音频片段n做说话人声纹特征提取，得到与音频片段一一对应的声纹特征1、声纹特征2
…
声纹特征n。
[0233]
进而，电子设备可以将目标视频按照目标视频的转场点对视频的时间段进行切分，将相同场景对应的时间段内的声纹特征进行聚类，划分场景得到场景a、场景b
…
场景m，对每个场景所对应的时间段对应的声纹特征进行聚类得到每个场景下的若干个聚类簇，即分类。
[0234]
s1203，聚类簇里视频片段，进行人脸识别，统计占比关联人物角色；
[0235]
电子设备可以对每个聚类簇中所包括的声纹特征对应的视频片段进行人脸识别，基于统计占比关联系角色，即备选人物，可以得到每个场景下聚类簇与人物角色关联，即分类与备选人物的对应关系。
[0236]
s1204，跨场景：聚类簇-人物关联角色提纯；
[0237]
对于本场景中，无法与备选人物的数量为一个的分类或者已基于处于说话状态的人物的出现时长比例确定对应人物的类别基于聚类中心的相似度比较得到台词对应人物的类别，可以跨场景与其他场景中备选人物的数量为一个的类别或者已基于处于说话状态
的人物的出现时长比例确定对应人物的类别进行聚类中心相似度的比较，进而对备选人物进行提纯，也就是排除掉相似度较低的备选人物。
[0238]
s1205，每一句台词作说话人验证比对，对突兀台词-说话人关联作提纯。
[0239]
对于仍然没有对应人物的台词，可以将其对应的声纹特征与同分类的其他声纹特征进行相似度比较，如果相似度阈值小于预设占比，说明该台词被错分到该分类中，因此可以将其与其在视频中对应的时间点前后预设时间段内的台词序列1-n对应的声纹特征进行相似度计算，将其中相似度最大的声纹特征对应的台词所对应的人物作为其对应的人物。
[0240]
相应于上述台词对应人物的确定方法，本发明实施例还提供了一种台词对应人物的确定装置，下面对本发明实施例所提供的一种台词对应人物的确定装置进行介绍。
[0241]
如图13所示，一种台词对应人物的确定装置，所述装置包括：
[0242]
声纹特征获取模块1301，用于获取待处理声纹特征，其中，所述待处理声纹特征为目标视频中的台词对应的声纹特征；
[0243]
声纹特征聚类模块1302，用于将所述声纹特征进行聚类，确定每个声纹特征所属的类别；
[0244]
比例确定模块1303，用于针对每个类别，基于该类别对应的所述目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例；
[0245]
第一人物确定模块1304，用于根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物。
[0246]
可见，本发明实施提供的方案中，电子设备可以获取待处理声纹特征，其中，所述待处理声纹特征为目标视频中的台词对应的声纹特征；将所述声纹特征进行聚类，确定每个声纹特征所属的类别；针对每个类别，基于该类别对应的所述目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例；根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物。在本方案中，由于同一人物在目标视频中所说的台词对应的声纹特征是相似的，因此可以将目标视频中台词对应的声纹特征进行聚类，确定每个声纹特征所属的类别，由于视频画面信息中处于说话状态的出现时长比例较高的人物通常为该段台词对应的人物，因此可以基于该类别对应的目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，进而根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物，而不需要基于声纹特征库对声纹特征进行检索和比对，提高了确定台词对应人物的准确度。
[0247]
作为本发明实施例的一种实施方式，所述比例确定模块1303可以包括：
[0248]
第一人物确定子模块，用于对该类别对应的所述目标视频中视频片段的画面进行说话人检测，确定处于说话状态的人物所在区域，并对所述人物所在区域进行人脸识别，确定所述人物所在区域的处于说话状态的人物；
[0249]
第二比例确定子模块，用于基于所述处于说话状态的人物在所述视频片段中的出现次数，确定该类别的声纹特征所对应的处于说话状态的人物在所述视频片段中的出现时长比例。
[0250]
作为本发明实施例的一种实施方式，所述第一人物确定子模块可以包括：
[0251]
视频片段划分单元，用于将所述目标视频按照台词的开始时间和结束时间，划分为每句台词对应的视频片段；
[0252]
第一人物确定单元，用于采用说话人检测模型，对该类别对应的视频片段的画面进行说话人检测，确定处于说话状态的人物所在区域，并对所述人物所在区域进行人脸识别，确定所述人物所在区域的处于说话状态的人物。
[0253]
作为本发明实施例的一种实施方式，所述第一人物确定模块1304可以包括：
[0254]
第二人物确定子模块，用于将出现时长比例大于第一预设阈值的处于说话状态的人物中，对应的出现时长比例最高的人物，确定为该类别的声纹特征对应的台词所对应的人物。
[0255]
作为本发明实施例的一种实施方式，所述声纹特征获取模块1301可以包括：
[0256]
音频片段划分子模块，用于将所述目标视频对应的音频按照台词的开始时间和结束时间，划分为每句台词对应的音频片段；
[0257]
声纹特征提取子模块，用于提取每个音频片段的声纹特征，得到待处理声纹特征。
[0258]
作为本发明实施例的一种实施方式，所述声纹特征聚类模块1302可以包括：
[0259]
时间段确定子模块，用于基于所述目标视频的场景信息，确定所述目标视频包括的每个场景对应的时间段；
[0260]
类别确定子模块，用于将每个时间段对应的声纹特征进行聚类，确定每个时间段对应的声纹特征所属的类别。
[0261]
作为本发明实施例的一种实施方式，所述装置还可以包括：
[0262]
备选人物确定模块，用于在根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词无对应人物的情况下，基于该类别对应的所述目标视频的画面信息，确定该类别的声纹特征所对应的备选人物；
[0263]
第二人物确定模块，用于根据该类别的声纹特征对应的备选人物的数量，确定该类别的声纹特征对应的台词所对应的人物。
[0264]
作为本发明实施例的一种实施方式，所述备选人物确定模块可以包括：
[0265]
视频帧获取子模块，用于获取该类别包括的声纹特征对应的时间段内所述目标视频的视频帧；
[0266]
比例确定子模块，用于对所述视频帧进行人脸识别，确定该时间段所包括的视频帧中每个人物出现时长的比例；
[0267]
备选人物确定子模块，用于将对应的比例达到预设比例的人物，确定为该类别的声纹特征所对应的备选人物。
[0268]
作为本发明实施例的一种实施方式，所述第二人物确定模块可以包括：
[0269]
第三人物确定子模块，用于如果该类别的声纹特征对应的备选人物的数量为一个，确定该备选人物为该类别的声纹特征对应的台词所对应的人物；
[0270]
第四人物确定子模块，用于如果该类别的声纹特征对应的备选人物的数量为多个，基于该类别的聚类中心与第一目标类别的聚类中心之间的相似度，确定该类别的声纹特征对应的台词所对应的人物，其中，所述第一目标类别包括与该类别对应的场景相同，且对应的备选人物的数量为一个的类别以及与该类别对应的场景相同，且已基于处于说话状态的人物的出现时长比例确定对应人物的类别。
[0271]
作为本发明实施例的一种实施方式，所述第四人物确定子模块可以包括：
[0272]
相似度计算单元，用于分别计算该类别的聚类中心与每个第一目标类别的聚类中心之间的相似度；
[0273]
第二人物确定单元，用于将对应的相似度达到第一预设相似度的第一目标类别所对应的人物，确定为该类别的声纹特征对应的台词所对应的人物。
[0274]
作为本发明实施例的一种实施方式，所述装置还可以包括：
[0275]
第一相似度计算模块，用于如果该类别的聚类中心与每个第一目标类别的聚类中心之间的相似度均未达到所述第一预设相似度，分别计算该类别的聚类中心与每个第二目标类别的聚类中心之间的相似度，其中，所述第二目标类别为与该类别对应的场景不同，且对应的备选人物的数量为一个的类别以及与该类别对应的场景不同，且已基于处于说话状态的人物的出现时长比例确定对应人物的类别；
[0276]
第三人物确定模块，用于将对应的相似度达到第二预设相似度的第二目标类别所对应的人物，确定为该类别的声纹特征对应的台词所对应的人物。
[0277]
作为本发明实施例的一种实施方式，所述装置还可以包括：
[0278]
第二相似度计算模块，用于如果该类别的聚类中心与每个第二目标类别的聚类中心之间的相似度均未达到所述第二预设相似度，针对该类别的每个声纹特征，计算该声纹特征与该类别中的其他声纹特征之间的相似度；
[0279]
待比对声纹特征获取模块，用于如果达到第二预设阈值的相似度的占比小于预设占比，获取包括该声纹特征对应的视频时间点的预设时长内的各待比对声纹特征；
[0280]
第三相似度计算模块，用于分别计算该声纹特征与每个待比对声纹特征之间的相似度；
[0281]
第四人物确定模块，将对应的相似度最高待比对声纹特征对应的人物，确定为该声纹特征对应的台词所对应的人物。
[0282]
本发明实施例还提供了一种电子设备，如图14所示，包括处理器1401、通信接口1402、存储器1403和通信总线1404，其中，处理器1401，通信接口1402，存储器1403通过通信总线1404完成相互间的通信，
[0283]
存储器1403，用于存放计算机程序；
[0284]
处理器1401，用于执行存储器1403上所存放的程序时，实现上述任一实施例所述的台词对应人物的确定方法步骤。
[0285]
可见，本发明实施提供的方案中，电子设备可以获取待处理声纹特征，其中，所述待处理声纹特征为目标视频中的台词对应的声纹特征；将所述声纹特征进行聚类，确定每个声纹特征所属的类别；针对每个类别，基于该类别对应的所述目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例；根据该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物。在本方案中，由于同一人物在目标视频中所说的台词对应的声纹特征是相似的，因此可以将目标视频中台词对应的声纹特征进行聚类，确定每个声纹特征所属的类别，由于视频画面信息中处于说话状态的出现时长比例较高的人物通常为该段台词对应的人物，因此可以基于该类别对应的目标视频中视频片段的画面信息，确定该类别的声纹特征所对应的处于说话状态的人物的出现时长比例，进而根据该类别的声纹特征所对
应的处于说话状态的人物的出现时长比例，确定该类别的声纹特征对应的台词所对应的人物，而不需要基于声纹特征库对声纹特征进行检索和比对，提高了确定台词对应人物的准确度。
[0286]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0287]
通信接口用于上述终端与其他设备之间的通信。
[0288]
存储器可以包括随机存取存储器(random access memory，简称ram)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
[0289]
上述的处理器可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processor，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field－programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0290]
在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的台词对应人物的确定方法。
[0291]
在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的台词对应人物的确定方法。
[0292]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0293]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在
包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0294]
本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0295]
以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程婷
技术所有人：北京奇艺世纪科技有限公司
我是此专利的发明人

上一篇：一种电力系统扰动时刻判断方法、系统、设备及介质与流程
上一篇：用于单载波多址传输的系统及方法与流程