一种数据处理方法、装置、计算机设备及存储介质与流程

文档序号：29958195发布日期：2022-05-11 08:28阅读：184来源：国知局

1.本技术涉及计算机技术领域，尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

背景技术：

2.目前的角色识别方案在多媒体数据(例如，影视剧)上架前，需要人工参与角色识别，即需要花费大量的时间和精力，对该影视剧中的台词角色进行一定数量的人工标注，例如，人工确定该影视剧中出现的业务角色的数量，并对每一句语音台词进行标注，这将极大的降低了识别的效率。此外，人工参与角色识别主要依赖于标注人员的听觉感应，若同一多媒体数据中存在相似音色，则容易导致识别错误的情况，以至于降低了角色识别的精确度。

技术实现要素：

3.本技术实施例提供一种数据处理方法、装置、计算机设备及存储介质，可以提高音频角色识别的精确度、效率以及适用性。
4.本技术实施例一方面提供一种数据处理方法，包括：从多媒体数据的视频帧中获取图片特征信息；图片特征信息用于指示视频帧中的角色图片所属的m个业务对象；m为正整数；确定多媒体数据中的n个对象音频帧分别对应的音频语义特征向量，对每个对象音频帧对应的音频语义特征向量进行聚类处理，得到m个音频聚类簇；n个对象音频帧是对多媒体数据中的原始音频帧进行对象定位剥离处理后所得到的；n为正整数；一个音频聚类簇对应一个业务对象；基于图片特征信息、m个音频聚类簇以及与多媒体数据相关联的对象角色映射表，识别p个音频聚类簇中的每个音频聚类簇分别对应的业务角色；p为小于或者等于m的正整数；对象角色映射表包括与列表业务对象具有映射关系的业务角色；列表业务对象与m个业务对象之间存在p个重合的业务对象。
5.本技术实施例一方面提供一种数据处理装置，包括：图片信息获取模块，用于从多媒体数据的视频帧中获取图片特征信息；图片特征信息用于指示视频帧中的角色图片所属的m个业务对象；m为正整数；聚类处理模块，用于确定多媒体数据中的n个对象音频帧分别对应的音频语义特征向量，对每个对象音频帧对应的音频语义特征向量进行聚类处理，得到m个音频聚类簇；n个对象音频帧是对多媒体数据中的原始音频帧进行对象定位剥离处理后所得到的；n为正整数；一个音频聚类簇对应一个业务对象；音频角色识别模块，用于基于图片特征信息、m个音频聚类簇以及与多媒体数据相关联的对象角色映射表，识别p个音频聚类簇中的每个音频聚类簇分别对应的业务角色；p为小于或者等于m的正整数；对象角色映射表包括与列表业务对象具有映射关系的业务角色；列表业务对象与m个业务对象之间存在p个重合的业务对象。
6.其中，图片信息获取模块包括：视频帧获取单元，用于从多媒体数据中获取视频帧；图片切割单元，用于对视频帧中的角色关键部位进行图片切割处理，得到视频帧对应的角色图片；角色图片包括x个角色切割图片；x为大于或者等于m的正整数；图片编码单元，用于获取x个角色切割图片中的角色切割图片ti，对角色切割图片ti进行图片编码处理，得到角色切割图片ti对应的图片信息向量li；i为小于或者等于x的正整数；向量匹配单元，用于从与候选对象相关联的信息向量数据库中，确定与图片信息向量li相匹配的对象关键信息向量，将匹配到的对象关键信息向量对应的候选对象作为角色切割图片ti对应的业务对象；图片信息获取单元，用于基于获取到的角色切割图片分别对应的业务对象，确定视频帧对应的图片特征信息。
7.其中，该图片切割单元包括：位置确定子单元，用于对视频帧中的角色关键部位进行检测定位，确定角色关键部位在视频帧中的位置信息；切割子单元，用于基于位置信息，在视频帧中切割角色关键部位，得到x个包含角色关键部位的角色切割图片，将x个角色切割图片作为视频帧对应的角色图片。
8.其中，该向量匹配单元包括：数据库获取子单元，用于获取与候选对象相关联的信息向量数据库；信息向量数据库用于存储y个候选对象分别对应的对象关键信息向量；y为大于或者等于m的正整数；向量距离确定子单元，用于分别确定图片信息向量li与y个对象关键信息向量中的每个对象关键信息向量之间的向量距离，得到y个向量距离；对象匹配子单元，用于从y个向量距离中获取小于或者等于距离阈值的最小向量距离，确定最小向量距离对应的对象关键信息向量所对应的候选对象，将确定的候选对象作为角色切割图片ti对应的业务对象。
9.其中，该聚类处理模块包括：对象音频帧确定单元，用于从多媒体数据中获取原始音频帧，对原始音频帧进行对象定位剥离处理，得到n个对象音频帧；语义特征提取单元，用于对n个对象音频帧中的每个对象音频帧进行语义特征提取，得到每个对象音频帧对应的音频语义特征向量；聚类处理单元，用于将m确定为待聚类的簇心数量，基于簇心数量，对获取到的每个对象音频帧对应的音频语义特征向量进行聚类处理，得到m个音频聚类簇。
10.其中，该对象音频帧确定单元包括：原始音频帧获取子单元，用于从多媒体数据中获取原始音频帧；信源分离子单元，用于对原始音频帧进行信源分离，得到针对业务对象的待处理音频帧；对象音频帧确定子单元，用于基于用于剔除静音帧的音频边界检测策略，对待处理音频帧中的音频冲击信号帧进行定位切割，得到n个对象音频帧。
11.其中，信源分离子单元包括：
幅度谱生成子单元，用于将原始音频帧输入至信源分离模型，通过信源分离模型生成原始音频帧对应的频谱幅度谱；信源分离模型包括第一分割网络层和第二分割网络层；类型特征生成子单元，用于将频谱幅度谱分别输入第一分割网络层以及第二分割网络层，通过第一分割网络层生成频谱幅度谱对应的第一类型特征，通过第二分割网络层生成频谱幅度谱对应的第二类型特征；合并掩码子单元，用于对第一类型特征和第二类型特征进行合并掩码处理，得到第一类型特征对应的目标掩码图；待处理音频帧确定子单元，用于基于目标掩码图与频谱幅度谱，生成目标类型音频帧，将目标类型音频帧作为信源分离模型所输出的针对业务对象的待处理音频帧。
12.其中，该语义特征提取单元包括：音频帧输入子单元，用于将n个对象音频帧输入至音频语义特征提取模型；音频语义特征提取模型包括频域分支网络层、时域分支网络层以及卷积网络层；频域特征确定子单元，用于通过频域分支网络层，对n个对象音频帧进行特征学习，得到频域学习特征；时域特征确定子单元，用于通过时域分支网络层，对n个对象音频帧进行特征学习，得到时域学习特征；频域学习特征与时域学习特征之间的特征维度相同；音频特征向量确定子单元，用于将频域学习特征与时域学习特征进行叠加处理，得到叠加学习特征，将叠加学习特征输入至卷积网络层，对叠加学习特征进行最大平均处理，输出每个对象音频帧对应的音频语义特征向量。
13.其中，该音频角色识别模块包括：第一时间提取单元，用于从m个音频聚类簇中获取音频聚类簇ck，提取音频聚类簇ck在多媒体数据中的第一播放时间；k为小于或者等于m的正整数；第二时间提取单元，用于从与多媒体数据相关联的对象角色映射表的列表业务对象中，获取与m个业务对象之间存在重合的p个业务对象，基于图片特征信息，提取p个业务对象中的每个业务对象在多媒体数据中的第二播放时间；时间重叠度确定单元，用于分别确定音频聚类簇ck的第一播放时间与每个业务对象对应的第二播放时间之间的时间重叠度，将具有最高时间重叠度的第二播放时间所对应的业务对象作为音频聚类簇ck对应的业务对象；音频角色识别单元，用于从对象角色映射表中，获取音频聚类簇ck对应的业务对象所对应的业务角色，将获取到的业务角色作为音频聚类簇ck对应的业务角色。
14.其中，该装置还包括：业务时间确定模块，用于基于p个音频聚类簇分别在多媒体数据中的第一播放时间以及p个音频聚类簇分别对应的业务对象在多媒体数据中的第二播放时间，确定p个业务对象中的每个业务对象在多媒体数据中的业务播放时间；片段数据确定模块，用于基于p个业务对象中的每个业务对象对应的业务播放时间，从多媒体数据中获取p个业务对象分别对应的多媒体片段数据；多媒体片段数据包括与对应业务对象相关联的音频帧以及与对应业务对象相关联的视频帧。
15.其中，该装置还包括：
多媒体数据播放模块，用于在业务播放显示界面中播放多媒体数据；业务播放显示界面包括用于触发对象视频数据选择功能的播放选择控件；对象列表显示模块，用于响应针对播放选择控件的触发操作，显示对象播放列表；对象播放列表包括z个业务对象分别对应的对象封面数据；z为小于或等于p的正整数；片段数据播放模块，用于响应针对z个对象封面数据中的目标对象封面数据的触发操作，在业务播放界面中播放目标多媒体片段数据；目标多媒体片段数据为目标对象封面数据对应的业务对象所对应的多媒体片段数据；目标对象封面数据对应的业务对象属于p个业务对象。
16.其中，多媒体数据包括第一多媒体数据和第二多媒体数据；第一多媒体数据与第二多媒体数据均包括待剪辑对象；待剪辑对象属于p个业务对象；该装置还包括：第一片段数据获取模块，用于基于与第一多媒体数据相关联的对象角色映射表，获取待剪辑对象对应的第一目标业务角色，从第一多媒体数据中获取与第一目标业务角色相关联的第一多媒体片段数据；第一多媒体片段数据是基于待剪辑对象在第一多媒体数据中的业务播放时间所确定的；第二片段数据获取模块，用于基于与第二多媒体数据相关联的对象角色映射表，获取待剪辑对象对应的第二目标业务角色，从第二多媒体数据中获取与第二目标业务角色相关联的第二多媒体片段数据；第二多媒体片段数据是基于待剪辑对象在第二多媒体数据中的业务播放时间所确定的；合并剪辑模块，用于对第一多媒体片段数据和第二多媒体片段数据进行合并剪辑处理，得到待剪辑对象对应的合并剪辑数据。
17.本技术实施例一方面提供了一种计算机设备，包括：处理器和存储器；处理器与存储器相连，其中，存储器用于存储计算机程序，计算机程序被处理器执行时，使得该计算机设备执行本技术实施例提供的方法。
18.本技术实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行本技术实施例提供的方法。
19.本技术实施例一方面提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中；计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行本技术实施例中的方法。
20.在本技术实施例中，具有音频角色识别功能的计算机设备可以通过结合从视频帧中自动识别出的图片特征信息以及自适应聚类的m个音频聚类簇，将声音与角色关联识别，从而可以准确识别出与对象角色映射表相关联的p个音频聚类簇分别对应的业务角色，这种音频角色识别方式无需人工标注每一句音频台词所归属的业务角色，不仅可以减少消耗的人力时间，还能够解决相似音色识别错误的情况，以至于提高了识别的精确度以及效率。此外，本技术实施例在音频角色识别过程中可以采用音频语义特征聚类的方法，使得整个音频角色识别系统更具通用性，可适用不同多媒体数据中业务对象不同的场景，从而有效提高了识别的适用性。
附图说明
21.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
22.图1是本技术实施例提供的一种网络架构的结构示意图；图2是本技术实施例提供的一种用于进行音频角色识别的系统流程示意图；图3是本技术实施例提供的一种数据处理方法的流程示意图一；图4是本技术实施例提供的一种从视频帧中获取图片特征信息的架构示意图；图5是本技术实施例提供的一种关键部位检测模型的模型架构图；图6是本技术实施例提供的一种音频语义特征聚类的架构示意图；图7是本技术实施例提供的一种信源分离模型的模型架构图；图8是本技术实施例提供的一种音频语义特征提取模型的模型架构示意图；图9是本技术实施例提供的一种进行音频角色识别的场景示意图；图10是本技术实施例提供的一种数据处理方法的流程示意图二；图11是本技术实施例提供的一种显示多媒体片段数据的场景示意图；图12是本技术实施例提供的一种数据处理装置的结构示意图一；图13是本技术实施例提供的一种数据处理装置的结构示意图二；图14是本技术实施例提供的一种计算机设备的示意图。
具体实施方式
23.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
24.应当理解，本技术实施例提供了一种基于音频语义特征聚类的角色识别方法，该方法可应用于人工智能领域。其中，所谓人工智能(artificial intelligence，简称ai)是利用数字计算机或者数字计算机控制的计算模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
25.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
26.其中，计算机视觉技术(computer vision，cv)领域是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，
并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
27.其中，语音技术(speech technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。
28.其中，自然语言处理(nature language processing，nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
29.其中，机器学习(machine learning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
30.请参见图1，图1是本技术实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括服务器10f和终端设备集群。该终端设备集群可以包括一个或者多个终端设备，这里将不对终端设备的数量进行限制。如图1所示，该终端设备集群具体可以包括终端设备100a、终端设备100b、终端设备100c、
…
、终端设备100n。如图1所示，终端设备100a、终端设备100b、终端设备100c、
…
、终端设备100n可以分别与上述服务器10f进行网络连接，以便于每个终端设备可以通过该网络连接与服务器10f进行数据交互。其中，这里的网络连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其他方式，本技术在此不做限制。
31.其中，该终端设备集群中的每个终端设备均可以包括：智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等具有音频角色识别功能的智能终端。应当理解，如图1所示的终端设备集群中的每个终端设备均可以安装有目标应用(即客户端)，当该客户端运行于各终端设备中时，可以分别与上述图1所示的服务器10f之间进行数据交互。其中，该客户端可以包括社交客户端、多媒体客户端(例如，视频客户端)、娱乐客户端(例如，游戏客户端)、信息流客户端、教育客户端、直播客户端等客户端。其中，该客户端可以为独立的客户端，也可以为集成在某客户端(例如，社交客户端、教育客户端以及多媒体客户端等)中的嵌入式子客户端，在此不做限定。
32.如图1所示，本技术实施例中的服务器10f可以为该客户端对应的服务器。该服务器10f可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式
系统，还可以是提供云计算服务的云服务器。其中，本技术实施例将不对服务器的数量进行限制。
33.为便于理解，本技术实施例可以在图1所示的多个终端设备中选择一个终端设备作为目标终端设备。例如，本技术实施例可以将图1所示的终端设备100a作为目标终端设备，该目标终端设备中可以集成有目标应用(即客户端)。此时，该目标终端设备可以通过该客户端对应的业务数据平台与服务器10f之间实现数据交互。其中，这里的客户端可以具有帧序列(例如，帧动画序列)加载和播放功能，用于在客户端所提供的业务播放显示界面中播放包括视频帧、音频帧以及文本(例如，台词)的多媒体数据。可以理解的是，这里的业务播放显示界面是指用于播放多媒体数据的终端显示界面，该多媒体数据的数据类型可以包括影视剧类型、动漫类型、综艺类型等等，这里将不对多媒体数据的数据类型进行限定。
34.应当理解，具有音频角色识别功能的计算机设备(例如，上述服务器10f)在获取到多媒体数据(例如，电视剧a)时，可以从多媒体数据的视频帧中获取图片特征信息。其中，这里的图片特征信息可以用于指示视频帧中的角色图片所属的m个业务对象，m为正整数。例如，该图片特征信息可以指示该电视剧a中的某个包括角色关键部位(例如，角色面部)的角色图片是由哪个演员所饰演的。与此同时，该计算机设备还可以确定该多媒体数据中的n个对象音频帧分别对应的音频语义特征向量，进而通过对每个对象音频帧对应的音频语义特征向量进行聚类处理，以得到m个音频聚类簇。其中，n为正整数，且这里的n个对象音频帧是该计算机设备对多媒体数据中的原始音频帧进行对象定位剥离处理后所得到的。可以理解的是，该计算机设备对原始音频帧进行对象定位剥离处理是为了减少环境音段以及对象音段(例如，人声音段)中的静音帧在后续聚类处理时所产生的干扰，以便提升聚类的准确性。
35.此时，该计算机设备可以基于图片特征信息、m个音频聚类簇以及与多媒体数据相关联的对象角色映射表，识别p个音频聚类簇中的每个音频聚类簇分别对应的业务角色；这里的p可以为小于或者等于m的正整数。其中，这里的对象角色映射表(例如，电视剧a的演职表)可以包括与列表业务对象具有映射关系的业务角色；对象角色映射表中的列表业务对象与该计算机所识别的m个业务对象之间存在p个重合的业务对象。该对象映射表可以是计算机设备获取到的多媒体数据的业务编辑对象(例如，电视剧a的编辑用户)所提供的初始对象角色映射表，还可以是目标对象(例如，访问客户端的目标用户)基于业务编辑对象所提取的初始对象角色映射表所更新的，这里将不对其限定。例如，目标对象可以在初始对象角色映射表中添加电视剧a中的某一业务角色(例如，餐馆的服务员)与某一业务对象(例如，演员1)之间具有映射关系，即该餐馆的服务员是由演员1所饰演的。
36.由此可见，本技术实施例中的计算机设备可以通过结合从视频帧中自动识别出的图片特征信息(例如，人脸信息)以及自适应聚类的m个音频聚类簇，将声音与角色关联识别，从而可以准确识别出与对象角色映射表相关联的p个音频聚类簇分别对应的业务角色，这种音频角色识别方式无需人工标注每一句音频台词所归属的业务角色，不仅可以减少消耗的人力时间，还能够解决相似音色识别错误的情况，以至于提高了识别的精确度以及效率。此外，本技术实施例在音频角色识别过程中可以采用音频语义特征聚类的方法，使得整个音频角色识别系统更具通用性，可适用不同多媒体数据中业务对象不同的场景，从而有效提高了识别的适用性。
37.为便于理解，进一步地，请参见图2，图2是本技术实施例提供的一种用于进行音频
角色识别的系统流程示意图。如图2所示，本技术实施例中的计算机设备可以为具有音频角色识别功能的计算机设备，该计算机设备可以为上述图1所示的终端设备集群中的任意一个终端设备，例如，终端设备100a，该计算机设备也可以为上述图1所示的服务器10f，这里将不对计算机设备进行限定。
38.如图2所示，本技术实施例提供的音频角色识别系统可以包括三个模块，具体可以包括第一模块(例如，关键图像识别模块)、第二模块(例如，音频语义特征聚类模型)以及第三模块(例如，角色识别模块)。其中，本技术实施例中的多媒体数据20s可以为该计算机设备所获取到的需要进行音频角色识别的多媒体数据，该多媒体数据20s可以为某一电视剧中的某一剧集对应的多媒体数据，也可以为某一电影对应的多媒体数据，还可以为某一综艺节目对应的多媒体数据，这里将不对其进行一一举例。其中，该多媒体数据20s是由包括原始视频帧的视频数据以及包括原始音频帧的音频数据所组成的。
39.可以理解的是，该计算机设备可以从包括原始视频帧的视频数据中获取视频帧，其中，这里的视频帧可以是指对视频数据中的原始视频帧的片头和片尾进行删减后所得到的。进一步地，该计算机设备可以通过图2所示的第一模块，从多媒体数据20s的视频帧中获取图片特征信息。其中，该第一模块可以包括关键部位检测模型210w以及图片编码模型220w。该关键部位检测模型210w可以用于检测视频帧中的角色图片，这里的角色图片是指包括角色关键部位(例如，角色面部)的图片。该图片编码模型220w可以用于对角色图片中的每个角色切割图片进行图片编码处理，以得到角色切割图片对应的图片向量信息。其中，该计算机设备还可以获取图2所示的信息向量数据库200k，该信息向量数据库200k可以为该计算机设备事先通过同样的关键图像识别方法在大量的素材数据(例如，属于影视剧类型、综艺类型等的多媒体数据)基础上所建立的信息索引库，专门用于进行关键图像识别的信息库，其中，该信息向量数据库200k可以用于存储y个候选对象分别对应的对象关键信息向量，这里的对象关键信息向量也可以是通过图片编码模型220w所确定的，y为大于或者等于m的正整数。此外，该信息向量数据库200k还可以包括每个候选对象的对象信息，例如，候选对象的对象属性类型(包括唱跳歌手、现代偶像剧、古代宫廷剧、仙侠剧、战争题材剧等)。该计算机设备可以根据信息向量数据库200k，以及图片编码模型220w输出的图片信息向量，得到图2所示的图片特征信息。
40.与此同时，该计算机设备还可以通过图2所示的第二模块，得到与多媒体数据20s中的n个对象音频帧相关联的音频聚类结果。其中，这里的n个对象音频帧是对多媒体数据中的原始音频帧进行对象定位剥离处理后所得到的，n为正整数。如图2所示，这里的第二模块可以包括信源分离模型230w以及音频语义特征提取模型240w。这里的信源分离模型230w可以用于对原始音频帧进行信源分离，以得到对象音段(例如，人声音段)以及环境音段(例如，背景音段)。这里的音频语义特征提取模型240w可以用于在获取到对象音段中的n个对象音频帧时，对每个对象音频帧进行帧级别的语义特征提取，以得到每个对象音频帧分别对应的音频语义特征向量。进一步地，该计算机设备可以对n个音频语义特征向量进行聚类处理，以得到m个音频聚类簇，进而可以将这m个音频聚类簇作为第二模块所得到的音频聚类结果。其中，一个音频聚类簇可以对应一个业务对象。
41.进一步地，该计算机设备可以基于图片特征信息、m个音频聚类簇、以及图2所示的与多媒体数据20s相关联的对象角色映射表200b，从而可以识别p个音频聚类簇中的每个音
频聚类簇分别对应的业务角色；p为小于或者等于m的正整数。其中，这里的对象角色映射表200b可以包括与列表业务对象具有映射关系的业务角色；该列表业务对象与m个业务对象之间存在p个重合的业务对象。可以理解的是，该计算机设备可以通过第三模块，对前两个模块的输出信息进行音频角色识别，即基于第一模块输出的图片特征信息、第二模块输出的音频聚类结果以及对象角色映射表200b，确定p个重合的业务对象在多媒体数据20s中的播放时间(即第二播放时间)以及每个音频聚类簇分别在多媒体数据20s中的播放时间(即第一播放时间)，进而可以通过比对这两个播放时间，确定p个业务对象分别对应的音频聚类簇，进而可以确定这p个音频聚类簇中的每个音频聚类簇分别对应的业务角色。
42.由此可见，本技术实施例中的计算机设备可以通过结合第一模块输出的图片特征信息(例如，人脸信息)以及第二模块输出的音频聚类结果，在第三模块中将音频与业务角色关联识别，从而可以准确识别出与对象角色映射表200b相关联的p个音频聚类簇分别对应的业务角色，这种音频角色识别方式不仅提高了识别的精确度以及效率，还提高了识别的适用性。
43.其中，具有音频角色识别功能的计算机设备通过结合从多媒体数据的视频帧中自动识别出的图片特征信息(例如，人脸信息)以及自适应聚类的m个音频聚类簇，识别与对象角色映射表相关联的p个音频聚类簇分别对应的业务角色的具体实现方式可以参见下述图3-图11所对应的实施例。
44.进一步地，请参见图3，图3是本技术实施例提供的一种数据处理方法的流程示意图一。如图3所示，该方法可以由具有音频角色识别功能的计算机设备执行，该计算机设备可以为终端设备(例如，上述图1所示的终端设备集群中的任意一个终端设备，例如，终端设备100a)，也可以为服务器(例如，上述图1所示的服务器10f)，在此不做限定。为便于理解，本技术实施例以该方法由具有音频角色识别功能的服务器执行为例进行说明，该方法至少可以包括以下步骤s101-步骤s103：步骤s101，从多媒体数据的视频帧中获取图片特征信息。
45.其中，这里的图片特征信息可以用于指示视频帧中的角色图片所属的m个业务对象；m为正整数。具体地，该计算机设备可以从多媒体数据中获取视频帧，进而可以对视频帧中的角色关键部位进行图片切割处理，以得到视频帧对应的角色图片。其中，这里的角色图片可以包括x个角色切割图片；x为大于或者等于m的正整数。进一步地，该计算机设备可以获取x个角色切割图片中的角色切割图片ti，对角色切割图片ti进行图片编码处理，以得到角色切割图片ti对应的图片信息向量li。其中，这里的i为小于或者等于x的正整数。此时，该计算机设备可以从与候选对象相关联的信息向量数据库中，确定与图片信息向量li相匹配的对象关键信息向量，并将匹配到的对象关键信息向量对应的候选对象作为角色切割图片ti对应的业务对象。进一步地，该计算机设备可以基于获取到的角色切割图片分别对应的业务对象，确定视频帧对应的图片特征信息。
46.其中，该计算机设备对视频帧中的角色关键部位进行检测识别时的图片识别系统，可以采用检测子模块与识别子模块所共同组成的，也可以是对角色关键部位进行检测和识别的一体化检测识别网络，这里将不对其进行限定。
47.比如，该计算机设备在确定视频帧对应的角色图片时，可以对视频帧中的角色关键部位进行检测定位，从而确定角色关键部位在视频帧中的位置信息。进一步地，该计算机
设备可以基于位置信息，在视频帧中切割角色关键部位，得到x个包含角色关键部位的角色切割图片，将x个角色切割图片作为视频帧对应的角色图片。然后，该计算机设备可以获取x个角色切割图片中的角色切割图片ti，对角色切割图片ti进行图片编码处理，以得到角色切割图片ti对应的图片信息向量li。其中，这里的i为小于或者等于x的正整数。此时，该计算机设备可以获取与候选对象相关联的信息向量数据库，以查找与图片信息向量li具有匹配关系的候选对象。其中，这里的信息向量数据库可以用于存储y个候选对象分别对应的对象关键信息向量；y为大于或者等于m的正整数。
48.可以理解的是，该计算机设备在获取到信息向量数据库时，可以直接从该信息向量数据库中查找与图片信息向量li具有匹配关系的候选对象。其中，该计算机设备可以分别确定图片信息向量li与y个对象关键信息向量中的每个对象关键信息向量之间的向量距离，得到y个向量距离，进而可以从y个向量距离中获取小于或者等于距离阈值的最小向量距离，确定最小向量距离对应的对象关键信息向量所对应的候选对象，并将确定的候选对象作为角色切割图片ti对应的业务对象。其中，这里的距离阈值是该计算机设备事先设置的一个用于确保查找到的候选对象与角色切割图片具有匹配关系的数值，可以根据实际情况进行动态调整，这里将不对其进行限定。
49.可选的，为了提高匹配效率，该计算机设备可以获取与多媒体数据相关联的对象角色映射表，通过对象角色映射表以及信息向量数据库，查找与图片信息向量li具有匹配关系的候选对象。为便于理解，进一步地，请参见表1，表1是本技术实施例提供的一种与多媒体数据相关联的对象角色映射表。如表1所示：表1其中，为便于理解，表1所示的对象角色映射表中的业务角色可以包括h个，h为大于或者等于m的正整数，这里以5个为例，具体可以包括角色1、角色2、角色3、角色4以及角色5。其中，该角色1与角色2均可以与同一业务对象(例如，对象a)具有映射关系，即该角色1与角色2均由对象a所饰演的。角色3与对象b具有映射关系，角色4与对象c具有映射关系，角色5与对象d具有映射关系。
50.可以理解的是，该计算机设备可以根据上述表1，从信息向量数据库中筛选出该对象角色映射表中的列表业务对象对应的对象关键信息向量，例如，对象a的对象关键信息向量、对象b的对象关键信息向量以及对象c的对象关键信息向量。进一步地，该计算机设备可以分别确定图片信息向量li与所筛选的这3个对象关键信息向量中的每个对象关键信息向量之间的向量距离，进而可以从3个向量距离中获取小于或者等于距离阈值的最小向量距离，确定最小向量距离对应的对象关键信息向量所对应的候选对象，并将确定的候选对象作为角色切割图片ti对应的业务对象。由此可见，该计算机设备在匹配候选对象时，无需确
定与信息向量数据库中的每个对象关键信息向量之间的向量距离，而是通过对象角色映射表的筛选，极大的减少了匹配时间，从而提高了从信息向量数据库中查找到具有匹配关系的候选对象的匹配效率。
51.为便于理解，进一步地，请参见图4，图4是本技术实施例提供的一种从视频帧中获取图片特征信息的架构示意图。如图4所示，本技术实施例中的架构示意图可以为上述图2所对应实施例中的第一模块对应的架构示意图。图4所示的视频帧4v可以为多媒体数据(例如，上述图2所对应实施例中的多媒体数据20s)中的一个视频帧，图4所示的关键部位检测模型410w可以用于对视频帧4v进行关键部位检测，该关键部位检测模型410w可以为上述图2所对应实施例中的关键部位检测模型210w，图4所示的图片编码模型420w可以用于对角色切割图片400s进行图片编码处理，该图片编码模型420w可以为上述图2所对应实施例中的图片编码模型420w，且图4所示的信息向量数据库400k可以为上述图2所对应实施例中的信息向量数据库200k。
52.如图4所示，本技术实施例中的计算机设备在对视频帧4v进行图像识别时，可以将该视频帧4v输入至图4所示的关键部位检测模型410w，通过该关键部位检测模型410w，对该视频帧4v中的角色关键部位(例如，角色的面部五官)进行检测定位，以确定该角色关键部位在视频帧4v中的位置信息(例如，图4所示的区域40q中所标记的五官位置信息)。进一步地，该计算机设备可以基于在区域40q中标记的位置信息，在视频帧4v中切割该角色关键部位，得到图4所示的包括角色关键部位的角色切割图片(例如，图4所示的角色切割图片400t)。
53.其中，图4所示的关键部位检测模型410w可以是一种用于对角色关键部位(例如，角色面部)进行检测定位的网络结构，例如，面部检测模型(multi-task cascaded convolutional networks，简称mtcnn网络)。为便于理解，进一步地，请一并参见图5，图5是本技术实施例提供的一种关键部位检测模型的模型架构图。如图5所示，本技术实施例中的关键部位检测模型可以为上述图4所对应实施例中的关键部位检测模型410w，该关键部位检测模型可以用于对图5所示的视频帧5v进行关键部位检测，这里的视频帧5v可以为上述图4所对应实施例中的视频帧4v。
54.其中，如图5所示，该关键部位检测模型可以包括三个网络层，具体可以包括筛选网络层5w1(例如，proposal network，简称p-net)、精调网络层5w2(例如，refinement network，简称r-net)以及输出网络层5w3(例如，output network，简称o-net)。
55.应当理解，本技术实施例中的计算机设备在获取到视频帧5v时，可以对视频帧5v进行图片尺寸调整，从而可以得到该视频帧5v对应的图片金字塔。比如，该计算机设备可以获取尺寸调整系数(例如，0.7)，基于尺寸调整系数对视频帧5v进行多次调整，直到调整后的视频帧5v的图片尺寸与筛选网络层5w1所关联的图片尺寸阈值(例如，12*12*3)相匹配，此时，该计算机设备可以基于多次调整后具有不同图片尺寸的视频帧5v，组成该视频帧5v对应的图片金字塔。其中，这里的尺寸调整系数可以是该计算机设备根据角色关键部位在视频帧中所处位置的分布情况所动态调整的，尺寸调整系数设置过大，容易延长检测定位的时间，尺寸调整系数设置过小，将会漏掉视频帧中分布面积较小的角色关键部位(例如，中小型人脸)，基于此，本技术实施例中的尺寸调整系数可以设置在0.7-0.8之间。其中，这里的图片金字塔可以包括原始图片(例如，图5所示的视频帧5v)、第一调整图片(即对视频
帧5v进行图片尺寸调整后所得到的图片)、第二调整图片(即对第一调整图片进行图片尺寸调整后所得到的图片)、
…
、第n调整图片(即对第n-1调整图片进行图片尺寸调整后所得到的图片)。其中，这里的第n调整图片的图片尺寸可以为筛选网络层5w1所关联的图片尺寸阈值(例如，12*12)。
56.进一步地，该计算机设备可以将视频帧5v对应的图片金字塔输入到图5所示的筛选网络层5w1，从而可以得到大量的候选，其中，本技术实施例可以将通过筛选网络层5w1得到的边界框位置信息，对视频帧5v进行切割处理后的图片称之为第一切割图片。其中，该计算机设备可以将图片金字塔中的图片输入到筛选网络层5w1，得到输出特征为(m，n，16)。其中，这里的m和n可以用于表征图片的长和宽。根据筛选网络层5w1得到的分类得分，该计算机设备可以筛选掉一大部分候选，从而得到第一候选，再根据得到的4个偏移量，对边界框(bounding box，简称bbox)进行校准，得到校准后的边界框的位置信息(例如，左上右下的坐标信息)，进而可以根据交并比(intersection over union，简称iou)对这些进行第一候选再次进行筛选，即通过进行非极大值抑制(non-maximum suppression，简称nms算法)从第一候选中筛选掉一大部分候选，得到第二候选。换言之，该计算机设备可以将分类得分进行排序处理(例如，降序处理)，得到(num_left，4)的张量，即num_left个bbox的左上、右下绝对坐标。进一步地，该计算机设备可以每次以排序处理后的最大分数值的边界框坐标和剩余坐标，确定iou，进而可以过滤掉iou大于交并比阈值(例如，0.6，该交并比阈值是计算机设备事先设置的)的边界框，并把这个最大分数值移到最终结果，其中，本技术实施例可以将这个操作称之为过滤操作。进一步地，该计算机设备重复这个过滤操作，可以过滤掉很多有大量重叠部分的边界框，最终得到(num_left_after_nms，16)个候选，这些候选需要根据边界框的位置信息对视频帧5v进行切割处理，从而可以得到图片尺寸为24*24，且用于输入到图5所示的精调网络层5w2的图片(即第一切割图片)。其中，这里的第一切割图片可以是计算机设备在视频帧5v中截取边界框最大边长的正方形，从而有效确保尺寸调整时不产生形变以及保留更多的角色关键部位的细节。
57.然后，该计算机设备可以通过精调网络层5w2，对第一切割图片进行精调处理，从而得到图5所示的第二切割图片。其中，该精调网络层5w2可以输出二分类one-hot对应的2个输出、边界框的坐标偏移量对应的4个输出以及转折点(landmark)对应的10个输出，进而可以根据二分类得分过滤掉大部分不包括角色关键部位(例如，角色面部)的候选，根据偏移量对边界框进行调整后，再次重复上述筛选网络层5w1中的过滤操作，以得到(num_left_after_rnet，16)个候选，这些候选需要根据调整后的边界框的位置信息对视频帧5v进行切割处理，从而可以得到图片尺寸为48*48，且用于输入到图5所示的输出网络层5w3的图片(即第二切割图片)。当然，该计算机设备得到第二切割图片的具体处理方式可以参见得到第一切割图片的具体处理方式，以避免形变并保留更多细节。
58.进一步地，该计算机设备可以通过输出网络层5w3，准确输出角色关键部位在视频帧5v中的位置信息，即边界框的坐标信息以及转折点的坐标信息。其中，该计算机设备在输出网络层5w3中，经过分类筛选、边界框调整后的nms筛选，不仅输出边界框的坐标信息，还输出了转折点的坐标信息，从而得到了角色关键部位在视频帧5v中的位置信息，以便后续在视频帧5v中切割该角色关键部位，从而得到包括该角色关键部位的图片(例如，图4所示的角色切割图片400t)。
59.进一步地，该计算机设备可以将角色切割图片400t输入至图4所示的图片编码模型420w，通过该图片编码模型420w，对角色切割图片400t进行图片编码处理，从而可以得到该角色切割图片400t对应的图片信息向量。其中，本技术实施例中的图片编码模型420w是一种基于残差网络(residual network，简称resnet)的模型，该系列网络可以广泛用于目标分类等领域以及作为计算机视觉任务主干经典神经网络的一部分，典型的网络有resnet50，resnet101等。例如，本技术实施例中的该图片编码模型420w可以为resnet50网络模型。如图4所示，该resnet50网络模型可以包括5个阶段，具体可以包括第一阶段(例如，stage 0)、第二阶段(例如，stage 1)、第三阶段(例如，stage 2)、第四阶段(例如，stage 3)以及第五阶段(例如，stage 4)。其中stage 0的结构比较简单，可以视其为对角色切割图片400t的预处理，后4个阶段均是由瓶颈层(bottleneck)组成，结构较为相似。其中，stage 1可以包含3个bottleneck，stage2可以包含4个bottleneck，stage 3可以包含6个bottleneck，以及stage 4可以包含3个bottleneck。可以理解的是，该计算机设备将角色切割图片400t输入至图片编码模型420w，通过该图片编码模型420w中的5个阶段，可以将角色切割图片400t转化为一个具有2048维度的图片信息向量，该图片信息向量可以用于表征角色关键部位(例如，人脸)的语义特征信息。
60.进一步地，该计算机设备可以获取图4所示的与候选对象相关联的信息向量数据库400k。其中，这里的信息向量数据库400k可以用于存储y个候选对象分别对应的对象关键信息向量；y为大于或者等于m的正整数。其中，这信息向量数据库400k中的每个对象关键信息向量可以为该计算机设备采用与角色切割图片400t相同的图片编码处理方式所提取到的，一个对象关键信息向量可以用于表征一个候选对象对应的关键部位标识(例如，人脸id)。此时，该计算机设备可以分别确定角色切割图片400t对应的图片信息向量与这y个对象关键信息向量中的每个对象关键信息向量之间的向量距离，从而可以得到y个向量距离，进一步地，为了有效确保该计算机设备能够从信息向量数据库400k中准确匹配到对应的候选对象，该计算机设备可以预先设置一个距离阈值，若计算机设备确定出的最小向量距离大于该距离阈值，则可以认为该计算机设备在信息向量数据库400k中未匹配到角色切割图片400t所对应的对象关键信息向量，即未匹配到该角色切割图片400t对应的业务对象。可选的，若计算机设备确定出的最小向量距离小于或者等于该距离阈值，则可以认为该计算机设备能够在信息向量数据库400k中匹配到角色切割图片400t所对应的对象关键信息向量，即可以成功匹配到该角色切割图片400t对应的业务对象。
61.因此，该计算机设备在从y个向量距离中获取小于或者等于距离阈值的最小向量距离时，可以确定最小向量距离对应的对象关键信息向量所对应的候选对象，进而可以将确定的候选对象作为角色切割图片400t对应的业务对象。其中，可以理解的是，计算机设备对多媒体数据中的每个视频帧进行图像识别时，均可以参见图5所示的对该视频帧5v进行关键部位识别的具体实施方式，以得到x个包含角色关键部位的角色关键图片，这里将不再继续进行赘述。其中，若一个视频帧中包括多个不同角色关键部位，则该计算机设备可以从该视频帧中切割出对应数量的角色关键部位。进一步地，该计算机设备可以参见图4所对应实施例中对角色切割图片400t对应进行对象匹配的具体实施方式，对x个角色切割图片中的每个角色切割图片均进行对象匹配，进而可以基于获取到的角色切割图片分别对应的业务对象，确定多媒体数据中的视频帧对应的图片特征信息。
62.步骤s102，确定多媒体数据中的n个对象音频帧分别对应的音频语义特征向量，对每个对象音频帧对应的音频语义特征向量进行聚类处理，得到m个音频聚类簇。
63.其中，n个对象音频帧是计算机设备对多媒体数据中的原始音频帧进行对象定位剥离处理后所得到的；这里的n为正整数，且一个音频聚类簇可以对应一个业务对象。具体地，该计算机设备可以从多媒体数据中获取原始音频帧，进而可以对原始音频帧进行对象定位剥离处理，以得到n个对象音频帧。进一步地，该计算机设备可以对n个对象音频帧中的每个对象音频帧进行语义特征提取，得到每个对象音频帧对应的音频语义特征向量。此时，该计算机设备可以将m确定为待聚类的簇心数量，基于簇心数量，对获取到的每个对象音频帧对应的音频语义特征向量进行聚类处理，从而可以得到m个音频聚类簇。
64.本技术实施例在聚类过程中，创新性的使用图片特征信息所指示的业务对象的对象数量m作为簇心数量的选择，这种使用图片特征信息作为先验知识，的方式，能够提醒系统在该多媒体数据中的业务对象的数量，从而能够给到音频聚类一个簇心数据的先验设定，能够自动的设置簇心数量，以至于提高了整个系统收敛的速度以及整体识别性能。
65.为便于理解，进一步地，请参见图6，图6是本技术实施例提供的一种音频语义特征聚类的架构示意图。如图6所示，本技术实施例中的架构示意图可以为上述图2所对应实施例中的第二模块对应的架构示意图；图6所示的原始音频帧可以为多媒体数据(例如，上述图2所对应实施例中的多媒体数据20s)中的原始音频帧；图6所示的信源分离模型630w可以用于对原始音频帧进行信源分离，该信源分离模型630w可以为上述图2所对应实施例中的信源分离模型230w；图6所示的音频语义特征提取模型640w可以用于对每个对象音频帧进行语义特征提取，该音频语义特征提取模型640w可以为上述图2所对应实施例中的音频语义特征提取模型240w。
66.如图6所示，本技术实施例中的架构示意图可以包括三个节点，分别是音频段落切割节点、音频语义特征提取节点以及聚类处理节点。其中，在计算机设备处于音频段落切割节点时，计算机设备可以从多媒体数据中获取原始音频帧，以对原始音频帧进行信源分离，从而得到针对业务对象的待处理音频帧。进一步地，该计算机设备可以基于用于剔除静音帧的音频边界检测策略，对待处理音频帧中的音频冲击信号帧进行定位切割，从而可以得到n个对象音频帧。其中，信源分离是指通过信号处理或者其他算法将掺杂着多种音频信号的混合音频信号进行分离，从混合信号中提取出指定种类的音频信号序列，最终生成单独的音频文件。例如，从原始音频帧中提取针对业务对象的待处理音频帧(即对象音段)。
67.可以理解的是，图6所示的计算机设备将原始音频帧输入到信源分离模型630w后，可以通过该信源分离模型630w，对原始音频帧进行信源分离，以得到图6所示的对象音段以及环境音段，由于对象音段中存在大量的静音段，且这些静音段会对后续聚类处理的音频聚类结果造成干扰，同时也会造成资源浪费，此时，该计算机设备可以将对象音段确定为针对业务对象的待处理音频帧，进而可以获取音频边界检测策略。例如，这里的音频边界检测策略可以为vad(voice activity detection)算法，这里的vad算法可以广泛应用于语音编码，降噪和asr场景中。这里所说的是语音/非语音(非语音/静音)检测，一个vad系统通常可以包括两个部分，特征提取和语音/非语音判决。进一步地，该计算机设备可以基于音频边界检测策略，对待处理音频帧中的音频冲击信号帧进行定位切割，即精准定位非静音段，从而可以得到图6所示的n个对象音频帧，n为正整数。
68.在计算机设备处于音频语义特征提取节点时，该计算机设备可以将这n个对象音频帧输入至图6所示的音频语义特征提取模型640w。例如，该音频语义特征提取模型640w可以为一种基于大型音频数据集与训练的音频神经网络(例如，panns网络)，其通常用来音频模式识别或者音频帧级别的embedding化，作为众多模型前端编码网络。进一步地，该计算机设备可以通过该音频语义特征提取模型640w，对n个对象音频帧中的每个对象音频帧进行语义特征提取，得到每个对象音频帧分别对应的音频语义特征向量。如图6所示，具体可以包括音频语义特征向量1、音频语义特征向量1、
…
、以及音频语义特征向量n。
69.进一步地，如图6所示，计算机设备在处于聚类处理节点时，可以将图片特征信息所指示的视频帧中的角色图片所属的业务对象的对象数量m作为先验信息，即将m确定为待聚类的簇心数量，进而可以基于该簇心数量，对获取到的每个对象音频帧对应的音频语义特征向量进行聚类处理，从而可以得到m个音频聚类簇。其中，本技术实施例中用于进行聚类处理的聚类策略可以为k均值聚类算法(k-means clustering algorithm，简称k-means聚类算法)，其中，该k均值聚类算法是一种迭代求解的聚类分析算法，比如，该计算机设备可以预先将n个音频语义特征向量分为m个初始聚类簇，进而可以随机选择m个音频语义特征向量作为每个初始聚类簇的初始的簇心，然后，针对音频语义特征向量集中除被选作簇心的m个音频语义特征向量之外的每个音频语义特征向量(即待归属向量)而言，该计算机设备可以确定每个待归属向量与各个初始聚类簇的簇心之间的向量距离，并将该待归属向量划分至具有最小向量距离的初始聚类簇中，此时，该计算机设备可以更新已划分的初始聚类簇的簇心，以此类推，该计算机设备可以确定出图6所示的m个音频聚类簇，这m个音频聚类簇具体可以包括音频聚类簇c1、音频聚类簇c2、
…
、以及音频聚类簇cm。
70.本技术实施例使用音频语义特征聚类的方法对n个音频语义特征向量的分类，而不是通过神经网络来训练声纹分类，从而摆脱对演员声纹id的依赖，能够避免有侵犯隐私的现象。同时本技术实施例可以直接使用的是多媒体数据中的对象音频帧，提取到每个对象音频帧对应的音频语义特征向量，这与业务对象的个人声纹id进行了深层次的解耦，从而与角色本身的声纹信息进行相关，以至于能够识别由专业配音演员配音的业务角色，也就是本技术实施例能够在该业务角色并非业务对象自己配音的情况下，仍然能够准确的识别出台词角色信息，从而提高了音频角色识别的准确度。此外，本技术实施例使用音频语义特征聚类的方法对n个音频语义特征向量的聚类，以进行音频角色识别的方式，造就了整个系统的可移植性，使得整个音频角色识别系统更具通用性，可适用不同多媒体数据中业务对象不同的场景，从而有效提高了识别的适用性。
71.其中，为便于理解，进一步地，请一并参见图7，图7是本技术实施例提供的一种信源分离模型的模型架构图。如图7所示，本技术实施例中的信源分离模型可以为上述图6所对应实施例中的信源分离模型630w。其中，该信源分离模型可以包括分割网络层7w1(即第一分割网络层，例如，vacal-unet)和分割网络层7w2(即第二分割网络层，例如，bgm-unet)。
72.其中，unet是使用全卷积网络进行语义分割的算法之一，使用包含压缩路径和扩展路径的对称u形结构在当时非常具有创新性，且一定程度上影响了后面若干个分割网络的设计。unet网络的典型特点是，它是u型对称结构，可以包含4个卷积层和对应的4个上采样层。所以在实现的时候，既可以从头实现网络并进行权重的初始化，然后进行模型的训练；也可以借用现有一些网络的卷积层结构和对应的已训练好的权重文件，再加上后面的
上采样层，进行训练计算等，由于在深度学习的模型训练中能够使用已有的权重模型文件，从而大大加快unet训练的速度。另一个特点是，unet网络的每个卷积层得到的特征图都会连接到对应的上采样层，从而实现对每层特征图都有效使用到后续计算中，即跳跃连接(skip-connection)，以有效解决梯度消散问题，有利于模型训练。这样，同其他的一些网络结构(例如，全卷积网络fcn)比较，unet避免了直接在高级特征图中进行监督和损失计算，而是结合了低级特征图中的特征，从而可以使得最终所得到的特征图中既包含了第一层级特征(即high-level的feature)，也包含很多的第二层级特征(即low-level的feature)，实现了不同等级下的特征融合，从而提高了模型的结果精确度。
73.应当理解，该计算机设备在将原始音频帧输入至信源分离模型时，可以通过图7所示的信源分离模型，生成原始音频帧对应的频谱幅度谱。比如，该计算机设备可以对原始音频帧的音轨进行频谱转换，得到该原始音频帧对应的音轨频谱，进而可以通过消除音轨频谱的相位，生成原始音频帧对应的频谱幅度谱。进一步地，该计算机设备可以将频谱幅度谱分别输入分割网络层7w1以及分割网络层7w2，以通过分割网络层7w1生成频谱幅度谱对应的第一类型特征(例如，对象音轨特征)，通过分割网络层7w2生成频谱幅度谱对应的第二类型特征(例如，环境音轨特征)。
74.进一步地，该计算机设备可以对第一类型特征和第二类型特征进行合并掩码处理，得到第一类型特征对应的目标掩码图(即第一掩码图)，进而可以基于目标掩码图与频谱幅度谱，生成目标类型音频帧(即对象音段中的音频帧)，将目标类型音频帧作为信源分离模型所输出的针对业务对象的待处理音频帧。比如，该计算机设备在生成图7所示的第一类型特征和第二类型特征时，可以对第一类型特征和第二类型特征进行拼接处理，得到拼接类型特征，进而对拼接类型特征分别进行两种类型的掩码计算，从而可以得到第一类型特征对应的第一掩码图，以及第二类型特征对应的第二掩码图。进一步地，该计算机设备可以对第一掩码图与原始音频帧对应的频谱幅度谱进行对应位置计算，然后经过频谱反变换，生成第一类型音频帧(即对象音段中的音频帧)。与此同时，该计算机设备还可以对第二掩码图与原始音频帧对应的频谱幅度谱进行对应位置计算，然后经过频谱反变换，生成第二类型音频帧(即环境音段中的音频帧)。
75.由此可见，该计算机设备可以通过图7所示的信源分离模型，从多媒体数据的原始音频帧中分离环境音段(例如，bgm音段)，以剔除环境音段对后续聚类的影响，从而提高聚类的准确度。
76.为便于理解，进一步地，请参见一并图8，图8是本技术实施例提供的一种音频语义特征提取模型的模型架构示意图。如图8所示，本技术实施例中的音频语义特征提取模型可以为上述图6所对应实施例中的音频语义特征提取模型640w。例如，图8所示的该音频语义特征提取模型可以为wavegram_logmel128_cnn14模型，该音频语义特征提取模型的最大特点是模型的输入使用的是音频的原音频采样点序列，也就是整个网络的输入是音频信号的n个对象音频帧。如图8所示，该音频语义特征提取模型可以包括时域分支网络层、频域分支网络层以及卷积网络层。
77.应当理解，该计算机设备可以将n个对象音频帧输入至图8所示的音频语义特征提取模型，进而可以通过时域分支网络层，对n个对象音频帧进行特征学习，得到时域学习特征。如图8所示，这里的时域分支网络层可以包括卷积层801w(例如，卷积尺寸为1，步长为5
的一维卷积层)、卷积层802w(例如，包括基础块的一维卷积层)、最大池化层803w(例如，步长为4的最大池化层)、卷积层804w(例如，包括基础块的一维卷积层)、最大池化层805w(例如，步长为4的最大池化层)、卷积层806w(例如，包括基础块的一维卷积层)、最大池化层807w(例如，步长为4的最大池化层)以及重塑层808w。该计算机设备可以通过这些大量的一维卷积层，在时域信号中能够直接学习到音频信号的时域特性，尤其是像音频响度和采样点幅度的信息。经过大量的一维卷积层后，得到一个用于表示时域学习特征的二维图谱wavegram，以为了能够让该时域支路与频域支路的输出进行相结合。
78.与此同时，该计算机设备还可以通过频域分支网络层，对n个对象音频帧进行特征学习，得到频域学习特征。其中，这里的频域学习特征与时域学习特征之间的特征维度相同。如图8所示，这里的频域分支网络层可以包括卷积层809w(例如，包括基础块的二维卷积层)，该计算机设备可以将n个对象音频帧输入至频域分支网络层，生成n个对象音频帧对应的频域频谱(例如，采用的是梅尔频率，生成log-mel频谱，)，进一步地，将该频域频谱输入到图8所示的卷积层809w，以通过该卷积层809w中的多个二维卷积层，得到与时域学习特征具有相同特征维度的频域学习特征。
79.进一步地，该计算机设备可以将频域学习特征与时域学习特征进行叠加处理，从而可以得到叠加学习特征，然后将叠加学习特征输入至卷积网络层，对叠加学习特征进行最大平均处理，输出每个对象音频帧对应的音频语义特征向量。如图8所示，这里的卷积网络层可以包括卷积层810w(例如，二维卷积层)以及激活层811w。其中，可以理解的是，该计算机设备可以将用于表示频域学习特征的特征图与用于表示时域学习特征的特征图进行拼接叠加处理，共同组成一组用于标识叠加学习特征的二维频域特征图。进一步地，该计算机设备可以将用于表示叠加学习特征的二维频域特征图输入到图8所示的卷积层810w中，然后分别对由卷积层810w输出的特征进行最大处理和平均处理，进而可以将最大处理后的特征确定为第一子特征，将平均处理后的特征确定为第二子特征。此时，该计算机设备可以将第一子特征以及第二子特征进行合并，再将合并后的特征输入至图8所示的激活层811w，最终生成具有2048维度的音频语义特征向量集，其中，该音频语义特征向量集可以包括n个对象音频帧中的每个对象音频帧分别对应的音频语义特征向量。
80.由此可见，该计算机设备可以通过图8所示的音频语义特征提取模型，能够快速对n个对象音频帧中的每个对象音频帧进行音频语义特征提取，以更加快速准确的得到每个对象音频帧分别对应的音频语义特征向量。
81.步骤s103，基于图片特征信息、m个音频聚类簇以及与多媒体数据相关联的对象角色映射表，识别p个音频聚类簇中的每个音频聚类簇分别对应的业务角色。
82.其中，p可以为小于或者等于m的正整数，对象角色映射表(例如，上述表1所示的对象角色映射表)可以包括与列表业务对象具有映射关系的业务角色，且该列表业务对象与m个业务对象之间存在p个重合的业务对象。具体地，该计算机设备可以从m个音频聚类簇中获取音频聚类簇ck，进而可以提取音频聚类簇ck在多媒体数据中的第一播放时间，这里的k为小于或者等于m的正整数。进一步地，该计算机设备可以从与多媒体数据相关联的对象角色映射表的列表业务对象中，获取与m个业务对象之间存在重合的p个业务对象，进而可以基于图片特征信息，提取p个业务对象中的每个业务对象在多媒体数据中的第二播放时间。此时，该计算机设备可以分别确定音频聚类簇ck的第一播放时间与每个第二播放时间之间
的时间重叠度，进而可以将具有最高时间重叠度的第二播放时间所对应的业务对象作为音频聚类簇ck对应的业务对象。进一步地，该计算机设备可以从对象角色映射表中，获取音频聚类簇ck对应的业务对象所对应的业务角色，将获取到的业务角色作为音频聚类簇ck对应的业务角色。
83.本技术实施例从音频角度出发，对多媒体数据中的角色进行识别，将每一句音频台词进行角色归类，能够在一些其他角色镜头和场景中无角色关键部位信息的情况下，补充准确的台词角色信息，从而提高了角色识别的精确度。
84.为便于理解，进一步地，请参见图9，图9是本技术实施例提供的一种进行音频角色识别的场景示意图。如图9所示，计算机设备在执行步骤s101后，通过第一模块识别的图像特征信息可以用于指示多媒体数据的视频帧中的角色图片所属的业务对象的对象数量m可以以3个为例，具体可以包括对象a、对象b以及对象c。该计算机设备在执行步骤s102后，通过第二模块聚类的音频处理结果可以包括3个音频聚类簇，具体可以包括图9所示的音频聚类簇c1、音频聚类簇c2以及音频聚类簇c3。
85.其中，本技术实施例中的n个对象音频帧可以包括图9所示的音段1、音段2、音段3、音段4、音段5以及音段6。其中，这6个音段中的每个音段均是按照播放时间所排列的。可以理解的是，音频聚类簇c1对应的对象音频帧可以包括音段1和音段3中的对象音频帧，音频聚类簇c2对应的对象音频帧可以包括音段2、音段4以及音段6中的对象音频帧，音频聚类簇c3对应的对象音频帧可以包括音段5中的对象音频帧。
86.可以理解的是，该计算机设备可以从上述表1所示的对象角色映射表的列表业务对象中，获取与该计算机设备在第一模块得到的m个业务对象之间存在重合的业务对象。比如，上述表1中的列表业务对象可以包括对象a、对象b、对象c以及对象d这4个业务对象，而本技术实施例中的计算机设备获取到的m个业务对象可以包括对象a、对象b以及对象c这3个业务对象，因此，该计算机设备可以从上述表1中，获取存在重合的业务对象的对象数量为3，即对象a、对象b和对象c。此时，该计算机设备可以基于图片特征信息，提取这3个存在重合的业务对象中的每个业务对象在多媒体数据中的播放时间(即第二播放时间)。
87.例如，对象a在多媒体数据中的第二播放时间为播放时间t1(例如，00:00-10:00)以及播放时间t3(例如，30:45-38:00)；对象b在多媒体数据中的第二播放时间为播放时间t2(例如，10:05-28:33)，播放时间t4(例如，40:05-55:39)以及播放时间t6(例如，100:03-113:57)；对象c在多媒体数据中的第二播放时间为播放时间t5(例如，80:30-88:50)。
88.应当理解，该计算机设备可以从这3个音频聚类簇中获取音频聚类簇c1，进而可以提取音频聚类簇c1在多媒体数据中的播放时间(即音频聚类簇c1的第一播放时间)。其中，该音频聚类簇c1在多媒体数据中的第一播放时间可以包括音段1对应的播放时间t1(例如，00:30-10:10)和音段3对应的播放时间t3(例如，35:08-40:52)。此时，该计算机设备可以分别确定音频聚类簇c1与每个业务对象对应的第二播放时间之间的时间重叠度。例如，音频聚类簇c1的第一播放时间与对象a的第二播放时间之间的时间重叠度为98%，与对象b的第二播放时间之间的时间重叠度为5%，与对象c的第二播放时间之间的时间重叠度为1%。然后，该计算机设备可以从这3个时间重叠度中确定具有最高时间重叠度的第二播放时间，即对象a的第二播放时间，进一步地，该计算机设备可以将对象a作为音频聚类簇c1对应的业务对象，且从上述表1中获取与对象a具有映射关系的业务角色(即角色1与角色2)作为该音频
聚类簇c1对应的业务角色。这意味着该计算机设备可以识别出音频聚类簇c1中的每句音频台词均是由角色1或角色2所说出的。
89.以此类推，该计算机设备可以参见音频聚类簇c1对应的业务角色的音频角色识别方式，确定音频聚类簇c2对应的业务角色可以为与对象b具有映射关系的角色3，音频聚类簇c3对应的业务角色可以为与对象c具有映射关系的角色4。
90.在本技术实施例中，具有音频角色识别功能的计算机设备可以通过结合从视频帧中自动识别出的图片特征信息以及自适应聚类的m个音频聚类簇，将声音与角色关联识别，从而可以准确识别出与对象角色映射表相关联的p个音频聚类簇分别对应的业务角色，这种音频角色识别方式无需人工标注每一句音频台词所归属的业务角色，不仅可以减少消耗的人力时间，还能够解决相似音色识别错误的情况，以至于提高了识别的精确度以及效率。此外，本技术实施例在音频角色识别过程中可以采用音频语义特征聚类的方法，使得整个音频角色识别系统更具通用性，可适用不同多媒体数据中业务对象不同的场景，从而有效提高了识别的适用性。
91.进一步地，请参见图10，图10是本技术实施例提供的一种数据处理方法的流程示意图二。该方法可以由具有音频角色识别功能的终端设备(例如，上述图1所示的终端设备集群中的任意一个终端设备，例如，终端设备100a)执行，也可以由具有音频角色识别功能的服务器(例如，上述图1所示的服务器10f)执行，还可以由具有多媒体数据播放功能的目标终端设备和具备音频角色识别功能的服务器交互执行，在此不做限定。该方法至少可以包括以下步骤s201-步骤s205：步骤s201，从多媒体数据的视频帧中获取图片特征信息。
92.步骤s202，确定多媒体数据中的n个对象音频帧分别对应的音频语义特征向量，对每个对象音频帧对应的音频语义特征向量进行聚类处理，得到m个音频聚类簇。
93.步骤s203，基于图片特征信息、m个音频聚类簇以及与多媒体数据相关联的对象角色映射表，识别p个音频聚类簇中的每个音频聚类簇分别对应的业务角色。
94.其中，该步骤s201-步骤s203的具体实施方式可参见上述图3所对应实施例中对步骤s101-步骤s103的描述，这里将不再赘述。
95.步骤s204，基于p个音频聚类簇分别在多媒体数据中的第一播放时间以及p个音频聚类簇分别对应的业务对象在多媒体数据中的第二播放时间，确定p个业务对象中的每个业务对象在多媒体数据中的业务播放时间。
96.具体地，该计算机设备可以从p个音频聚类簇中获取目标音频聚类簇，进而可以确定该目标音频聚类簇在多媒体数据中的第一播放时间，以及该目标音频聚类簇对应的业务对象在多媒体数据中的第二播放时间。进一步地，该计算机设备可以确定目标音频聚类簇的第一播放时间与第二播放时间的时间交集或时间并集，进而可以将确定出的时间交集或时间并集，作为该目标音频聚类簇对应的业务对象在多媒体数据中的业务播放时间，直到得到p个业务对象中的每个业务对象在多媒体数据中的业务播放时间。
97.可以理解的是，本技术实施例使用音频语义特征聚类方法来进行音频角色识别，能够弥补在一些视频帧画面中无角色面部信息或者对象信息，但有音频出现时无法识别角色的问题，能够自动的根据对象音频帧的语义特征来聚类出当前音频聚类簇对应的业务角色，从而填补上了使用图像识别进行角色识别上的缺陷，保障了整个多媒体数据中角色时
间定位信息的完整性。
98.如图9所示，音频聚类簇c1在多媒体数据中的第一播放时间可以包括音段1对应的播放时间t1(例如，00:30-10:10)和音段3对应的播放时间t3(例如，35:08-40:52)。音频聚类簇c1对应的业务对象(例如，对象a)在多媒体数据中的第二播放时间为播放时间t1(例如，00:00-10:00)以及播放时间t3(例如，30:45-38:00)。若该计算机设备采用时间交集的方式确定业务播放时间，则该计算机设备确定的对象a的业务播放时间可以为00:30-10:00以及35:08-38:00。可选的，若该计算机设备采用时间并集的方式确定业务播放时间，则该计算机设备确定的对象a的业务播放时间可以为00:00-10:10以及30:45-40:52。
99.步骤s205，基于p个业务对象中的每个业务对象对应的业务播放时间，从多媒体数据中获取p个业务对象分别对应的多媒体片段数据。
100.其中，这里的多媒体片段数据可以包括与对应业务对象相关联的音频帧以及与对应业务对象相关联的视频帧。
101.如图9所示，该计算机设备在获取到对象a的业务播放时间、对象b的业务播放时间以及对象c的业务播放时间时，可以分别获取这3个业务对象分别对象的多媒体片段数据。比如，该计算机设备可以从多媒体数据中获取与对象a的业务播放时间相匹配的多媒体片段数据(即包括与对象a相关联的视频帧以及与对象a相关联的音频帧)，以作为该对象a对应的多媒体片段数据(例如，多媒体片段数据1)。同理，该计算机设备可以获取与对象b的业务播放时间相匹配的多媒体片段数据(即包括与对象b相关联的视频帧以及与对象b相关联的音频帧)，作为该对象b对应的多媒体片段数据(例如，多媒体片段数据2)；获取与对象c的业务播放时间相匹配的多媒体片段数据(即包括与对象c相关联的视频帧以及与对象c相关联的音频帧)，作为该对象c对应的多媒体片段数据(例如，多媒体片段数据3)。
102.可以理解的是，本技术实施例所提供的这种全自动的基于音频语义特征聚类的方法来进行的音频角色识别的方案，能够自动的结合图片特征信息(例如，角色面部信息)来对多媒体数据中的业务角色进行识别，从而能够节省大量的人工标注成本以及时间成本，加速视频落地应用。其中，该计算机设备在获取到每个业务对象分别对应的多媒体片段数据时，可以将其应用在多媒体数据播放场景的“只看ta”这一用户特色服务中，能够针对多媒体数据中的业务对象(或业务角色)来进行分镜的筛选，从而在目标对象(即访问客户端的目标用户)触发这一用户特色服务时，自动跳过非用户选定的多媒体片段数据，使得计算机设备能够更加清楚的定位到用户喜欢的业务对象的多媒体片段数据，从而提升用户体验。
103.其中，可以理解的是，该计算机设备可以在业务播放显示界面中播放多媒体数据。其中，该业务播放显示界面可以包括用于触发对象视频数据选择功能的播放选择控件。进一步地，当目标对象针对播放选择控件执行触发操作时，该计算机设备可以响应该触发操作，显示对象播放列表。例如，这里的对象播放列表可以以浮窗形式或蒙层形式或半透明形式展现在业务播放显示界面的底部区域，也可以显示在能够通过拖拽操作改变显示尺寸且可收缩的界面，该界面的尺寸小于该业务播放显示界面。其中，这里的对象播放列表可以包括z个业务对象分别对应的对象封面数据；且z为小于或等于p的正整数。
104.当该目标对象可以针对z个对象封面数据中的目标对象封面数据执行触发操作时，该计算机设备可以响应该触发操作，在业务播放界面中播放目标多媒体片段数据；其
中，这里的目标多媒体片段数据可以为目标对象封面数据对应的业务对象所对应的多媒体片段数据；且该目标对象封面数据对应的业务对象属于p个业务对象。其中，这里的触发操作可以包括点击、长按等接触性操作，也可以包括语音、手势等非接触性操作，这里将不对其进行限定。
105.为便于理解，进一步地，请参见图11，图11是本技术实施例提供的一种显示多媒体片段数据的场景示意图。如图11所示，本技术实施例中的计算机设备可以为目标对象所使用的目标终端设备，该目标终端设备可以为上述图1所对应实施例中的终端设备集群中的任意一个终端设备，例如，终端设备100a。其中，图11所示的界面1101j以及界面1102j均为具有多媒体数据播放功能的客户端所提供的不同时刻下的业务播放显示界面。
106.应当理解，目标对象所使用的目标终端设备可以在界面1101j中显示多媒体数据，这里的多媒体数据可以为上述图2所对应实施例中的多媒体数据20s。其中，界面1101j中可以包括控件11u，该控件11u为用于触发对象视频数据选择功能的播放选择控件。
107.当目标对象针对控件11u执行触发操作(例如，点击操作)时，该目标终端设备可以响应该触发操作，显示图11所示的对象播放列表11b。其中，这里的对象播放列表11b可以包括z个业务对象分别对应的对象封面数据以及多媒体数据对应的封面数据(例如，“观看完整视频”)，以3个为例，具体可以包括对象a对应的对象封面数据1(例如，“只看对象a片段”)，对象b对应的对象封面数据2(例如，“只看对象b片段”)以及对象c对应的对象封面数据3(例如，“只看对象c片段”)。其中，这里的对象a、对象b以及对象c均属于目标终端设备所获取到的对多媒体数据进行音频角色识别后所得到的p个业务对象。
108.此时，目标对象可以针对z个对象封面数据中的目标对象封面数据(例如，对象a对应的对象封面数据1)执行触发操作，在目标终端设备响应该触发操作时，该目标终端设备可以在图11所示的界面1102j中播放对象封面数据1对应的对象a所对应的多媒体片段数据。如图11所示，该目标终端设备还可以在界面1102j所显示的多媒体数据对应的播放进度条中突出显示对象a对应的多媒体片段数据所对应的播放进度，以便目标对象可以更加快速且准确的找到自身所感兴趣的对象a对应的多媒体片段数据的下一片段，从而提升目标对象的用户体验。
109.需要说明的是，图11中所展示的界面以及控件仅仅是一些可供参考的表现形式，在实际业务场景中，开发人员可以根据产品需求来进行相关设计，本技术实施例对涉及到的界面和控件的具体形式不做限制。
110.可选的，进一步地，该计算机设备在获取到每个业务对象分别对应的多媒体片段数据时，还可以将其应用在合并剪辑的场景中，即通过对多媒体数据中的音频数据进行归类，分辨出每一句音频台词对应的业务角色，整理整个多媒体数据中每个业务角色对应的台词语音集合(即音频聚类簇)，以作为生产素材，提供给智能生产视频团队，作为剪辑的备选信息。比如，该计算机设备可以对同一业务对象在不同多媒体数据中的多个多媒体片段数据进行隔空混剪，又比如，对不同业务对象的分别对应的多媒体片段数据进行合并剪辑。
111.其中，可以理解的是，这里的多媒体数据可以包括第一多媒体数据和第二多媒体数据；且该第一多媒体数据与第二多媒体数据均包括待剪辑对象；这里的待剪辑对象属于计算机设备进行音频角色识别出所得到的p个业务对象。比如，这里的第一多媒体数据可以为待剪辑对象所参演的战争题材的电视剧，这里的第二多媒体数据可以为待剪辑对象所参
演的仙侠题材的电视剧。
112.该计算机设备可以基于与第一多媒体数据相关联的对象角色映射表，获取待剪辑对象对应的第一目标业务角色，进而可以从第一多媒体数据中获取与第一目标业务角色相关联的第一多媒体片段数据。其中，这里的第一多媒体片段数据是该计算机设备基于待剪辑对象在第一多媒体数据中的业务播放时间所确定的。同理，该计算机设备还可以基于与第二多媒体数据相关联的对象角色映射表，获取待剪辑对象对应的第二目标业务角色，从第二多媒体数据中获取与第二目标业务角色相关联的第二多媒体片段数据。其中，这里的第二多媒体片段数据可以是计算机设备基于待剪辑对象在第二多媒体数据中的业务播放时间所确定的。此时，该计算机设备可以对第一多媒体片段数据和第二多媒体片段数据进行合并剪辑处理，得到待剪辑对象对应的合并剪辑数据，这里的合并剪辑数据可以用于上传至客户端所在的业务数据平台，以使访问该客户端的对象能够在对应终端设备上进行查阅。
113.在本技术实施例中，具有音频角色识别功能的计算机设备可以通过结合从视频帧中自动识别出的图片特征信息以及自适应聚类的m个音频聚类簇，将声音与角色关联识别，从而可以准确识别出与对象角色映射表相关联的p个音频聚类簇分别对应的业务角色，这种音频角色识别方式无需人工标注每一句音频台词所归属的业务角色，而是能够在多媒体数据上架前自动化的将业务角色与音频台词信息进行识别写入，从而能够快速为下游业务(例如，用户特色服务业务、合并剪辑业务等)进行赋能。本技术实施例在音频角色识别过程中采用音频语义特征聚类的方法，不仅可以减少消耗的人力时间，还能够解决相似音色识别错误的情况，以至于提高了识别的精确度以及效率，与此同时使得整个音频角色识别系统更具通用性，可适用不同多媒体数据中业务对象不同的场景，从而有效提高了识别的适用性。
114.进一步地，请参见图12，图12是本技术实施例提供的一种数据处理装置的结构示意图一。如图12所示，该数据处理装置1可以包括：图片信息获取模块100，聚类处理模块200以及音频角色识别模块300。
115.该图片信息获取模块100，用于从多媒体数据的视频帧中获取图片特征信息；图片特征信息用于指示视频帧中的角色图片所属的m个业务对象；m为正整数；该聚类处理模块200，用于确定多媒体数据中的n个对象音频帧分别对应的音频语义特征向量，对每个对象音频帧对应的音频语义特征向量进行聚类处理，得到m个音频聚类簇；n个对象音频帧是对多媒体数据中的原始音频帧进行对象定位剥离处理后所得到的；n为正整数；一个音频聚类簇对应一个业务对象；该音频角色识别模块300，用于基于图片特征信息、m个音频聚类簇以及与多媒体数据相关联的对象角色映射表，识别p个音频聚类簇中的每个音频聚类簇分别对应的业务角色；p为小于或者等于m的正整数；对象角色映射表包括与列表业务对象具有映射关系的业务角色；列表业务对象与m个业务对象之间存在p个重合的业务对象。
116.其中，该图片信息获取模块100，聚类处理模块200以及音频角色识别模块300的具体实现方式可以参见上述图3所对应实施例中对步骤s101-步骤s103的描述，这里将不再继续进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。
117.进一步地，请参见图13，图13是本技术实施例提供的一种数据处理装置的结构示
意图二。如图13所示，该数据处理装置2可以包括：图片信息获取模块11，聚类处理模块12，音频角色识别模块13，业务时间确定模块14，片段数据确定模块15，多媒体数据播放模块16，对象列表显示模块17，片段数据播放模块18，第一片段数据获取模块19，第二片段数据获取模块20以及合并剪辑模块21。
118.该图片信息获取模块11，用于从多媒体数据的视频帧中获取图片特征信息；图片特征信息用于指示视频帧中的角色图片所属的m个业务对象；m为正整数。
119.其中，图片信息获取模块11包括：视频帧获取单元111，图片切割单元112，图片编码单元113，向量匹配单元114以及图片信息获取单元115。
120.该视频帧获取单元111，用于从多媒体数据中获取视频帧；该图片切割单元112，用于对视频帧中的角色关键部位进行图片切割处理，得到视频帧对应的角色图片；角色图片包括x个角色切割图片；x为大于或者等于m的正整数。
121.其中，该图片切割单元112包括：位置确定子单元1121以及切割子单元1122。
122.该位置确定子单元1121，用于对视频帧中的角色关键部位进行检测定位，确定角色关键部位在视频帧中的位置信息；该切割子单元1122，用于基于位置信息，在视频帧中切割角色关键部位，得到x个包含角色关键部位的角色切割图片，将x个角色切割图片作为视频帧对应的角色图片。
123.其中，该位置确定子单元1121以及切割子单元1122的具体实现方式可以参见上述图5所对应实施例中对角色切割图片的描述，这里将不再继续进行赘述。
124.该图片编码单元113，用于获取x个角色切割图片中的角色切割图片ti，对角色切割图片ti进行图片编码处理，得到角色切割图片ti对应的图片信息向量li；i为小于或者等于x的正整数；该向量匹配单元114，用于从与候选对象相关联的信息向量数据库中，确定与图片信息向量li相匹配的对象关键信息向量，将匹配到的对象关键信息向量对应的候选对象作为角色切割图片ti对应的业务对象。
125.其中，该向量匹配单元114包括：数据库获取子单元1141，向量距离确定子单元1142以及对象匹配子单元1143。
126.该数据库获取子单元1141，用于获取与候选对象相关联的信息向量数据库；信息向量数据库用于存储y个候选对象分别对应的对象关键信息向量；y为大于或者等于m的正整数；该向量距离确定子单元1142，用于分别确定图片信息向量li与y个对象关键信息向量中的每个对象关键信息向量之间的向量距离，得到y个向量距离；该对象匹配子单元1143，用于从y个向量距离中获取小于或者等于距离阈值的最小向量距离，确定最小向量距离对应的对象关键信息向量所对应的候选对象，将确定的候选对象作为角色切割图片ti对应的业务对象。
127.其中，该数据库获取子单元1141，向量距离确定子单元1142以及对象匹配子单元1143的具体实现方式可以参见上述图4所对应实施例中对角色切割图片进行对象匹配的描述，这里将不再继续进行赘述。
128.该图片信息获取单元115，用于基于获取到的角色切割图片分别对应的业务对象，确定视频帧对应的图片特征信息。
129.其中，该视频帧获取单元111，图片切割单元112，图片编码单元113，向量匹配单元114以及图片信息获取单元115的具体实现方式可以参见上述图3所对应实施例中对步骤s101的描述，这里将不再继续进行赘述。
130.该聚类处理模块12，用于确定多媒体数据中的n个对象音频帧分别对应的音频语义特征向量，对每个对象音频帧对应的音频语义特征向量进行聚类处理，得到m个音频聚类簇；n个对象音频帧是对多媒体数据中的原始音频帧进行对象定位剥离处理后所得到的；n为正整数；一个音频聚类簇对应一个业务对象。
131.其中，该聚类处理模块12包括：对象音频帧确定单元121，语义特征提取单元122以及聚类处理单元123。
132.该对象音频帧确定单元121，用于从多媒体数据中获取原始音频帧，对原始音频帧进行对象定位剥离处理，得到n个对象音频帧。
133.其中，该对象音频帧确定单元121包括：原始音频帧获取子单元1211，信源分离子单元1212以及对象音频帧确定子单元1213。
134.该原始音频帧获取子单元1211，用于从多媒体数据中获取原始音频帧；该信源分离子单元1212，用于对原始音频帧进行信源分离，得到针对业务对象的待处理音频帧。
135.其中，信源分离子单元1212包括：幅度谱生成子单元12121，类型特征生成子单元12122，合并掩码子单元12123以及待处理音频帧确定子单元12124。
136.该幅度谱生成子单元12121，用于将原始音频帧输入至信源分离模型，通过信源分离模型生成原始音频帧对应的频谱幅度谱；信源分离模型包括第一分割网络层和第二分割网络层；该类型特征生成子单元12122，用于将频谱幅度谱分别输入第一分割网络层以及第二分割网络层，通过第一分割网络层生成频谱幅度谱对应的第一类型特征，通过第二分割网络层生成频谱幅度谱对应的第二类型特征；该合并掩码子单元12123，用于对第一类型特征和第二类型特征进行合并掩码处理，得到第一类型特征对应的目标掩码图；该待处理音频帧确定子单元12124，用于基于目标掩码图与频谱幅度谱，生成目标类型音频帧，将目标类型音频帧作为信源分离模型所输出的针对业务对象的待处理音频帧。
137.其中，该幅度谱生成子单元12121，类型特征生成子单元12122，合并掩码子单元12123以及待处理音频帧确定子单元12124的具体实现方式可以参见上述图7所对应实施例中对待处理音频帧的描述，这里将不再继续进行赘述。
138.该对象音频帧确定子单元1213，用于基于用于剔除静音帧的音频边界检测策略，对待处理音频帧中的音频冲击信号帧进行定位切割，得到n个对象音频帧。
139.其中，该原始音频帧获取子单元1211，信源分离子单元1212以及对象音频帧确定子单元1213的具体实现方式可以参见上述图3所对应实施例中对原始音频帧进行对象定位剥离处理的描述，这里将不再继续进行赘述。
140.该语义特征提取单元122，用于对n个对象音频帧中的每个对象音频帧进行语义特征提取，得到每个对象音频帧对应的音频语义特征向量。
141.其中，该语义特征提取单元122包括：音频帧输入子单元1221，频域特征确定子单元1222，时域特征确定子单元1223以及音频特征向量确定子单元1224。
142.该音频帧输入子单元1221，用于将n个对象音频帧输入至音频语义特征提取模型；音频语义特征提取模型包括频域分支网络层、时域分支网络层以及卷积网络层；该频域特征确定子单元1222，用于通过频域分支网络层，对n个对象音频帧进行特征学习，得到频域学习特征；该时域特征确定子单元1223，用于通过时域分支网络层，对n个对象音频帧进行特征学习，得到时域学习特征；频域学习特征与时域学习特征之间的特征维度相同；该音频特征向量确定子单元1224，用于将频域学习特征与时域学习特征进行叠加处理，得到叠加学习特征，将叠加学习特征输入至卷积网络层，对叠加学习特征进行最大平均处理，输出每个对象音频帧对应的音频语义特征向量。
143.其中，该音频帧输入子单元1221，频域特征确定子单元1222，时域特征确定子单元1223以及音频特征向量确定子单元1224的具体实现方式可以参见上述图8所对应实施例中对对象音频帧进行语义特征提取的描述，这里将不再继续进行赘述。
144.该聚类处理单元123，用于将m确定为待聚类的簇心数量，基于簇心数量，对获取到的每个对象音频帧对应的音频语义特征向量进行聚类处理，得到m个音频聚类簇。
145.其中，该对象音频帧确定单元121，语义特征提取单元122以及聚类处理单元123的具体实现方式可以参见上述图3所对应实施例中对步骤s102的描述，这里将不再继续进行赘述。
146.该音频角色识别模块13，用于基于图片特征信息、m个音频聚类簇以及与多媒体数据相关联的对象角色映射表，识别p个音频聚类簇中的每个音频聚类簇分别对应的业务角色；p为小于或者等于m的正整数；对象角色映射表包括与列表业务对象具有映射关系的业务角色；列表业务对象与m个业务对象之间存在p个重合的业务对象。
147.其中，该音频角色识别模块13包括：第一时间提取单元131，第二时间提取单元132，时间重叠度确定单元133以及音频角色识别单元134。
148.该第一时间提取单元131，用于从m个音频聚类簇中获取音频聚类簇ck，提取音频聚类簇ck在多媒体数据中的第一播放时间；k为小于或者等于m的正整数；该第二时间提取单元132，用于从与多媒体数据相关联的对象角色映射表的列表业务对象中，获取与m个业务对象之间存在重合的p个业务对象，基于图片特征信息，提取p个业务对象中的每个业务对象在多媒体数据中的第二播放时间；该时间重叠度确定单元133，用于分别确定音频聚类簇ck的第一播放时间与每个业务对象对应的第二播放时间之间的时间重叠度，将具有最高时间重叠度的第二播放时间所对应的业务对象作为音频聚类簇ck对应的业务对象；该音频角色识别单元134，用于从对象角色映射表中，获取音频聚类簇ck对应的业务对象所对应的业务角色，将获取到的业务角色作为音频聚类簇ck对应的业务角色。
149.其中，该第一时间提取单元131，第二时间提取单元132，时间重叠度确定单元133以及音频角色识别单元134的具体实现方式可以参见上述图3所对应实施例中对步骤s103的描述，这里将不再继续进行赘述。
150.该业务时间确定模块14，用于基于p个音频聚类簇分别在多媒体数据中的第一播
放时间以及p个音频聚类簇分别对应的业务对象在多媒体数据中的第二播放时间，确定p个业务对象中的每个业务对象在多媒体数据中的业务播放时间；该片段数据确定模块15，用于基于每个业务对象对应的业务播放时间，从多媒体数据中获取p个业务对象分别对应的多媒体片段数据；多媒体片段数据包括与对应业务对象相关联的音频帧以及与对应业务对象相关联的视频帧。
151.该多媒体数据播放模块16，用于在业务播放显示界面中播放多媒体数据；业务播放显示界面包括用于触发对象视频数据选择功能的播放选择控件；该对象列表显示模块17，用于响应针对播放选择控件的触发操作，显示对象播放列表；对象播放列表包括z个业务对象分别对应的对象封面数据；z为小于或等于p的正整数；该片段数据播放模块18，用于响应针对z个对象封面数据中的目标对象封面数据的触发操作，在业务播放界面中播放目标多媒体片段数据；目标多媒体片段数据为目标对象封面数据对应的业务对象所对应的多媒体片段数据；目标对象封面数据对应的业务对象属于p个业务对象。
152.其中，多媒体数据包括第一多媒体数据和第二多媒体数据；第一多媒体数据与第二多媒体数据均包括待剪辑对象；待剪辑对象属于p个业务对象；该第一片段数据获取模块19，用于基于与第一多媒体数据相关联的对象角色映射表，获取待剪辑对象对应的第一目标业务角色，从第一多媒体数据中获取与第一目标业务角色相关联的第一多媒体片段数据；第一多媒体片段数据是基于待剪辑对象在第一多媒体数据中的业务播放时间所确定的；该第二片段数据获取模块20，用于基于与第二多媒体数据相关联的对象角色映射表，获取待剪辑对象对应的第二目标业务角色，从第二多媒体数据中获取与第二目标业务角色相关联的第二多媒体片段数据；第二多媒体片段数据是基于待剪辑对象在第二多媒体数据中的业务播放时间所确定的；该合并剪辑模块21，用于对第一多媒体片段数据和第二多媒体片段数据进行合并剪辑处理，得到待剪辑对象对应的合并剪辑数据。
153.其中，该图片信息获取模块11，聚类处理模块12，音频角色识别模块13，业务时间确定模块14，片段数据确定模块15，多媒体数据播放模块16，对象列表显示模块17，片段数据播放模块18，第一片段数据获取模块19，第二片段数据获取模块20以及合并剪辑模块21的具体实现方式可以参见上述图10所对应实施例中对步骤s201-步骤s205的描述，这里将不再继续进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。
154.进一步地，请参见图14，图14是本技术实施例提供的一种计算机设备的示意图。如图14所示，该计算机设备1000可以为具有音频角色识别功能的计算机设备，该计算机设备1000可以包括：至少一个处理器1001，例如，cpu，至少一个网络接口1004，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。网络接口1004可选地可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图14所示，作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以
及设备控制应用程序。其中，在一些实施例中，该计算机设备还可以包括图14所示的用户接口1003，比如，若该计算机设备为图1所示的具有音频角色识别功能的终端设备(例如，终端设备100a)，则该计算机设备还可以包括该用户接口1003，其中，该用户接口1003可以包括显示屏(display)、键盘(keyboard)等。
155.在图14所示的计算机设备1000中，网络接口1004主要用于进行网络通信；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：从多媒体数据的视频帧中获取图片特征信息；图片特征信息用于指示视频帧中的角色图片所属的m个业务对象；m为正整数；确定多媒体数据中的n个对象音频帧分别对应的音频语义特征向量，对每个对象音频帧对应的音频语义特征向量进行聚类处理，得到m个音频聚类簇；n个对象音频帧是对多媒体数据中的原始音频帧进行对象定位剥离处理后所得到的；n为正整数；一个音频聚类簇对应一个业务对象；基于图片特征信息、m个音频聚类簇以及与多媒体数据相关联的对象角色映射表，识别p个音频聚类簇中的每个音频聚类簇分别对应的业务角色；p为小于或者等于m的正整数；对象角色映射表包括与列表业务对象具有映射关系的业务角色；列表业务对象与m个业务对象之间存在p个重合的业务对象。
156.应当理解，本技术实施例中所描述的计算机设备1000可执行前文图3和图10所对应实施例中对该数据处理方法的描述，也可执行前文图12所对应实施例中对该数据处理装置1和图13所对应实施例中对该数据处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。
157.本技术实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图3和图10中各个步骤所提供的数据处理方法，具体可参见图3以及图10各个步骤所提供的实现方式，在此不再赘述。
158.计算机可读存储介质可以是前述任一实施例提供的数据传输装置或者计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital， sd)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
159.本技术一方面提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备可执行前文图3或者图10所对应实施例中对数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。
160.本技术实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖
不排他的包括。例如包括了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
161.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
162.以上所揭露的仅为本技术较佳实施例而已，当然不能以此来限定本技术之权利范围，因此依本技术权利要求所作的等同变化，仍属本技术所涵盖的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯鑫
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。