基于人工智能的多媒体资源检测方法、装置、设备及介质与流程

文档序号：20780813发布日期：2020-05-19 21:13阅读：186来源：国知局

本申请涉及人工智能技术领域，特别涉及一种基于人工智能的多媒体资源检测方法、装置、设备及介质。

背景技术：

随着互联网技术的发展，用户可以通过互联网浏览多媒体资源，如图片、视频等。然而，目前存在不法分子利用互联网传播包含限制性内容的多媒体资源的现象，如包含不良内容的图片或者视频等。由于传播包含限制性内容的多媒体资源属于违法行为，严重扰乱了互联网秩序，污染了互联网环境。因此，需要对用户上传的多媒体资源进行检测，防止包含限制性内容的多媒体资源的传播。

相关技术中，对多媒体资源检测的方式通常是将用户上传的多媒体资源，如图片或者视频帧图像等，输入检测模型中，根据该检测模型的输出结果来确定该多媒体资源是否含有限制性内容。

上述技术方案中，检测模型在对图片或者视频帧图像进行检测时，会受到图片或者视频帧图像背景的干扰，使得检测模型对图片或者视频帧图像的识别效果较差，导致对多媒体资源检测的准确率低。

技术实现要素：

本申请实施例提供了一种基于人工智能的多媒体资源检测方法、装置、设备及介质，在对多媒体资源进行检测时用人体图像取代了整个图像，使得检测结果不会受到多媒体资源的背景的影响，从而对限制性内容的识别效果较高，进一步的对多媒体资源检测的准确率也较高。所述技术方案如下：

一方面，提供了一种基于人工智能的多媒体资源检测方法，所述方法包括：

从目标多媒体资源中获取至少一个待检测图像；

对于任一待检测图像，获取所述待检测图像对应的至少一个目标子图像，所述目标子图像由所述待检测图像缩放到不同分辨率得到；

基于卷积神经网络对所述待检测图像和所述至少一个目标子图像进行处理，得到至少一个目标人脸框，所述目标人脸框用于指示人脸在所述待检测图像中的位置；

基于所述至少一个目标人脸框确定至少一个目标人体框，所述目标人体框用于指示人体在所述待检测图像中的位置；

调用检测模型对所述至少一个目标人体框所指示的至少一个人体图像进行处理，以得到所述至少一个人体图像的至少一个预测概率，其中，一个预测概率用于表征一个人体图像属于限制性内容的概率；

基于所述至少一个预测概率，确定所述目标多媒体资源是否包括限制性内容。

另一方面，提供了一种基于人工智能的多媒体资源检测装置，所述装置包括：

图像获取模块，用于从目标多媒体资源中获取至少一个待检测图像；

所述图像获取模块，还用于对于任一待检测图像，获取所述待检测图像对应的至少一个目标子图像，所述目标子图像由所述待检测图像缩放到不同分辨率得到；

人脸框获取模块，用于基于卷积神经网络对所述待检测图像和所述至少一个目标子图像进行处理，得到至少一个目标人脸框，所述目标人脸框用于指示人脸在所述待检测图像中的位置；

确定模块，用于基于所述至少一个目标人脸框确定至少一个目标人体框，所述目标人体框用于指示人体在所述待检测图像中的位置；

概率获取模块，用于调用检测模型对所述至少一个目标人体框所指示的至少一个人体图像进行处理，以得到所述至少一个人体图像的至少一个预测概率，其中，一个预测概率用于表征一个人体图像属于限制性内容的概率；

所述确定模块，还用于基于所述至少一个预测概率，确定所述目标多媒体资源是否包括限制性内容。

在一种可选的实现方式中，所述人脸框获取模块，还用于基于第一卷积神经网络对所述待检测图像和所述至少一个目标子图像分别进行处理，得到至少一个第一人脸框；根据所述至少一个第一人脸框得到至少一个目标人脸图像；基于第二卷积神经网络对所述待检测图像和所述至少一个目标人脸图像进行处理，得到至少一个目标人脸框。

在一种可选的实现方式中，所述人脸框获取模块，还用于对于所述待检测图像和所述至少一个目标子图像中的任一待处理图像，基于所述第一卷积神经网络将所述待处理图像划分为至少两个图像块；对于任一图像块，响应于所述图像块被检测为人脸的概率大于第一概率，对所述图像块进行边框回归校准，得到第二人脸框，所述边框回归校准用于将所述图像块的边框基于压缩比例转换为在所述待检测图像中的人脸框；响应于得到的第二人脸框的数量大于一，对至少两个第二人脸框进行去重，得到至少一个第一人脸框。

在一种可选的实现方式中，所述人脸框获取模块，还用于根据所述图像块所在的待处理图像的压缩比例和所述图像块的边框信息确定边框回归向量；根据所述边框回归向量将所述图像块的边框信息转换为在所述待检测图像中的人脸框信息；根据所述人脸框信息确定第二人脸框。

在一种可选的实现方式中，所述人脸框获取模块，还用于将所述至少两个第二人脸框存入第一候选池，所述第一候选池中的第二人脸框按照对应的图像块被检测为人脸的概率进行降序排列；响应于所述第一候选池不为空，重复执行以下步骤：取出所述第一候选池中当前排在首位的第二人脸框作为第一人脸框；从所述第一候选池中删除与所述第一人脸框的重叠度大于第一重叠度阈值的第二人脸框。

在一种可选的实现方式中，所述人脸框获取模块，还用于对于任一目标人脸图像，基于所述第二卷积神经网络将所述目标人脸图像的尺寸调整到第一尺寸；响应于调整后的目标人脸图像被检测为人脸的概率大于第二概率，对所述调整后的目标人脸图像进行边框回归校准，得到第三人脸框，所述边框回归校准用于将所述调整后的目标人脸图像的边框转换为在所述待检测图像中的人脸框；响应于得到的第三人脸框的数量大于一，对至少两个第三人脸框进行去重，得到至少一个目标人脸框。

在一种可选的实现方式中，所述人脸框获取模块，还用于将所述至少两个第三人脸框存入第二候选池，所述第二候选池中的第三人脸框按照对应的目标人脸图像被检测为人脸的概率进行降序排列；响应于所述第二候选池不为空，重复执行以下步骤：取出所述第二候选池中当前排在首位的第三人脸框作为目标人脸框；从所述第二候选池中删除与所述目标人脸框的重叠度大于第二重叠度阈值的第三人脸框。

在一种可选的实现方式中，所述确定模块，还用于对于任一目标人脸框，根据目标比例确定对应的目标人体框，所述目标比例用于指示人脸大小和人体大小的比例。

在一种可选的实现方式中，所述装置还包括：

尺寸调整模块，用于对于任一人体图像，将所述人体图像的尺寸调整为第二尺寸；

归一化模块，用于对调整后的人体图像的像素值进行归一化处理。

在一种可选的实现方式中，所述装置还包括：模型训练模块，用于对获取到的多个样本图像进行人脸检测，得到多个样本人脸框；根据多个样本人脸确定多个样本人体框；

根据所述多个样本人体框提取多个样本人体图像；将所述多个样本人体图像的尺寸调整为第二尺寸，对调整后的样本人体图像的像素值进行归一化处理；调用待训练模型对所述多个样本人体图像进行处理，基于所述待训练模型输出的多个预测概率进行参数调整；响应于所述待训练模型达到训练完成条件，将训练得到的模型作为所述检测模型。

在一种可选的实现方式中，所述模型训练模块，还用于从所述待训练模型包括的多个卷积网络层中获取第一卷积特征和第二卷积特征，所述第一卷积特征和第二卷积特征为不同卷积网络层输出的卷积特征；根据所述第一卷积特征确定第一样本预测概率，根据第二卷积特征确定第二样本预测概率，所述第一样本预测概率和所述第二样本预测概率均用于表示预测样本人体图像属于限制性内容的概率；根据所述第一样本预测概率和所述第二样本预测概率进行参数调整。

在一种可选的实现方式中，所述模型训练模块，还用于根据样本人体图像对应的图像标签和损失函数，分别确定所述第一样本预测概率对应的第一损失值和第二样本预测概率对应的第二损失值，所述图像标签用于指示所述样本人体图像是否为限制性内容；根据所述第一损失值和所述第二损失值叠加后得到的最终损失值进行参数调整。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段程序代码，所述至少一段程序代码由所述处理器加载并执行以实现本申请实施例中的基于人工智能的多媒体资源检测方法中所执行的操作。

另一方面，提供了一种存储介质，所述存储介质中存储有至少一段程序代码，所述至少一段程序代码用于执行本申请实施例中的基于人工智能的多媒体资源检测方法。

本申请实施例提供的技术方案带来的有益效果是：

在本申请实施例中，通过基于卷积神经网络对待检测图像以及缩放到不同分辨率的待检测图像进行处理，来确定人脸在待检测图像中的位置，然后基于人脸的位置确定人体的位置，再调用检测模型对人体图像进行处理，预测人体图像为限制性内容的概率。由于在对多媒体资源进行检测时用人体图像取代了整个图像，使得检测结果不会受到图像背景的影响，从而对限制性内容的识别效果较高，进一步的对多媒体资源检测的准确率也较高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的基于人工智能的多媒体资源检测系统的结构框图；

图2是根据本申请实施例提供的一种基于人工智能的多媒体资源检测方法流程图；

图3是根据本申请实施例提供的一种基于人工智能的多媒体资源检测方法流程图；

图4是根据本公开实施例提供的一种构建图像金字塔的示意图；

图5是根据本申请实施例提供的一种获取初始人脸框的示意图；

图6是根据本申请实施例提供的一种获取初始人脸框的流程图；

图7是根据本申请实施例提供的一种第一卷积神经网络的结构示意图；

图8是根据本申请实施例提供的一种获取目标人脸框的流程图；

图9是根据本申请实施例提供的另一种获取目标人脸框的流程图；

图10是根据本申请实施例提供的一种人脸框和人体框的示意图；

图11是根据本申请实施例提供的一种训练检测模型的流程图；

图12是根据本申请实施例提供的一种基于人工智能的多媒体资源检测装置的框图；

图13是根据本申请实施例提供的一种终端的结构框图；

图14是根据本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

下面简单介绍一下本申请实施例可能用到的技术：

人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

计算机视觉技术(computervision,cv)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(machinelearning,ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例提供了一种基于人工智能的多媒体资源检测方法，该方法可以应用于对用户上传的多媒体资源进行检测的场景。例如，该多媒体资源可以为视频资源或者图片资源等，在用户上传图片以发送给好友或者在社交平台进行展示时，可以对该图片进行检测，确定该图片是否包括限制性内容，如果包括限制性内容则禁止该图片上传，如果不包括限制性内容则允许该图片上传，从而起到维护互联网秩序，净化互联网环境的作用。

下面介绍一下基于人工智能的多媒体资源检测方法的实施环境，图1是根据本申请实施例提供的基于人工智能的多媒体资源检测系统100的结构框图。该基于人工智能的多媒体资源检测系统100可以包括：终端110和服务器120。

终端110以及服务器120可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端110可以安装和运行有支持多媒体资源上传的应用程序。该应用程序可以是视频类应用程序、社交类应用程序等。示意性的，终端110是用户使用的终端，终端110中运行的应用程序内登录有用户账户。

服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器120用于为支持多媒体资源上传的应用程序提供后台服务。可选地，服务器120承担主要检测工作，终端110承担次要检测工作；或者，服务器120承担次要检测工作，终端110承担主要检测工作；或者，服务器120或终端110分别可以单独承担检测工作。

可选地，服务器120可以由接入服务器、检测服务器和数据库服务器构成。接入服务器用于提供终端110提供接入服务。检测服务器用于提供多媒体资源的检测服务。检测服务器可以是一台或多台。当检测服务器是多台时，存在至少两台检测服务器用于提供不同的服务，和/或，存在至少两台检测服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。检测服务器中可以设置有检测模型。

终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述基于人工智能的多媒体资源检测系统还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

在一种可选的实现方式中，本申请实施例提供的基于人工智能的多媒体资源检测方法，可以由终端在上传图片时触发，下面以一个上传图片的场景为例对应用场景进行介绍：

终端可以在社交应用程序界面上显示图片的分享选项，当用户想要将该图片分享给好友时，可以点击该分享选项，以触发终端向服务器发送分享请求，服务器接收到该分享请求后，会响应于该分享请求，与终端建立数据传输通道，接收终端上传的图片，然后执行本申请实施例提供的基于人工智能的多媒体资源检测步骤，以确定该图片是否包括限制性内容。若该图片包括限制性内容，则可以向终端返回分享失败的提示信息，进而达到不允许用户分享该图片的效果；若该图片不包括限制性内容，则服务器可以向该用户的好友用户的终端发送该图片，以达到用户分享该图片的效果。

在一种可选的实现方式中，本申请实施例提供的基于人工智能的多媒体资源检测的过程可以由服务器定期进行，下面以一个服务器定期检测数据库中存储的多媒体资源为例对该应用场景进行介绍：

服务器可以定期对服务器数据库中存储的多媒体资源执行本申请实施例提供的基于人工智能的多媒体资源检测步骤，以确定数据库中存储的多媒体资源是否包括限制性内容。该数据库中存储的多媒体资源可以是服务器已发布的可以被互联网用户浏览的多媒体资源。服务器可以记录包括限制性内容的多媒体资源的资源标识，以便在任一用户请求目标多媒体资源时，根据该目标多媒体资源的资源标识来判断该目标多媒体资源是否包括限制性内容，进而可以向终端返回该目标多媒体资源或者返回拒绝响应。当然，服务器还可以直接从数据库中删除包括限制性内容的多媒体资源，以使用户无法通过终端请求获取包括限制性内容的多媒体资源。可选的，服务器还可以在终端请求包括限制性内容的多媒体资源时，获取该终端登录的用户账户的年龄参数，根据该年龄参数来确定是否可以向该终端返回该包括限制性内容的多媒体资源。

在本申请实施例中，可以由计算机设备来实施本申请实施例提供的技术方案，该计算机设备可以被配置为服务器，也可以被配置为终端。当然还可以通过服务器和终端的交互来实施本申请实施例提供的技术方案，本申请实施例对此不进行限制。

图2是根据本申请实施例提供的一种基于人工智能的多媒体资源检测方法流程图，如图2所示，在本申请实施例中以计算机设备被配置为服务器为例进行说明。该基于人工智能的多媒体资源检测方法包括以下步骤。

201、服务器从目标多媒体资源中获取至少一个待检测图像。

其中，该目标多媒体资源可以视频或者图片。若目标多媒体资源是视频，则服务器可以从该视频中获取至少一个视频帧图像作为待检测图像；若目标多媒体资源为图片，则服务器可以将该图片作为待检测图像，此时待检测图像只有一个。每个待检测图像的检测方式相同。

202、对于任一待检测图像，服务器获取该待检测图像对应的至少一个目标子图像，该目标子图像由该待检测图像缩放到不同分辨率得到。

其中，服务器可以将待检测图像按照不同压缩比例缩放到不同分辨率得到至少一个目标子图像。其中，压缩比例可以为0.8、0.5、0.3、0.2以及0.1等，本申请实施例对此不进行限制。

203、服务器基于卷积神经网络对该待检测图像和该至少一个目标子图像进行处理，得到至少一个目标人脸框，该目标人脸框用于指示人脸在该待检测图像中的位置。

其中，服务器可以基于卷积神经网络对该待检测图像和该至少一个目标子图像分别进行人脸检测，在待检测图像中通过目标人脸框指示人脸的位置。

204、服务器基于至少一个目标人脸框确定至少一个目标人体框，该目标人体框用于指示人体在该待检测图像中的位置。

其中，服务器在确定至少一个目标人脸框后，可以基于人脸大小和人体大小的比例，根据目标人脸框的顶点坐标，确定目标人体框的顶点坐标，从而用目标人体框指示人体在待检测图像中的位置。

205、服务器调用检测模型对该至少一个目标人体框所指示的至少一个人体图像进行处理，以得到该至少一个人体图像的至少一个预测概率，其中，一个预测概率用于表征一个人体图像属于限制性内容的概率。

其中，人体图像可以反映人体的部位和动作，如是否是敏感部位，动作是否为敏感动作。还可以反映人体覆盖衣物的位置等。该检测模型可以为基于卷积神经网络构造的检测模型，用于对输入的人体图像进行检测，预测该人体图像属于限制性内容的概率。预测概率的取值越大，表示该人体图像属于限制性内容的概率越大，预测概率的取值越小，表示该人体图像属于限制性内容的概率越小。

206、服务器基于该至少一个预测概率，确定目标多媒体资源是否包括限制性内容。

其中，服务器可以设置有目标概率，该目标概率可以确定目标多媒体资源是否包括限制性内容。若预测概率大于目标概率，则该人体图像有很大可能为限制性内容，则该目标多媒体资源包括限制性内容；若预测概率不大于目标概率，则该人体图像为限制性内容的可能性较小，则目标多媒体资源不包括限制性内容。

以上图2示例性示出了本申请实施例提供的基于人工智能的多媒体资源检测方法的主要步骤，下面基于一种更为具体的实现方式来进行描述。图3是根据本申请实施例提供的一种基于人工智能的多媒体资源检测方法流程图，如图3所示，在本申请实施例中以计算机设备被配置为服务器为例进行说明。该基于人工智能的多媒体资源检测方法包括以下步骤。

301、服务器从目标多媒体资源中获取至少一个待检测图像。

本步骤可以参见上述步骤201，在此不再赘述。

302、对于任一待检测图像，服务器获取该待检测图像对应的至少一个目标子图像，该目标子图像由待检测图像缩放到不同分辨率得到。

需要说明的是，对于任一待检测图像，服务器可以根据该待检测图像构造图像金字塔，即将待检测图像按照不同的压缩比例进行下采样，从而得到来源与该待检测图像的不同分辨率的至少一个目标子图像。

例如，以待检测图像为640*480的图片，压缩比例为0.5、0.2以及0.1为例进行说明。则服务器得到尺寸为320*240、128*96以及64*48的三个目标子图像。参见图4所示，图4是根据本公开实施例提供的一种构建图像金字塔的示意图。在图4中，该图像金字塔包括4个图像，其中，401表示待检测图像、402表示目标子图像1、403表示目标子图像2以及404表示目标子图像3。

303、服务器基于第一卷积神经网络对该待检测图像和该至少一个目标子图像分别进行处理，得到至少一个第一人脸框。

在本申请实施例中，服务器可以将待检测图像以及其对应的至少一个目标子图像作为待处理图像，对于任一待处理图像，服务器可以基于第一卷积神经网络将该待处理图像划分为至少两个图像块。对于任一图像块，服务器可以检测该图像块为人脸的概率，响应于该图像块被检测为人脸的概率大于第一概率，服务器可以对该图像块进行边框回归校准，得到第二人脸框。由于待处理图像是内容相同但分辨率不同的图像，则对于同一个人脸，服务器会从每个待处理图像中得到至少一个第二人脸框。因此，响应于得到的第二人脸框的数量大于一，服务器可以对至少两个第二人脸框进行去重，得到至少一个第一人脸框。其中，边框回归校准用于将该图像块的边框基于压缩比例转换为在待检测图像中的人脸框。由于将不同分辨率的图像输入到第一卷积神经网络中，从而可以用第二人脸框来表示不同分辨率下人脸的位置，可以有效的确定人脸所在的位置。

例如，参见图5所示，图5是根据本申请实施例提供的一种获取第二人脸框的示意图。在图5中，首先，在步骤501中服务器获取待检测图像。然后，在步骤502中，服务器基于待检测图像构建图像金字塔。然后，在步骤503中，服务器将待检测图像和得到的目标子图像1、目标子图像2以及目标子图像3分别输入第一卷积神经网络。在步骤504中，服务器基于第一卷积神经网络在图像上分别标注第二人脸框。在步骤504中，服务器得到至少一个第二人脸框。图6是与图5相对应的获取第二人脸框的流程图，参见图6所示，在步骤601中，服务器将图像金字塔中的每个图像分别输入第一卷积神经网络。在步骤602中，服务器基于第一卷积神经网络将该图像划分为12*12的多个图像块。然后在步骤603中服务器对每个图像块进行检测，确定为人脸的概率。在步骤604中如果图像块被检测为不是人脸，或者被检测为人脸但是概率不大于第一概率，则服务器可以丢弃该图像块；在步骤605中，如果该图像块被检测为是人脸且概率大于第一概率，则服务器为该图像块输出一个边框位置回归向量，基于该边框位置回归向量对该图像块进行边框回归校准，即计算出该图像块的边框在640*480的图片中对应的第二人脸框。在步骤606中，服务器对得到的第二人脸框进行去重，如采用非极大值抑制的方式。在步骤607中，服务器得到至少一个第一人脸框。

需要说明的是，第一卷积神经网络的结构可以参见图7所示。在图7中，该第一卷积神经网络700包括3个卷积层、1个人脸置信度判断层和1个边框回归校准层。其中，701表示输入的待检测图像，702表示卷积层1，该卷积层1使用的卷积核为3*3的卷积核，步长为2；703表示卷积层2，该卷积层2使用的卷积核为3*3的卷积核，步长为2；704表示卷积层3，该卷积层3使用的卷积核为1*1，步长为1。704表示人脸置信度判断层，该人脸置信度判断层用于判断图像块为人脸的概率。705表示边框回归校准层，该边框回归校准层用于调整图像块的边框得到人脸框。

在一种可选的实现方式中，服务器可以基于压缩比例和图像块的边框信息来对图像块进行边框回归校准。相应的，服务器对图像块进行边框回归校准，得到第二人脸框的步骤可以为：服务器根据图像块所在的待处理图像的压缩比例和该图像块的边框信息确定边框回归向量，服务器根据该边框回归向量将该图像块的边框信息转换为在该待检测图像中的人脸框信息，服务器根据该人脸框信息确定第二人脸框。

在一种可选的实现方式中，服务器可以采用对第二人脸框进行nms的方式来进行去重。相应的，服务器对至少两个第二人脸框进行去重，得到至少一个第一人脸框的步骤可以为：服务器将至少两个第二人脸框存入第一候选池，该第一候选池中的第二人脸框按照对应的图像块被检测为人脸的概率进行降序排列。服务器响应于第一候选池不为空，重复执行以下步骤：服务器取出该第一候选池中当前排在首位的第二人脸框作为第一人脸框，从该第一候选池中删除与该第一人脸框的重叠度大于第一重叠度阈值的第二人脸框。由于采用nms方式进行去重，使得重叠度较高的人脸框只保留一个，可以消除同一个人脸产生多个高度重叠的人脸框。

例如，服务器将10个第二人脸框存入第一候选池，并按照被检测为人脸的概率由高到低进行排序。服务器首先取出概率最高的第二人脸框作为第一人脸框，此时第一候选池还剩下9个第二人脸框。服务器遍历该第一候选池，分别比较第一次取出的第一人脸框与剩下的9个第二人脸框的重叠度，若重叠度大于第一重叠度阈值，则从第一候选池删除对应的第二人脸框；如果重叠度不大于第一重叠度阈值，则比较下一个。遍历完毕后，如果第一候选池不为空，例如还剩下3个第二人脸框，则服务器取出剩下的3个第二人脸框中概率最高的第二人脸框作为第一人脸框，再次进行遍历，比较剩余的2个第二人脸框与第二次取出的第一人脸框的重叠度。假如遍历完毕后第一候选池为空，则服务器得到两次取出的第一人脸框。

304、服务器根据该至少一个第一人脸框得到至少一个目标人脸图像。

在本申请实施例中，服务器可以将第一人脸框中的图像区域从待检测图像中提取出来，作为目标人脸图像。

305、服务器基于第二卷积神经网络对待检测图像和至少一个目标人脸图像进行处理，得到至少一个目标人脸框。

在本申请实施例中，对于该至少一个目标人脸图像中的任一目标人脸图像，服务器可以将该目标人脸图像的尺寸调整到第一尺寸。响应于调整后的目标人脸图像被检测为人脸的概率大于第二概率，服务器可以对该调整后的目标人脸图像进行边框回归校准，得到第三人脸框。响应于得到的第三人脸框的数量大于一，服务器可以对至少两个第三人脸框进行去重，得到至少一个目标人脸框。其中，该边框回归校准用于将调整后的目标人脸图像的边框转换为在待检测图像中的人脸框。由于通过第二卷积神经网络对目标人脸图像进行进一步的处理，从而得到的目标人脸框更能准确的反映人脸的位置。

例如，参见图8所示，图8是根据本申请实施例提供的一种获取目标人脸框的流程图。在步骤801中，服务器将至少一个目标人脸图像和待检测图像输入第二卷积神经网络。在步骤802中，服务器基于第二卷积神经网络将目标人脸图像的尺寸调整为24*24。在步骤803中，服务器对调整后的目标人脸图像进行检测，确定为人脸的概率。在步骤804中，如果调整后的目标人脸图像被检测为不是人脸，或者检测为人脸但概率不大于第二概率，则服务器可以丢弃该调整后的目标人脸图像；在步骤805中，如果调整后的目标人脸图像被检测为是人脸且概率大于第二概率，则服务器可以为该调整后的目标人脸图像输出一个边框位置回归向量，基于该边框位置回归向量对该调整后的目标人脸图像进行边框回归校准，即计算出该调整后的目标人脸图像的边框在待检测图像中对应的人脸框。在步骤806中，服务器对得到的第三人脸框进行去重，如采用非极大值阈值的方式。在步骤807中，服务器得到至少一个目标人脸框。

在一种可选的实现方式中，服务器可以采用第三人脸框进行nms的方式来进行去重。相应的，服务器对至少两个第三人脸框进行去重，得到至少一个目标人脸框的步骤可以为：服务器将该至少两个第三人脸框存入第二候选池，该第二候选池中的第三人脸框按照对应的目标人脸图像被检测为人脸的概率进行降序排列。服务器响应于该第二候选池不为空，重复执行以下步骤：服务器取出该第二候选池中当前排在首位的第三人脸框作为目标人脸框，服务器从该第二候选池中删除与该目标人脸框的重叠度大于第二重叠度阈值的第三人脸框。由于采用nms方式进行去重，使得相似的第三人脸框只保留一个，可以消除同一个人脸产生多个高度重叠的第三人脸框。

需要说明的是，第二卷积神经网络的结构和第一卷积神经网络相类似，可以参见图7所示，在此不再赘述。

为了使上述步骤302至步骤305的流程更清晰，可以参见图9所示，图9是根据本申请实施例提供的另一种获取目标人脸框的流程图。在步骤901中，服务器获取待检测图像。在步骤902中，服务器根据待检测图像构建图像金字塔。在步骤903中，服务器基于第一卷积神经网络对图像金字塔中的图像进行处理。在步骤904中，服务器得到至少一个第一人脸框。在步骤905中，服务器根据至少一个第一人脸框获取至少一个目标人脸图像。在步骤906中，服务器调用第二卷积神经网络对待检测图像和至少一个目标人脸图像进行处理。在步骤907中，服务器得到至少一个目标人脸框。

306、服务器基于上述至少一个目标人脸框确定至少一个目标人体框，该目标人体框用于指示人体在待检测图像中的位置。

在本申请实施例中，对于任一目标人脸框，服务器可以根据目标比例确定对应的目标人体框，该目标比例用于指示人脸大小和人体大小的比例。其中，一个待检测图像对应至少一个目标人脸框。例如，某个待检测图像中包括3个人脸，则该待检测图像对应3个目标人脸框。

例如，以目标比例为x方向为1.5，y方向为9为例，服务器根据目标人脸框确定对应的目标人体框可以通过公式（1）至公式（5）来实现。

（1）；

其中，表示目标人脸框的高度，表示目标人脸框右下角顶点y坐标的值，表示目标人脸框左上角顶点y坐标的值。

（2）；

其中，表示人体框左上角顶点x坐标的值，表示目标人脸框左上角顶点x坐标的值，表示目标人脸框的高度，1.5表示x方向的目标比例。

（3）；

其中，表示人体框右下角顶点x坐标的值，表示目标人脸框右下角顶点x坐标的值，表示目标人脸框的高度，1.5表示x方向的目标比例。

（4）；

其中，表示人体框左上角顶点y坐标的值，表示目标人脸框左上角顶点y坐标的值。

（5）；

其中，表示人体框右下角顶点y坐标的值，表示目标人脸框右下角顶点y坐标的值，表示目标人脸框的高度，9表示y方向的目标比例。

需要说明的是，服务器还可以采用其他比例和公式来根据目标脸框确定对应的目标人体框。

例如，参见图10所示，图10是根据本申请实施例提供的一种目标人脸框和目标人体框的示意图。在图10中，服务器根据目标人脸框1001左上角顶点坐标（，）和右下角顶点坐标（，）确定人体框1002的左上角顶点坐标（，）以及右下角顶点坐标（，）。若大于图像的最大高度y，则将设置为y。

307、服务器根据该至少一个目标人体框提取至少一个人体图像。

需要说明的是，对于任一人体框，服务器可以该人体框中的图像区域从待检测图像中提取出来，作为人体图像。

308、服务器调用检测模型对该至少一个人体图像进行处理，以得到该至少一个人体图像的至少一个预测概率，其中，一个预测概率用于表征一个人体图像属于限制性内容的概率。

需要说明的是，该检测模型可以包括多个卷积网络层，人体图像输入第一层的卷积网络层后，得到第一层输出的卷积特征。然后服务器可以对得到的卷积特征进行最大值采样，将采样得到的卷积特征输入下一个卷积网络层。最后输出预测概率。其中，该多个卷积网络层可使用相同的卷积核，也可以使用不同的卷积核，不同的卷积网络层的结构可以相同也可以不同，本申请实施例对此不进行限制。

在一种可选的实现方式中，服务器训练待训练模型得到检测模型的步骤可以参见下述子步骤3081至子步骤3085。

3081、服务器对获取到的多个样本图像进行人脸检测，根据人脸检测结果确定多个样本人体框信息

在本申请实施例中，服务器可以获取多个样本图像，其中，包括限制性内容的样本图像为正样本图像，不包括限制性内容的样本图像为负样本图像。服务器可以对获取到的正负样本图像进行人脸检测，然后根据人脸检测得到的多样本人脸框，来确定多个样本人体框。服务器对图像进行人脸检测的步骤以及服务器根据样本人脸框确定样本人体框的步骤，可以参见上述步骤302至步骤306的内容，在此不再赘述。

需要说明的是，如果服务器在对正负样本图像进行人脸检测时未检测到人脸，则服务器可以将该样本图像作为样本人体图像。

3082、服务器根据多个样本人体框提取多个样本人体图像。

在本申请实施例中，对于任一样本人体框，服务器可以从该样本人体框所在的样本图像中提取该样本人体框中的图像区域，将提取得到的图像作为样本人体图像。

3083、服务器将多个样本人体图像的尺寸调整为第二尺寸，对调整后的样本人体图像的像素值进行归一化处理。

例如，服务器可以将多个样本人体图像的尺寸调整为224*224，然后将所有图片的像素值除以255，然后再减去0.5，最后再除以0.5，以达到调整样本人体图像的尺寸和对像素值进行归一化处理的目的。可以保证输入模型的样本人体图像具有相同的尺寸且便于进行计算。

需要说明的是，服务器还可以将所有的样本人体图像按照进行批次划分，每个批次包含固定数量的样本人体图像，如100张、200张等。若最后一个批次不满足固定数量，则也可以作为一个批次。其中，同一批次包括的样本人体图像为相同类型的图像。由于进行了批次划分，按照批次分别进行训练，有效的提高模型的学习效率。

3084、服务器可以调用待训练模型对多个样本人体图像进行处理，基于待训练模型输出的多个预测概率进行参数调整。

服务器可以随机抽取数量相同的正样本图像和负样本图像，然后调用待训练模型对该正样本图像和负样本图像进行处理，实现对待训练模型进行训练。

需要说明的是，服务器训练该待训练模型时，还需要将样本人体图像对应的图像标签也输入该待训练模型，该图像标签用于指示该样本人体图像是否为限制性内容。服务器可以根据图像标签和输出的预测概率来调整待训练模型的参数。

在一种可选的实现方式中，服务器在训练待训练模型时，除了获取最后一个卷积网络层输出的卷积特征来确定预测概率，还可以获取其他卷积网络层输出的卷积特征并确定对应的预测概率，基于两个不同的卷积网络层确定的预测概率来进行参数调整。相应的，服务器基于待训练模型的输出结果进行参数调整的步骤可以为：服务器从待训练模型包括的多个卷积网络层中获取第一卷积特征和第二卷积特征，该第一卷积特征和第二卷积特征为不同卷积网络层输出的卷积特征。服务器可以根据第一卷积特征确定第一样本预测概率，根据第二卷积特征确定第二样本预测概率，该第一样本预测概率和该第二样本预测概率均用于表示预测样本人体图像属于限制性内容的概率。服务器根据该第一样本预测概率和该第二样本预测概率进行参数调整。由于采用两个样本预测概率进行参数调整，可以提高层数靠前的卷积网络层的学习效果。

例如，待训练模型包括18个卷积网络层，其中，第一层为32*3*3的卷积神经网络，卷积核为3*3，卷积通道为32；第二至第四成为64*3*3的卷积神经网络，卷积核为3*3，卷积通道为64；第五至第九层为128*3*3的卷积神经网络，卷积核为3*3，卷积通道为128；第十至第十五层为256*3*3的卷积网络，卷积核为3*3，卷积通道为256，第十六至第十八层为512*3*3的卷积网络，卷积核为3*3，卷积通道为512。服务器获取第十五层输出的第一卷积特征和第十八层输出的第二卷积特征，将第一卷积特征平铺，即将第一卷积特征拼接展开为第一向量，将第二卷积特征平铺，即将第二卷积特征拼接展开为第二向量，如将1*256*4*4的卷积特征拼接展开为4096维的特征向量。服务器根据第一向量和第二向量分别计算预测概率，得到第一样本预测概率和第二样本预测概率。然后基于该两个样本预测概率进行参数调整。

在一种可选的实现方式中，服务器可以根据两个预测概率分别计算损失值并进行叠加，基于叠加后的损失值进行参数调整。相应的，服务器根据第一样本预测概率和第二样本预测概率进行参数调整的步骤可以为：服务器可以根据样本人体图像对应的图像标签和损失函数，分别确定第一样本预测概率对应的第一损失值和第二样本预测概率对应的第二损失值，该图像标签用于指示样本人体图像是否为限制性内容。服务器可以根据第一损失值和第二损失值叠加后得到的最终损失值进行参数调整。由于将两个损失值进行叠加，可以加快模型收敛的速度。

例如，样本人体图像的图像标签指示该样本人体图像为限制性内容，服务器采用交叉熵损失函数分别根据第一样本预测概率、第二样本预测概率以及图像标签计算得到第一损失值和第二损失值，将两个损失值叠加后得到最终损失值。

3085、服务器响应于待训练模型达到训练完成条件，将训练得到的模型作为检测模型。

在本申请实施例中，训练完成条件可以为达到目标训练次数、模型收敛等。

例如，服务器根据上述最终损失值集合梯度下降算法对模型进行梯度更新并优化，不断的重复上述训练过程，直到模型收敛。

为了使上述服务器训练检测模型的步骤更清晰，可以参见图11所示，图11是根据本申请实施例提供的一种训练检测模型的流程图。在步骤1101中，服务器调用待训练模型对样本人体图像进行处理，以及输入图像标签。在步骤1102中，服务器基于待训练模型中第一层的卷积网络层对样本人体图像进行处理，该第一层的卷积网络层的卷积核为3*3。在步骤1103中，服务器对第一层输出的卷积特征进行最大值采样，得到的卷积特征输入第二层。在步骤1104中，服务器基于第二层的卷积网络层至第十四层的卷积网络层分别对输入的卷积特征进行处理。在步骤1105中，服务器基于待训练模型中第十五层的卷积网络层对输入的卷积特征进行处理，该第十五层卷积网络的卷积核为3*3。在步骤1106中，服务器对第十五层输出的卷积特征进行平铺展开，得到第一特征向量。在步骤1107中，服务器基于第一特征向量和图像标签，通过交叉熵损失函数得到第一损失值。与此同时，在步骤1108中，服务器基于第十六层的卷积网络层至第十七层的卷积网络层分别对输入的卷积特征进行处理。在步骤1109中，服务器基于待训练模型中第十八层的卷积网络层对输入的卷积特征进行处理，该第十八层卷积网络的卷积核为3*3。在步骤1110中，服务器对第十八层输出的卷积特征进行平铺展开，得到第二特征向量。在步骤1111中，服务器基于第二特征向量和图像标签，通过交叉熵损失函数得到第二损失值。在步骤1112中，服务器将第一损失值和第二损失值合并后得到最终损失值，基于该最终损失值结合梯度下降算法确定所有卷积网络层的梯度，根据梯度下降算法反向传播梯度。在步骤1113中，服务器根据反向传播的梯度对待训练模型进行参数更新。

309、服务器基于该至少一个预测概率，确定该目标多媒体资源是否包括限制性内容。

服务器可以设置有目标概率，该目标概率可以确定目标多媒体资源是否包括限制性内容。若预测概率大于目标概率，则该人体图像有很大可能为限制性内容，则该目标多媒体资源包括限制性内容；若预测概率不大于目标概率，则该人体图像为限制性内容的可能性较小，则目标多媒体资源不包括限制性内容。

需要说明的是，本申请实施例提供的方法通过实验验证了其有效性，准确率可以达到78%，召回率可以达到75%。

图12是根据本申请实施例提供的一种基于人工智能的多媒体资源检测装置的框图。该装置用于执行上述基于人工智能的多媒体资源检测方法执行时的步骤，参见图12，装置包括：图像获取模块1201、人脸框获取模块1202、确定模块1203以及概率获取模块1204。

图像获取模块1201，用于从目标多媒体资源中获取至少一个待检测图像；

该图像获取模块1201，还用于对于任一待检测图像，获取该待检测图像对应的至少一个目标子图像，该目标子图像由该待检测图像缩放到不同分辨率得到；

人脸框获取模块1202，用于基于卷积神经网络对该待检测图像和该至少一个目标子图像进行处理，得到至少一个目标人脸框，该目标人脸框用于指示人脸在该待检测图像中的位置；

确定模块1203，用于基于该至少一个目标人脸框确定至少一个目标人体框，该目标人体框用于指示人体在该待检测图像中的位置；

概率获取模块1204，用于调用检测模型对该至少一个目标人体框所指示的至少一个人体图像进行处理，以得到该至少一个人体图像的至少一个预测概率，其中，一个预测概率用于表征一个人体图像属于限制性内容的概率；

该确定模块1203，还用于基于该至少一个预测概率，确定该目标多媒体资源是否包括限制性内容。

在一种可选的实现方式中，该人脸框获取模块1202，还用于基于第一卷积神经网络对该待检测图像和该至少一个目标子图像分别进行处理，得到至少一个第一人脸框；根据该至少一个第一人脸框得到至少一个目标人脸图像；基于第二卷积神经网络对该待检测图像和该至少一个目标人脸图像进行处理，得到至少一个目标人脸框。

在一种可选的实现方式中，该人脸框获取模块1202，还用于对于该待检测图像和该至少一个目标子图像中的任一待处理图像，基于该第一卷积神经网络将该待处理图像划分为至少两个图像块；对于任一图像块，响应于该图像块被检测为人脸的概率大于第一概率，对该图像块进行边框回归校准，得到第二人脸框，该边框回归校准用于将该图像块的边框基于压缩比例转换为在该待检测图像中的人脸框；响应于得到的第二人脸框的数量大于一，对至少两个第二人脸框进行去重，得到至少一个第一人脸框。

在一种可选的实现方式中，该人脸框获取模块1202，还用于根据该图像块所在的待处理图像的压缩比例和该图像块的边框信息确定边框回归向量；根据该边框回归向量将该图像块的边框信息转换为在该待检测图像中的人脸框信息；根据该人脸框信息确定第二人脸框。

在一种可选的实现方式中，该人脸框获取模块1202，还用于将该至少两个第二人脸框存入第一候选池，该第一候选池中的第二人脸框按照对应的图像块被检测为人脸的概率进行降序排列；响应于该第一候选池不为空，重复执行以下步骤：取出该第一候选池中当前排在首位的第二人脸框作为第一人脸框；从该第一候选池中删除与该第一人脸框的重叠度大于第一重叠度阈值的第二人脸框。

在一种可选的实现方式中，该人脸框获取模块1202，还用于对于任一目标人脸图像，基于该第二卷积神经网络将该目标人脸图像的尺寸调整到第一尺寸；响应于调整后的目标人脸图像被检测为人脸的概率大于第二概率，对该调整后的目标人脸图像进行边框回归校准，得到第三人脸框，该边框回归校准用于将该调整后的目标人脸图像的边框转换为在该待检测图像中的人脸框；响应于得到的第三人脸框的数量大于一，对至少两个第三人脸框进行去重，得到至少一个目标人脸框。

在一种可选的实现方式中，该人脸框获取模块1202，还用于将该至少两个第三人脸框存入第二候选池，该第二候选池中的第三人脸框按照对应的目标人脸图像被检测为人脸的概率进行降序排列；响应于该第二候选池不为空，重复执行以下步骤：取出该第二候选池中当前排在首位的第三人脸框作为目标人脸框；从该第二候选池中删除与该目标人脸框的重叠度大于第二重叠度阈值的第三人脸框。

在一种可选的实现方式中，该确定模块1203，还用于对于任一目标人脸框，根据目标比例确定对应的目标人体框，该目标比例用于指示人脸大小和人体大小的比例。

在一种可选的实现方式中，该装置还包括：

尺寸调整模块，用于对于任一人体图像，将该人体图像的尺寸调整为第二尺寸；

归一化模块，用于对调整后的人体图像的像素值进行归一化处理。

在一种可选的实现方式中，该装置还包括：模型训练模块，用于对获取到的多个样本图像进行人脸检测，得到多个样本人脸框；根据多个样本人脸确定多个样本人体框；

根据该多个样本人体框提取多个样本人体图像；将该多个样本人体图像的尺寸调整为第二尺寸，对调整后的样本人体图像的像素值进行归一化处理；调用待训练模型对该多个样本人体图像进行处理，基于该待训练模型输出的多个预测概率进行参数调整；响应于该待训练模型达到训练完成条件，将训练得到的模型作为该检测模型。

在一种可选的实现方式中，该模型训练模块，还用于从该待训练模型包括的多个卷积网络层中获取第一卷积特征和第二卷积特征，该第一卷积特征和第二卷积特征为不同卷积网络层输出的卷积特征；根据该第一卷积特征确定第一样本预测概率，根据第二卷积特征确定第二样本预测概率，该第一样本预测概率和该第二样本预测概率均用于表示预测样本人体图像属于限制性内容的概率；根据该第一样本预测概率和该第二样本预测概率进行参数调整。

在一种可选的实现方式中，该模型训练模块，还用于根据样本人体图像对应的图像标签和损失函数，分别确定该第一样本预测概率对应的第一损失值和第二样本预测概率对应的第二损失值，该图像标签用于指示该样本人体图像是否为限制性内容；根据该第一损失值和该第二损失值叠加后得到的最终损失值进行参数调整。

在本申请实施例中，通过基于获取模块从目标多媒体资源中获取人体图像，然后基于检测模型对人体图像进行检测，由于在对多媒体资源进行检测时用人体图像取代了整个图像，使得检测结果不会受到多媒体资源的背景的影响，从而对限制性内容的识别效果较高，进一步的对多媒体资源检测的准确率也较高。

需要说明的是：上述实施例提供的基于人工智能的多媒体资源检测装置在运行应用程序时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于人工智能的多媒体资源检测装置与基于人工智能的多媒体资源检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

当计算机设备被配置为终端时，图13是根据本申请实施例提供的一种终端1300的结构框图。该终端图13示出了本发明一个示例性实施例提供的终端1300的结构框图。该终端1300可以是：智能手机、平板电脑、mp3播放器（movingpictureexpertsgroupaudiolayeriii，动态影像专家压缩标准音频层面3）、mp4（movingpictureexpertsgroupaudiolayeriv，动态影像专家压缩标准音频层面4）播放器、笔记本电脑或台式电脑。终端1300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1300包括有：处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用dsp（digitalsignalprocessing，数字信号处理）、fpga（field－programmablegatearray，现场可编程门阵列）、pla（programmablelogicarray，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu（centralprocessingunit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301可以在集成有gpu（graphicsprocessingunit，图像处理器），gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1301还可以包括ai（artificialintelligence，人工智能）处理器，该ai处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1301所执行以实现本申请中方法实施例提供的基于人工智能的多媒体资源检测方法。

在一些实施例中，终端1300还可选包括有：外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。具体地，外围设备包括：射频电路1304、显示屏1305、摄像头组件1306、音频电路1307、定位组件1308和电源1309中的至少一种。

外围设备接口1303可被用于将i/o（input/output，输入/输出）相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中，处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上；在一些其他实施例中，处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1304用于接收和发射rf（radiofrequency，射频）信号，也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1304包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络（2g、3g、4g及5g）、无线局域网和/或wifi(wirelessfidelity，无线保真）网络。在一些实施例中，射频电路1304还可以包括nfc（nearfieldcommunication，近距离无线通信）有关的电路，本申请对此不加以限定。

显示屏1305用于显示ui（userinterface，用户界面）。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时，显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时，显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1305可以为一个，设置终端1300的前面板；在另一些实施例中，显示屏1305可以为至少两个，分别设置在终端1300的不同表面或呈折叠设计；在再一些实施例中，显示屏1305可以是柔性显示屏，设置在终端1300的弯曲表面上或折叠面上。甚至，显示屏1305还可以设置成非矩形的不规则图形，也即异形屏。显示屏1305可以采用lcd(liquidcrystaldisplay，液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。

摄像头组件1306用于采集图像或视频。可选地，摄像头组件1306包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr（virtualreality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1301进行处理，或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1307还可以包括耳机插孔。

定位组件1308用于定位终端1300的当前地理位置，以实现导航或lbs（locationbasedservice，基于位置的服务）。定位组件1308可以是基于美国的gps（globalpositioningsystem，全球定位系统）、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1309用于为终端1300中的各个组件进行供电。电源1309可以是交流电、直流电、一次性电池或可充电电池。当电源1309包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1300还包括有一个或多个传感器1310。该一个或多个传感器1310包括但不限于：加速度传感器1311、陀螺仪传感器1312、压力传感器1313、指纹传感器1314、光学传感器1315以及接近传感器1316。

加速度传感器1311可以检测以终端1300建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1311可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1311采集的重力加速度信号，控制显示屏1305以横向视图或纵向视图进行用户界面的显示。加速度传感器1311还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1312可以检测终端1300的机体方向及转动角度，陀螺仪传感器1312可以与加速度传感器1311协同采集用户对终端1300的3d动作。处理器1301根据陀螺仪传感器1312采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变ui）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1313可以设置在终端1300的侧边框和/或显示屏1305的下层。当压力传感器1313设置在终端1300的侧边框时，可以检测用户对终端1300的握持信号，由处理器1301根据压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在显示屏1305的下层时，由处理器1301根据用户对显示屏1305的压力操作，实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1314用于采集用户的指纹，由处理器1301根据指纹传感器1314采集到的指纹识别用户的身份，或者，由指纹传感器1314根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1301授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1314可以被设置终端1300的正面、背面或侧面。当终端1300上设置有物理按键或厂商logo时，指纹传感器1314可以与物理按键或厂商logo集成在一起。

光学传感器1315用于采集环境光强度。在一个实施例中，处理器1301可以根据光学传感器1315采集的环境光强度，控制显示屏1305的显示亮度。具体地，当环境光强度较高时，调高显示屏1305的显示亮度；当环境光强度较低时，调低显示屏1305的显示亮度。在另一个实施例中，处理器1301还可以根据光学传感器1315采集的环境光强度，动态调整摄像头组件1306的拍摄参数。

接近传感器1316，也称距离传感器，通常设置在终端1300的前面板。接近传感器1316用于采集用户与终端1300的正面之间的距离。在一个实施例中，当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变小时，由处理器1301控制显示屏1305从亮屏状态切换为息屏状态；当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变大时，由处理器1301控制显示屏1305从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图13中示出的结构并不构成对终端1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

计算机设备可以被配置为服务器，图14是根据本申请实施例提供的一种服务器的结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessingunits，cpu）1401和一个或一个以上的存储器1402，其中，该存储器1402中存储有至少一条指令，该至少一条指令由该处理器1401加载并执行以实现上述各个方法实施例提供的基于人工智能的多媒体资源检测方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质应用于计算机设备，该计算机可读存储介质中存储有至少一段程序代码，该至少一段程序代码用于被处理器执行并实现本申请实施例中的基于人工智能的多媒体资源检测方法中计算机设备所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上该仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭梓铿
技术所有人：腾讯科技(深圳)有限公司
我是此专利的发明人

上一篇：一种道路设备物联网边缘计算的方法与流程
上一篇：一种液体除杂提纯器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。