一种网络短视频不良内容智能审核方法及系统

文档序号:31636251发布日期:2022-09-24 04:12阅读:159来源:国知局
一种网络短视频不良内容智能审核方法及系统

1.本发明涉及电子数字数据处理技术领域,尤其涉及一种网络短视频不良内容智能审核方法及系统。


背景技术:

2.随着互联网技术的日新月异的变革,网络流媒体技术在不断的发展,社会化网络技术在不断的普及,网络带宽在不断的增加,越来越多的信息通过视频等多媒体的形式展现在互联网中。上传视频己成了用户发布信息与娱乐的主流方式。用户可以通过台式机、笔记本、手机等客户端将各种视频上传至云端服务器,或者从云端服务器观看其中的视频。互联网中视频数量越来越多。这其中,存在着大量内容,所以在视频“上架”前,各大视频网站都要对待上传的视频进行审核。
3.目前,现有技术包括:接收待审核的视频;将所述待审核的视频发送至播放器进行播放和审核;将具有不良图片的视频滤除,将通过审核的视频进行转码;将转码后的视频上传至视频展示平台。本发明实施例先对待审核的视频进行审核,待审核通过后,再对其进行转码,然后再将转码后的视频上传至视频展示平台。但绝大部分短视频内容的审核依靠的还是人工审核,短视频内容安全技术领域领域相对空白。
4.采用上述方式,仅能审核出对视频中的不良图片,无法识别出视频图片中的人物和视频语音中的敏感词,而有些人物和敏感词也属于不良视频,从而降低了视频审核的精确度,进而降低了审核效率。


技术实现要素:

5.本发明的目的在于提供一种网络短视频不良内容智能审核方法及系统,旨在解决现有的网络短视频审核系统的审核精确度较低,降低了审核效率的问题。
6.为实现上述目的,第一方面,本发明提供了一种网络短视频不良内容智能审核系统,包括音视分离子系统、视频处理子系统和音频处理子系统,所述音视分离子系统、所述视频处理子系统和所述音频处理子系统依次连接,所述视频处理子系统和所述音频处理子系统连接;
7.所述视频处理子系统包括提取模块、人脸识别检测模块、不良内容检测模块和文本检测模块,所述提取模块分别与所述人脸识别检测模块、所述不良内容检测模块和所述文本检测模块连接;
8.所述音视分离子系统,用于将网络短视频分解为视频和音频;
9.所述提取模块,用于提取所述视频的关键帧图片;
10.所述人脸识别检测模块,用于对所述关键帧图片中的人脸进行检测,得到第一检测结果;
11.所述不良内容检测模块,用于对所述关键帧图片的不良图片进行检测,得到不良图片检测结果;
12.所述音频处理子系统,用于将所述音频转换为音频文本;
13.所述文本检测模块,用于对所述关键帧图片中的文字和所述音频文本进行检测,得到文本检测结果。
14.其中,所述视频处理子系统还包括目标检测模块,所述目标检测模块与所述提取模块连接;
15.所述目标检测模块,用于对所述关键帧图片中的物品进行检测,得到物品检测结果。
16.其中,所述人脸识别检测模块包括解析单元、第一构建单元和人脸识别单元,所述解析单元、所述第一构建单元和所述人脸识别单元依次连接;
17.所述解析单元,用于解析目标人物的肖像及名字,得到人物样本;
18.所述第一构建单元,基于所述人物样本构建训练模型;
19.所述人脸识别单元,基于所述训练模型对所述关键帧图片进行训练,得到第一检测结果。
20.其中,所述不良内容检测模块包括加载单元、第二构建单元和图片检测单元,所述加载单元、所述第二构建单元和所述图片检测单元依次连接;
21.所述加载单元,用于加载多张不良图片,得到图片数据集;
22.所述第二构建单元,基于所述图片数据集构建图片训练模型;
23.所述图片检测单元,基于所述图片训练模型对所述关键帧图片进行训练,得到不良图片检测结果。
24.其中,所述文本检测模块包括文字识别单元、文字提取单元和文字检测单元,所述文字识别单元、所述文字提取单元和所述文字检测单元依次连接;
25.所述文字识别单元,用于识别所述关键帧图片中的文字,得到文字数据;
26.所述文字提取单元,用于将所述文字数据提取,建立文字文本;
27.所述文字检测单元,基于预设词库对所述文字文本和所述音频文本进行检测,得到文本检测结果。
28.其中,所述网络短视频不良内容智能审核系统还包括反馈子系统,所述反馈子系统与所述人脸识别检测模块、所述不良内容检测模块、所述文本检测模块和所述目标检测模块连接;
29.所述反馈子系统,用于将所述第一检测结果、所述不良图片检测结果、所述文本检测结果和所述物品检测结果反馈给客户端。
30.第二方面,本发明提供了一种网络短视频不良内容智能审核方法,包括以下步骤:
31.通过音视分离子系统将网络短视频分解为视频和音频;
32.通过所述提取模块提取所述视频的关键帧图片;
33.通过人脸识别检测模块对所述关键帧图片中的人脸进行情况检测,得到第一检测结果;
34.通过不良内容检测模块对所述关键帧图片的不良图片进行检测,得到不良图片检测结果;
35.通过音频处理子系统将所述音频转换为音频文本;
36.通过文本检测模块对所述关键帧图片中的文字和所述音频文本进行检测,得到文
本检测结果。
37.本发明的一种网络短视频不良内容智能审核系统,通过所述音视分离子系统将网络短视频分解为视频和音频;所述提取模块提取所述视频的关键帧图片;所述人脸识别检测模块对所述关键帧图片中的人脸进行对象情况检测,得到第一检测结果;所述不良内容检测模块对所述关键帧图片的不良图片进行检测,得到不良图片检测结果;所述音频处理子系统将所述音频转换为音频文本;所述文本检测模块对所述关键帧图片中的文字和所述音频文本进行敏感词检测,得到文本检测结果,对所述网络短视频中的多种因素进行不良内容检测,解决了现有的网络短视频审核系统的审核精确度较低,降低了审核效率的问题。
附图说明
38.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
39.图1是本发明提供的一种网络短视频不良内容智能审核系统的结构示意图。
40.图2是人脸识别检测模块的结构示意图。
41.图3是不良内容检测模块的结构示意图。
42.图4是文本检测模块的结构示意图。
43.图5是目标检测模块的结构示意图。
44.图6是本发明提供的一种网络短视频不良内容智能审核方法的流程图。
45.1-音视分离子系统、2-视频处理子系统、3-音频处理子系统、4-反馈子系统、 5-提取模块、6-人脸识别检测模块、7-不良内容检测模块、8-文本检测模块、9
‑ꢀ
目标检测模块、10-解析单元、11-第一构建单元、12-人脸识别单元、13-加载单元、14-第二构建单元、15-图片检测单元、16-文字识别单元、17-文字提取单元、 18-文字检测单元、19-特征识别单元、20-特征检测单元、21-降噪模块、22-转换模块。
具体实施方式
46.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
47.请参阅图1至图5,第一方面,本发明提供一种网络短视频不良内容智能审核系统,包括音视分离子系统1、视频处理子系统2和音频处理子系统3,所述音视分离子系统1、所述视频处理子系统2和所述音频处理子系统3依次连接,所述视频处理子系统2和所述音频处理子系统3连接;
48.所述视频处理子系统2包括提取模块5、人脸识别检测模块6、不良内容检测模块7和文本检测模块8,所述提取模块5分别与所述人脸识别检测模块6、所述不良内容检测模块7和所述文本检测模块8连接;
49.所述音视分离子系统1,用于将网络短视频分解为视频和音频;
50.所述提取模块5,用于提取所述视频的关键帧图片;
51.所述人脸识别检测模块6,用于对所述关键帧图片中的人脸进行检测,得到第一检测结果;
52.所述不良内容检测模块7,用于对所述关键帧图片的不良图片进行检测,得到不良图片检测结果;
53.所述音频处理子系统3,用于将所述音频转换为音频文本;
54.所述文本检测模块8,用于对所述关键帧图片中的文字和所述音频文本进行检测,得到文本检测结果。
55.具体的,通过所述音视分离子系统1将网络短视频分解为视频和音频;所述提取模块5提取所述视频的关键帧图片;所述人脸识别检测模块6对所述关键帧图片中的人脸进行对象情况检测,得到第一检测结果;所述不良内容检测模块7对所述关键帧图片的不良图片进行检测,得到不良图片检测结果;所述音频处理子系统3将所述音频转换为音频文本;所述文本检测模块8对所述关键帧图片中的文字和所述音频文本进行敏感词检测,得到文本检测结果,对所述网络短视频中的多种因素进行不良内容检测,解决了现有的网络短视频审核系统的审核精确度较低,降低了审核效率的问题。
56.进一步的,所述视频处理子系统2还包括目标检测模块9,所述目标检测模块9与所述提取模块5连接;
57.所述目标检测模块9,用于对所述关键帧图片中的物品进行检测,得到物品检测结果。
58.进一步的,所述人脸识别检测模块6包括解析单元10、第一构建单元11和人脸识别单元12,所述解析单元10、所述第一构建单元11和所述人脸识别单元12依次连接;
59.所述解析单元10,用于解析目标人物的肖像及名字,得到人物样本;
60.所述第一构建单元11,基于所述人物样本构建训练模型;
61.所述人脸识别单元12,基于所述训练模型对所述关键帧图片进行训练,得到第一检测结果。
62.具体的,所述解析单元10在网站上解析对象人物的肖像及名字,得到人物样本(这里是自主编写的爬虫技术),所述第一构建单元11基于所述人物样本构建训练模型,所述人脸识别单元12利用knn分类算法基于所述训练模型对所述关键帧图片进行训练,得到第一检测结果。
63.最初的邻近算法(knn,k-nearestneighbor),是一个理论上比较成熟的方法,也是简单易懂,容易理解的机器学习算法之一。该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
64.knn分类算法包括:准备数据,对数据进行预处理。计算测试样本点(也就是待分类点)到其他每个样本点的距离。对每个距离进行排序,然后选择出距离最小的k个点。对k个点所属的类别进行比较,根据少数服从多数的原则,将测试样本点归入在k个点中占比最高的那一类。
65.而在本系统中,要做的是对象人脸检测,样本数量有限,在视频中出现的个人形象也较为单一,这恰好避开了k-最近邻(knn)算法样本不平衡、计算量较大的不足,而又恰能
凸显其思路直观,准确率高的优势。因此通过自建的对象人物数据集,选择采用k-最近邻(knn)算法训练个人脸识别的模型,之后将模型进行服务端部署,程序通过socket通信调用人脸识别服务进行对象人物识别。 socket(套接字)可以看成是两个网络应用程序进行通信时,各自通信连接中的端点。
66.具体细节使用face_recognition库(人脸识别库)。首先进行人脸定位,然后对人脸进行提取特征值,然后根据这些特征值进行模型的训练。所述人脸识别单元12主要分为训练和预测两个大过程。在训练过程中,首先对数据集进行预处理,通过遍历数据集定位每张图片上的人脸位置,只要图像中只有一张人脸的图片,后对定位到的人脸进行编码,编码为128维的向量,最后将编码后的向量传入knn算法进行训练,训练完毕后将模型保存。由于训练样本数量有限,人物形象单一,检测精度可达100%。
67.所述不良内容检测模块7包括加载单元13、第二构建单元14和图片检测单元15,所述加载单元13、所述第二构建单元14和所述图片检测单元15依次连接;
68.所述加载单元13,用于加载多张不良图片,得到图片数据集;
69.所述第二构建单元14,基于所述图片数据集构建图片训练模型;
70.所述图片检测单元15,基于所述图片训练模型对所述关键帧图片进行训练,得到不良图片检测结果。
71.具体为,通过所述加载单元13加载多张不良图片,并对不良图片进行预处理,预处理包括重设图像大小、随机翻转、归一化等操作,之后通过所述第二构建单元14构建训练批次数据,搭建网络结构,得到图片训练模块,然后通过所述图片检测单元15将批次数据(所述关键帧图片)传入网络,得到网络参数,并基于所述图片训练模型对所述网络参数进行训练。
72.所述所述文本检测模块8包括文字识别单元16、文字提取单元17和文字检测单元18,所述文字识别单元16、所述文字提取单元17和所述文字检测单元 18依次连接;
73.所述文字识别单元16,用于识别所述关键帧图片中的文字,得到文字数据;
74.所述文字提取单元17,用于将所述文字数据提取,建立文字文本;
75.所述文字检测单元18,基于预设敏感词库对所述文字文本和所述音频文本进行检测,得到文本检测结果。
76.具体的,通过所述文字识别单元16将所述关键帧图片中携带的文字进行识别,得到文字数据,通过所述文字提取单元17将所述文字数据提取,建立文字文本,通过所述文字检测单元18基于预设敏感词库对所述文字文本和所述音频文本进行检测,得到文本检测结果,所述文字检测单元18基于算法匹配以及正则表达式规则的方式来进行(dfa全称是deterministic finite automaton,即确定有穷自动机),通过正则匹配的方式,首先对是否存在广告进行判断,如果不是广告则使用dfa算法进一步进行敏感词探测。对于探测到的敏感词会进行敏感等级评分,根据评分结果给出敏感等级。
77.进一步的,所述网络短视频不良内容智能审核系统还包括反馈子系统4,所述反馈子系统4与所述人脸识别检测模块6、所述不良内容检测模块7、所述文本检测模块8和所述目标检测模块9连接;
78.所述反馈子系统4,用于将所述第一检测结果、所述不良图片检测结果、所述文本检测结果和所述敏感物检测结果反馈给客户端。
79.具体的,通过所述反馈子系统4与客户端进行数据传输。
80.进一步的,音频处理子系统3包括降噪模块21和转换模块22,所述降噪模块21和所述转换模块22连接;
81.所述降噪模块21,用于对所述音频降噪,得到预处理音频;
82.所述转换模块22,用于将所述预处理音频转换为音频文本。
83.具体的,通过所述降噪模块21将所述音频中的杂音取出,得到的所述预处理音频可增加所述转换模块22转换的文本的精确度,所述转换模块22利用ocr (optical character recognition,光学字符识别)以及语音识别技术将所述预处理音频转换为为本。
84.进一步的,所述目标检测模块9包括特征识别单元19和特征检测单元20,所述特征识别单元19和所述特征检测单元20连接;
85.所述特征识别单元19,用于识别所述关键帧图片中的目标物;
86.所述特征检测单元20,基于预设目标库对所述目标物进行检测,得到敏感物品检测结果。
87.具体的,通过所述特征识别单元19捕捉所述关键帧图片中的目标物并进行识别,所述特征检测单元20基于预设目标库对所述目标物进行检测,得到敏感物品检测结果。
88.请参阅图6,第二方面,本发明提供了一种网络短视频不良内容智能审核方法,包括以下步骤:
89.s101通过音视分离子系统1将网络短视频分解为视频和音频;
90.s102通过所述提取模块5提取所述视频的关键帧图片;
91.具体的,选用基于帧间差分的关键帧提取算法进行关键帧提取,避免了可能存在的重复性审核工作,算法原理:将两帧图像进行差分,得到图像的平均像素强度可以用来衡量两帧图像的变化大小。因此,基于帧间差分的平均强度,每当视频中的某一帧与前一帧画面内容产生了大的变化,便认为它是关键帧,并将其提取出来。系统读取视频,并依次计算每两帧之间的帧间差分,进而得到平均帧间差分强度,然后使用局部最大值来提取关键帧,系统将选取具有平均帧间差分强度局部最大值的帧作为视频的关键帧。这种方法的提取结果在丰富度上表现更好一些,提取结果均匀分散在视频中。我们在使用这种方法时,会对平均帧间差分强度时间序列进行平滑,它可以有效的移除噪声来避免将相似场景下的若干帧均同时提取为关键帧。
92.s103通过人脸识别检测模块6对所述关键帧图片中的人脸进行对象情况检测,得到第一检测结果;
93.具体的,所述人脸识别检测模块6包括解析单元10、第一构建单元11和人脸识别单元12,所述解析单元10用于解析对象人物的肖像及名字,得到人物样本;所述第一构建单元11基于所述人物样本构建训练模型;所述人脸识别单元 12基于所述训练模型对所述关键帧图片进行训练,得到第一检测结果。
94.s104通过不良内容检测模块7对所述关键帧图片的不良图片进行检测,得到不良图片检测结果;
95.具体的,所述不良内容检测模块7包括加载单元13、第二构建单元14和图片检测单元15,所述加载单元13,用于加载多张不良图片,得到图片数据集;所述第二构建单元14,基
于所述图片数据集构建图片训练模型,所述图片检测单元15,基于所述图片训练模型对所述关键帧图片进行训练,得到不良图片检测结果。
96.s105通过音频处理子系统3将所述音频转换为音频文本;
97.具体的,音频处理子系统3包括降噪模块21和转换模块22,所述降噪模块 21,用于对所述音频降噪,得到预处理音频;所述转换模块22,用于将所述预处理音频转换为音频文本。
98.s106通过文本检测模块8对所述关键帧图片中的文字和所述音频文本进行敏感词检测,得到文本检测结果。
99.具体的,所述所述文本检测模块8包括文字识别单元16、文字提取单元17 和文字检测单元18,所述文字识别单元16,用于识别所述关键帧图片中的文字,得到文字数据;所述文字提取单元17,用于将所述文字数据提取,建立文字文本;所述文字检测单元18,基于预设敏感词库对所述文字文本和所述音频文本进行检测,得到文本检测结果。
100.以上所揭露的仅为本发明一种网络短视频不良内容智能审核方法及系统较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1