一种PC应用程序违规内容监测方法及装置与流程

文档序号:19156539发布日期:2019-11-16 00:52阅读:401来源:国知局
一种PC应用程序违规内容监测方法及装置与流程

本发明涉及互联网信息技术领域,特别涉及一种pc应用程序违规内容监测方法及装置。



背景技术:

随着互联网的迅猛发展,各种应用程序已成为传播各类违法信息的重要渠道,据不完全统计,发布传播暴恐、色情等各类违法不良信息的应用数量已高达上千种,此外还有数千种新闻、公共社交、阅读、娱乐等应用不同程度的发布或者存在个别用户传播违法不良信息内容。由于个人计算机(pc)应用种类繁多,且容易传播,违规内容一旦出现,在极短时间内即可造成大范围传播。因此,对于大量不良应用内容采集监测,及时发现和预警违法信息内容,从源头上及时采取措施对有害信息传播的控制极为重要。

对于违规内容类的应用软件的检测技术较少,更多的是web端违规内容的检测方法。在web端违规内容检测方面大部分通过特征(如人体部位,关键暴恐元素等)利用机器学习进行检测,并进行半人工的复核。

目前主流的违规内容的检测技术主要基于图片的特征,辅以人工复核的办法,具体不足如下:

一、客观正确性不足

人工判断违规内容的方法,其过程存在过多的人为主观因素,由于个人原因会产生误判行为,使用这种方法客观正确性不足。

二、人工参与度高,效率低

如果人工判断违规内容,测试需要花费大量时间,造成效率低的后果。



技术实现要素:

本发明的目的在于提供了一种pc应用程序违规内容监测方法及装置,能够对pc应用程序的违规内容进行自动、客观正确的判断。

本发明实施例提供了一种pc应用程序违规内容监测方法,该方法包括:

下载pc应用程序;指示虚拟机运行所述pc应用程序;在所述pc应用程序运行过程中监测api序列、网络通信数据序列;将api序列、网络通信数据序列与违规内容特征库进行匹配,当达到匹配次数的阈值时,确定该pc应用程序包含违规内容;所述违规内容特征库包括人工收集的可疑api序列、违规内容关键字、违规网站url、违规网站ip。

本发明实施例还提供了一种pc应用程序违规内容监测装置,该装置包括:下载单元,下载pc应用程序;指示单元,指示虚拟机运行所述pc应用程序;监测单元,在所述pc应用程序运行过程中监测api序列、网络通信数据序列;匹配确认单元,将api序列、网络通信数据序列与违规内容特征库进行匹配,当达到匹配次数的阈值时,确定该pc应用程序包含违规内容;所述违规内容特征库包括人工收集的可疑api序列、违规内容关键字、违规网站url、违规网站ip。

本发明提供的pc应用程序违规内容监测方法及装置,下载待测pc应用程序,并动态运行所述pc应用程序,获取其运行过程中的信息包括api序列、网络通信数据序列,将所获取的信息与违规内容特征库进行匹配,确定待测pc应用程序是否包含违规内容。与现有技术相比,本发明整个分析过程均由自动化工具自行完成,没有人工主观成分参与,分类信息具有客观正确性,形成简洁、高效的pc应用程序违规内容检测方法。

附图说明

图1为本发明实施例一种pc应用程序违规内容监测方法流程示意图。

图2为本发明实施例一种pc应用程序违规内容监测装置结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。

面对违规内容应用带来的威胁,以及现有检测方法的缺陷,本发明提出一种pc应用程序违规内容监测方法及装置,下载指定的pc应用程序,并动态运行所述pc应用程序,获取其运行过程中的信息包括api序列、网络通信数据序列,将所获取的信息与违规内容特征库进行匹配,确定待测pc应用程序是否包含违规内容。进一步地,在没有达到匹配次数的阈值时,本发明采用视觉词袋模型(bovw)进行违规内容分类,对内容是否违规进行精准分类。

本发明实施例提出的一种pc应用程序违规内容监测方法,其流程示意图如图1所示,该方法包括:

步骤11、下载pc应用程序。

其中,所述下载pc应用程序的方法具体包括:

步骤111、向服务器发送查看pc应用程序的请求;

步骤112、根据服务器的响应获取所需要下载的pc应用程序及其简介信息。

其中,可以根据具体设定的任务条件下载所需要的pc应用程序。例如,可以根据某一关键字、或者更新日期等作为任务条件,下载所需要的pc应用程序。向服务器发送请求时,通过模拟互联网的网页访问行为获取要下载的pc应用程序url,并根据要下载的pc应用程序url下载pc应用程序,存储到数据库中,同时获取该pc应用程序的简介信息存储到相应数据库中。

url是用于完整描述因特网(internet)上网页和其他资源的地址的一种标识方法,对应的,internet上的每一个网页都具有一个唯一的url。

步骤12、指示虚拟机运行所述pc应用程序;

其中,指示虚拟机通过识别pc应用程序的各组件并点击相关按钮,以完整遍历pc应用程序运行的流程。

步骤13、在所述pc应用程序运行过程中监测应用程序编程接口(api)序列、网络通信数据序列;

其中,api序列指的是pc应用程序运行过程中使用的接口序列。网络通信数据序列包括:源/目的ip地址、源/目的端口、网络协议类型、通信开始/结束时间、客户端向服务器端发送的请求、服务器端向客户端发送的响应。

步骤14、将api序列、网络通信数据序列与违规内容特征库进行匹配,当达到匹配次数的阈值时,确定该pc应用程序包含违规内容;所述违规内容特征库包括人工收集的可疑api序列、违规内容关键字、违规网站统一资源定位符url、违规网站ip。

至此,完成本发明的pc应用程序违规内容监测方法。

优选地,在所述pc应用程序运行过程中,该方法进一步包括:对pc应用程序的实时状态进行截图,并对所述截图进行裁剪和灰度处理;所述截图包括pc应用程序运行过程中的安装画面、运行画面、弹出的网页画面、弹出的广告画面。本步骤中,截图的目的是后续将所截图片输入到模型中进行精准分类。

优选地,该方法进一步包括:在没有达到匹配次数的阈值时,将处理后的截图输入到视觉词袋模型(bovw)进行分类,进一步确定所述pc应用程序是否包含违规内容。也就是说,在与违规内容特征库进行匹配,没有达到匹配次数的阈值时,进一步采用视觉词袋模型进行违规内容精准分类。

其中,在视觉词袋模型中,图片被表示为视觉词汇(visualwords)的直方图。视觉词汇表示从图片中提取出来的局部特征。该模型经过训练后,就可以向模型输入待检测的图片,输出为内容是否违规的分类结果。视觉词袋模型训练过程如下:1)对图像进行预处理,图像增强,分割,图像统一格式,统一规格等等;2)接着利用sift算法,从每类图像中提取视觉词汇,将所有的视觉词汇集合在一起;3)利用k-means算法构造单词表,形成k个词汇的单词表;4)利用单词表中的词汇表示训练集中的样本,统计单词表中每个单词在图像中出现的次数,从而将图像表示成为一个k维数值向量;5)图片描述完毕后,将生成的图片特征向量输入svm分类器训练模型。

通过使用本发明pc应用程序违规内容自动化检测方法,国内各大应用商店可以对其应用软件库中的应用软件进行自动化的机器学习分类,快速高效地得到违规内容分类结果,能够有效的解决商店内存在的违规内容应用的问题,有效的净化应用商店平台。

在另外一个实施例中,基于同样的发明构思,本发明实施例还提出了一种pc应用程序违规内容监测装置,结构示意图如图2所示,该装置包括:

下载单元201,下载pc应用程序;

指示单元202,指示虚拟机运行所述pc应用程序;

监测单元203,在所述pc应用程序运行过程中监测应用程序编程接口api序列、网络通信数据序列;

匹配确认单元204,将api序列、网络通信数据序列与违规内容特征库进行匹配,当达到匹配次数的阈值时,确定该pc应用程序包含违规内容;所述违规内容特征库包括人工收集的可疑api序列、违规内容关键字、违规网站统一资源定位符url、违规网站ip。

该装置进一步包括截图单元205,在所述pc应用程序运行过程中,对pc应用程序的实时状态进行截图,并对所述截图进行裁剪和灰度处理;所述截图包括pc应用程序运行过程中的安装画面、运行画面、弹出的网页画面、弹出的广告画面。

该装置进一步包括模型分类单元206:在没有达到匹配次数的阈值时,将处理后的截图输入到视觉词袋模型bovw进行分类,进一步确定所述pc应用程序是否包含违规内容。

所述网络通信数据序列包括:源/目的ip地址、源/目的端口、网络协议类型、通信开始/结束时间、客户端向服务器端发送的请求、服务器端向客户端发送的响应。

所述下载单元201具体用于:

向服务器发送查看pc应用程序的请求;

根据服务器的响应获取所需要下载的pc应用程序及其简介信息。

综上,本发明的有益效果在于,

一、客观正确性强

本文发明的pc应用程序违规内容自动化检测方法,整个分析过程均由自动化工具自行完成,没有人工主观成分参与,分类信息具有客观正确性。

二、适用于pc应用程序检测的情况

本文发明的pc应用程序违规内容自动化检测方法,适用于pc应用程序内容繁杂,违规内容隐藏深的情况。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1