本发明涉及信息识别技术领域,尤其涉及一种垃圾文件识别装置和方法。
背景技术:
随着手机使用时间的增长,手机中的文件会越来越多,引发手机的卡顿问题,严重影响使用者使用手机的用户体验。因此,识别并删除对用户无用的文件(即垃圾文件),一直是手机管家类软件研究的重点问题。
目前,现有的识别垃圾文件的方法都是采用基于垃圾字典的方法。此方法需要通过大量测试找到各个常用应用软件产生垃圾文件的路径信息,然后将这些路径信息整理成垃圾路径数据库(垃圾字典)。清理垃圾文件时,判断垃圾文件的标准是此文件的父文件夹路径是否在垃圾字典中,如果在垃圾字典中,则此文件为垃圾文件,可以清理;反之,则不是垃圾文件,不能清理。
但是,由于市场上应用软件繁多,很难对每个应用软件都进行测试来寻找其垃圾路径,而且即使对于常用的应用软件,也很难测试出其所有的垃圾路径。这些种种因素导致目前的基于垃圾字典的识别方法遗漏大量垃圾路径,垃圾文件识别率不高。因此,在保证识别的垃圾文件的准确性基础上,如何减少垃圾文件的遗漏,提高垃圾文件的识别率,成为亟待解决的问题。
技术实现要素:
本发明的主要目的在于提供一种垃圾文件识别装置和方法,旨在解决如何提高垃圾文件的识别率的技术问题。
为实现上述目的,本发明提供一种垃圾文件识别装置,所述垃圾文件识别装置包括:
字典模块,用于获取待识别文件的父文件夹路径,判断所述路径是否位于预设的垃圾字典中;
提取模块,用于若所述路径不位于所述垃圾字典中,则提取所述待识别文件的特征信息和父文件夹信息;
概率模块,用于根据所述待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算所述待识别文件为垃圾文件的综合概率;
标记模块,用于若所述待识别文件为垃圾文件的综合概率大于或等于预设阀值,则将所述待识别文件标记为垃圾文件。
在一个实施例中,所述待识别文件的父文件夹信息包括父文件夹的名称、路径和特征信息,所述概率模块还用于,
根据所述垃圾文件存储规则集和所述待识别文件的父文件夹名称、路径,计算所述待识别文件为垃圾文件的第一概率;将所述待识别文件的特征信息和所述待识别文件父文件夹的特征信息输入所述分类器,获取所述分类器输出的所述待识别文件为垃圾文件的第二概率;依据所述第一概率、第二概率及预设的权重值,计算所述待识别文件为垃圾文件的综合概率。
在一个实施例中,所述垃圾文件识别装置还包括:
配置模块,用于依据采集的样本应用软件的垃圾文件路径信息,配置所述垃圾字典;根据预先配置的样本文件中各类别垃圾文件的父文件夹名称和路径,配置所述垃圾文件存储规则集;根据所述样本文件训练分类器模型得到所述分类器。
在一个实施例中,所述配置模块还用于,
获取所述样本文件的标识,所述样本文件的标识表征了所述样本文件是否为垃圾文件;提取所述样本文件的特征信息及所述样本文件父文件夹的特征信息;将所述样本文件的特征信息、所述样本文件父文件夹的特征信息,以及所述样本文件的标识输入分类器模型,以供所述分类器模型训练得到各特征信息的权重;根据所述各特征信息及对应的权重配置得到所述分类器。
在一个实施例中,所述标记模块还用于,
若所述待识别文件为垃圾文件的综合概率小于所述预设阀值,则将所述待识别文件标记为非垃圾文件。
此外,为实现上述目的,本发明还提供一种垃圾文件识别方法,所述垃圾文件识别方法包括以下步骤:
获取待识别文件的父文件夹路径,判断所述路径是否位于预设的垃圾字典中;
若所述路径不位于所述垃圾字典中,则提取所述待识别文件的特征信息和父文件夹信息;
根据所述待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算所述待识别文件为垃圾文件的综合概率;
若所述待识别文件为垃圾文件的综合概率大于或等于预设阀值,则将所述待识别文件标记为垃圾文件。
在一个实施例中,所述待识别文件的父文件夹信息包括父文件夹的名称、路径和特征信息,所述计算所述待识别文件为垃圾文件的综合概率的步骤的包括:
根据所述垃圾文件存储规则集和所述待识别文件的父文件夹名称、路径,计算所述待识别文件为垃圾文件的第一概率;
将所述待识别文件的特征信息和所述待识别文件父文件夹的特征信息输入所述分类器,获取所述分类器输出的所述待识别文件为垃圾文件的第二概率;
依据所述第一概率、第二概率及预设的权重值,计算所述待识别文件为垃圾文件的综合概率。
在一个实施例中,所述垃圾文件识别方法还包括:
依据采集的样本应用软件的垃圾文件路径信息,配置所述垃圾字典;
根据预先配置的样本文件中各类别垃圾文件的父文件夹名称和路径,配置所述垃圾文件存储规则集;
根据所述样本文件训练分类器模型得到所述分类器。
在一个实施例中,所述根据所述样本文件训练分类器模型得到所述分类器的步骤包括:
获取所述样本文件的标识,所述样本文件的标识表征了所述样本文件是否为垃圾文件;
提取所述样本文件的特征信息及所述样本文件父文件夹的特征信息;
将所述样本文件的特征信息、所述样本文件父文件夹的特征信息,以及所述样本文件的标识输入分类器模型,以供所述分类器模型训练得到各特征信息的权重;
根据所述各特征信息及对应的权重配置得到所述分类器。
在一个实施例中,所述垃圾文件识别方法还包括:
若所述待识别文件为垃圾文件的综合概率小于所述预设阀值,则将所述待识别文件标记为非垃圾文件。
本发明提出的一种垃圾文件识别装置和方法,通过字典模块使用垃圾字典识别待识别文件;若待识别文件的父文件夹名称和路径不在垃圾字典中,则提取模块提取待识别文件的特征信息和父文件夹信息;然后,概率模块根据待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算此待识别文件为垃圾文件的综合概率;若该待识别文件为垃圾文件的综合概率大于或等于预设阀值,则标记模块将该待识别文件标记为垃圾文件。本发明在垃圾字典识别的基础上,增加了垃圾文件存储规则集和分类器,对垃圾字典未识别出的文件进行了进一步的识别、校验,得到待识别文件为垃圾文件综合概率,通过比较综合概率与预设阀值来确定待识别文件是否为垃圾文件,减少了对正常文件的误判,实现了对待识别文件的多维度分析、校验,在保证识别的垃圾文件的准确性基础上,有效减少了垃圾文件的遗漏,提高了垃圾文件的识别率。
附图说明
图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图;
图2为如图1所示的移动终端的无线通信系统示意图;
图3为本发明垃圾文件识别装置第一实施例、第二实施例、第四实施例的模块示意图;
图4为本发明垃圾文件识别装置第三实施例的模块示意图;
图5为本发明垃圾文件识别方法第一实施例的流程示意图;
图6为本发明垃圾文件识别方法第二实施例的流程示意图;
图7为本发明垃圾文件识别方法第三实施例的流程示意图;
图8为图7中根据所述样本文件训练分类器模型得到所述分类器的步骤的细化流程示意图;
图9为本发明垃圾文件识别方法第四实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。
移动终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面,假设终端是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
图1为实现本发明各个实施例的一个可选的移动终端硬件结构示意。
移动终端100可以包括无线通信单元110、用户输入单元120、输出单元130、控制器140和电源单元150等等。图1示出了具有各种组件的移动终端,但是应理解的是,并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。
无线通信单元110通常包括一个或多个组件,其允许移动终端100与无线通信系统或网络之间的无线电通信。例如,无线通信单元可以包括移动通信模块111、无线互联网模块112中的至少一个。
移动通信模块111将无线电信号发送到基站(例如,接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。
无线互联网模块112支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。
用户输入单元120可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元120允许用户输入各种类型的信息,并且可以包括键盘、锅仔片、触摸板(例如,检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地,当触摸板以层的形式叠加在显示单元131上时,可以形成触摸屏。
输出单元130可以包括显示单元131、音频输出模块132等等。
显示单元131可以显示在移动终端100中处理的信息。例如,当移动终端100处于电话通话模式时,显示单元131可以显示与通话或其它通信(例如,文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时,显示单元131可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。
同时,当显示单元131和触摸板以层的形式彼此叠加以形成触摸屏时,显示单元131可以用作输入装置和输出装置。显示单元131可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看,这可以称为透明显示器,典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式,移动终端100可以包括两个或更多显示单元(或其它显示装置),例如,移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。
音频输出模块132可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将无线通信单元110接收的或者在存储器中存储的音频数据转换音频信号并且输出为声音。而且,音频输出模块132可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出模块132可以包括扬声器、蜂鸣器等等。
控制器140通常控制移动终端的总体操作。例如,控制器140执行与语音通话、数据通信、视频通话等等相关的控制和处理。控制器140可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。
电源单元150在控制器140的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。
这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,这样的实施方式可以在控制器140中实施。对于软件实施,诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器160中并且由控制器140执行。
至此,己经按照其功能描述了移动终端。下面,为了简要起见,将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此,本发明能够应用于任何类型的移动终端,并且不限于滑动型移动终端。
如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。
现在将参考图2描述其中根据本发明的移动终端能够操作的通信系统。
这样的通信系统可以使用不同的空中接口和/或物理层。例如,由通信系统使用的空中接口包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动通信系统(UMTS)(特别地,长期演进(LTE))、全球移动通信系统(GSM)等等。作为非限制性示例,下面的描述涉及CDMA通信系统,但是这样的教导同样适用于其它类型的系统。
参考图2,CDMA无线通信系统可以包括多个移动终端100、多个基站(BS)270、基站控制器(BSC)275和移动交换中心(MSC)280。MSC280被构造为与公共电话交换网络(PSTN)290形成接口。MSC280还被构造为与可以经由回程线路耦接到基站270的BSC275形成接口。回程线路可以根据若干己知的接口中的任一种来构造,所述接口包括例如E1/T1、ATM,IP、PPP、帧中继、HDSL、ADSL或xDSL。将理解的是,如图2中所示的系统可以包括多个BSC275。
每个BS270可以服务一个或多个分区(或区域),由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS270。或者,每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS270可以被构造为支持多个频率分配,并且每个频率分配具有特定频谱(例如,1.25MHz,5MHz等等)。
分区与频率分配的交叉可以被称为CDMA信道。BS270也可以被称为基站收发器子系统(BTS)或者其它等效术语。在这样的情况下,术语"基站"可以用于笼统地表示单个BSC275和至少一个BS270。基站也可以被称为"蜂窝站"。或者,特定BS270的各分区可以被称为多个蜂窝站。
如图2中所示,广播发射器(BT)295将广播信号发送给在系统内操作的移动终端100。在图2中,示出了几个全球定位系统(GPS)卫星300。卫星300帮助定位多个移动终端100中的至少一个。
在图2中,描绘了多个卫星300,但是需要理解的是,可以利用任何数目的卫星获得有用的定位信息。替代GPS跟踪技术或者在GPS跟踪技术之外,可以使用可以跟踪移动终端的位置的其它技术。另外,至少一个GPS卫星300可以选择性地或者额外地处理卫星DMB传输。
作为无线通信系统的一个典型操作,BS270接收来自各种移动终端100的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站270接收的每个反向链路信号被在特定BS270内进行处理。获得的数据被转发给相关的BSC275。BSC提供通话资源分配和包括BS270之间的软切换过程的协调的移动管理功能。BSC275还将接收到的数据路由到MSC280,其提供用于与PSTN290形成接口的额外的路由服务。类似地,PSTN290与MSC280形成接口,MSC与BSC275形成接口,并且BSC275相应地控制BS270以将正向链路信号发送到移动终端100。
基于上述移动终端硬件结构以及通信系统,提出本发明各个实施例。
参照图3,本发明垃圾文件识别装置第一实施例提供一种垃圾文件识别装置,所述垃圾文件识别装置包括:
字典模块10,用于获取待识别文件的父文件夹路径,判断所述路径是否位于预设的垃圾字典中。
本发明提供一种解决方案,在垃圾字典识别的基础上,增加了垃圾文件存储规则集和基于文件及其父文件夹特征信息的分类器的综合识别,引入了综合概率,通过比较综合概率与预设阀值来确定待识别文件是否为垃圾文件,实现多维识别,在保证识别的垃圾文件的准确性基础上,减少了垃圾文件的遗漏,提高了垃圾文件的识别率。
具体的,作为一种实施方式,首先,字典模块10扫描获得待识别文件的父文件夹路径,检查此路径是否位于预设的垃圾字典数据中。需要说明的是,该垃圾字典包含了预先收所集的各大应用软件软件产生的垃圾文件父文件夹固定路径。
若待识别文件的父文件夹路径位于垃圾字典中,则字典模块10直接将待识别文件标记为垃圾文件。
由于垃圾字典范围的局限性,即使待识别文件的父文件夹路径不位于垃圾字典中,也不能就此确定待识别文件为非垃圾文件。
提取模块20,用于若所述路径不位于所述垃圾字典中,则提取所述待识别文件的特征信息和父文件夹信息。
若待识别文件的父文件夹路径不位于垃圾字典,则提取模块20收集待识别文件的特征信息及待识别文件的父文件夹信息,进行进一步的校验。
具体的,作为一种实施方式,待识别文件的特征信息可以包括待识别文件的文件名称、文件大小、文件打开方式、文件的访问频率等。在本实施例中提取的待识别文件的特征信息包含上述信息中的至少一项,当然,还可以根据实际需要提取待识别文件的其他特征信息。
待识别文件的父文件夹信息可以包括父文件夹名称和路径、父文件夹下文件大小方差、父文件夹下最大文件的大小。在本实施例中提取模块20提取的待识别文件父文件夹信息至少包含上述信息中父文件夹名称和路径,当然,还可以根据实际需要提取父文件夹的其他信息。
概率模块30,用于根据所述待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算所述待识别文件为垃圾文件的综合概率。
具体的,作为一种实施方式,概率模块30中预先配置的分类器可以根据待识别文件的特征信息等信息,对待识别文件进行分类,得到待识别文件为垃圾文件或非垃圾文件的分类结果,或是得到待识别文件为垃圾文件的概率。
垃圾文件存储规则集包含了各类别垃圾文件对应的规则项,各规则项记载了对应的各类别垃圾文件父文件夹命名和存储路径的规则信息。
各规则项可以是预先分析样本文件库中各类别垃圾文件父文件夹名称的命名规律及存储路径的规律得到的,例如,cache(缓存)类垃圾文件的父文件夹名称一般都是cache,存储路径通常为/data/data/包名/cache,对应可以总结得到cache类垃圾文件的规则项。其中,样本文件库中的文件为提取的移动终端中的随机样本文件,包含了已标识的各类别垃圾样本文件和非垃圾样本文件。
由此,概率模块30可以根据待识别文件的父文件夹信息及垃圾文件存储规则集中的各规则项,判断待识别文件的父文件夹名称和路径是否符合垃圾文件的命名和存储路径规则,也即查找垃圾文件存储规则集中是否有与待识别文件的父文件夹名称和路径匹配的规则项。例如,待识别文件的父文件夹名称为ab.cache,且存储路径为/data/data/应用软件软件ab/cache,符合cache类垃圾文件的命名和存储规则,也即,待识别文件的父文件夹名称和路径与cache类垃圾文件的规则项匹配。
同时,概率模块30将待识别文件的各项特征信息输入分类器,获取分类器输出的待识别文件的类别。
取垃圾文件存储规则集中有与待识别文件的父文件名称和路径匹配的规则项作为条件1;取分类器输出待识别文件的类别为垃圾文件作为条件2。
若待识别文件同时符合条件1和2时,则取待识别文件为垃圾文件的综合概率为预设的第一概率值;若待识别文件只符合条件1和2中的任一项,取待识别文件为垃圾文件的综合概率为预设的第二概率值;若待识别文件不符合条件1和2中的任一项,取待识别文件为垃圾文件的综合概率为预设的第三概率值。
由此,概率模块30得到待识别文件为垃圾文件的综合概率。
标记模块40,用于若所述待识别文件为垃圾文件的综合概率大于或等于预设阀值,则将所述待识别文件标记为垃圾文件。
其中,标记模块40中的预设阀值是为了减少对正常文件的误判,例如,阀值可以设置为90%,在移动终端的垃圾文件清理中,若正常文件被误判为垃圾文件而被清理,将会对手机使用造成很严重的影响,因此,可以配置预设的阈值为较高的概率值。
在本实施例中,先是字典模块10利用垃圾字典识别待识别文件,若待识别文件的父文件夹名称和路径在垃圾字典中,则将此待识别文件直接识别为垃圾文件;若不在,则提取模块20提取待识别文件的特征信息和父文件夹信息;然后,概率模块30根据待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算此待识别文件为垃圾文件的综合概率;若该待识别文件为垃圾文件的综合概率大于或等于预设阀值,则标记模块40将该待识别文件标记为垃圾文件。本实施例在垃圾字典识别的基础上,增加了垃圾文件存储规则集和分类器,对垃圾字典未识别出的文件进行了进一步的识别、校验,得到待识别文件为垃圾文件综合概率,通过比较综合概率与预设阀值来确定待识别文件是否为垃圾文件,减少了对正常文件的误判,实现了对待识别文件的多维度分析、校验,在保证识别的垃圾文件的准确性基础上,有效减少了垃圾文件的遗漏,提高了垃圾文件的识别率。
进一步的,参照图3,本发明垃圾文件识别装置第二实施例提供一种垃圾文件识别装置,基于上述本发明垃圾文件识别装置第一实施例,所述待识别文件的父文件夹信息包括父文件夹的名称、路径和特征信息,所述概率模块30还用于,
根据所述垃圾文件存储规则集和所述待识别文件的父文件夹名称、路径,计算所述待识别文件为垃圾文件的第一概率;将所述待识别文件的特征信息和所述待识别文件父文件夹的特征信息输入所述分类器,获取所述分类器输出的所述待识别文件为垃圾文件的第二概率;依据所述第一概率、第二概率及预设的权重值,计算所述待识别文件为垃圾文件的综合概率。
本实施例与上述本发明垃圾文件识别装置第一实施例的区别在于:本实施例分别根据垃圾文件存储规则集和分类器计算待识别文件为垃圾文件的第一概率和第二概率,进而根据预设的权重值计算综合概率,得到的综合概率能够更加准确的描述待识别文件为垃圾文件的概率。
具体的,待识别文件的父文件夹信息包括父文件夹的名称、路径和特征信息。其中,父文件夹的特征信息包括父文件夹下文件大小方差、父文件夹下最大文件的大小等。
为了提升垃圾文件识别的准确率,在根据样本数据库总结得到各类垃圾文件的父文件夹命名和存储路径的规则项后,分别根据样本据库中各样本文件的父文件夹的名称和路径,判断其是否符合垃圾文件存储规则数据库中规则项。
然后,将样本文件库中符合垃圾文件存储规则数据库中规则项的样本文件,作为匹配的样本文件,统计匹配的样本文件数量。
然后,作为一种实施方式,由于样本文件库中各个样本文件已标识有其是否为垃圾文件,因此,可以根据匹配的样本文件的标识,统计匹配的样本文件中垃圾文件的数量,计算得到匹配的样本文件为垃圾文件的概率。然后,将匹配的样本文件为垃圾文件的概率作为垃圾文件存储规则集对应的权重值。
当待识别文件的父文件夹名称和路径符合垃圾文件存储规则集中的任一规则项时,则概率模块30取垃圾文件存储规则集对应的权重值为第一概率;当待识别文件的父文件夹名称和路径不符合垃圾文件存储规则集中的任一规则项时,则概率模块30取第一概率为0。
作为另一种实施方式,还可以根据与同一规则项匹配的样本文件中垃圾文件的数量,分别计算得到与各规则项匹配的样本文件为垃圾文件的概率,作为各规则项对应的权重值。
例如,垃圾文件存储规则集中包含规则项1、2、3……n,对应的文件类别分别为1、2、3……n。
取样本文件库中,父文件夹名称和路径符合规则项1的样本文件数量为A1,符合规则项2的样本文件数量为A2,符合规则项3的样本文件数量为A3…,符合规则项n的样本文件数量为An;取父文件夹名称和路径符合规则项1的样本文件中垃圾文件的数量为B1,符合规则项2的样本文件中垃圾文件的数量为B2,符合规则项3的样本文件中垃圾文件的数量为B3…,符合规则项n的样本文件中垃圾文件的数量为Bn。
取各规则项1、2、3……n对应的权重值分别为P1、P2、P3……Pn,则有:
P1=(B1/A1)×100%;
P2=(B2/A2)×100%;
P3=(B3/A3)×100%;
……
Pn=(Bn/An)×100%。
由此,得到垃圾文件存储规则集中各规则项对应的权重值。
若待识别文件的父文件夹名称和路径符合垃圾文件存储规则集中的一规则项时,则概率模块30取此规则项对应的权重值作为第一概率;若待识别文件的父文件夹名称和路径不符合垃圾文件存储规则集中的任一规则项时,则概率模块30取第一概率为0。
由此,概率模块30得到待识别文件为垃圾文件的第一概率。
预先配置的分类器可以对输入的文件进行分类,得到文件为垃圾文件的概率和非垃圾文件的概率,进而根据预设的判定条件得到文件的类别。例如,预先配置的分类器可以是预先训练后的SVM(Support Vector Machine,支持向量机)分类器。
具体的,概率模块30将待识别文件的特征信息及其父文件夹的特征信息,输入分类器。分类器根据待识别文件的特征信息及其父文件夹的特征信息,对待识别文件进行分类,计算得到待识别文件为垃圾文件类别的概率,并输出待识别文件为垃圾文件类别的概率。
在概率模块30得到待识别文件为垃圾文件类别的概率后,将此概率作为待识别文件为垃圾文件的第二概率。
在概率模块30得到第一概率和第二概率后,根据预先设定的第一概率和第二概率的权重值,概率模块30计算待识别文件为垃圾文件的综合概率。
具体的,作为一种实施方式,第一概率用P(1)表示,第二概率用P(2)表示,综合概率用P(0)表示,预先设定的第一概率P(1)权重值为α,第二概率P(2)的权重值为β,那么综合概率P(0)计算如下:
P(0)=P(1)×α+P(2)×β
权重值可以根据第一概率和第二概率的重要性进行配置。
在本实施例中,首先概率模块30根据垃圾文件存储规则集和待识别文件的父文件夹名称、路径,计算该待识别文件为垃圾文件的第一概率;概率模块30再将该待识别文件的特征信息和该待识别文件父文件夹的特征信息输入所述分类器,获取此分类器输出的该待识别文件为垃圾文件的第二概率;依据第一概率、第二概率及预设的权重值,概率模块30计算该待识别文件为垃圾文件的综合概率。本实施基于垃圾文件规则集和配置的分类器,独立计算出了待识别文件为垃圾文件的第一概率和第二概率,并引入第一概率和第二概率的重要性权值,计算出待识别文件为垃圾文件的综合概率。本实施例提供了一种更准确的计算待识别文件为垃圾文件的综合概率的方法,而依据此综合概率和预设阈值来判断待识别文件是否为垃圾文件,可以在保证识别文件的准确性的基础上,减少对正常文件的误判和对垃圾文件的遗漏,提高了垃圾文件的识别率。
进一步的,参照图4,本发明垃圾文件识别装置第三实施例提供一种垃圾文件识别装置,基于上述本发明垃圾文件识别装置第二实施例,所述垃圾文件识别装置还包括:
配置模块50,用于依据采集的样本应用软件的垃圾文件路径信息,配置所述垃圾字典;根据预先配置的样本文件中各类别垃圾文件的父文件夹名称和路径,配置所述垃圾文件存储规则集;根据所述样本文件训练分类器模型得到所述分类器。
本实施例与上述本发明垃圾文件识别装置第二实施例的区别在于:本实施例通过大量的样本应用软件和样本文件,配置得到垃圾字典、垃圾文件存储规则集和分类器。
关于垃圾字典,配置模块50依据采集的样本应用软件的垃圾文件路径信息,配置垃圾字典。
手机中的各种应用软件在安装和使用过程中会产生垃圾文件,大部分这些垃圾文件会依照各个应用软件的设定存放在手机中,因此,配置模块50可以通过大量测试,采集到样本应用软件产生垃圾文件的路径信息,然后将这些路径信息整理成垃圾字典。
其中,样本应用软件的范围应足够大,但由于手机应用软件市场上应用软件繁多,设计人员很难对每个应用软件都进行测试来寻找其垃圾路径,而且即使对于常用的应用软件,也很难测试出所有的垃圾路径,所以垃圾字典在涵盖范围上具有一定的局限性。
具体的,作为一种实施方式,例如,样本应用软件可以包含QQ、微信、支付宝、各类浏览器及播放器等常用手机软件。配置模块50可以通过大量测试,采集到上述样本应用软件产生垃圾文件的路径信息,然后将这些路径信息整理成垃圾字典。
进一步的,配置模块50可以定期添加、更新和维护垃圾字典,以跟上移动终端应用软件市场的发展。
关于垃圾文件存储规则集,配置模块50根据预先配置的样本文件中各类别垃圾文件的父文件夹名称和路径,配置垃圾文件存储规则集。
具体的,作为一种实施方式,配置模块50中预先配置有样本文件库,样本文件库中包含有大量的垃圾样本文件和非垃圾样本文件。样本文件库中的样本文件可以是在不同移动终端中随机抽取的批量文件,例如,在不同的手机中随机抽取10000个文件作为样本文件,配置到样本文件库中,其中包括随机数量比的垃圾文件和非垃圾文件。
首先,配置模块50获取样本文件库中各类别垃圾样本文件的父文件夹命名和存储路径的规律,配置对应的规则项。各规则项记载了对应的各类别垃圾样本文件父文件夹命名和存储路径的规则信息。
然后,配置模块50根据得到的各规则项配置得到垃圾文件存储规则集。
例如,log类垃圾文件的父文件夹名称一般都是以log结尾的,可以配置记载其父文件夹名称和路径规则信息的规则项为:/data/data/包名/***log,其中***为通配符。
关于分类器,配置模块50根据样本文件训练分类器模型得到所述分类器。
配置模块50在训练分类器时,为了提升分类器的准确性,可以采用大量的训练样本输入分类器模型。其中,训练样本可以是样本文件库中的垃圾样本文件和非垃圾样本文件,已标识有类别信息;分离器模型可以是SVM分类器模型等。
具体的,首先,配置模块50提取样本文件的特征信息,将样本文件的特征信息输入分类器模型,以使分类器模型根据各样本文件的类别及特征信息,训练分类算法,直至分类器模型能够根据样本文件的特征信息,将样本文件分到正确的类别。在分类正确率到达预设值时,可以停止训练,配置模块50得到完成训练的分类器。
由此,配置模块50得到的分类器能够根据输入的文件的特征信息,计算其为垃圾文件的概率,或者直接输出文件的分类结果。
进一步的,作为一种实施方式,所述配置模块50还用于,
获取所述样本文件的标识,所述样本文件的标识表征了所述样本文件是否为垃圾文件;提取所述样本文件的特征信息及所述样本文件父文件夹的特征信息;将所述样本文件的特征信息、所述样本文件父文件夹的特征信息,以及所述样本文件的标识输入分类器模型,以供所述分类器模型训练得到各特征信息的权重;根据所述各特征信息及对应的权重配置得到所述分类器。
具体的,首先,配置模块50需要对样本文件库中的各样本文件配置对应的标识,标记出各样本文件的类别。在本实施例中,样本文件的类别包括:垃圾文件和非垃圾文件。
配置模块50在训练分类器时,需要获取各样本文件的标识,用以获取各样本文件的类别是否为垃圾文件。
在配置模块50得到样本文件后,提取样本文件的特征信息及所述样本文件父文件夹的特征信息。
具体的,配置模块50提取的样本文件的特征信息可以包括样本文件的文件名称、文件大小、文件打开方式、文件的访问频率。在本实施例中配置模块50提取的样本文件的特征信息须包含上述信息项中的至少一项。
样本文件的父文件夹信息可以包括父文件夹名称和路径、父文件夹下文件大小方差、父文件夹下最大文件的大小。在本实施例中配置模块50提取的样本文件父文件夹信息须包含上述信息项中至少一项。
配置模块50将所述样本文件的特征信息、所述样本文件父文件夹的特征信息,以及所述样本文件的标识输入分类器模型,以供所述分类器模型训练得到各特征信息对应的权重。
在配置模块50得到样本文件的特征信息和其父文件夹的特征信息后,作为一种实施方式,配置模块50将样本文件的特征信息、样本文件父文件夹的特征信息,以及样本文件的标识输入分类器模型,训练分类器模型,得到样本文件及其父文件夹的各特征信息的权重。
需要说明的是,样本文件及其父文件夹的各特征信息的权重包括各个特征对应的权重,以及关联特征的权重。其中,各个特征信息的权重表征了各个特征单独出现在样本文件中时,对样本文件是否为垃圾文件的影响力。关联特征是指当多个特征以并存或互斥关系出现在样本文件中时,对样本文件是否为垃圾文件的影响力。例如,现有A和B两个特征,当样本文件具有A特征时其为垃圾文件的概率为1%,当有B特征时其为垃圾文件的概率为1%,但是当样本文件同时有A和B特征时,其为垃圾文件的概率为90%,那么A和B的共同出现对样本文件是否为垃圾文件或非垃圾文件具有显著的影响,A和B即为关联特征,并且,A和B作为关联特征对应的权重值也较高。
配置模块50将得到样本文件和其父文件夹的各特征信息及对应的权重,配置到分类器模型中,得到训练后的分类器。
市场上手机应用软件软件的发展日新月异,手机文件的各类特征信息也会发生变化,因此该分类器会由配置模块50定期利用新的样本文件进行再训练和配置,以确保其分类器输出的准确性。
配置模块50通过使用大量样本文件特征信息和父文件夹特征信息对分类器模型进行训练,得到的各特征对应的权重值能够更加准确的形容特征对文件是否垃圾文件的影响力,从而提高了分类器输出的分类结果准确性,以及待识别文件为垃圾文件概率准确性。
在本实施例中,配置模块50依据采集的样本应用软件的垃圾文件路径信息,配置垃圾字典;配置模块50根据预先配置的样本文件中各类别垃圾文件的父文件夹名称和路径,配置所述垃圾文件存储规则集,从而能够根据垃圾文件存储规则集判断待识别文件的父文件夹名称和路径是否符合垃圾文件的存储规则,进而得到待识别文件为垃圾文件的概率;配置模块50根据样本文件训练分类器模型得到的分类器,该分类器能够准确的计算出待识别文件为垃圾文件的概率,对待识别文件进行分类。
进一步的,参照图3,本发明垃圾文件识别装置第四实施例提供一种垃圾文件识别装置,基于上述本发明垃圾文件识别装置第一实施例、第二实施例或第三实施例(本实施例以上述本发明垃圾文件识别装置第一实施例为例),所述标记模块40还用于:
若所述待识别文件为垃圾文件的综合概率小于所述预设阀值,则将所述待识别文件标记为非垃圾文件。
本实施例与上述本发明垃圾文件识别装置第一实施例、第二实施例和第三实施例的区别在于:当待识别文件的综合概率小于预设的阈值时,将其标记为非垃圾文件,可以减少后续再次识别垃圾文件时的资源浪费。
具体的,在确定了待识别文件为垃圾文件的综合概率后,标记模块40比较此综合概率与预设阀值的大小,若待识别文件的综合概率小于预设阀值时,则标记模块40将该待识别文件识别为非垃圾文件。
例如,预设定的阀值为0.95,若待识别文件的综合概率超过0.95,表示依靠垃圾文件存储规则集和预设的分类器的联合判定,该待识别文件有95%以上的可能属于垃圾文件;若待识别文件的综合概率小于0.95,就表示此待识别文件是非垃圾文件。
作为另外一种实施方式,还可以预设不止一个阀值,例如,预设第一阀值和第二阀值,且第一阀值大于第二阀值,当待识别文件的综合概率超过第一阀值,将该待识别文件识别为垃圾文件;当待识别文件的综合概率小于第一阀值且大于第二阀值时,将该待识别文件识别为嫌疑文件;当待识别文件的综合概率小于第一阀值,将该待识别文件识别为正常文件。
在本发明实施中,若待识别文件为垃圾文件的综合概率小于预设阀值,则标记模块40将该待识别文件识别为非垃圾文件。本实施例确保了垃圾文件识别的准确性,减少了对正常文件的误判,提高了垃圾文件的识别率。
参照图5,本发明垃圾文件识别方法第一实施例提供一种垃圾文件识别方法,可通过上述本发明垃圾文件识别装置第一实施例具体实现。所述垃圾文件识别方法包括以下步骤:
步骤S10、获取待识别文件的父文件夹路径,判断所述路径是否位于预设的垃圾字典中。
本发明提供一种解决方案,在垃圾字典识别的基础上,增加了垃圾文件存储规则集和基于文件及其父文件夹特征信息的分类器的综合识别,引入了综合概率,通过比较综合概率与预设阀值来确定待识别文件是否为垃圾文件,实现多维识别,在保证识别的垃圾文件的准确性基础上,减少了垃圾文件的遗漏,提高了垃圾文件的识别率。
具体的,作为一种实施方式,首先,扫描获得待识别文件的父文件夹路径,检查此路径是否位于预设的垃圾字典数据中。需要说明的是,该垃圾字典包含了预先收所集的各大应用软件软件产生的垃圾文件父文件夹固定路径。
若待识别文件的父文件夹路径位于垃圾字典中,则直接将待识别文件标记为垃圾文件。
由于垃圾字典范围的局限性,即使待识别文件的父文件夹路径不位于垃圾字典中,也不能就此确定待识别文件为非垃圾文件。
步骤S20、若所述路径不位于所述垃圾字典中,则提取所述待识别文件的特征信息和父文件夹信息。
若待识别文件的父文件夹路径不位于垃圾字典,则需要收集待识别文件的特征信息及待识别文件的父文件夹信息,进行进一步的校验。
具体的,作为一种实施方式,待识别文件的特征信息可以包括待识别文件的文件名称、文件大小、文件打开方式、文件的访问频率等。在本实施例中提取的待识别文件的特征信息包含上述信息中的至少一项,当然,还可以根据实际需要提取待识别文件的其他特征信息。
待识别文件的父文件夹信息可以包括父文件夹名称和路径、父文件夹下文件大小方差、父文件夹下最大文件的大小。在本实施例中提取的待识别文件父文件夹信息至少包含上述信息中父文件夹名称和路径,当然,还可以根据实际需要提取父文件夹的其他信息。
步骤S30、根据所述待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算所述待识别文件为垃圾文件的综合概率。
具体的,作为一种实施方式,预先配置的分类器可以根据待识别文件的特征信息等信息,对待识别文件进行分类,得到待识别文件为垃圾文件或非垃圾文件的分类结果,或是得到待识别文件为垃圾文件的概率。
垃圾文件存储规则集包含了各类别垃圾文件对应的规则项,各规则项记载了对应的各类别垃圾文件父文件夹命名和存储路径的规则信息。
各规则项可以是预先分析样本文件库中各类别垃圾文件父文件夹名称的命名规律及存储路径的规律得到的,例如,cache(缓存)类垃圾文件的父文件夹名称一般都是cache,存储路径通常为/data/data/包名/cache,对应可以总结得到cache类垃圾文件的规则项。其中,样本文件库中的文件为提取的移动终端中的随机样本文件,包含了已标识的各类别垃圾样本文件和非垃圾样本文件。
由此,可以根据待识别文件的父文件夹信息及垃圾文件存储规则集中的各规则项,判断待识别文件的父文件夹名称和路径是否符合垃圾文件的命名和存储路径规则,也即查找垃圾文件存储规则集中是否有与待识别文件的父文件夹名称和路径匹配的规则项。例如,待识别文件的父文件夹名称为ab.cache,且存储路径为/data/data/应用软件软件ab/cache,符合cache类垃圾文件的命名和存储规则,也即,待识别文件的父文件夹名称和路径与cache类垃圾文件的规则项匹配。
同时,将待识别文件的各项特征信息输入分类器,获取分类器输出的待识别文件的类别。
取垃圾文件存储规则集中有与待识别文件的父文件名称和路径匹配的规则项作为条件1;取分类器输出待识别文件的类别为垃圾文件作为条件2。
若待识别文件同时符合条件1和2时,则取待识别文件为垃圾文件的综合概率为预设的第一概率值;若待识别文件只符合条件1和2中的任一项,取待识别文件为垃圾文件的综合概率为预设的第二概率值;若待识别文件不符合条件1和2中的任一项,取待识别文件为垃圾文件的综合概率为预设的第三概率值。
由此,得到待识别文件为垃圾文件的综合概率。
步骤S40、若所述待识别文件为垃圾文件的综合概率大于或等于预设阀值,则将所述待识别文件标记为垃圾文件。
其中,预设阀值是为了减少对正常文件的误判,例如,阀值可以设置为90%,在移动终端的垃圾文件清理中,若正常文件被误判为垃圾文件而被清理,将会对手机使用造成很严重的影响,因此,可以配置预设的阈值为较高的概率值。
在本实施例中,先利用垃圾字典识别待识别文件,若待识别文件的父文件夹名称和路径在垃圾字典中,则将此待识别文件直接识别为垃圾文件;若不在,则提取待识别文件的特征信息和父文件夹信息;然后,根据待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算此待识别文件为垃圾文件的综合概率;若该待识别文件为垃圾文件的综合概率大于或等于预设阀值,则将该待识别文件标记为垃圾文件。本实施例在垃圾字典识别的基础上,增加了垃圾文件存储规则集和分类器,对垃圾字典未识别出的文件进行了进一步的识别、校验,得到待识别文件为垃圾文件综合概率,通过比较综合概率与预设阀值来确定待识别文件是否为垃圾文件,减少了对正常文件的误判,实现了对待识别文件的多维度分析、校验,在保证识别的垃圾文件的准确性基础上,有效减少了垃圾文件的遗漏,提高了垃圾文件的识别率。
进一步的,参照图6,本发明垃圾文件识别方法第二实施例提供一种垃圾文件识别方法,可通过上述本发明垃圾文件识别装置第二实施例具体实现。基于上述图5所示的实施例,所述待识别文件的父文件夹信息包括父文件夹的名称、路径和特征信息,所述步骤S30包括:
步骤S31、根据所述垃圾文件存储规则集和所述待识别文件的父文件夹名称、路径,计算所述待识别文件为垃圾文件的第一概率。
本实施例与上述本发明垃圾文件识别方法第一实施例的区别在于:本实施例分别根据垃圾文件存储规则集和分类器计算待识别文件为垃圾文件的第一概率和第二概率,进而根据预设的权重值计算综合概率,得到的综合概率能够更加准确的描述待识别文件为垃圾文件的概率。
具体的,待识别文件的父文件夹信息包括父文件夹的名称、路径和特征信息。其中,父文件夹的特征信息包括父文件夹下文件大小方差、父文件夹下最大文件的大小等。
为了提升垃圾文件识别的准确率,在根据样本数据库总结得到各类垃圾文件的父文件夹命名和存储路径的规则项后,分别根据样本据库中各样本文件的父文件夹的名称和路径,判断其是否符合垃圾文件存储规则数据库中规则项。
然后,将样本文件库中符合垃圾文件存储规则数据库中规则项的样本文件,作为匹配的样本文件,统计匹配的样本文件数量。
然后,作为一种实施方式,由于样本文件库中各个样本文件已标识有其是否为垃圾文件,因此,可以根据匹配的样本文件的标识,统计匹配的样本文件中垃圾文件的数量,计算得到匹配的样本文件为垃圾文件的概率。然后,将匹配的样本文件为垃圾文件的概率作为垃圾文件存储规则集对应的权重值。
当待识别文件的父文件夹名称和路径符合垃圾文件存储规则集中的任一规则项时,则取垃圾文件存储规则集对应的权重值为第一概率;当待识别文件的父文件夹名称和路径不符合垃圾文件存储规则集中的任一规则项时,则取第一概率为0。
作为另一种实施方式,还可以根据与同一规则项匹配的样本文件中垃圾文件的数量,分别计算得到与各规则项匹配的样本文件为垃圾文件的概率,作为各规则项对应的权重值。
例如,垃圾文件存储规则集中包含规则项1、2、3……n,对应的文件类别分别为1、2、3……n。
取样本文件库中,父文件夹名称和路径符合规则项1的样本文件数量为A1,符合规则项2的样本文件数量为A2,符合规则项3的样本文件数量为A3…,符合规则项n的样本文件数量为An;取父文件夹名称和路径符合规则项1的样本文件中垃圾文件的数量为B1,符合规则项2的样本文件中垃圾文件的数量为B2,符合规则项3的样本文件中垃圾文件的数量为B3…,符合规则项n的样本文件中垃圾文件的数量为Bn。
取各规则项1、2、3……n对应的权重值分别为P1、P2、P3……Pn,则有:
P1=(B1/A1)×100%;
P2=(B2/A2)×100%;
P3=(B3/A3)×100%;
……
Pn=(Bn/An)×100%。
由此,得到垃圾文件存储规则集中各规则项对应的权重值。
若待识别文件的父文件夹名称和路径符合垃圾文件存储规则集中的一规则项时,则取此规则项对应的权重值作为第一概率;若待识别文件的父文件夹名称和路径不符合垃圾文件存储规则集中的任一规则项时,则取第一概率为0。
由此,得到待识别文件为垃圾文件的第一概率。
步骤S32、将所述待识别文件的特征信息和所述待识别文件父文件夹的特征信息输入所述分类器,获取所述分类器输出的所述待识别文件为垃圾文件的第二概率。
预先配置的分类器可以对输入的文件进行分类,得到文件为垃圾文件的概率和非垃圾文件的概率,进而根据预设的判定条件得到文件的类别。例如,预先配置的分类器可以是预先训练后的SVM(Support Vector Machine,支持向量机)分类器。
具体的,将待识别文件的特征信息及其父文件夹的特征信息,输入分类器。分类器根据待识别文件的特征信息及其父文件夹的特征信息,对待识别文件进行分类,计算得到待识别文件为垃圾文件类别的概率,并输出待识别文件为垃圾文件类别的概率。
在得到待识别文件为垃圾文件类别的概率后,将此概率作为待识别文件为垃圾文件的第二概率。
步骤S33、依据所述第一概率、第二概率及预设的权重值,计算所述待识别文件为垃圾文件的综合概率。
在得到第一概率和第二概率后,根据预先设定的第一概率和第二概率的权重值,计算待识别文件为垃圾文件的综合概率。
具体的,作为一种实施方式,第一概率用P(1)表示,第二概率用P(2)表示,综合概率用P(0)表示,预先设定的第一概率P(1)权重值α,第二概率P(2)的权重值为β,那么综合概率P(0)计算如下:
P(0)=P(1)×α+P(2)×β
权重值可以根据第一概率和第二概率的重要性进行配置。
在本实施例中,首先根据垃圾文件存储规则集和待识别文件的父文件夹名称、路径,计算该待识别文件为垃圾文件的第一概率;再将该待识别文件的特征信息和该待识别文件父文件夹的特征信息输入所述分类器,获取此分类器输出的该待识别文件为垃圾文件的第二概率;依据第一概率、第二概率及预设的权重值,计算该待识别文件为垃圾文件的综合概率。本实施基于垃圾文件规则集和配置的分类器,独立计算出了待识别文件为垃圾文件的第一概率和第二概率,并引入第一概率和第二概率的重要性权值,计算出待识别文件为垃圾文件的综合概率。本实施例提供了一种更准确的计算待识别文件为垃圾文件的综合概率的方法,而依据此综合概率和预设阈值来判断待识别文件是否为垃圾文件,可以在保证识别文件的准确性的基础上,减少对正常文件的误判和对垃圾文件的遗漏,提高了垃圾文件的识别率。
进一步的,参照图7,本发明垃圾文件识别方法第三实施例提供一种垃圾文件识别方法,可通过上述本发明垃圾文件识别装置第三实施例具体实现。基于上述图6所示的实施例,所述垃圾文件识别方法还包括:
步骤S50、依据采集的样本应用软件的垃圾文件路径信息,配置所述垃圾字典。
本实施例与上述本发明垃圾文件识别方法第二实施例的区别在于:本实施例通过大量的样本应用软件和样本文件,配置得到垃圾字典、垃圾文件存储规则集和分类器。
手机中的各种应用软件在安装和使用过程中会产生垃圾文件,大部分这些垃圾文件会依照各个应用软件的设定存放在手机中,因此,可以通过大量测试,采集到样本应用软件产生垃圾文件的路径信息,然后将这些路径信息整理成垃圾字典。
其中,样本应用软件的范围应足够大,但由于手机应用软件市场上应用软件繁多,设计人员很难对每个应用软件都进行测试来寻找其垃圾路径,而且即使对于常用的应用软件,也很难测试出所有的垃圾路径,所以垃圾字典在涵盖范围上具有一定的局限性。
具体的,作为一种实施方式,例如,样本应用软件可以包含QQ、微信、支付宝、各类浏览器及播放器等常用手机软件。可以通过大量测试,采集到上述样本应用软件产生垃圾文件的路径信息,然后将这些路径信息整理成垃圾字典。
进一步的,垃圾字典会可以定期添加、更新和维护,以跟上移动终端应用软件市场的发展。
步骤S60、根据预先配置的样本文件中各类别垃圾文件的父文件夹名称和路径,配置所述垃圾文件存储规则集。
具体的,作为一种实施方式,预先配置有样本文件库,样本文件库中包含有大量的垃圾样本文件和非垃圾样本文件。样本文件库中的样本文件可以是在不同移动终端中随机抽取的批量文件,例如,在不同的手机中随机抽取10000个文件作为样本文件,配置到样本文件库中,其中包括随机数量比的垃圾文件和非垃圾文件。
首先,获取样本文件库中各类别垃圾样本文件的父文件夹命名和存储路径的规律,配置对应的规则项。各规则项记载了对应的各类别垃圾样本文件父文件夹命名和存储路径的规则信息。
然后,根据得到的各规则项配置得到垃圾文件存储规则集。
例如,log类垃圾文件的父文件夹名称一般都是以log结尾的,可以配置记载其父文件夹名称和路径规则信息的规则项为:/data/data/包名/***log,其中***为通配符。
步骤S70、根据所述样本文件训练分类器模型得到所述分类器。
在训练分类器时,为了提升分类器的准确性,可以采用大量的训练样本输入分类器模型。其中,训练样本可以是样本文件库中的垃圾样本文件和非垃圾样本文件,已标识有类别信息;分离器模型可以是SVM分类器模型等。
具体的,首先,提取样本文件的特征信息,将样本文件的特征信息输入分类器模型,以使分类器模型根据各样本文件的类别及特征信息,训练分类算法,直至分类器模型能够根据样本文件的特征信息,将样本文件分到正确的类别。在分类正确率到达预设值时,可以停止训练,得到完成训练的分类器。
由此,得到的分类器能够根据输入的文件的特征信息,计算其为垃圾文件的概率,或者直接输出文件的分类结果。
进一步的,参照图8,作为一种实施方式,所述步骤S70包括:
步骤S71、获取所述样本文件的标识,所述样本文件的标识表征了所述样本文件是否为垃圾文件。
具体的,首先需要对样本文件库中的各样本文件配置对应的标识,标记出各样本文件的类别。在本实施例中,样本文件的类别包括:垃圾文件和非垃圾文件。
在训练分类器时,需要获取各样本文件的标识,用以获取各样本文件的类别是否为垃圾文件。
步骤S72、提取所述样本文件的特征信息及所述样本文件父文件夹的特征信息。
在得到样本文件后,提取样本文件的特征信息及所述样本文件父文件夹的特征信息。
具体的,提取的样本文件的特征信息可以包括样本文件的文件名称、文件大小、文件打开方式、文件的访问频率。在本实施例中提取的样本文件的特征信息须包含上述信息项中的至少一项。
样本文件的父文件夹信息可以包括父文件夹名称和路径、父文件夹下文件大小方差、父文件夹下最大文件的大小。在本实施例中提取的样本文件父文件夹信息须包含上述信息项中至少一项。
步骤S73、将所述样本文件的特征信息、所述样本文件父文件夹的特征信息,以及所述样本文件的标识输入分类器模型,以供所述分类器模型训练得到各特征信息对应的权重。
在得到样本文件的特征信息和其父文件夹的特征信息后,作为一种实施方式,将样本文件的特征信息、样本文件父文件夹的特征信息,以及样本文件的标识输入分类器模型,训练分类器模型,得到样本文件及其父文件夹的各特征信息的权重。
需要说明的是,样本文件及其父文件夹的各特征信息的权重包括各个特征对应的权重,以及关联特征的权重。其中,各个特征信息的权重表征了各个特征单独出现在样本文件中时,对样本文件是否为垃圾文件的影响力。关联特征是指当多个特征以并存或互斥关系出现在样本文件中时,对样本文件是否为垃圾文件的影响力。例如,现有A和B两个特征,当样本文件具有A特征时其为垃圾文件的概率为1%,当有B特征时其为垃圾文件的概率为1%,但是当样本文件同时有A和B特征时,其为垃圾文件的概率为90%,那么A和B的共同出现对样本文件是否为垃圾文件或非垃圾文件具有显著的影响,A和B即为关联特征,并且,A和B作为关联特征对应的权重值也较高。
步骤S74、根据所述各特征信息及对应的权重配置得到所述分类器。
将得到样本文件和其父文件夹的各特征信息及对应的权重,配置到分类器模型中,得到训练后的分类器。
市场上手机应用软件软件的发展日新月异,手机文件的各类特征信息也会发生变化,因此该分类器会定期被利用新的样本文件进行再训练和配置,以确保其分类器输出的准确性。
此种训练分类器模型得到分类器的方法,通过使用大量样本文件特征信息和父文件夹特征信息对分类器模型进行训练,得到的各特征对应的权重值能够更加准确的形容特征对文件是否垃圾文件的影响力,从而提高了分类器输出的分类结果准确性,以及待识别文件为垃圾文件概率准确性。
在本实施例中,依据采集的样本应用软件的垃圾文件路径信息,配置垃圾字典;根据预先配置的样本文件中各类别垃圾文件的父文件夹名称和路径,配置所述垃圾文件存储规则集,从而能够根据垃圾文件存储规则集判断待识别文件的父文件夹名称和路径是否符合垃圾文件的存储规则,进而得到待识别文件为垃圾文件的概率;根据样本文件训练分类器模型得到的分类器,能够准确的计算出待识别文件为垃圾文件的概率,对待识别文件进行分类。
进一步的,参照图9,本发明垃圾文件识别方法第四实施例提供一种垃圾文件识别方法,可通过上述本发明垃圾文件识别装置第四实施例具体实现。基于上述本发明垃圾文件识别方法第一实施例、第二实施例或第三实施例(本实施例以上述本发明垃圾文件识别方法第一实施例为例),所述步骤S30之后还包括:
步骤S80、若所述待识别文件为垃圾文件的综合概率小于所述预设阀值,则将所述待识别文件标记为非垃圾文件。
本实施例与上述本发明垃圾文件识别方法第一实施例、第二实施例和第三实施例的区别在于:当待识别文件的综合概率小于预设的阈值时,将其标记为非垃圾文件,可以减少后续再次识别垃圾文件时的资源浪费。
具体的,在确定了待识别文件为垃圾文件的综合概率后,比较此综合概率与预设阀值的大小,若待识别文件的综合概率小于预设阀值时,则将该待识别文件识别为非垃圾文件。
例如,预设定的阀值为0.95,若待识别文件的综合概率超过0.95,表示依靠垃圾文件存储规则集和预设的分类器的联合判定,该待识别文件有95%以上的可能属于垃圾文件;若待识别文件的综合概率小于0.95,就表示此待识别文件是非垃圾文件。
作为另外一种实施方式,还可以预设不止一个阀值,例如,预设第一阀值和第二阀值,且第一阀值大于第二阀值,当待识别文件的综合概率超过第一阀值,将该待识别文件识别为垃圾文件;当待识别文件的综合概率小于第一阀值且大于第二阀值时,将该待识别文件识别为嫌疑文件;当待识别文件的综合概率小于第一阀值,将该待识别文件识别为正常文件。
在本发明实施中,若待识别文件为垃圾文件的综合概率小于预设阀值,则将该待识别文件识别为非垃圾文件。本实施例确保了垃圾文件识别的准确性,减少了对正常文件的误判,提高了垃圾文件的识别率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的可选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。