本申请涉及计算机技术领域,尤其涉及一种文件来源识别方法及装置。
背景技术:
目前,用户的移动终端中通常都安装有大量的应用软件,例如,视频应用软件、购物应用软件、通讯应用软件等,以满足用户对日常生活的需求。然而,在移动终端运行应用软件时,大部分的应用软件都会在移动终端的公共存储空间(即sdcard)中存储大量的文件,如日志文件、图片缓存文件、以及其他多媒体文件等。由于上述文件的存在,极大的浪费了移动终端的存储空间,从而使得移动终端性能降低,例如,移动终端运行速度降低等。
为了解决由于移动终端中存储了大量的各应用软件生成的文件,而导致的移动终端性能降低的问题,需对移动终端中存储的文件进行清理。然而,在对移动终端中存储的文件进行清理时,首先要识别各文件的来源,即各文件是由那个应用软件生成的,然后,根据文件的来源确定是否要删除文件。
当前,常采用人工运营的方式识别文件来源,然而,上述方式识别速度慢、成本高且很难覆盖到新生成的文件。
技术实现要素:
本申请实施例的目的是提供一种文件来源识别方法及装置,以解决文件来源识别速度慢、成本高且很难覆盖到新生成的文件等问题。
为达到以上目的,本申请实施例是这样实现的:
本申请实施例提供了一种文件来源识别方法,包括:
定时获取多个移动终端中的各所述移动终端在预设时间间隔内存储的文件,并获取各所述移动终端中的应用软件;
分别将各所述移动终端的文件与其应用软件进行关联;
根据各所述移动终端的文件与其应用软件的关联关系,确定各所述文件与各所述应用软件的关联次数;
根据各所述文件与各所述应用软件的关联次数,从所述应用软件中选取与生成所述文件相关的候选应用软件。
本申请实施例还提供了一种文件来源识别装置,包括:
获取模块,用于定时获取多个移动终端中的各所述移动终端在预设时间间隔内存储的文件,并获取各所述移动终端中的应用软件;
关联模块,用于分别将各所述移动终端的文件与其应用软件进行关联;
第一确定模块,用于根据各所述移动终端的文件与其应用软件的关联关系,确定各所述文件与各所述应用软件的关联次数;
选取模块,用于根据各所述文件与各所述应用软件的关联次数,从所述应用软件中选取与生成所述文件相关的候选应用软件。
本申请实施例中,通过定时获取各移动终端在预设时间间隔内存储的文件以及其中的应用软件,将各移动终端的文件与其应用软件进行关联,并根据各移动终端的文件与其应用软件的关联关系,确定各文件与各应用软件的关联次数,以及根据各文件与各应用软件的关联次数,从应用软件中选取与生成文件相关的候选应用软件。一方面,通过将各移动终端中的文件与其应用软件进行关联,以根据各移动终端中的文件与其应用软件的关联关系确定各文件与各应用软件的关联次数,进而根据各文件与各应用软件的关联次数,从应用软件中选取与生成文件相关的候选应用软件,即能够自动选取与生成文件相关的候选应用软件,且步骤简单易于执行,大大的提高了识别文件来源的速度和效率,降低了识别成本,从而提高了文件清理的速度,降低了文件清理成本;另一方面,由于能够自动选取与生成文件相关的候选应用软件,可以在一定程度上避免人为因素的影响,提高识别文件来源的准确率;又一方面,由于定时获取各移动终端中的文件和应用软件,以根据各移动终端的文件和应用软件定时对各移动终端的文件的来源进行识别,从而实现对新生文件的及时覆盖,即及时对新生文件的来源进行识别,以根据新生文件的来源及时对新生成文件进行清理。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的文件来源识别方法的流程示意图;
图2为本申请一实施例提供的将各移动终端的文件与其应用软件进行关联的流程示意图;
图3为本申请一实施例提供的确定生成文件的应用软件的流程示意图;
图4为本申请一实施例提供的文件来源识别装置的结构示意图;
图5为本申请一实施例提供的文件来源识别设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1为本申请一实施例提供的文件来源识别方法的流程示意图,如图1所示,该方法可以包括步骤s110~s140,其中:
步骤s110、定时获取多个移动终端中的各所述移动终端在预设时间间隔内存储的文件,并获取各所述移动终端中的应用软件;
步骤s120、分别将各所述移动终端的文件与其应用软件进行关联;
步骤s130、根据各所述移动终端的文件与其应用软件的关联关系,确定各所述文件与各所述应用软件的关联次数;
步骤s140、根据各所述文件与各所述应用软件的关联次数,从所述应用软件中选取与生成所述文件相关的候选应用软件。
本申请实施例中,一方面,通过将各移动终端中的文件与其应用软件进行关联,以根据各移动终端中的文件与其应用软件的关联关系确定各文件与各应用软件的关联次数,进而根据各文件与各应用软件的关联次数,从应用软件中选取与生成文件相关的候选应用软件,即能够自动选取与生成文件相关的候选应用软件,且步骤简单易于执行,大大的提高了识别文件来源的速度和效率,降低了识别成本,从而提高了文件清理的速度,降低了文件清理成本;另一方面,由于能够自动选取与生成文件相关的候选应用软件,可以在一定程度上避免人为因素的影响,提高识别文件来源的准确率;又一方面,由于定时获取各移动终端中的文件和应用软件,以根据各移动终端的文件和应用软件定时对各移动终端的文件的来源进行识别,从而实现对新生文件的及时覆盖,即及时对新生文件的来源进行识别,以根据新生文件的来源及时对新生成文件进行清理。
下面,将参照图1对本申请实施例中提供的文件来源识别方法做进一步的说明。
在步骤s110中,定时获取多个移动终端中的各所述移动终端在预设时间间隔内存储的文件,并获取各所述移动终端中的应用软件。
在本申请实施例中,所述移动终端例如可以为手机、平板电脑、电子阅读器等,本示例性实施例对此不做特殊限定。所述应用软件可以包括各种类型的应用软件,例如,视频应用软件、购物应用软件、通讯应用软件等,本示例性实施例对此不做特殊限定。所述移动终端中存储的文件可以包括各应用软件生成的文件、系统文件等,本示例性实施例对此不做特殊限定。
由于定时获取各移动终端中的文件,以定时对各移动终端中的文件的来源进行识别,即若每天12点获取各移动终端中的文件与其应用软件,则每天12点对移动终端中的文件进行来源识别,即每隔24小时对移动终端中的文件的来源进行一次识别,因此,为了避免重复识别,仅对存储时间在本次获取移动终端的文件到上次获取移动终端的文件的时间间隔内存储的文件的来源识别,因此,需要定时获取各移动终端在预设时间间隔内存储的文件,其中,预设时间间隔指从上次获取移动终端中的文件到本次获取移动终端中的文件的时间间隔。
在本申请实施例中,可以通过一获取模获取各移动终端在预设时间间隔内存储的文件的名称、文件的内容等中的至少一种,并通过该获取模块获取各移动终端中的应用软件的名称、应用软件的安装包等中的至少一种。
定时获取各移动终端在预设时间间隔内存储的文件,并获取各移动终端中的应用软件的过程可以包括以下两种方式:
方式一,设置一固定时间,其中,固定时间的具体数值可以自行设置,例如,固定时间可以为每天早上八点、每天凌晨一点、每天晚上十二点等,本示例性实施例对此不做特殊限定。下面,以固定时间为每天早上八点为例对上述步骤s110进行说明。在每天早上八点获取各移动终端中从前一天八点到当天八点之间存储的文件,并在每天早上八点获取各移动终端中已安装的应用软件。
方式二、按照一预设频率获取多个移动终端中的各所述移动终端在所述预设时间间隔内存储的文件,并在所述预设时间间隔的结束时刻获取各所述移动终端中已安装的应用软件。
在本申请实施例中,获取各移动终端在预设时间间隔内存储的文件的方式可以包括以下两种。
第一种,在预设时间间隔的结束时刻,获取各移动终端中存储的文件,以及各移动终端中存储的文件的生成时间,根据各移动终端中存储的文件的生成时间,筛选出各移动终端在预设时间间隔内存储的文件。
第二种,在预设时间间隔的开始时刻,获取各移动终端中存储的文件,并将其标记为各移动终端的第一文件,然后,在预设时间间隔的结束时刻获取各移动终端中存储的文件,并将其标记为各移动终端的第二文件,最后,在各移动终端的第二文件中筛除掉对应的各移动终端的第一文件,将各移动终端的第二文件中剩余的文件确定为各移动终端在预设时间间隔内存储的文件。
所述预设频率可以根据预设时间间隔进行设置,例如,在预设时间间隔为24小时,预设频率为一次/24小时,即每24小时获取一次。下面,将以预设时间间隔为24小时,且预设时间间隔从每天的00:00点钟到24:00点钟为例,对获取一个移动终端在一天的24小时内存储的文件的过程进行说明。
采用上述第一种方式获取文件的过程包括:在该天的24:00点钟获取移动终端中存储的文件,并获取每个文件的生成时间,然后,根据每个文件的生成时间,判断每个文件的生成时间是否在该天的00:00点钟到24:00点钟内,并将生成时间在该天的00:00点钟到24:00点钟内的文件确定为该移动终端在该天的24小时内生成的文件。
采用上述第二种方式获取文件的过程包括:在该天的00:00获取移动终端中已经存储的文件,并将其标记为第一文件,然后,在该天的24:00获取移动终端中已存储的文件,并将其标记为第二文件,最后,在第二文件中筛除掉第一文件,并将剩余的文件确定为该移动终端在该天的24小时内存储的文件。
需要说明的是,可以在获取各移动终端在预设时间间隔内存储的文件的同时,获取各移动终端中的应用软件;也可以先获取各移动终端在预设时间间隔内存储的文件,再获取各移动终端中的应用软件;还可以先获取各移动终端中的应用软件,再获取各移动终端在预设时间间隔内存储的文件,本示例性实施例对此不做特殊限定。
由上可知,由于定时获取各移动终端中的文件和应用软件,以根据各移动终端的文件和应用软件定时对各移动终端的文件的来源进行识别,从而实现对新生文件的及时覆盖,即及时对新生文件的来源进行识别,以根据新生文件的来源及时对新生成文件进行清理。
在步骤s120中,分别将各所述移动终端的文件与其应用软件进行关联。
在本申请实施例中,可以采用以下三种方式将根据上述步骤s110获取的各移动终端的文件与其应用软件进行关联,具体的:
方式一、分别将各移动终端中的各文件与其中的各应用软件进行关联。具体的关联过程可以包括:分别将各所述移动终端中的各所述文件与其中的各所述应用软件作为一个关联信息存储在一关联数据表中,即将每一个移动终端中的每一个文件与其中每一个应用软件作为一个关联信息存储在关联数据表中,以实现每一个终端中的每一个文件与其中的每一个应用软件之间的关联。具体的,若步骤s110中获取的是文件的名称和应用软件的名称,则上述方式一的过程可以为:分别将各移动终端中的每个文件的名称与其中的每个应用软件的名称作为一个关联信息存储在关联数据表中,以完成各移动终端的每个文件与其中的每个应用软件的关联;若步骤s110中获取的是文件的内容与应用软件的名称,则上述方式一的过程可以为:分别将各移动终端中的每个文件的内容与其中的每个应用软件的名称作为一个关联信息存储在关联数据表中,以完成各移动终端中的每个文件与其中的每个应用软件的关联;若步骤s110中获取的是文件的名称与应用软件的安装包,则上述方式一的过程可以包括:分别将各移动终端中的每个文件的名称与其中的每个应用软件的安装包作为一个关联信息保存在关联数据表中,以完成各移动终端中的每个文件与其中的每个应用软件的关联;若步骤s110中获取的是文件的内容与应用软件的安装包,则上述方式一的过程可以包括:分别将各移动终端中的每个文件的内容与其中的每个应用软件的安装包作为一个关联信息保存在关联数据表中,以完成各移动终端中的每个文件与其中的每个应用软件的关联。
例如,若移动终端包括两个移动终端,分别为移动终端a和移动终端b,其中移动终端a中包括5个文件,分别为第一文件至第五文件,移动终端a中包括3个应用软件,分别为第一应用软件至第三应用软件,移动终端b中包括4个文件,分别为第一文件、第三文件、第五文件和第六文件,移动终端b中包括3个应用软件,分别为第一应用软件、第三应用软件和第四应用软件。若获取的是文件的名称和应用软件的名称,则对移动终端a中的文件和其中的应用软件进行关联的过程可以包括:将第一文件的名称与第一应用软件的名称作为一个关联信息保存至关联数据表中,以完成第一文件与第一应用软件的关联;将第一文件的名称与第二应用软件的名称作为一个关联信息保存至关联数据表中,以完成第一文件与第二应用软件的关联;将第一文件的名称与第三应用软件的名称作为一个关联信息保存至关联数据表中,以完成第一文件与第三应用软件的关联;同理,按照上述过程将第二文件分别与第一应用软件至第三应用软件进行关联,将第三文件分别与第一应用软件至第三应用软件进行关联,将第四文件分别与第一应用软件至第三应用软件进行关联,以及将第五文件分别与第一应用软件至第三应用软件进行关联。对移动终端b中的文件和其中的应用软件进行关联的过程可以包括:将第一文件的名称与第一应用软件的名称作为一个关联信息存储在关联数据表中,以完成第一文件与第一应用软件的关联;将第一文件的名称与第三应用软件的名称作为一个关联信息保存在关联数据表中,以完成第一文件与第三应用软件的关联;将第一文件的名称与第四应用软件的名称作为一个关联信息保存至关联数据表中,以完成第一文件与第四应用软件的关联;同理,按照上述过程将第三文件分别与第一应用软件、第三应用软件和第四应用软件进行关联,将第五文件分别与第一应用软件、第三应用软件和第四应用软件进行关联;以及将第六文件分别与第一应用软件、第三应用软件和第四应用软件进行关联。
需要说明的是,所有移动终端中的文件与其中的应用软件的关联信息可以保存在一个关联数据表中,也可以将每个移动终端中的文件与其中的应用软件的关联信息分别保存在不同的关联数据表中,即一个移动终端对应一个关联数据表。
方式二、根据所述文件的生成时间和所述应用软件的安装时间,分别将各所述移动终端的文件与其应用软件进行关联。具体的,首先可以获取一个移动终端中的每个文件的生成时间以及该移动终端中的各应用软件的安装时间,然后,分别判断各文件的生成时间是否晚于各应用软件的安装时间,若是,则将文件与应用软件关联,若否,则放弃文件与应用软件的关联,最后,重复上述过程,即可完成其他各移动终端的文件与其应用软件的关联。
例如,在移动终端的文件的生成时间为2017年2月10号10点20分,若应用软件安装在该移动终端的时间为2017年1月2号10点,则将文件和应用软件进行关联;若应用软件安装在该移动终端的时间在2017年2月10号18点30分,则不将文件和应用软件进行关联。
需要说明的是,在方式二中,可以通过将文件和应用软件作为一个关联信息保存在关联数据表中的方式将文件和应用软件进行关联。具体的,可以将文件的名称和应用软件的名称作为一个关联信息保存在关联数据表中,也可以将文件的内容和应用软件的名称作为一个关联信息保存在关联数据表中,也可以将文件的名称和应用软件的安装包作为一个关联信息保存在关联数据表中,还可以将文件的内容和应用软件的安装包作为一个关联信息保存在关联数据表中等,本示例性实施例对此不做特殊限定。
方式三、根据由大数据统计得到的关联规则表,分别将各所述移动终端的文件与其应用软件进行关联,其中,所述关联规则表中包括多个已知的文件与应用软件的关联信息。
在本申请实施例中,构建关联规则表的过程可以包括:可以在各移动终端的历史清理数据中获取已知文件和应用软件的关联信息;然后将从各移动终端的历史清理数据中获取的已知文件和应用软件的关联信息进行集合,以构建关联规则表。基于上述关联规则表,如图2,所示,将各移动终端的文件与其应用软件进行关联的过程可以包括:
步骤s210、根据所述文件的名称和存储路径计算各所述移动终端中的文件与关联规则表中的每一个关联信息中的文件的相似度。
在本申请实施例中,可以首先获取每个移动终端中的每个文件的名称和存储路径,并获取关联规则表中的每一个关联信息中的文件的名称和存储路径;然后,根据每个移动终端中的文件的名称和存储路径和关联规则表中的每一个关联信息中的文件的名称和存储路径计算每个移动终端中的每个文件分别与关联规则表中的每个关联信息中的文件的相似度。
步骤s220、将关联规则表中与各所述移动终端中的文件的相似度大于预设相似度的文件所对应的关联信息中的应用软件确定为对应的各所述移动终端中的文件的待关联应用软件。
在本申请实施例中,例如,若关联规则中包括五个关联信息,分别为第一关联信息至第五关联信息,其中第一关联信息至第五关联信息中包括的文件分别为第一文件至第五文件,第一关联信息至第五关联信息中包括的应用软件分别为第一应用软件至第五应用软件,若移动终端中的一个文件与第一文件至第五文件的相似度分别为20、85、90、92、59,且预设相似度为60,则将第二文件、第三文件以及第四文件所属的关联信息中的应用软件确定为该文件的待关联应用软件,即将第二应用软件、第三应用软件以及第四应用软件确定为该文件的待关联应用软件。需要说明的是,上述预设相似度的具体数值可以自行设置,例如可以为60、70、80等,本示例性实施例对此不做特殊限定。
步骤s230、判断各所述移动终端中的应用软件中是否存在与其中的文件的待关联应用软件相同的应用软件,若存在,将各所述移动终端中的文件与其中的与文件的待关联应用软件相同的应用软件进行关联。
在本申请实施例中,根据上述步骤s220中的例子,判断移动终端中是否存在上述第二应用软件、第三应用软件以及第四应用软件,若移动终端中存在第二应用软件、第三应用软件以及第四应用软件,则将文件分别与第二应用软件、第三应用软件、第四应用软件进行关联,若移动终端中仅存在第二应用软件、第三应用软件以及第四应用软件中的任意一个,则将文件与移动终端中存在的应用软件进行关联,若移动终端中存在第二应用软件、第三应用软件、第四应用软件中的任意两个,则将文件分别与移动终端中存在两个应用软件进行关联。
需要说明的是,在方式三中,可以通过将文件和应用软件作为一个关联信息保存在关联数据表中的方式将文件和应用软件进行关联。具体的,可以将文件的名称和应用软件的名称作为一个关联信息保存在关联数据表中,也可以将文件的内容和应用软件的名称作为一个关联信息保存在关联数据表中,也可以将文件的名称和应用软件的安装包作为一个关联信息保存在关联数据表中,还可以将文件的内容和应用软件的安装包作为一个关联信息保存在关联数据表中等,本示例性实施例对此不做特殊限定。
在上述三种方式中,相比于方式一,方式二考虑到文件的生成时间和应用软件的安装时间,在一定程度上减少了应用软件和文件的关联次数,进而在一定程度上减少了后期计算的工作量,同时,也在一定程度上提高了文件与应用软件关联的准确性,进而增加了识别文件来源的准确率,此外,相比于方式一,方式三通过关联规则将移动终端中的文件与其应用软件进行关联,在一定程度上提高了文件和应用软件关联的准确率,进而增加了识别文件来源的准确性。
为了减少文件与应用软件的关联工作量,在所述分别将各所述移动终端的文件与其应用软件进行关联之前还可以包括:计算各所述文件在所述多个移动终端中的出现次数,并分别从各所述移动终端的文件中筛除所述出现次数少于一预设出现次数的文件。
在本申请实施例中,可以基于多个移动终端中的各移动终端中存储的文件,并结合对比的方式,获取每个移动终端中的每个文件在多个移动终端中的出现次数,并将每个移动终端中的每个文件的出现次数与一预设出现次数进行比较,并在每个移动终端的文件中筛除出现次数小于预设出现次数的文件,以将每个移动终端中剩余的文件与其应用软件进行关联,具体的关联方式已在上文中进行了说明,此处不在赘述。所述预设出现次数可以由研发人员根据移动终端的数量并结合经验进行设置,例如,可以为70次、80次等,本示例性实施例对此不做特殊限定。
同样,为了减少文件与应用软件的关联工作量,在所述分别将各所述移动终端的文件与其应用软件进行关联之前还可以包括:在各所述移动终端中的文件中筛除系统文件。
在本申请实施例中,可以根据移动终端中系统文件的命名规则,并结合各移动终端中的文件的名称,判断各移动终端中的文件中哪些文件为系统文件,并在各移动终端中的文件中筛除系统文件,以将各移动终端中剩余的文件与其应用软件进行关联,具体的关联方式已在上文中进行了说明,因此此处不在赘述。需要说明的是,上述判断系统文件的方式仅为示例性的,并不用于限定本发明。由上可知,由于本申请实施例要识别生成文件的应用软件,但是各移动终端中保存的文件可以包括各应用软件生成的文件和系统文件等,因此,在将文件和应用软件关联之前,筛除各移动终端中的系统文件,减小了关联工作量,提高了关联效率,降低了关联成本,进而也提高了识别文件来源的效率,并降低了识别文件来源的成本。
在步骤s130中,根据各所述移动终端的文件与其应用软件的关联关系,确定各所述文件与各所述应用软件的关联次数。
在本申请实施例中,可以根据各移动终端的文件与其应用软件的关联关系,并结合比对的方式,确定每个移动终端的各文件和各应用软件在多个移动终端中的关联次数。例如,若所有移动终端中的文件与应用软件的关联信息均保存在一个关联数据表中,则可以通过将关联数据表中的每个关联信息与其他的各关联信息进行匹配,以获取每个关联信息在关联数据表中的出现次数,进而将每个关联信息在关联数据表中的出现次数确定为对应的每个关联信息中的文件与应用软件的关联次数,进而得到各文件与各应用软件的关联次数。
在步骤s140中,根据各所述文件与各所述应用软件的关联次数,从所述应用软件中选取与生成所述文件相关的候选应用软件。
在本申请实施例中,可以将各移动终端的各文件与各应用软件的关联次数分别与一预设关联次数进行比较,并将与各文件的关联次数大于预设关联次数的应用软件确定为与生成对应的各文件相关的候选应用软件,上述预设关联次数可以由开发人员根据选取候选应用软件的准确率进行设置,本示例性实施例对此不做特殊限定。例如,与文件一关联的应用软件包括应用软件一至应用软件五,与文件二关联的应用软件包括应用软件三至应用软件六,其中,文件一与应用软件一的关联次数为20,文件一与应用软件二的关联次数为50,文件一与应用软件三的关联次数为80,文件一与应用软件四的关联次数为88,文件一与应用软件五的关联次数为96,文件二与应用软件三的关联次数为20,文件二与应用软件四的关联次数为70,文件二与应用软件五的关联次数为55,文件二与应用软件六的关联次数为95,基于此,在预设关联次数为60时,将应用软件三、应用软件四以及应用软件五确定为与生成文件一相关的候选应用软件,将应用软件四和应用软件六确定为与生成文件二相关的候选应用软件。
还可以根据关联次数由高到底的顺序,分别将与各文件关联的各应用软件进行排序,并将与各文件关联的且排在前预设数量的应用软件确定为与生成对应的各文件相关的候选应用软件。所述预设数量可以由开发人员根据选取候选应用软件的准确率进行设置,本示例性实施例对此不做特殊限定。例如,与文件一关联的应用软件包括应用软件一至应用软件五,与文件二关联的应用软件包括应用软件三至应用软件八,且按照关联次数由高到低的顺序对与文件一关联的应用软件进行排序的结果为:应用软件三、应用软件二、应用软件五、应用软件一、应用软件四;按照关联次数由高到低的顺序对与文件二关联的应用软件进行排序的结果为:应用软件七、应用软件三、应用软件五、应用软件八、应用软件六、应用软件四,基于此,在预设数量为3时,将应用软件三、应用软件二、应用软件五确定为与生成文件一相关的候选应用软件,将应用软件七、应用软件三、应用软件五确定为与生成文件二相关的候选应用软件。
综上所述,通过将各移动终端中的文件与其应用软件进行关联,以根据各移动终端中的文件与其应用软件的关联关系确定各文件与各应用软件的关联次数,进而根据各文件与各应用软件的关联次数,从应用软件中选取与生成文件相关的候选应用软件,即能够自动选取与生成文件相关的候选应用软件,且步骤简单易于执行,大大的提高了识别文件来源的速度和效率,降低了识别成本,从而提高了文件清理的速度,降低了文件清理成本;此外,由于能够自动选取与生成文件相关的候选应用软件,可以在一定程度上避免人为因素的影响,提高识别文件来源的准确率。
在得到与生成各文件相关的候选应用软件后,可以通过人工的方式在与生成各文件相关的候选应用软件中确定生成各文件的应用软件,还可以通过下述两种方式自动确定生成各文件的应用软件,以提高识别文件来源的速度和效率。
方式一、根据各所述文件与各所述候选应用软件的关联次数,分别将与各所述文件的关联次数最多的候选应用软件确定为生成各所述文件的应用软件,即,直接将与各文件关联次数最多的候选应用软件确定为生成对应的各文件的应用软件。
方式二、如图3所示,包括步骤s310~s330,其中:
在步骤s310中,获取各所述文件的名称和存储路径,并分别对与生成各所述文件相关的候选应用软件进行扫描,以获得与生成各所述文件相关的候选应用软件的扫描数据。
在步骤s320中,判断与生成各所述文件相关的候选应用软件的扫描数据中是否包括对应的所述文件的名称和存储路径。
在步骤s330中,将与生成各所述文件相关的候选应用软件的扫描数据中包括对应的所述文件的名称和存储路径的候选应用软件确定为生成对应的所述文件的应用软件。
在本申请实施例中,可以通过一获取模块获取一个移动终端中的每个文件的名称和存储路径,并通过一扫描模块对该移动终端中的与生成各文件相关的候选应用软件进行扫描,以得到各候选应用软件的扫描数据。各候选应用软件的扫描数据可以包括各候选应用软件在该移动终端中存储的文件的名称和路径。需要说明的是,重复上述过程得到其他各移动终端中的文件的名称和存储路径,以及其他各移动终端中与生成各文件相关的各候选应用软件的扫描数据。
在得到各移动终端中的文件的名称和存储路径,以及各移动终端中与生成各文件相关的各候选应用软件的扫描数据后,可以首先判断一个移动终端中的与生成一文件相关的各候选应用软件的扫描数据中是否包括该文件的名称和存储路径,并将扫描数据中包括该文件的名称和存储路径的候选应用软件确定为生成该文件的应用软件,然后,重复上述过程,即可得到该移动终端中生成其他各文件的应用软件。需要说明的是,根据上述原理也可以得到其他各移动终端中生成各文件的应用软件。
下面,将以文件包括文件一和文件二,其中,与生成文件一相关的候选应用软件包括第一候选应用软件至第四候选应用软件,与生成文件二相关的候选应用软件包括第三候选应用软件至第七候选应用软件为例对上述步骤s310~s330进行说明。首选分别获取文件一和文件二的名称和存储路径,然后,对与生成文件一相关的第一候选应用软件至第四候选应用软件分别进行扫描,以得到与生成文件一相关的第一候选应用软件的扫描数据、第二候选应用软件的扫描数据、第三候选应用软件的扫描数据、第四候选应用软件的扫描数据,以及,对与生成文件二相关的第三候选应用软件至第七候选应用软件分别进行扫描,以得到与生成文件二相关的第三候选应用软件的扫描数据、第四候选应用软件的扫描数据、第五候选应用软件的扫描数据、第六候选应用软件的扫描数据、第七候选应用软件的扫描数据;最后,判断与生成文件一相关的候选应用的扫描数据(即第一候选应用软件的扫描数据、第二候选应用软件的扫描数据、第三候选应用软件的扫描数据、第四候选应用软件的扫描数据)中的那个候选应用软件的扫描数据中包括文件一的名称和存储路径,若第三候选应用软件的扫描数据中包括文件一的名称和存储路径,则将第三候选应用软件确定为生成文件一的应用软件,以及判断与生成文件二相关的候选应用的扫描数据(即第三候选应用软件的扫描数据、第四候选应用软件的扫描数据、第五候选应用软件的扫描数据、第六候选应用软件的扫描数据、第七候选应用软件的扫描数据)中的那个候选应用软件的扫描数据中包括文件二的名称和存储路径,若第三候选应用软件的扫描数据中包括文件一的名称和存储路径,则将第三候选应用软件确定为生成文件二的应用软件。
对应上述的文件来源识别方法,本申请实施例还提供了一种文件来源识别装置,图4为本申请一实施例提供的文件来源识别装置的结构示意图。如图4所示,该装置400可以包括:获取模块401、关联模块402、第一确定模块403、选取模块404,其中:
获取模块401,可以用于定时获取多个移动终端中的各所述移动终端在预设时间间隔内存储的文件,并获取各所述移动终端中的应用软件;
关联模块402,可以用于分别将各所述移动终端的文件与其应用软件进行关联;
第一确定模块403,可以用于根据各所述移动终端的文件与其应用软件的关联关系,确定各所述文件与各所述应用软件的关联次数;
选取模块404,可以用于根据各所述文件与各所述应用软件的关联次数,从所述应用软件中选取与生成所述文件相关的候选应用软件。
可选的,所述获取模块401,具体可以用于按照一预设频率获取多个移动终端中的各所述移动终端在所述预设时间间隔内存储的文件,并在所述预设时间间隔的结束时刻获取各所述移动终端中已安装的应用软件。
可选的,所述关联模块402,具体可以用于分别将各所述移动终端中的各所述文件与其中的各所述应用软件作为一个关联信息存储在一关联数据表中。
可选的,所述关联模块402,具体可以用于根据所述文件的生成时间和所述应用软件的安装时间,分别将各所述移动终端的文件与其应用软件进行关联。
可选的,所述关联模块402,具体可以用于根据由大数据统计得到的关联规则表,分别将各所述移动终端的文件与其应用软件进行关联,其中,所述关联规则表包括多个已知的文件与应用软件的关联信息。
可选的,所述关联模块402可以包括:
计算单元,用于根据所述文件的名称和存储路径计算各所述移动终端中的文件与关联规则表中的每一个关联信息中的文件的相似度;
确定单元,用于将关联规则表中与各所述移动终端中的文件的相似度大于预设相似度的文件所对应的关联信息中的应用软件确定为对应的各所述移动终端中的文件的待关联应用软件;
关联单元,用于判断各所述移动终端中的应用软件中是否存在与其中的文件的待关联应用软件相同的应用软件,若存在,将各所述移动终端中的文件与其中的与文件的待关联应用软件相同的应用软件进行关联。
可选的,所述装置400还可以包括:
第二确定模块,用于根据各所述文件与各所述候选应用软件的关联次数,分别将与各所述文件的关联次数最多的候选应用软件确定为生成各所述文件的应用软件。
可选的,所述装置400还可以包括:
扫描模块,用于获取各所述文件的名称和存储路径,并分别对与生成各所述文件相关的候选应用软件进行扫描,以获得与生成各所述文件相关的候选应用软件的扫描数据;
判断模块,用于判断与生成各所述文件相关的候选应用软件的扫描数据中是否包括对应的所述文件的名称和存储路径;
第三确定模块,用于将与生成各所述文件相关的候选应用软件的扫描数据中包括对应的所述文件的名称和存储路径的候选应用软件确定为生成对应的所述文件的应用软件。
需要说明的是,上述文件来源识别装置的各模块已经在对应的文件来源识别方法中进行了说明,因此此处不在赘述。
在本申请实施例,通过将各移动终端中的文件与其应用软件进行关联,以根据各移动终端中的文件与其应用软件的关联关系确定各文件与各应用软件的关联次数,进而根据各文件与各应用软件的关联次数,从应用软件中选取与生成文件相关的候选应用软件,即能够自动选取与生成文件相关的候选应用软件,且步骤简单易于执行,大大的提高了识别文件来源的速度和效率,降低了识别成本,从而提高了文件清理的速度,降低了文件清理成本;此外,由于能够自动选取与生成文件相关的候选应用软件,可以在一定程度上避免人为因素的影响,提高识别文件来源的准确率;另外,由于定时获取各移动终端中的文件和应用软件,以根据各移动终端的文件和应用软件定时对各移动终端的文件的来源进行识别,从而实现对新生文件的及时覆盖,即及时对新生文件的来源进行识别,以根据新生文件的来源及时对新生成文件进行清理。
本申请实施例还提供了一种文件来源识别设备,图5为本申请一实施例提供的文件来源识别设备的结构示意图。如图5所示,文件来源识别设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器501和存储器502,存储器502中可以存储有一个或一个以上存储应用程序或数据。其中,存储器502可以是短暂存储或持久存储。存储在存储器502的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对文件来源识别设备中的一系列计算机可执行指令。更进一步地,处理器501可以设置为与存储器502通信,在文件来源识别设备上执行存储器502中的一系列计算机可执行指令。文件来源识别设备还可以包括一个或一个以上电源503,一个或一个以上有线或无线网络接口504,一个或一个以上输入输出接口505,一个或一个以上键盘506等。
在一个具体的实施例中,文件来源识别设备为服务器,包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机可执行指令,所述计算机可执行指令被所述处理器执行时实现以下流程:
定时获取多个移动终端中的各所述移动终端在预设时间间隔内存储的文件,并获取各所述移动终端中的应用软件;
分别将各所述移动终端的文件与其应用软件进行关联;
根据各所述移动终端的文件与其应用软件的关联关系,确定各所述文件与各所述应用软件的关联次数;
根据各所述文件与各所述应用软件的关联次数,从所述应用软件中选取与生成所述文件相关的候选应用软件。
可选的,所述计算机可执行指令被所述处理器执行时,所述定时获取多个移动终端中的各所述移动终端在预设时间间隔内存储的文件,并获取各所述移动终端中的应用软件包括:
按照一预设频率获取多个移动终端中的各所述移动终端在所述预设时间间隔内存储的文件,并在所述预设时间间隔的结束时刻获取各所述移动终端中已安装的应用软件。
可选的,所述计算机可执行指令被所述处理器执行时,所述分别将各所述移动终端的文件与其应用软件进行关联包括:
分别将各所述移动终端中的各所述文件与其中的各所述应用软件作为一个关联信息存储在一关联数据表中。
可选的,所述计算机可执行指令被所述处理器执行时,所述分别将各所述移动终端的文件与其应用软件进行关联包括:
根据所述文件的生成时间和所述应用软件的安装时间,分别将各所述移动终端的文件与其应用软件进行关联。
可选的,所述计算机可执行指令被所述处理器执行时,所述分别将各所述移动终端的文件与其应用软件进行关联包括:
根据由大数据统计得到的关联规则表,分别将各所述移动终端的文件与其应用软件进行关联,其中,所述关联规则表包括多个已知的文件与应用软件的关联信息。
可选的,所述计算机可执行指令被所述处理器执行时,所述根据由大数据统计得到的关联规则表,分别将各所述移动终端的文件与其应用软件进行关联包括:
根据所述文件的名称和存储路径计算各所述移动终端中的文件与关联规则表中的每一个关联信息中的文件的相似度;
将关联规则表中与各所述移动终端中的文件的相似度大于预设相似度的文件所对应的关联信息中的应用软件确定为对应的各所述移动终端中的文件的待关联应用软件;
判断各所述移动终端中的应用软件中是否存在与其中的文件的待关联应用软件相同的应用软件,若存在,将各所述移动终端中的文件与其中的与文件的待关联应用软件相同的应用软件进行关联。
可选的,所述计算机可执行指令被所述处理器执行时,还包括:
根据各所述文件与各所述候选应用软件的关联次数,分别将与各所述文件的关联次数最多的候选应用软件确定为生成各所述文件的应用软件。
可选的,所述计算机可执行指令被所述处理器执行时,还包括:
获取各所述文件的名称和存储路径,并分别对与生成各所述文件相关的候选应用软件进行扫描,以获得与生成各所述文件相关的候选应用软件的扫描数据;
判断与生成各所述文件相关的候选应用软件的扫描数据中是否包括对应的所述文件的名称和存储路径;
将与生成各所述文件相关的候选应用软件的扫描数据中包括对应的所述文件的名称和存储路径的候选应用软件确定为生成对应的所述文件的应用软件。
在本申请实施例,通过将各移动终端中的文件与其应用软件进行关联,以根据各移动终端中的文件与其应用软件的关联关系确定各文件与各应用软件的关联次数,进而根据各文件与各应用软件的关联次数,从应用软件中选取与生成文件相关的候选应用软件,即能够自动选取与生成文件相关的候选应用软件,且步骤简单易于执行,大大的提高了识别文件来源的速度和效率,降低了识别成本,从而提高了文件清理的速度,降低了文件清理成本;此外,由于能够自动选取与生成文件相关的候选应用软件,可以在一定程度上避免人为因素的影响,提高识别文件来源的准确率;另外,由于定时获取各移动终端中的文件和应用软件,以根据各移动终端的文件和应用软件定时对各移动终端的文件的来源进行识别,从而实现对新生文件的及时覆盖,即及时对新生文件的来源进行识别,以根据新生文件的来源及时对新生成文件进行清理。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机可执行指令,所述计算机可执行指令被处理器执行时实现以下流程:
定时获取多个移动终端中的各所述移动终端在预设时间间隔内存储的文件,并获取各所述移动终端中的应用软件;
分别将各所述移动终端的文件与其应用软件进行关联;
根据各所述移动终端的文件与其应用软件的关联关系,确定各所述文件与各所述应用软件的关联次数;
根据各所述文件与各所述应用软件的关联次数,从所述应用软件中选取与生成所述文件相关的候选应用软件。
可选的,所述计算机可执行指令被处理器执行时,所述定时获取多个移动终端中的各所述移动终端在预设时间间隔内存储的文件,并获取各所述移动终端中的应用软件包括:
按照一预设频率获取多个移动终端中的各所述移动终端在所述预设时间间隔内存储的文件,并在所述预设时间间隔的结束时刻获取各所述移动终端中已安装的应用软件。
可选的,所述计算机可执行指令被处理器执行时,所述分别将各所述移动终端的文件与其应用软件进行关联包括:
分别将各所述移动终端中的各所述文件与其中的各所述应用软件作为一个关联信息存储在一关联数据表中。
可选的,所述计算机可执行指令被处理器执行时,所述分别将各所述移动终端的文件与其应用软件进行关联包括:
根据所述文件的生成时间和所述应用软件的安装时间,分别将各所述移动终端的文件与其应用软件进行关联。
可选的,所述计算机可执行指令被处理器执行时,所述分别将各所述移动终端的文件与其应用软件进行关联包括:
根据由大数据统计得到的关联规则表,分别将各所述移动终端的文件与其应用软件进行关联,其中,所述关联规则表包括多个已知的文件与应用软件的关联信息。
可选的,所述计算机可执行指令被处理器执行时,所述根据由大数据统计得到的关联规则表,分别将各所述移动终端的文件与其应用软件进行关联包括:
根据所述文件的名称和存储路径计算各所述移动终端中的文件与关联规则表中的每一个关联信息中的文件的相似度;
将关联规则表中与各所述移动终端中的文件的相似度大于预设相似度的文件所对应的关联信息中的应用软件确定为对应的各所述移动终端中的文件的待关联应用软件;
判断各所述移动终端中的应用软件中是否存在与其中的文件的待关联应用软件相同的应用软件,若存在,将各所述移动终端中的文件与其中的与文件的待关联应用软件相同的应用软件进行关联。
可选的,所述计算机可执行指令被处理器执行时,还包括:
根据各所述文件与各所述候选应用软件的关联次数,分别将与各所述文件的关联次数最多的候选应用软件确定为生成各所述文件的应用软件。
可选的,所述计算机可执行指令被处理器执行时,还包括:
获取各所述文件的名称和存储路径,并分别对与生成各所述文件相关的候选应用软件进行扫描,以获得与生成各所述文件相关的候选应用软件的扫描数据;
判断与生成各所述文件相关的候选应用软件的扫描数据中是否包括对应的所述文件的名称和存储路径;
将与生成各所述文件相关的候选应用软件的扫描数据中包括对应的所述文件的名称和存储路径的候选应用软件确定为生成对应的所述文件的应用软件。
在本申请实施例,通过将各移动终端中的文件与其应用软件进行关联,以根据各移动终端中的文件与其应用软件的关联关系确定各文件与各应用软件的关联次数,进而根据各文件与各应用软件的关联次数,从应用软件中选取与生成文件相关的候选应用软件,即能够自动选取与生成文件相关的候选应用软件,且步骤简单易于执行,大大的提高了识别文件来源的速度和效率,降低了识别成本,从而提高了文件清理的速度,降低了文件清理成本;此外,由于能够自动选取与生成文件相关的候选应用软件,可以在一定程度上避免人为因素的影响,提高识别文件来源的准确率;另外,由于定时获取各移动终端中的文件和应用软件,以根据各移动终端的文件和应用软件定时对各移动终端的文件的来源进行识别,从而实现对新生文件的及时覆盖,即及时对新生文件的来源进行识别,以根据新生文件的来源及时对新生成文件进行清理。
其中,所述的计算机可读存储介质包括只读存储器(read-onlymemory,简称rom)、随机存取存储器(randomaccessmemory,简称ram)、磁碟或者光盘等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。