数据清理模型构建方法、数据清理方法及相关设备、介质与流程

文档序号：27255767发布日期：2021-11-05 19:24阅读：95来源：国知局

1.本技术涉及缓存数据处理领域，尤其涉及数据清理模型构建方法、数据清理方法及相关设备、介质。

背景技术：

2.缓存数据，是各类应用客户端(如微信、浏览器)在被用户使用的过程中存储的基于用户行为所产生的临时文件，以方便用户在后续使用该客户端时，能够完成对用户的快速响应。
3.当缓存数据过多时，由于占用的缓存空间较多，会引起安装有应用客户端的终端发生卡顿现象。对于这种现象，目前，大多数的终端的处理手段为直接清理掉缓存空间中的所有缓存数据，虽然解决了卡顿的问题，但对于使用频率较高的缓存数据，需要用户重新进行缓存，无法完成对用户的快速响应，给用户使用带来不便。

技术实现要素：

4.本技术提供数据清理模型构建方法、数据清理方法及相关设备、介质，以解决现有清理全部缓存数据带来的使用不便的技术问题。
5.第一方面，提供一种数据清理模型构建方法，该方法包括如下步骤：
6.获取目标缓存类别对应的训练样本集，上述训练样本集包括属于上述目标缓存类别的多个缓存数据的样本信息，每个缓存数据的样本信息包括清理标识和多个特征信息，上述多个特征信息分别为预设的多个缓存特征各自对应的特征信息，上述清理标识用于指示与上述每个缓存数据对应的清理类别；
7.基于上述多个缓存数据在第一缓存特征下的特征信息，和上述多个缓存数据各自对应的清理标识，确定目标情形下的判断准确度，上述第一缓存特征为上述多个缓存特征中的任一缓存特征，上述目标情形是指以上述第一缓存特征作为判断标准，判断上述多个缓存数据各自对应的清理类别的情形；
8.根据多个情形下的判断准确度，构建缓存数据清理模型，上述多个情形为以上述多个缓存特征分别作为判断标准判断上述多个缓存数据各自对应的清理类别的情形，上述缓存数据清理模型为依次以上述多个缓存特征作为判断标准，判断缓存数据的清理类别的决策树，其中，判断准确度高的缓存特征在上述决策树中为判断准确度低的缓存特征的父节点，且上述判断准确度低的缓存特征连接在上述判断准确度高的缓存特征的第一分支上，所述第一分支为判断结果为不清理的分支。
9.在该技术方案中，通过分别以预先设定的多个缓存特征为判断标准判断训练样本集中的缓存数据的清理类别，并确定分别以这多个缓存特征作为判断标准时的判断准确度，基于多个缓存特征各自对应的判断准确度，构建得到以这多个缓存特征作为判断标准判断缓存数据的清理类别的决策树，通过较为简单的方式确定了利用各个缓存特征进行判断的先后顺序，运算速度快；由于判断准确度高的缓存特征在决策树中为判断准确度高的
缓存特征的父节点，并且，判断准确度低的缓存特征连接在判断准确度高的缓存特征判断结果为不清理的分支上，相当于确定了优先利用判断准确度高的缓存特征来对缓存数据是否需要清理进行判断，再利用判断准确度低的缓存特征来对缓存数据是否需要清理进行判断的决策策略，可实现对缓存数据是否需要清理的准确判定，从而能够保留对用户有用的缓存数据，相较于将缓存数据全部清理，可实现对缓存数据的精细化清理。
10.结合第一方面，在一种可能的实现方式中，上述基于上述多个缓存数据在第一缓存特征下的特征信息，和上述多个缓存数据各自对应的清理标识，确定目标情形下的判断准确度，包括：根据上述多个缓存数据各自对应的清理标识，确定有关于清理标识的第一信息熵；根据上述多个缓存数据在上述第一缓存特征下的特征信息，和上述多个缓存数据各自对应的清理标识，确定上述第一缓存特征的条件熵；根据上述第一信息熵与上述条件熵，计算得到上述第一缓存特征的信息增益，以用于指示上述目标情形下的判断准确度。通过利用信息增益来衡量各个缓存特征作为判断标准判断缓存数据的清理类别时的准确度，计算方式简单，有助于提高构建缓存数据清理模型的速度。
11.结合第一方面，在一种可能的实现方式中，上述基于上述多个缓存数据在第一缓存特征下的特征信息，和上述多个缓存数据各自对应的清理标识，确定目标情形下的判断准确度，包括：根据上述多个缓存数据各自对应的清理标识，确定有关于清理标识的第一信息熵；根据上述多个缓存数据在上述第一缓存特征下的特征信息，和上述多个缓存数据各自对应的清理标识，确定上述第一缓存特征的条件熵；根据上述第一信息熵与上述条件熵，计算得到上述第一缓存特征的信息增益；根据上述多个缓存数据在上述第一缓存特征下的特征信息，确定上述有关于上述第一缓存特征的第二信息熵；根据上述信息增益与上述第二信息熵，计算得到上述第一缓存特征的信息增益比，以用于指示上述目标情形下的判断准确度。通过利用信息增益比来衡量各个缓存特征作为判断标准判断缓存数据的清理类别时的准确度，能够更准确地衡量各缓存特征的准确度。
12.结合第一方面，在一种可能的实现方式中，上述基于上述多个缓存数据在第一缓存特征下的特征信息，和上述多个缓存数据各自对应的清理标识，确定目标情形下的判断准确度，包括：根据上述多个缓存数据各自对应的清理标识，分别确定在上述第一缓存特征下的各类特征信息上的清理标识概率分布；根据上述清理标识概率分布，和上述多个缓存数据在上述第一缓存特征下的特征信息，确定上述第一缓存特征的最小基尼指数，以用于指示上述目标情形下的判断准确度。通过利用最小基尼系数来衡量各个缓存特征作为判断标准判断缓存数据的清理类别时的准确度，能够更快地衡量各缓存特征的准确度。
13.结合第一方面，在一种可能的实现方式中，上述获取目标缓存类别对应的训练样本集，包括：获取属于上述目标缓存类别的多个缓存数据，并确定上述多个缓存数据分别在上述多个缓存特征下的特征信息；根据第一缓存数据在第一缓存特征下的特征信息，和上述第一缓存特征对应的预设标识处理规则，确定上述第一缓存数据在上述第一缓存特征下的子清理标识，以得到上述第一缓存数据对应的多个子清理标识，上述第一缓存数据为上述多个缓存数据中的任一缓存数据，上述第一缓存特征为上述多个缓存特征中的任一缓存特征，上述预设标识处理规则是指基于特征信息判断缓存数据的清理类别的处理规则，上述第一缓存数据在上述第一缓存特征下的子清理标识用于指示在上述第一缓存特征下上述第一缓存数据对应的清理类别；根据上述第一缓存数据对应的多个子清理标识，确定上
述第一缓存数据对应的清理标识，以得到上述多个缓存数据各自对应的清理标识。通过为每个缓存特征都设置标识处理规则，能够从多个维度衡量缓存数据的清理类别，从而能够做到对缓存数据的清理类别的准确标定。
14.结合第一方面，在一种可能的实现方式中，上述根据上述第一缓存数据对应的多个子清理标识，确定上述第一缓存数据对应的清理标识，包括：若上述第一缓存数据对应的多个子清理标识中目标子清理标识的数量大于预设数量，则确定上述第一缓存数据的对应清理标识为上述目标子清理标识，上述目标子清理标识用于指示清理或不清理中的一种；或者，将上述第一缓存数据对应的多个子清理标识中占比最大的一种子清理标识确定为上述第一缓存数据对应的清理标识。通过以子清理标识的数量或占比来确定缓存数据的清理标识，使得清理标识所指示的清理类别能最大程度低接近于缓存数据的真实情况，有助于模型构建的精准度。
15.结合第一方面，在一种可能的实现方式中，上述根据多个情形下的判断准确度，构建缓存数据清理模型，包括：根据上述多个情形下的判断准确度，确定最大判断准确度对应的第二缓存特征；在上述训练样本集中，删除上述第二缓存特征、上述第二缓存特征对应的特征信息和第二缓存数据，返回执行上述基于上述多个缓存数据在第一缓存特征下的特征信息，和上述多个缓存数据各自对应的清理标识，确定目标情形下的判断准确度的步骤，直至上述多个情形下的判断准确度小于预设准确度，或上述样本信息中的缓存特征仅剩一个，其中，上述第二缓存数据为以第二缓存特征为判断标准判断上述多个缓存数据各自对应的清理类别时，清理标识用于指示清理的缓存数据；根据上述多个缓存特征在上述训练样本集中被删除的先后顺序构建缓存数据清理模型。通过多轮迭代判断，能够更准确地确定利用各个缓存特征进行判断的先后顺序，可以提高决策树判断的精确度。
16.第二方面，提供一种数据清理方法，包括如下步骤：
17.在检测到目标缓存类别对应的缓存数据总量大于预设数据量，或者，上述目标缓存类别对应的缓存数据总量与上述目标缓存类别对应的缓存总空间的占比大于预设占比阈值的情况下，通过缓存数据清理模型对上述目标缓存类别对应的缓存数据进行清理，其中，上述缓存数据清理模型为通过上述第一方面的方法构建得到。
18.由于通过上述第一方面的方法构建的缓存数据清理模型是利用判断准确度低的缓存特征来对缓存数据是否需要清理进行判断的决策树的判断方式，因而实现对缓存数据是否需要清理的准确判定，利用决策树判断缓存数据的清理类别，能够保留对用户有用的缓存数据，相较于将缓存数据全部清理，可实现对缓存化数据的精细化清理。
19.第三方面，提供一种缓数据清理模型的构建装置，包括：
20.获取模块，用于获取目标缓存类别对应的训练样本集，上述训练样本集包括属于上述目标缓存类别的多个缓存数据的样本信息，每个缓存数据的样本信息包括清理标识和多个特征信息，上述多个特征信息分别为预设的多个缓存特征各自对应的特征信息，上述清理标识用于指示与上述每个缓存数据对应的清理类别；
21.准确度判断模块，用于基于上述多个缓存数据在第一缓存特征下的特征信息，和上述多个缓存数据各自对应的清理标识，确定目标情形下的判断准确度，上述第一缓存特征为上述多个缓存特征中的任一缓存特征，上述目标情形是指以上述第一缓存特征作为判断标准，判断上述多个缓存数据各自对应的清理类别的情形；
22.模型构建模块，用于根据多个情形下的判断准确度，构建缓存数据清理模型，上述多个情形为以上述多个缓存特征分别作为判断标准判断上述多个缓存数据各自对应的清理类别的情形，上述缓存数据清理模型为依次以上述多个缓存特征作为判断标准，判断缓存数据的清理类别的决策树，其中，判断准确度高的缓存特征在上述决策树中为判断准确度低的缓存特征的父节点，且上述判断准确度低的缓存特征连接在上述判断准确度高的缓存特征的第一分支上，所述第一分支为判断结果为不清理的分支。
23.第四方面，提供一种数据清理装置，包括：
24.清理模块，用于在检测到目标缓存类别对应的缓存数据总量大于预设数据量，或者，上述目标缓存类别对应的缓存数据总量与上述目标缓存类别对应的缓存总空间的占比大于预设占比阈值的情况下，通过缓存数据清理模型对上述目标缓存类别对应的缓存数据进行清理，其中，上述缓存数据清理模型为通过上述第一方面的方法构建得到。
25.第五方面，提供计算机设备，包括存储器以及一个或多个处理器，一个或多个处理器用于执行存储在存储器中的一个或多个计算机程序，一个或多个处理器在执行一个或多个计算机程序时，使得该计算机设备实现上述第一方面的数据清理模型构建方法或上述第二方面的数据清理方法。
26.第六方面，提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，上述程序指令当被处理器执行时使上述处理器执行上述第一方面的数据清理模型构建方法或上述第二方面的数据清理方法。
27.本技术可以实现如下有益效果：可实现对缓存数据是否需要清理的准确判定，保留对用户有用的缓存数据，实现对缓存数据的精细化清理。
附图说明
28.图1为本技术实施例提出的一种数据清理模型构建方法的流程示意图；
29.图2为本技术实施例提供的一种决策树的示意图；
30.图3为本技术实施例提供的另一种数据清理模型构建方法的流程示意图；
31.图4为本技术实施例提供的一种数据清理方法的流程示意图；
32.图5是本技术实施例提供的一种数据清理模型的构建装置的结构示意图；
33.图6是本技术实施例提供的一种数据清理装置的结构示意图；
34.图7是本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
35.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行描述。
36.本技术实施例的技术方案适用于对缓存进行处理的场景中，其中，对缓存进行处理具体指的是对保存在应用设备的缓存空间中的缓存数据进行清理，应用设备可以为手机、平板、笔记本电脑等获取并响应用户行为以实现与用户之间进行交互的设备。具体地，缓存数据可以为因用户利用web浏览器访问网络产生的cookie文件，也可以为因用户预览图片、预览文档等产生的与该图片或文档对应的文件，还可以为因用户更新应用等产生的与该应用相关的安装/补丁文件，等等，不限于这里的描述。
37.由于缓存数据是作为临时文件保存在应用设备的缓存空间中，应用设备的缓存空
间有限，当缓存空间中的缓存数据过多时，会对应用设备的运行速度造成一定影响。因此，针对于保存在缓存空间中的缓存数据，本技术提出了一种数据清理模型构建方法和数据清理方法，通过构建缓存数据清理模型，并将缓存数据清理模型应用到应用设备中缓存数据进行清理，以期提高应用设备的运行速度。
38.在一种可能的场景中，本技术涉及的数据清理模型构建方法和数据清理方法可以在同一设备中实施，例如可以均实施在应用设备中。在另一些可能的场景中，数据清理模型构建方法和数据清理方法可以分别在不同设备中实施。例如，数据清理方法实施在应用设备中，对缓存数据进行清理；数据清理模型构建方法实施在另一设备中，在该另一设备中基于该数据清理模型构建方法构建得到缓存数据清理模型后，将缓存数据清理模型移植到前述应用设备中。其中，移植可以指的是在通过该另一设备得到缓存数据清理模型后，通过人工存储的方式存储到前述应用设备中。可选地，移植也可以指的是通过该另一设备得到缓存数据清理模型后，通过数据交互的方式存储到前述应用设备中，例如，应用设备可以向该另一设备发送用于获取该缓存数据清理模型的请求，该另一设备基于该请求向应用设备发送该缓存数据清理模型，以将缓存数据清理模型保存在应用设备。其中，应用设备与另一设备之间可以通过蓝牙、wifi等无线通信方式进行数据交互，也可以通过有线通信方式进行数据交互，或者有线与无线想结合的方式进行数据交互，有关于二者之间的数据交互方式，本技术不做限制。具体地，该另一设备可以为pc电脑、服务器等。
39.基于本技术提出的数据清理模型构建方法构建得到的缓存数据清理模型，对缓存数据进行清理，能够保留对用户有用的缓存数据，从而达到对应用设备中的缓存数据进行精细化清理的目的。具体地，缓存数据清理模型可以具化为自动运行的可执行文件(如插件、应用客户端等)存储在应用设备中，以自动对应用设备中的缓存数据进行清理。
40.以下具体介绍本技术的技术方案。
41.参见图1，图1为本技术实施例提出的一种数据清理模型构建方法的流程示意图，该方法可应用在前述提到的应用设备或另一设备上；如图1所示，该方法包括如下步骤：
42.s101，获取目标缓存类别对应的训练样本集，目标缓存类别对应的训练样本集包括属于目标缓存类别的多个缓存数据的样本信息，每个缓存数据的样本信息包括多个特征信息和清理标识，多个特征信息分别为预设的多个缓存特征各自对应的特征信息，清理标识用于指示清理类别。
43.这里，目标缓存类别是依据用户行为所确定的类别，一类用户行为对应一种缓存类别。例如，目标缓存类别可以是因用户访问网络产生的cookie文件的类别，也可以是用户使用各类应用客户端所产生的与各类客户端相适应的临时文件的类别。不同缓存类别的缓存数据，可以具有不同的缓存特征，其中，一个缓存特征用于从一个维度衡量和表示缓存数据，以在一个缓存特征下将缓存数据划分为不同的种类。例如，缓存特征可以为缓存数据大小，通过设置m1个数据大小阈值，可以将缓存数据划分为(m1+1)种类别，m1≥1，且为正整数；缓存特征也可以为缓存数据在缓存空间中的留存时间，通过设置m2个留存时间长度，可以将缓存数据划分为(m2+1)种类别，m2≥1，且为正整数；缓存特征还可以为使用频率、使用次数、缓存数据类型、最近一次被使用的时间，等等。
44.本技术实施例中，针对属于目标缓存类别的缓存数据，可以预设多个缓存特征，多个缓存特征结合用于区分属于该目标缓存类别的缓存数据的清理类别，即属于该目标缓存
类别的缓存数据是否需要被清理。对于属于目标缓存类别的一个缓存数据，通过获取该缓存数据在每个缓存特征下的特征信息，由此可得到该缓存数据的多个特征信息；综合该缓存数据的多个特征信息，可确定该缓存数据是否需要被清理，用清理标识来表示该缓存数据是否需要被清理，该缓存数据对应的清理标识与该缓存数据的多个特征信息组成得到该缓存数据的样本信息。具体地，清理标识可以直接为清理或不清理；或者，清理标识也可以为1或0，以用于指示清理或不清理；或者，清理标识也可以为yes或no，以用于指示清理或不清理。有关于清理标识的具体形式，本技术实施例不做限制。
45.例如，目标缓存类别为使用各类应用客户端所产生的与各类客户端相适应的临时文件的类别，针对目标缓存类别预设的多个缓存特征分别为缓存数据大小、缓存数据在缓存空间中的留存时间(指缓存数据存储到缓存空间的时间至当前时间之间的时间长度)、使用频率、使用次数(指从缓存空间中获取缓存数据的次数)、缓存数据类型、最近一次被使用的时间。其中，缓存数据d1的大小为20兆，缓存数据d1已经在缓存空间保存1星期，缓存数据d1的使用频率为1次/1天，缓存数据d1的使用次数为7次，缓存数据d1为图片型文件，缓存数据d1最近一次被使用的时间为2021年1月1上午10点。依据缓存数据d1的这些特征信息，确定缓存数据d1需要被清理，则将20兆、1星期、1次/天、7次、图片型文件、2021年1月1上午10点以及清理作为缓存数据d1的样本信息。
46.通过获取属于目标缓存类别的多个缓存数据各自的多个特征信息，和多个缓存数据各自对应的清理标识，可得到目标缓存类别对应的训练样本集。通过预设多个缓存特征，能从多个维度对缓存数据进行衡量，结合多个缓存特征来区分该属于目标缓存类别的缓存数据是否需要被清理，能确保缓存数据划分的准确性。
47.在一些可能的实施方式中，针对属于目标缓存类别的缓存数据，可以利用多个缓存特征分别确定该属于目标缓存类别的缓存数据是否需要被清理，根据每个缓存特征确定得到的结果，确定该属于目标缓存类别的缓存数据是否需要被清理。上述步骤s101可包括如下步骤t1
‑
步骤t3。
48.步骤t1，获取属于目标缓存类别的多个缓存数据，并确定多个缓存数据分别在多个缓存特征下的特征信息。
49.其中，确定多个缓存数据分别在多个缓存特征下的特征信息的有关内容可参见前述描述。
50.步骤t2，根据第一缓存数据在第一缓存特征下的特征信息，和第一缓存特征对应的预设标识处理规则，确定第一缓存数据在第一缓存特征下的子清理标识，以得到第一缓存数据对应的多个子清理标识。
51.这里，第一缓存数据为多个缓存数据中的任一缓存数据，第一缓存特征为多个缓存特征中的任一缓存特征。预设标识处理规则用于基于缓存数据在缓存特征下的特征信息，判断缓存数据是否需要被清理，即预设标识处理规则是指基于特征信息判断缓存数据的清理类别的处理规则，第一缓存特征对应的预设标识处理规则是指基于缓存数据在第一缓存特征下的特征信息，判断缓存数据的清理类别的处理规则。
52.例如，第一缓存特征为缓存数据大小，则第一缓存特征对应的预设标识处理规则可以为：判断缓存数据是否小于预设数据阈值，若小于预设数据阈值，则判定缓存数据不需要被清理(即缓存数据的清理类别为不清理)；否则判定缓存数据需要被清理(即缓存数据
的清理类别为清理)；示例性地，预设数据阈值可以为200兆。又如，第一缓存特征为缓存数据在缓存空间中的留存时间，则第一缓存特征对应的预设标识处理规则可以为：判断缓存数据在缓存空间中的留存时间是否小于第一预设时间长度，若小于第一预设时间长度，则判定缓存数据不需要被清理，否则判定缓存数据需要被清理；示例性地，第一预设时间长度为两星期。又如，第一缓存特征为使用频率，则第一缓存特征对应的预设标识处理规则可以为：判断缓存数据的使用频率是否大于预设频率，若大于预设频率，则判定缓存数据不需要被清理，否则判定缓存数据需要被清理；示例性地，预设频率为两天一次。又如，第一缓存特征为使用次数，则第一缓存特征对应的预设标识处理规则可以为：判断缓存数据的使用次数是否大于预设次数，若大于预设次数，则判定缓存数据不需要被清理，否则判定缓存数据需要被清理；示例性地，预设次数为5次。又如，第一缓存特征为缓存数据类型，则第一缓存特征对应的预设标识处理规则可以为：判断缓存数据的类型是否为预设数据类型，若为预设数据类型，则判定缓存数据不需要被清理，否则判定缓存数据需要被清理；示例性地，预设数据类型为文档文件。又如，第一缓存特征为最近一次被使用的时间，则第一缓存特征对应的预设标识处理规则可以为：判断缓存数据的最近一次被使用的时间距离当前时间是否小于第二预设时间长度，若小于第二预设时间长度，则判定缓存数据不需要被清理，否则判定缓存数据需要被清理；示例性地，第二预设时间长度为7天。等等，不限于这里的描述。应理解的是，缓存特征和预设标识处理规则的具体设计可根据具体情况进行设计，上述举例并不对本技术造成限制。
53.其中，子清理标识用于表示在第一缓存特征下缓存数据是否需要被清理，即用于指示缓存数据的清理类别，子清理标识用于指示第一缓存特征下第一缓存特征对应的清理类别。清理子标识的具体形式与清理标识的具体形式一致，可参考前述介绍的清理标识的具体形式。
54.本技术实施例中，针对多个缓存特征中的每个缓存特征，均对应设置有一个预设标识处理规则，根据第一缓存数据在各缓存特征下的特征信息，和各缓存特征各自对应的预设标识处理规则，可得到第一缓存数据对应的多个子清理标识。通过为每个缓存特征均设置预设标识处理规则，能将缓存数据进行特征分解，有助于找到最适合作为判断缓存数据是否需要被清理的缓存特征和判断规则。
55.步骤t3，根据第一缓存数据对应的多个子清理标识，确定第一缓存数据的清理标识，以得到多个缓存数据各自对应的清理标识。
56.在一种可行的实施方式中，若第一缓存数据对应的多个子清理标识中目标子清理标识的数量大于预设数量，则确定第一缓存数据的清理标识为目标子清理标识，所述目标子清理标识用于指示清理或不清理中的一种。其中，预设数量的取值与缓存特征的数量相关，例如，预设数量可以大于或等于缓存特征的数量的1/2。
57.在另一种可行的实施方式中，可以将第一缓存数据对应的多个子清理标识中占比最大的一种子清理标识确定为第一缓存数据的清理标识。
58.通过按照上述步骤t2
‑
t3的方式，确定每个缓存数据的清理标识，可得到多个缓存数据各自对应的清理标识。通过为每个缓存特征都设置标识处理规则，能够从多个维度衡量缓存数据的清理类别，以子清理标识的数量或占比来确定缓存数据的清理标识，使得清理标识所指示的清理类别能最大程度地接近于缓存数据的真实情况，从而能够做到对缓存
数据的清理类别的准确标定。
59.可选地，在通过上述步骤t2得到第一缓存数据在第一缓存特征下的子清理标识的情况下，还可以将利用第一缓存数据在第一缓存特征下的子清理标识替换第一缓存数据在第一缓存特征下的特征信息，以将第一缓存数据在第一缓存特征下的特征信息更新为第一缓存数据在第一缓存特征下的子清理标识，从而将第一缓存特征数据在各缓存特征下的特征信息分别更新为各缓存特征下的子清理标识，进而将各缓存特征数据在各缓存特征下的特征信息分别更新为各缓存特征下的子清理标识。通过对每个缓存数据在缓存特征下的特征信息替换为缓存特征下的子清理标识的方式，可以将连续的特征信息离散为清理和不清理两种，实现了对缓存数据在各缓存特征下的分类，有利于后续利用缓存特征进行量化和判断。
60.s102，基于多个缓存数据在第一缓存特征下的特征信息，和多个缓存数据各自对应的清理标识，确定目标情形下的判断准确度，第一缓存特征为多个缓存特征中的任一缓存特征，目标情形是指以第一缓存特征作为判断标准，判断多个缓存数据各自对应的清理类别的情形。
61.这里，目标情形下的判断准确度反映了：以第一缓存特征作为判断标准确定的多个缓存数据各自对应的清理类别，与多个缓存数据各自对应的清理标识之间的差距，其中，多个缓存数据各自对应的清理类别可以根据第一缓存特征对应的判断规则和多个缓存数据在第一缓存特征下的特征信息确定得到。判断准确度越高，则说明以第一缓存特征作为判断标准确定的多个缓存数据各自对应的清理类别，与多个缓存数据各自对应的清理标识之间的差距越小，即以第一缓存特征作为判断标准判断多个缓存数据各自对应的清理类别的结果越精准；判断准确度越低，则说明以第一缓存特征作为判断标准确定的多个缓存数据各自对应的清理类别，与多个缓存数据各自对应的清理标识之间的差距越大，即以第一缓存特征作为判断标准判断多个缓存数据各自对应的清理类别的结果越不精准。
62.其中，第一缓存特征对应的判断规则是指以第一缓存特征作为判断标准，判断缓存数据是否需要被清理的规则。例如，第一缓存特征为缓存数据大小，则第一缓存特征的判断规则可以为判断缓存数据是否小于预设数据阈值，若小于预设数据处理阈值，则判定缓存数据不需要被清理；否则判定缓存数据需要被清理。在一些可能的实现方式中，第一缓存特征对应的判断规则可以是预设的，例如可以为与前述步骤s101介绍的预设标识处理规则相同的规则。在另一些可能的实施方式中，第一缓存特征对应的判断规则也可以为是在确定目标情形下的判断准确度的过程中确定的。
63.基于多个缓存数据各缓存特征下的特征信息，和多个缓存数据各自对应的清理标识，可以确定各情形下的判断准确度，以此得到多个情形下的判断准确度和多个情形下的判断规则。
64.具体实现中，可采用一种或多种方式来衡量以一个缓存特征作为判断标准判断缓存数据的清理类别的准确度。有关于衡量以各缓存特征作为判断标准时的准确度的具体实施方式，可参考后续描述。
65.s103，根据多个情形下的判断准确度，构建缓存数据清理模型，多个情形为以多个缓存特征分别作为判断标准，判断多个缓存数据各自对应的清理类别的情形。
66.这里，缓存数据清理模型为以多个缓存特征作为节点的决策树，一缓存特征的判
断规则即为该一缓存特征对应的节点的决策条件，根据各缓存特征对应的判断准确度，将判断准确度高的缓存特征作为判断准确度低的缓存特征的父节点，并将判断准确度低的缓存特征连接在判断准确度高的缓存特征的第一分支上，即构建得到缓存数据清理模型。其中，第一分支是指根据该判断准确度高的缓存特征的判断规则判断缓存数据的清理类别时，判断缓存数据为不清理的分支。在多个缓存特征中，最大准确度对应的缓存特征为决策树中的根节点。
67.举例进行说明，例如多个缓存特征分别为缓存数据大小、缓存数据在缓存空间中的留存时间、最近一次被使用的时间、使用次数，多个缓存特征的判断规则是预设的，与前述介绍的预设标识处理规则的一致。通过步骤s103确定的多个缓存特征各自对应的判断准确度按从高到低的顺序依次为：最近一次被使用的时间、缓存数据大小、使用次数、缓存数据在缓存空间中的留存时间；则构建得到的决策树如图2所示，从图2可以看出，最近一次被使用的时间为根节点，缓存数据大小连接在在最近一次被使用的时间判断结果为不清理的的分支上，使用次数连接在缓存数据大小判断结果为不清理的分支上，缓存数据在缓存空间中的留存时间连接在使用次数判断结果为不清理的分支上。
68.在上述图1的技术方案中，通过分别以预先设定的多个缓存特征为判断标准判断训练样本集中的缓存数据的清理类别，并确定分别以这多个缓存特征作为判断标准时的判断准确度，基于多个缓存特征各自对应的判断准确度，构建得到以这多个缓存特征作为判断标准用于判断缓存数据的清理类别的决策树，以一种较为简单的方式确定了利用各个缓存特征进行判断的先后顺序，运算速度快；由于判断准确度高的缓存特征在决策树中为判断准确度高的缓存特征的父节点，并且，判断准确度低的缓存特征连接在判断准确度高的缓存特征判断结果为不清理的分支上，相当于确定了优先利用判断准确度高的缓存特征来对缓存数据是否需要清理进行判断，再利用判断准确度低的缓存特征来对缓存数据是否需要清理进行判断的决策策略，可实现对缓存数据是否需要清理的准确判定，从而能够保留对用户有用的缓存数据，相较于将缓存数据全部清理，可实现对缓存数据的精细化清理。
69.根据不同的需求，可以通过不同的方式来衡量以各个缓存特征作为判断标准判断缓存数据的清理类别的准确度。
70.在一种可行的实施方式中，可以利用信息增益来衡量缓存特征作为判断标准判断缓存数据的清理类别的准确度。上述步骤s102可以包括如下步骤a1
‑
步骤a3：
71.步骤a1，根据多个缓存数据各自对应的清理标识，确定有关于清理标识的第一信息熵。
72.这里，第一信息熵用于指示清理标识的不确定性。第一信息熵越大，则说明清理标识不确定性越高，确定清理标识所需的信息量越大；第一信息熵越小，则说明清理标识不确定性越低，确定清理标识所需的信息量越小。
73.具体地，第一信息熵的计算公式如下：
[0074][0075]
其中，h(d)为第一信息熵，k用于指示缓存数据对应的清理标识的类别，具体包含清理和不清理两种类别，|c
k
|为多个缓存数据各自对应的清理标识中对应第k类清理标识
的缓存数据的数量，|d1|为多个缓存数据的总数量(等于训练样本集中的训练样本的数量)。
[0076]
举例进行说明，假设训练样本集如表1所示：
[0077]
缓存特征1缓存特征2缓存特征3缓存特征4清理标识特征信息11(ta)特征信息21
……
清理特征信息12(ta)特征信息22
……
不清理特征信息13(ta)
………
不清理特征信息14(tb)
………
清理特征信息15(tb)
………
不清理特征信息16(tc)
………
清理特征信息17(tc)
………
清理
[0078]
表1
[0079]
由表1可知，7个清理标识中为清理的标识有4个，为不清理的标识有3个，则第一信息熵为：
[0080][0081]
步骤a2，根据多个缓存数据在第一缓存特征下的特征信息，和多个缓存数据各自对应的清理标识，确定第一缓存特征的条件熵。
[0082]
这里，第一缓存特征的条件熵用于指示在清理标识已知的情况下，第一缓存特征对确定清理标识的不确定性。第一缓存特征的条件熵越小，则说明第一缓存特征对确定清理标识的不确定性越低；第一缓存特征的条件熵越大，则说明第一缓存特征对确定清理标识的不确定性越高。
[0083]
具体地，第一缓存特征的条件熵的计算公式如下：
[0084][0085]
其中，h(d|a)为第一缓存特征的条件熵，n为多个缓存数据在第一缓存特征下的特征信息的类别总数量，i用于指示第一缓存特征下的特征信息的类别，|d
i
|为多个缓存数据中在第一缓存特征下的特征信息为第i类特征信息的缓存数据的数量，|d2|为多个缓存数据的总数量(等于训练样本集中的训练样本的数量)，k用于指示缓存数据对应的清理标识的类别，|d
ik
|为在第一缓存特征下的特征信息为第i类特征信息且对应第k类清理标识的缓存数据的数量。
[0086]
举例进行说明，假设训练样本集如表1所示，第一缓存特征为缓存特征1。由表1可知，缓存特征1的特征信息总共有三种类别，分别为ta、tb、tc，则n＝3，缓存特征1的条件熵为：
[0087][0088]
应理解的是，在通过上述步骤s101介绍的方式将各缓存特征数据在各缓存特征下
的特征信息分别更新为各缓存特征下的子清理标识的情况下，每个缓存特征下的特征信息的类别总数量均为2，即n等于2。
[0089]
举例来说，若表1数据更新为如表2所示：
[0090]
缓存特征1缓存特征2缓存特征3缓存特征4清理标识子清理标识(清理)子清理标识
……
清理子清理标识(清理)子清理标识
……
不清理子清理标识(不清理)
………
不清理子清理标识(不清理)
………
清理子清理标识(不清理)
………
不清理子清理标识(不清理)
………
清理子清理标识(不清理)
………
清理
[0091]
h(d|a)为第一缓存特征的条件熵，n为多个缓存数据在第一缓存特征下的子清理标识的类别总数量，i用于指示第一缓存特征下的子清理标识的类别，|d
i
|为多个缓存数据中在第一缓存特征下的子清理标识为第i类子清理标识的缓存数据的数量，|d2|为多个缓存数据的总数量(等于训练样本集中的训练样本的数量)，k用于指示缓存数据对应的清理标识的类别，|d
ik
|为在第一缓存特征下的子清理标识为第i类子清理标识且对应第k类清理标识的缓存数据的数量。
[0092][0093]
步骤a3，根据有关于清理标识的第一信息熵与第一缓存特征的条件熵，计算得到第一缓存特征的信息增益，以用于指示目标情形下的判断准确度。
[0094]
具体地，将第一信息熵减去第一缓存特征的条件熵，得到第一缓存特征的信息增益。信息增益的计算公式如下：
[0095]
g(d,a)＝h(d)
‑
h(d|a)
[0096]
其中，信息增益与目标情形下的判断准确度正相关，即信息增益越大，则说明目标情形下的判断准确度越高，信息增益越小，说明目标情形下的判断准确度越低。
[0097]
在步骤a1
‑
步骤a3中，通过利用信息增益来衡量各个缓存特征作为判断标准判断缓存数据的清理类别时的准确度，计算方式简单，有助于提高构建缓存数据清理模型的速度。
[0098]
在另一种可行的实施方式中，可以利用信息增益比来衡量缓存特征作为判断标准判断缓存数据的清理类别时的准确度。上述步骤s102可以包括如下步骤b1
‑
步骤b5：
[0099]
步骤b1，根据多个缓存数据各自对应的清理标识，确定有关于清理标识的第一信息熵。
[0100]
步骤b2，根据多个缓存数据在第一缓存特征下的特征信息，和多个缓存数据各自对应的清理标识，确定第一缓存特征的条件熵。
[0101]
步骤b3，根据有关于清理标识的第一信息熵与第一缓存特征的条件熵，计算得到第一缓存特征的信息增益。
[0102]
这里，步骤b1
‑
步骤b3的具体实现方式可参考前述步骤a1
‑
步骤a3，此处不再赘述。
[0103]
步骤b4，根据多个缓存数据在第一缓存特征下的特征信息，确定有关于第一缓存
特征的第二信息熵。
[0104]
这里，第二信息熵用于指示第一缓存特征下的特征信息的不确定性。第二信息熵越大，则第一缓存特征下的特征信息的不确定性越高；第一信息熵越小，则一缓存特征下的特征信息的不确定性越低。
[0105]
具体地，有关于第一缓存特征的第二信息熵的计算公式如下：
[0106][0107]
其中，h
a
(d)为有关于第一缓存特征的第二信息熵，n为多个缓存数据在第一缓存特征下的特征信息的类别总数量，i用于指示第一缓存特征下的特征信息的类别，|d
i
|为多个缓存数据中在第一缓存特征下的特征信息为第i类特征信息的缓存数据的数量，|d2|为多个缓存数据的总数量(等于训练样本集中的训练样本的数量)。
[0108]
举例进行说明，假设训练样本集如表1所示，第一缓存特征为缓存特征1，由表1可知，缓存特征1的特征信息总共有三种类别，分别为ta、tb、tc，ta的数量为3个、tb的数量为2个、tc的数量为2个，则有关于缓存特征1的第二信息熵为：
[0109][0110]
步骤b5，根据第一缓存特征的信息增益与有关于第一缓存特征的第二信息熵，计算得到第一缓存特征的信息增益比，以用于指示目标情形下的判断准确度。
[0111]
具体地，将信息增益与第二信息熵之商，确定为第一缓存特征的信息增益比。信息增益比的计算公式如下：
[0112][0113]
其中，信息增益比与目标情形下的判断准确度正相关，即信息增益比越大，则说明目标情形下的判断准确度越高，信息增益比越小，说明目标情形下的判断准确度越低。
[0114]
在步骤b1
‑
步骤b5中，通过利用信息增益比来衡量各个缓存特征作为判断标准判断缓存数据的清理类别时的准确度，能够更准确地衡量各缓存特征的准确度。
[0115]
在又一种可行的实施方式中，可以利用最小基尼系数来衡量缓存特征作为判断标准判断缓存数据的清理类别时的准确度。上述步骤s102可以包括如下步骤c1
‑
步骤c2：
[0116]
步骤c1，根据多个缓存数据各自对应的清理标识，分别确定在第一缓存特征下的各类特征信息上的清理标识概率分布。
[0117]
这里，对于第一缓存特征下的一类特征信息，其清理标识概率分布包括：该一类特征信息对应的清理标识的概率分布，以及，不为该一类特征信息的特征信息对应的清理标识的概率分布。
[0118]
举例进行说明，以假设训练样本集如表1所示为例，假设第一缓存特征为缓存特征1，则缓存特征1的特征信息有三种类别，分别为ta、tb、tc。由表1可知，对于ta这一类特征信息，为ta的特征信息有3个，对应1个清理，2个不清理，因此ta对应的清理标识概率分布为(1/3，2/3)；不为ta的特征信息有4个，对应3个清理，1个不清理，因此不为ta的特征信息对应的清理标识的概率分布为(3/4，1/4)。对于tb这一类特征信息，为tb的特征信息有2个，对
应1个清理，1个不清理，因此，tb对应的清理标识概率分布为(1/2，1/2)；不为tb的特征信息有5个，对应3个清理，2个不清理，因此不为tb的特征信息对应的清理标识的概率分布为(3/5，2/5)。对于tc这一类特征信息，为tc的特征信息有2个，对应2个清理，0个不清理，因此，tc对应的清理标识概率分布为(1，0)；不为tc的特征信息有5个，对应2个清理，3个不清理，因此不为tc的特征信息对应的清理标识的概率分布为(2/5，3/5)。
[0119]
步骤c2，根据在第一缓存特征下的各类特征信息上的清理标识概率分布，和多个缓存数据在第一缓存特征下的特征信息，确定第一缓存特征的最小基尼指数，以用于指示上述目标情形下的判断准确度。
[0120]
具体地，可以根据在第一缓存特征下的各特征信息上的清理标识概率分布，和多个缓存数据在第一缓存特征下的特征信息，分别计算第一特征信息下的各类特征信息各自对应的基尼系数，得到多个基尼系数，将多个基尼系数中最小的一个基尼系数确定为第一缓存特征的最小基尼指数。
[0121]
具体地，针对于第一缓存特征下的其中一类特征信息，基尼指数的计算公式如下：
[0122][0123]
其中，gini(d，a)为最小基尼系数，d1是多个缓存数据在第一缓存特征下的特征信息中该一类特征信息的数量，d2是多个缓存数据在第一缓存特征下的特征信息中除该一类特征信息的其他类特征信息的数量，gini(d1)是该一类特征信息对应的清理标识概率分布的基尼系数，gini(d2)是该其他类特征信息对应的清理标识概率分布的基尼系数，|d2|为多个缓存数据的总数量(等于训练样本集中的训练样本样本数量)。
[0124]
举例进行说明，假设训练样本集如表1所示，第一缓存特征为缓存特征1。缓存特征1的特征信息有三种类别，分别为ta、tb、tc，则基尼系数有3个，其中：
[0125]
ta对应的基尼系数为：
[0126][0127]
tb对应的基尼系数为：
[0128][0129]
tc对应的基尼系数为：
[0130][0131]
由于tc对应的基尼系数最小，因此，将tc对应的基尼系数作为缓存特征1的最小基尼系数。
[0132]
其中，最小基尼系数与目标情形下的判断准确度负相关，即最小基尼系数越小，则说明目标情形下的判断准确度越高；最小基尼系数越大，说明目标情形下的判断准确度越低。
[0133]
可选地，在一些可行的实施方式中，还可以根据第一缓存特征的最小基尼系数确定以第一缓存特征作为判断标准时的判断规则，其中，以第一缓存特征的最小基尼系数对
应的一类信息作为判断缓存类别的划分点。例如，第一缓存特征为表1所示的缓存特征1，则以tc作为缓存特征1的划分点，将缓存特征1下的特征信息与tc属于一类的缓存数据划分为清理，将缓存特征1下的特征信息与tc不属于一类的缓存数据划分为清理。
[0134]
在步骤c1
‑
步骤c2中，通过利用最小基尼系数来衡量各个缓存特征作为判断标准判断缓存数据的清理类别时的准确度，由于只需要进行简单的概率运算，因此能够更快地衡量各缓存特征的准确度。
[0135]
需要说明的是，还可以利用其它能够衡量以各个缓存特征作为判断标准判断缓存数据的清理类别的准确度的方式来确定各个缓存特征对应的判断准确度，本技术不做限制。
[0136]
在一些可行的实施方式中，在构建缓存数据清理模型的过程中，为了得到更准确的缓存数据清理模型，还可以通过多次迭代的方式，确定多个缓存特征在决策树中的父子关系。参见图3，图3为本技术实施例提供的另一种数据清理模型构建方法的流程示意图，该方法可应用在前述提到的应用设备或另一设备上；如图3所示，该方法包括如下步骤：
[0137]
s201，获取目标缓存类别对应的训练样本集，目标缓存类别对应的训练样本集包括属于目标缓存类别的多个缓存数据的样本信息，每个缓存数据的样本信息包括多个特征信息和清理标识，多个特征信息分别为预设的多个缓存特征各自对应的特征信息，清理标识用于指示清理类别。
[0138]
s202，基于多个缓存数据在第一缓存特征下的特征信息，和多个缓存数据各自对应的清理标识，确定目标情形下的判断准确度，第一缓存特征为多个缓存特征中的任一缓存特征，目标情形是指以第一缓存特征作为判断标准，判断多个缓存数据各自对应的清理类别的情形。
[0139]
这里，步骤s201～步骤s202的具体实现方式可参考前述步骤s101～s102的描述，此处不再赘述。
[0140]
s203，根据多个情形下的判断准确度，确定最大判断准确度对应的第二缓存特征，多个情形为以多个缓存特征分别作为判断标准，判断多个缓存数据各自对应的清理类别的情形。
[0141]
s204，在训练样本集中，删除第二缓存特征和第二缓存特征对应的特征信息，以及第二缓存数据，其中，第二缓存数据为以第二缓存特征为判断标准判断多个缓存数据各自对应的清理类别时，清理标识用于指示清理的缓存数据。
[0142]
在样本信息中有多个缓存特征和各缓存特征对应的判断准确度大于或等于预设准确度的情况下，返回执行步骤s202；在各缓存特征对应的判断准确度小于预设准确度或所述样本信息中的缓存特征仅剩一个的情况下，执行步骤s205。
[0143]
s205，根据多个缓存特征在训练样本集中被删除的先后顺序构建缓存数据清理模型。
[0144]
这里，多个缓存特征在训练样本集中被删除的先后顺序反映了以各缓存特征作为判断缓存数据的清理类别的准确性，越早被删除，则说明准确性越高，越晚被删除，则说明准确性越低。因此，多个缓存特征在训练样本集中被删除的先后顺序构决定了多个缓存特征在决策树中的节点关系，将较早被删除的缓存特征作为较晚被删除的缓存特征的父节点，并将较晚被删除的缓存特征连接在较晚被删除的缓存特征判断结果为不清理的分支
上，即构建得到缓存数据清理模型。其中，最早被删除的缓存特征即为决策树中的根节点。
[0145]
举例进行说明，例如多个缓存特征分别为缓存数据大小、缓存数据在缓存空间中的留存时间、最近一次被使用的时间、使用次数，这四个特征被删除的先后顺序依次为：最近一次被使用的时间、缓存数据大小、使用次数、缓存数据在缓存空间中的留存时间，则构建得到的决策树如图2所示。
[0146]
在图3对应的方法实施例中，在确定多个缓存特征在决策树中的位置的过程中，通过多轮迭代确定各缓存特征作为判断标准时的准确度，剔除通过当前缓存特征已经能确定需被清理的缓存数据，能够更准确地确定利用各个缓存特征进行判断的先后顺序，从而能够可以提高决策树判断的精确度，即提高缓存数据清理模型的判断准确度。
[0147]
在通过上述方法实施例构建得到缓存数据清理模型后，可以利用缓存数据清理模型判断缓存数据是否需要被清理。参见图4，图4为本技术实施例提供的一种数据清理方法的流程示意图，该方法可应用在前述提到的应用设备；如图4所示，该方法包括如下步骤：
[0148]
s301，在检测到目标缓存类别对应的缓存数据总量大于预设数据量，或者，目标缓存类别对应的缓存数据总量与目标缓存类别对应的缓存总空间的占比大于预设占比阈值的情况下，通过缓存数据清理模型对目标缓存类别对应的缓存数据进行清理。
[0149]
具体地，可以根据缓存数据清理模型各节点对应的缓存特征，获取目标缓存类别对应的缓存数据在该缓存特征下的缓存信息，然后基于各节点对应的决策条件，判断目标缓存类别对应的缓存是否需要被清理，直到确定缓存数据需要清理或者直到遍历到缓存数据清理模型中的最后节点。
[0150]
以缓存数据清理模型为图2所示的决策树为例，当获取到目标缓存类别对应的缓存数据，确定该缓存数据最近一次被使用的时间，若该缓存数据最近一次被使用的时间距离当前时间不小于第二预设时间长度，则确定该缓存数据需要被清理；若该缓存数据最近一次被使用的时间距离当前时间小于第二预设时间长度，则确定缓存数据的大小，若缓存数据不小于预设数据阈值，则确定该缓存数据需要被清理；若该缓存数据大于预设数据阈值，则确定缓存数据的使用次数，若该缓存数据的使用次数不大于预设次数，则确定该缓存数据需要被清理；若该缓存数据的使用次数大于预设次数，则确定缓存数据在缓存空间中的留存时间，若缓存数据在缓存空间中的留存时间不小于第一预设时间长度，则确定该缓存数据需要被清理；若缓存数据在缓存空间中的留存时间小于第一预设时间长度，则确定该缓存数据不需要被清理。
[0151]
在图4对应的方法实施例中，当检测到目标缓存类别对应的缓存数据总量大于预设数据量，或者，所述目标缓存类别对应的缓存数据总量与所述目标缓存类别对应的缓存总空间的占比大于预设占比阈值时，通过缓存数据清理模型对目标缓存类别对应的缓存数据进行清理，由于判断准确度高的缓存特征为判断准确度低的缓存特征的父节点，相当于是优先利用判断准确度高的缓存特征来对缓存数据是否需要清理进行判断，因此可实现对缓存数据是否需要被清理的准确判断；另外，由于会对目标缓存类别对应的每个缓存数据均进行判断是否需要被清理，可实现对缓存数据的精细化清理。
[0152]
可选地，在通过上述构建得到上述方法实施例构建得到缓存数据清理模型后，还可以利用验证样本集对缓存数据清理模型进行验证，在根据验证样本集确定缓存数据清理模型的准确度大于预设验证准确度的情况下，确定缓存数据清理模型为最终的缓存数据清
理模型，将最终的缓存数据清理模型用于判断缓存数据是否需要被清理。
[0153]
其中，验证样本集为与训练样本集不同的用作验证的样本集，验证样本集中的样本信息的形式与训练样本集中的样本信息的形式一致。具体地，在构建得到缓存数据清理模型后，可以利用缓存数据清理模型确定验证样本集中的各样本信息的清理类别，利用缓存数据清理模型确定验证样本集中的各样本信息的清理类别的方式可参考前述图4实施例的具体内容。在确定各样本信息的清理类别后，将各样本信息的清理类别与各样本信息中的清理标识进行比较，确定清理类别与清理标识指示的清理类别相同的样本信息的第一数量，将第一数量与验证样本集中的样本信息的总数量的比值确定为缓存数据清理模型的准确度。通过对构建得到的缓存数据清理模型进行验证，可以确保缓存数据清理模型的准确度达到一个较高的水准。
[0154]
可选地，还可以在上述方法实施例的基础上，对样本集重新划分验证样本与训练样本集的情况，或者，采用新的缓存数据训练样本集与验证样本集的情况，多次执行训练和验证步骤，即多次执行上述步骤s101
‑
步骤s103和验证步骤，或多次执行上述步骤s201
‑
步骤s205和验证步骤，保证每次训练和验证所采用的样本集各不相同，然后将最终确定的缓存数据清理模型用于判断缓存数据是否需要被清理。通过多次训练和验证，能进一步提高缓存数据清理模型的准确度。
[0155]
上述介绍了本技术的方法，为了更好地实施本技术的方法，接下来介绍本技术的装置。
[0156]
参见图5，图5是本技术实施例提供的一种数据清理模型的构建装置的结构示意图，其中，该缓存数据清理的构建装置可以为前述提到的服务器，或终端，如图5所示，该装置40包括：
[0157]
获取模块401，用于获取目标缓存类别对应的训练样本集，上述训练样本集包括属于上述目标缓存类别的多个缓存数据的样本信息，每个缓存数据的样本信息包括清理标识和多个特征信息，上述多个特征信息分别为预设的多个缓存特征各自对应的特征信息，上述清理标识用于指示与上述每个缓存数据对应的清理类别；
[0158]
准确度判断模块402，用于基于上述多个缓存数据在第一缓存特征下的特征信息，和上述多个缓存数据各自对应的清理标识，确定目标情形下的判断准确度，上述第一缓存特征为上述多个缓存特征中的任一缓存特征，上述目标情形是指以上述第一缓存特征作为判断标准，判断上述多个缓存数据各自对应的清理类别的情形；
[0159]
模型构建模块403，用于根据多个情形下的判断准确度，构建缓存数据清理模型，上述多个情形为以上述多个缓存特征分别作为判断标准判断上述多个缓存数据各自对应的清理类别的情形，上述缓存数据清理模型为依次以上述多个缓存特征作为判断标准，判断缓存数据的清理类别的决策树，其中，判断准确度高的缓存特征在上述决策树中为判断准确度低的缓存特征的父节点，且上述判断准确度低的缓存特征连接在上述判断准确度高的缓存特征的第一分支上，所述第一分支为判断结果为不清理的分支。
[0160]
在一种可能的设计中，上述准确度确定模块401具体用于：根据上述多个缓存数据各自对应的清理标识，确定有关于清理标识的第一信息熵；根据上述多个缓存数据在上述第一缓存特征下的特征信息，和上述多个缓存数据各自对应的清理标识，确定上述第一缓存特征的条件熵；根据上述第一信息熵与上述条件熵，计算得到上述第一缓存特征的信息
增益，以用于指示上述目标情形下的判断准确度。
[0161]
在一种可能的设计中，上述准确度确定模块401具体用于：根据上述多个缓存数据各自对应的清理标识，确定有关于清理标识的第一信息熵；根据上述多个缓存数据在上述第一缓存特征下的特征信息，和上述多个缓存数据各自对应的清理标识，确定上述第一缓存特征的条件熵；根据上述第一信息熵与上述条件熵，计算得到上述第一缓存特征的信息增益；根据上述多个缓存数据在上述第一缓存特征下的特征信息，确定上述有关于上述第一缓存特征的第二信息熵；根据上述信息增益与上述第二信息熵，计算得到上述第一缓存特征的信息增益比，以用于指示上述目标情形下的判断准确度。
[0162]
在一种可能的设计中，上述准确度确定模块401具体用于：根据上述多个缓存数据各自对应的清理标识，分别确定在上述第一缓存特征下的各类特征信息上的清理标识概率分布；根据上述清理标识概率分布，和上述多个缓存数据在上述第一缓存特征下的特征信息，确定上述第一缓存特征的最小基尼指数，以用于指示上述目标情形下的判断准确度。
[0163]
在一种可能的设计中，上述获取模块401具体用于：获取属于上述目标缓存类别的多个缓存数据，并确定上述多个缓存数据分别在上述多个缓存特征下的特征信息；根据第一缓存数据在第一缓存特征下的特征信息，和上述第一缓存特征对应的预设标识处理规则，确定上述第一缓存数据在上述第一缓存特征下的子清理标识，以得到上述第一缓存数据对应的多个子清理标识，上述第一缓存数据为上述多个缓存数据中的任一缓存数据，上述第一缓存特征为上述多个缓存特征中的任一缓存特征，上述预设标识处理规则是指基于特征信息判断缓存数据的清理类别的处理规则，，上述第一缓存数据在上述第一缓存特征下的子清理标识用于指示在上述第一缓存特征下上述第一缓存数据对应的清理类别；根据上述第一缓存数据对应的多个子清理标识，确定上述第一缓存数据对应的清理标识，以得到上述多个缓存数据各自对应的清理标识。
[0164]
在一种可能的设计中，上述获取模块401具体用于：若上述第一缓存数据对应的多个子清理标识中目标子清理标识的数量大于预设数量，则确定上述第一缓存数据的对应清理标识为上述目标子清理标识，上述目标子清理标识用于指示清理或不清理中的一种；或者，将上述第一缓存数据对应的多个子清理标识中占比最大的一种子清理标识确定为上述第一缓存数据对应的清理标识。
[0165]
在一种可能的设计中，模型构建模块403具体用于：根据上述多个情形下的判断准确度，确定最大判断准确度对应的第二缓存特征；在上述训练样本集中，删除上述第二缓存特征、上述第二缓存特征对应的特征信息和第二缓存数据，返回执行上述基于上述多个缓存数据在第一缓存特征下的特征信息，和上述多个缓存数据各自对应的清理标识，确定目标情形下的判断准确度的步骤，直至上述多个情形下的判断准确度小于预设准确度，或上述样本信息中的缓存特征仅剩一个，其中，上述第二缓存数据为以第二缓存特征为判断标准判断上述多个缓存数据各自对应的清理类别时，清理标识用于指示清理的缓存数据；根据上述多个缓存特征在上述训练样本集中被删除的先后顺序构建缓存数据清理模型。
[0166]
需要说明的是，图5对应的实施例中未提及的内容可参见图1
‑
图3对应的方法实施例的描述，这里不再赘述。
[0167]
上述装置，通过分别以预先设定的多个缓存特征为判断标准判断训练样本集中的缓存数据的清理类别，并确定分别以这多个缓存特征作为判断标准时的判断准确度，基于
多个缓存特征各自对应的判断准确度，构建得到以这多个缓存特征作为判断标准判断缓存数据的清理类别的决策树，通过较为简单的方式确定了利用各个缓存特征进行判断的先后顺序，运算速度快；由于判断准确度高的缓存特征在决策树中为判断准确度高的缓存特征的父节点，并且，判断准确度低的缓存特征连接在判断准确度高的缓存特征判断结果为不清理的分支上，相当于确定了优先利用判断准确度高的缓存特征来对缓存数据是否需要清理进行判断，再利用判断准确度低的缓存特征来对缓存数据是否需要清理进行判断的决策策略，可实现对缓存数据是否需要清理的准确判定，从而能够保留对用户有用的缓存数据，相较于将缓存数据全部清理，可实现对缓存数据的精细化清理。
[0168]
参见图6，图6是本技术实施例提供的一种数据清理装置的结构示意图，该数据清理装置可以为前述提到的手机、电脑等；如图6所示，该装置50包括：
[0169]
清理模块501，用于在检测到目标缓存类别对应的缓存数据总量大于预设数据量，或者，所述目标缓存类别对应的缓存数据总量与所述目标缓存类别对应的缓存总空间的占比大于预设占比阈值的情况下，通过缓存数据清理模型对所述目标缓存类别对应的缓存数据进行清理，其中，所述缓存数据清理模型为通过前述方法实施例中的数据清理模型构建方法构建得到。
[0170]
需要说明的是，图6对应的实施例中未提及的内容可参见图4对应的方法实施例的描述，这里不再赘述。
[0171]
在该装置中，当检测到目标缓存类别对应的缓存数据总量大于预设数据量，或者，所述目标缓存类别对应的缓存数据总量与所述目标缓存类别对应的缓存总空间的占比大于预设占比阈值时，通过缓存数据清理模型对目标缓存类别对应的缓存数据进行清理，由于判断准确度高的缓存特征为判断准确度低的缓存特征的父节点，相当于是优先利用判断准确度高的缓存特征来对缓存数据是否需要清理进行判断，因此可实现对缓存数据是否需要被清理的准确判断；另外，由于会对目标缓存类别对应的每个缓存数据均进行判断是否需要被清理，可实现对缓存化数据的精细化清理。
[0172]
参见图7，图7是本技术实施例提供的一种计算机设备的结构示意图，该计算机设备60包括处理器601、存储器602。处理器601连接到存储器602，例如处理器601可以通过总线连接到存储器602。
[0173]
处理器601被配置为支持该计算机设备60执行图1
‑
图3的方法或图4的方法中相应的功能。该处理器601可以是中央处理器(central processing unit，cpu)，网络处理器(network processor，np)，硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(application specific integrated circuit，asic)，可编程逻辑器件(programmable logic device，pld)或其组合。上述pld可以是复杂可编程逻辑器件(complex programmable logic device，cpld)，现场可编程逻辑门阵列(field
‑
programmable gate array，fpga)，通用阵列逻辑(generic array logic，gal)或其任意组合。
[0174]
存储器602用于存储程序代码等。存储器602可以包括易失性存储器(volatile memory，vm)，例如随机存取存储器(random access memory，ram)；存储器1002也可以包括非易失性存储器(non
‑
volatile memory，nvm)，例如只读存储器(read
‑
only memory，rom)，快闪存储器(flash memory)，硬盘(hard disk drive，hdd)或固态硬盘(solid
‑
state drive，ssd)；存储器602还可以包括上述种类的存储器的组合。
[0175]
在一些可能的情况中，处理器601可以调用所述程序代码以执行以下操作：
[0176]
获取目标缓存类别对应的训练样本集，上述训练样本集包括属于上述目标缓存类别的多个缓存数据的样本信息，每个缓存数据的样本信息包括清理标识和多个特征信息，上述多个特征信息分别为预设的多个缓存特征各自对应的特征信息，上述清理标识用于指示与上述每个缓存数据对应的清理类别；
[0177]
基于上述多个缓存数据在第一缓存特征下的特征信息，和上述多个缓存数据各自对应的清理标识，确定目标情形下的判断准确度，上述第一缓存特征为上述多个缓存特征中的任一缓存特征，上述目标情形是指以上述第一缓存特征作为判断标准，判断上述多个缓存数据各自对应的清理类别的情形；
[0178]
根据多个情形下的判断准确度，构建缓存数据清理模型，上述多个情形为以上述多个缓存特征分别作为判断标准判断上述多个缓存数据各自对应的清理类别的情形，上述缓存数据清理模型为依次以上述多个缓存特征作为判断标准，判断缓存数据的清理类别的决策树，其中，判断准确度高的缓存特征在上述决策树中为判断准确度低的缓存特征的父节点，且上述判断准确度低的缓存特征连接在上述判断准确度高的缓存特征的第一分支上，所述第一分支为判断结果为不清理的分支。
[0179]
在另一些可能的情况中，处理器601可以调用所述程序代码以执行以下操作：
[0180]
在检测到目标缓存类别对应的缓存数据总量大于预设数据量，或者，上述目标缓存类别对应的缓存数据总量与上述目标缓存类别对应的缓存总空间的占比大于预设占比阈值的情况下，通过缓存数据清理模型对上述目标缓存类别对应的缓存数据进行清理，其中，上述缓存数据清理模型为通过上述方法实施例构建得到。
[0181]
需要说明的是，各个操作的实现还可以对应参照上述方法实施例的相应描述；所述处理器601还可以其他功能硬件配合执行上述方法实施例中的其他操作。
[0182]
本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法。
[0183]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read
‑
only memory，rom)或随机存储记忆体(random access memory，ram)等。
[0184]
以上所揭露的仅为本技术较佳实施例而已，当然不能以此来限定本技术之权利范围，因此依本技术权利要求所作的等同变化，仍属本技术所涵盖的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：付玉鑫
技术所有人：深圳市晨北科技有限公司
我是此专利的发明人

上一篇：一种金属磁粉芯及其制备方法与流程
上一篇：一种机器人手臂关节及其机器人的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。