一种基于朴素贝叶斯分类算法的电脑文件分类处理方法

文档序号:10512751阅读:608来源:国知局
一种基于朴素贝叶斯分类算法的电脑文件分类处理方法
【专利摘要】本发明涉及一种基于朴素贝叶斯分类算法的电脑文件分类处理方法。本发明用户首先创建完成自己的分类样本库,并且进行训练,配置相关阀值及其他相关参数;然后,选择文件分类类型,执行文件分类操作,实现文件分类;所述的分类包含简单文件分类和深度文件分类;简单文件分类主要是根据文件名、文件类型这两个属性进行分类处理;深度文件分类是在简单文件分类的基础上再根据文件内容进行深度分析的分类处理;由基于贝叶斯分类算法的文件分类分析器根据文件名、文件内容特定特征属性及训练样本数据进行分类运算,文件分类处理器根据运算结果再将文件归类处理。本发明解决了电脑指定目录下的文件进行分类处理;可以用于文件的分类处理上。
【专利说明】
一种基于朴素贝叶斯分类算法的电脑文件分类处理方法
技术领域
[0001] 本发明涉及文件处理技术领域,具体涉及一种基于朴素贝叶斯分类算法的电脑文 件分类处理方法。
【背景技术】
[0002] 目前,随着人类科技的飞速发展,计算机的使用也越来越广泛,人们的日常生活也 越来越离不开计算机。而在计算机的使用的过程中又会不断产生各类文件资源或者文件垃 圾,如果不对它们进行分类处理,用户很难清楚自己电脑上的文件资源情况,也很不方便用 户查找到自己想要的文件。因而快速、便捷、智能、准确的帮助计算机用户对自己电脑文件 进行分类也变得非常重要。

【发明内容】

[0003] 本发明解决的技术问题在于提供一种基于朴素贝叶斯分类算法的电脑文件分类 处理方法;实现对电脑指定目录下的文件进行分类处理。
[0004] 本发明解决上述技术问题的技术方案是:
[0005] 用户首先创建完成自己的分类样本库,并且进行训练;训练之后,配置相关阀值及 其他相关参数;然后,选择文件分类类型,执行文件分类操作,实现智能文件分类;
[0006] 所述的分类包含简单文件分类和深度文件分类两种分类方式;
[0007] 简单文件分类主要是根据文件名、文件类型这两个属性进行分类处理;
[0008] 深度文件分类是在简单文件分类的基础上再根据文件内容进行深度分析的分类 处理;由基于贝叶斯分类算法的文件分类分析器根据文件名、文件内容特定特征属性及训 练样本数据进行分类运算,文件分类处理器根据运算结果再将文件归类处理。
[0009] 所述的文件分类分析器是对经过训练后的样本数据集,提取过滤需分类文件目录 下的文件名、文件内容文件属性,并创建hash表数据集,贝叶斯算法运算器根据词句分割过 滤器统计出来的词频、字频,及用户设定好的阀值,进行分类运算处理;
[0010] 所述的词句分割过滤器主要是一种根据已有字典对文本数据集进行词句分割处 理后建立相应hash表数据集并对词频、字频进行统计的中间件。
[0011] 所述的样本库的训练是样本数据集经过词句分割器进行词句分割处理。
[0012] 所述的方法涉及桌面UI端、文件分类分析器、词句分割过滤器、样本库等部分;文 件分类分析器核心部分是贝叶斯分类算法运算器;
[0013] 用户通过程序端提供的桌面UI端,输入或者选择分类类型、源文件目录、目标文件 目录、阀值等相关参数值,选择自定义分类样本库或程序端默认的样本库,点击分类操作按 钮,开始执行文件分类操作;后端启动分类运算,并根据分类结果智能将文件移到归类文件 夹下,并将文件归类结果显示出来;用户只需在目标文件目录下的相应归类文件夹下查找 即可;
[0014] 用户如需对文本文件进行更细致多样的文件分类,则首先自制分类样本库,并对 样本数据集进行训练操作。
[0015] 常用的文本文件两种类型适用简单文件分类和深度文件分类,常用的图像、视频、 音频文件等非文本文件只能进行简单文件分类。
[0016] 通过本发明的方法,用户可根据文件类型、文件名属性进行从源文件目录到目标 文件目录的简单文件分类处理,也可以对常用文本类型文件(如:txt、word、excel、pdf格式 文件)根据文件内容、名字、类型进行从源文件目录到目标文件目录的深度文件分类处理。 通过此方法用户不需要再花太多时间去查找或者整理自己电脑上的文件资源,也不需要担 心对自己计算机上文件资源的情况不明晰而导致资源的浪费或者丢失。用户只需要定时用 此方法提供的电脑文件分类处理技术定时对电脑进行分类处理,便可以快速、便捷、智能、 准确的实现从源文件目录到目标文件目录的分类处理。
【附图说明】
[0017] 下面结合附图对本发明进一步说明:
[0018] 图1为实现本发明方法的整体流程图;
[0019] 图2为朴素贝叶斯分类的原理与流程。
【具体实施方式】
[0020] 本发明涉及的基于贝叶斯分类算法的电脑文件分类处理方法,此方法提供对应的 程序端,用户通过程序端提供的桌面UI端,输入或者选择相关参数值,如分类类型、源文件 目录、目标文件目录,阀值等,选择自定义分类样本库(可不选,程序端存在默认样本库),点 击分类操作按钮程序便开始执行文件分类操作。用户如需对文本文件进行更细致多样的文 件分类,还需首先自制分类样本库,并对样本数据集进行训练操作。文件分类类型包括简单 分类和深度分类两种,常用的文本文件两种类型均适用,常用非文本文件(如,图像、视频、 音频文件等)只能进行简单分类,也就是只能根据文件名、文件类型等属性进行分类。
[0021] 该方法对应的程序主要由:桌面UI、文件分类分析器、词句分割过滤器、样本库等 部分构成,而文件分类分析器核心部分是贝叶斯分类算法运算器。用户通过桌面UI端将参 数传至程序后端,后端启动分类运算,并根据分类结果智能将文件移到归类文件夹下,且会 将文件归类结果显示出来,用户只需在目标文件目录下的相应归类文件夹下查找即可。
[0022] 整体流程如图1所示,其主要特征如下:
[0023] 词句分割过滤器扫描源文件目录、样本库文件特征属性,如文件名、文件类型、文 件内容等,输出统计、检索出的词频、字频及相应数据集hash表,分类分析器根据词句分割 过滤器输出内容进行朴素贝叶斯分类运算,最后根据运算结果将文件进行分类处理并移动 至目标文件目录。
[0024]图2是本发明涉及的朴素贝叶斯分类的原理与流程。
[0025]朴素贝叶斯分类的正式定义如下:
[0026] 1、设X = {ai,a2,…,am}为一个待分类项,而每个a为X的一个特征属性。
[0027] 2、有类别集合C={yi,y2,···,yn}。
[0028] 3、计算卩(71|叉),?(72|叉),.",卩(711|叉)。
[0029] 4、如果P(yk | X) =max{P(yi | X),P(y21 X),…,P(yn| X)},贝iJxEyk。
[0030] 那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做:
[0031] 1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。
[0032] 2、统计得到在各类别下各个特征属性的条件概率估计。即
[0033] P(ai|yi),P(a2|yi),.",P(am|yi);P(ai|y2),P(a2|y2),.",P(am|y2); (a2|yn),.",P(am|yn)。
[0034] 3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:
[0036]因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征 属性是条件独立的,所以有:
[0038]以上所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明 中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
【主权项】
1. 一种基于朴素贝叶斯分类算法的电脑文件分类处理方法,其特征在于:用户首先创 建完成自己的分类样本库,并且进行训练;训练之后,配置相关阀值及其他相关参数;然后, 选择文件分类类型,执行文件分类操作,实现智能文件分类; 所述的分类包含简单文件分类和深度文件分类两种分类方式; 简单文件分类主要是根据文件名、文件类型这两个属性进行分类处理; 深度文件分类是在简单文件分类的基础上再根据文件内容进行深度分析的分类处理; 由基于贝叶斯分类算法的文件分类分析器根据文件名、文件内容特定特征属性及训练样本 数据进行分类运算,文件分类处理器根据运算结果再将文件归类处理。2. 根据权利要求1所述的电脑文件分类处理方法,其特征在于:所述的文件分类分析器 是对经过训练后的样本数据集,提取过滤需分类文件目录下的文件名、文件内容文件属性, 并创建hash表数据集,贝叶斯算法运算器根据词句分割过滤器统计出来的词频、字频,及用 户设定好的阀值,进行分类运算处理; 所述的词句分割过滤器主要是一种根据已有字典对文本数据集进行词句分割处理后 建立相应hash表数据集并对词频、字频进行统计的中间件。3. 根据权利要求2所述的电脑文件分类处理方法,其特征在于:所述的样本库的训练是 样本数据集经过词句分割器进行词句分割处理。4. 根据权利1、2或3所述的电脑文件分类处理方法,其特征在于:所述的方法涉及桌面 UI端、文件分类分析器、词句分割过滤器、样本库等部分;文件分类分析器核心部分是贝叶 斯分类算法运算器; 用户通过程序端提供的桌面UI端,输入或者选择分类类型、源文件目录、目标文件目 录、阀值等相关参数值,选择自定义分类样本库或程序端默认的样本库,点击分类操作按 钮,开始执行文件分类操作;后端启动分类运算,并根据分类结果智能将文件移到归类文件 夹下,并将文件归类结果显示出来;用户只需在目标文件目录下的相应归类文件夹下查找 即可; 用户如需对文本文件进行更细致多样的文件分类,则首先自制分类样本库,并对样本 数据集进行训练操作。5. 根据权利4所述的电脑文件分类处理方法,其特征在于:常用的文本文件两种类型适 用简单文件分类和深度文件分类,常用的图像、视频、音频文件等非文本文件只能进行简单 文件分类。
【文档编号】G06F17/30GK105868781SQ201610188308
【公开日】2016年8月17日
【申请日】2016年3月29日
【发明人】唐素芳, 季统凯
【申请人】国云科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1