基于分解策略的多类别不平衡虚拟资产数据分类方法

文档序号:10665766阅读:254来源:国知局
基于分解策略的多类别不平衡虚拟资产数据分类方法
【专利摘要】本发明公开一种基于分解策略的多类别不平衡虚拟资产数据分类方法,包括以下步骤:首先使用OVA法以保证模型是使用所有数据训练得到的并从中得出两个最有可能的候选类别,然后计算这两个候选类别的不平衡比值。如果该比值没有超过一定阈值,则直接使用OVO构造分类器;如果该比值超过了阈值,则使用SMOTE法进行采样,在采样后的数据集上训练OVO分类器。本发明可有效减少处理时间和内存消耗,将改进的多类别分解策略A&O法和不平衡数据采样技术SMOTE法相结合,并运用到多类别不平衡虚拟资产数据的分类中,可有效提高分类的精度,同时节省内存空间。
【专利说明】
基于分解策略的多类别不平衡虚拟资产数据分类方法
技术领域
[0001] 本技术属于网络与信息安全领域,涉及一种基于分解策略的多类别不平衡虚拟资 产数据分类方法。
【背景技术】
[0002] 互联网的迅猛发展为虚拟资产的产生及交易提供了广阔的平台,促进了网络交易 的繁荣发展。但无论对于用户还是虚拟资产交易的提供商,都面临虚拟资产数据(包括虚 拟资产商品信息、相关的虚拟资产交易数据以及虚拟资产操作日志等)庞杂的问题。对这 些虚拟资产数据进行分类,可以帮助人们更好的管理并有效提高虚拟资产的使用效率。 [0003]目前,我国已经开展了基于elD的网域空间虚拟资产管理与保全技术研究,实现 对虚拟资产的规范统一管理。虚拟资产保全系统全面准确的记录了对虚拟资产商品本身以 及与其相关的各种操作数据,但这些数据一方面种类多样,不同虚拟资产本身的信息各异, 用户的操作行为模式也千差万别,对这些虚拟资产数据进行分类面临诸多难题。此外,不 同类别之间的虚拟资产数据量差别较大,如异常交易数据通常大大少于正常交易数据,而 异常交易数据有多种可能的情形,如交易时间异常、交易金额异常以及交易频率异常等等。 由于多个类别且类别之间数据量不平衡的情况,使得对虚拟资产数据进行分类面临诸多挑 战。
[0004] 常用的分解方法主要包括:(1) 一对多(One Vs All,0VA)法,每次将某一类别看 作是正例,其余类别看作是负例,假设有k个类别,则总共训练得到k个分类器。其不足之 处在于会进一步加剧类别之间的不平衡性。(2) -对一(One Vs 0ne,0V0)法,每次选取任 意两个类别的数据进行训练,总共得到k(k-1)/2个分类器,该方法的计算量较大。如果原 有类别本身就不平衡,仍会存在类别不平衡的问题。在此基础上,Garcia-Pedrajas N.等 [1]提出了将两者组合在一起的A&0(A11 and one)方法,该方法首先在数据集上采用0VA 法和0V0法训练得到多个分类器,之后先对测试样例使用OVA分类器进行分类,得到最有可 能的两个类别,假定为i和j,之后使用在i和j上训练得到的0V0分类器(OVOij)进行最 后的分类。该方法总共需要训练k(k+l)/2个分类器,计算量也比较大,同样不适合于大规 模虚拟资产数据的实时处理。Murphey Y.L.等[2]在对不平衡数据的特点进行理论分析的 基础上提出了一种新的称作〇ne-Against-Higher-〇rder (0ΑΗ0)的多类不平衡数据分类方 法。该方法首先按照类别大小将数据进行降序排序,每次选取当前类别作为正例,其之后的 所有类别作为反例,依此构建k-Ι个分类器,可以有效降低类别之间的不平衡性。但问题在 于如果类别之间的大小本身就很悬殊,则使用该方法后仍将存在不平衡,同时,其误差具有 级联传播性,难以校正。后续研究很多都是在上述分解策略基础之上开展的。然而,这些方 法常由于忽视了对测定类别误判问题,或无法保证不同类别数据之间的平衡性,使得分类 效果有所损失。
[0005] [1]N. Garcia-Pedrajas, D. Ortiz-Boyer. Improving Multiclass Pattern Recognition by the Combination of Two Strategies[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(6):1001-1006.
[0006] [2]Y. L. Murphey, H. Wang, G. Ou. OAHO:an effective algorithm for multi-class learning from imbalanced data[C]· International Joint Conference on Neural Networks, IEEE, 2007, 406-411.

【发明内容】

[0007] 针对现有技术的缺陷,本发明将通过基于分解策略的多类别不平衡虚拟资产数据 分类方法实现虚拟资产数据的分类,适用于对互联网上庞杂的虚拟资产数据进行分类。尤 其适用于虚拟资产数据中包含多个类别且各个类别之间数据量不平衡的情形。
[0008] 本发明的技术方案包括:虚拟资产数据存储架构的描述、多类别不平衡虚拟资产 数据的处理和分类器的构建。
[0009] 1、虚拟资产存储架构描述
[0010] 虚拟资产存储采用分布式框架,包括海量多结构数据的组织与管理、海量多结构 数据的查询处理、服务发布与编程接口等部分。
[0011]系统底层架构部署在传统的分布式计算环境上,通过分布式文件系统实现对分布 式计算环境中各节点上文件数据的透明访问。在分布式文件系统的基础上,海量多结构数 据的组织与管理子系统负责对分布的文件系统或数据进行统一管理,其中,对文件或数据 的统一管理是通过数据组织和数据管理模块完成的。此外,还包括不同数据/文件在底层 分布式计算环境中的部署与配置管理。
[0012] 海量多结构数据的查询处理子系统面向海量个人身份/属性信息检索类应用,支 持多结构数据的高效查询处理,包括复合数据模型、混合数据操作模式等模块。本发明主要 针对其中的日志分析与挖掘模块,旨在利用数据挖掘技术快速高效检测出虚拟资产交易过 程中存在的异常行为。
[0013] 服务发布、定制与编程接口子系统是系统的对外接口,以面向服务的方式对数据 进行程序设计接口定义,支持对结构化数据的SQL查询、对非结构化数据的API及类SQL查 询;支持用户以服务接口定制的方式,对个人信息查询服务接口进行自定义。本发明也可以 利用系统提供的数据访问接口实现对虚拟资产交易数据的查询与分析。在实际应用本发明 的时候,既可进行日志的挖掘与分析,也可以通过数据接口进行数据查询与分析,也可以将 两种方式结合。根据实际问题的不同,可采用最适合的方式。
[0014] 2、多类别不平衡虚拟资产数据的处理和分类器的构建
[0015] 采用基于改进的A&0分解策略及SMOTE采样法的多类别不平衡数据分类方法 IA0S (Integrated A&0 and SMOTE)进行数据处理和分类器的构建。针对单独使用0V0法 时,分类器存在较大的误判可能性的缺陷,本发明采用A&0法对多类问题进行分解。首先使 用0VA法以保证所有的模型都是使用所有的数据进行训练得到的,之后再使用0V0法进一 步细化。在0VA阶段不进行采样,保证数据的原始性,而0V0阶段使用SMOTE法进行采样以 提高少数类的分类精度。首先在训练数据上训练得到K个0VA分类器,对于未知类别的数 据X,通过逐一将X输入到K个0VA分类器中计算分类结果,选取分类效果最好的两个类别 i和j,在类别i和j上训练得到分类器。之后,将X作为0V0。分类器的输入,根据分 类结果判断数据X的最终类别。具体步骤如下:
[0016] (1)A&0分解策略
[0017] A&0法是OVA法和0V0法的有机组合,该方法结合了两者的优势,同时尽量避免了 各自方法的不足。A&0策略主要基于两点考虑:(1)0VA法的第二个输出有可能更加符合要 求;(2) 0V0对两类数据的分类性能较高并不意味着其组合性能一定会高。因此,首先通过 0VA法,将数据集划分为K个子集,第i个子集以类别i中的样例作为正例,其余类别的样例 作为负例,训练得到分类器t,其中,1 < i < K。匕有两个可能的输出:1或0,分别代表X 属于类别i或者属于其它类别。此时可能的结果有三种:(1)最理想的情况,f^x) = 1,对 于所有的j乒i,Α(χ) = 〇,其中,1彡i,j彡K。此时,似(Λ·)'你 )'L ,分类结 果唯一,样例X属于类别i。(2)仁〇〇=0,1彡i彡Κ,即样例X不属于任何类别。(3)介 于前两种情况之间,有多个类别输出为' 1'。此时,选取X最有可能属于的两个类别,假定为 类别i和类别j。将类别i中的样例作为正例,类别j中的样例作为负例,训练得到分类器 匕,1彡i, j彡K。如果t (X) = 1,则样例X属于类别i,如果(X) = 0,则属于类别j。 对于像贝叶斯、SVM等每次只给出样例属于哪一个类别的概率而不是确定值的分类器,通过 设定阈值 threshold,如果 f(x)多 threshold,则 f(x) =1,否则 f(x) =0。
[0018] (2) SMOTE 采样法
[0019] SMOTE (Synthetic Minority Over-sampling Technique) [1]法,通过合成新的少 数类样例方式来减小数据间的不平衡性。该法基于已有少数类实例在特征空间的相似度, 对于实例 Xl,每次选取距离其最近的K个实例。之后,从这K个邻居中随机选择一个,假定为 xknn,则新合成的实例xsyn= X i+(xknn-Xi) X α,其中α是一个介于〇和1之间的随机数。这 种合成方法既避免了随机过采样可能存在的过拟合问题,也使得决策边界向多数类移动, 从而提高了少数类的分类精度,得到了广泛的应用。
[0020] (3) Α&0策略和SMOTE采样法的融合
[0021] IA0S法对上述问题分解方法和数据重采样法进行了有效的集成。首先通过使用 0VA法得到最有可能的两个候选类别,然后计算这两个类别之间的不平衡比值:如果该比 值没有超过一定的阈值,则直接训练0V0分类器;而如果比值超过该阈值,则先使用SMOTE 法进行采样,在采样后的数据集上训练0V0分类器。原有的A&0法是先全部训练得到 k (k+1) /2个分类器,在实际分类的时候根据需要进行选取,训练过程通常很耗时,且会占用 大量的内存空间,因此需要在通过0VA法得到具体的两个候选类别之后,才去分别构造相 应的0V0分类器,避免不必要的时间和空间消耗。每次构造完将其进行保存,这样经过最少 k(k-l)/2次分类就可以得到全部的分类器0V0分类器。通过一边分类一边构造0V0分类 器,可有效减少处理时间并减少内存消耗。如果测试集包含所有的类别,则最终构造得到的 分类器是和一次性构建得到的分类器是一致的。而如果测试集缺少一个类别,则可以少构 建k个分类器,当k比较大的时候,可节省的内存空间将很可观。
[0022] [ 1 ] Chaw 1 an, V. , Bowy er, Kff and Ha 11, L0 (2002) . SMOTE : Synthet i e minority over-sampling technique. Journal of Af1 ificial Intelligence Research, 16(1) :321-357.
【附图说明】
[0023] 图1为海量多结构虚拟资产数据管理系统架构图
[0024] 图2为IA0S方法整体流程示意图
[0025] 图3为IA0S方法基本步骤流程图
【具体实施方式】
[0026] 下面通过【具体实施方式】来进一步说明本发明的技术方案:
[0027] 本发明的技术方案包括:虚拟资产存储架构的描述、不平衡交易数据的采样和分 类器的构建。
[0028] 1、虚拟资产存储架构的描述
[0029] 虚拟资产存储采用分布式框架,其体系架构如图1所示。系统底层架构部署在传 统的分布式计算环境上,通过分布式文件系统实现对分布式计算环境中各节点上文件数据 的透明访问。分布式计算节点包括170台高性能服务器(两颗Intel Xeon E5640, 2.66GHz ; 16G DDR3内存;两块千兆网卡;冗余电源及风扇),每一个服务器内置1个1TB磁盘,为提高 网络的稳定性以及带宽,配置两套网络,网络系统采用10台48 口的千兆交换机连接而成。 此外,为加强容灾备份能力,系统还包括8个盘阵,800块1TB硬盘,48个盘柜,32块RAID 卡,8台SAN交换机。在分布式文件系统的基础上,海量多结构数据的组织与管理子系统负 责对分布的文件系统或数据进行统一管理,其中,对文件或数据的统一管理是通过数据组 织和数据管理模块完成的。
[0030] 海量多结构数据的查询处理子系统面向海量个人身份/属性信息检索类应用,支 持多结构数据的高效查询处理,包括复合数据模型、混合数据操作模式等模块。本发明主要 针对其中的日志分析与挖掘模块,旨在利用数据挖掘技术快速高效检测出虚拟资产交易过 程中存在的异常行为。
[0031] 服务发布、定制与编程接口子系统是系统的对外接口,以面向服务的方式对数据 进行程序设计接口定义,支持对结构化数据的SQL查询、对非结构化数据的API及类SQL查 询;支持用户以服务接口定制的方式,对个人信息查询服务接口进行自定义。本发明也可以 利用系统提供的数据访问接口实现对虚拟资产交易数据的查询与分析。在实际应用本发明 的时候,既可进行日志的挖掘与分析,也可以通过数据接口进行数据查询与分析,也可以将 两种方式结合。根据实际问题的不同,采用最适合的方式。
[0032] 2、不平衡虚拟资产数据的采样和分类器的构建
[0033] 所有的实验在一台PC上机上完成,配置为:处理器Intel(R)Core(TM)i5-3210M CPU02. 50G-Hz,内存10G,硬盘500G。从UCI数据集中选出13个IR各不相同的数据集,按 照IR的大小降序排列,如表1中所示。其中,wine的IR为1. 48,可近似看作平衡数据集。 通过采用5折交叉验证,以保证在不同的算法上使用相同的划分,为确保最终结果的可比 性,采用来自KEEL[1]中已经划分好的数据。
[0034] 表1数据集统计信息表
[0035]
[0036] 基于改进的A&0分解策略及SMOTE采样法的多类别不平衡数据分类方法 IA0S (Integrated A&0 and SM0TE),其整体流程如图2所示,该方法将分解方法和数据重采 样方法进行了有效集成,通过0VA法得到两个最有可能的候选类别后,通过计算这两个类 别之间的不平衡比例是否超过阈值来判定是否使用SMOTE法进行采样,进而使用0V0法建 立分类器,具体操作流程如图3所示。
[0037] 选用最常见的AUC作为基本评价准则进行分类器性能的评估。其计算公式如下:
[0038]
(1)
[0039] 兵甲,TPrate和KP Mte分别表示被正确分为正例和错误分为正例的样例所占的比 例。但这一定义是针对两类分类问题的,因此,需要对其进行扩展。对于0V0法,将分别计 算每两个类别之间的AUC值(即将其中一个类别作为正例,另一个作为反例),即所谓的 Probability AUC(PAUC)定义如下:
[0040]

[0041] 其中,K表示类别的数目,AUC(i,j)表示i作为正例,j作为负例时候的AUC值。
[0042] 而对于0VA法,分别计算每一个类别和其余类别样例之间的AUC值,即将其中一个 类别作为正例,其余所有类别合在一起作为反例,定义如下:
[0043] I 3 )
[0044] 共T,h衣不失別tf、」m曰,:= ,βΜ, :~Α A.}为除类别i之外所有其它类样例 集合。
[0045] 子分类器分别选用朴素贝叶斯(NB)、决策树和支持向量机(SVM)。子分类器的参 数都采用默认设置。通过在Weka[2]上编写代码,分别对IA0S与0V0及0VA算法的性能进 行了比较。实验结果如表2所示,NB、C4. 5和SVM分别对应不同的分类器。
[0046] 表2各方法实验效果对比表
[0047]
[0048] 从表2中可以看出,在以贝叶斯为基本分类器的情况下,IA0S在大部分情况下性 能都是最优的。由于是以0VA法为基础,分类性能的变化趋势与0VA法是相一致的。Yeast 数据集的分类结果最差,PAUC值只有0. 5873,观察发现其有10个类别,是所有数据集中类 别数最多的。此外,Yeast数据集的IR也达到了 92. 6,即数据极不平衡。由此可以推断,类 别越多、IR越大,分类效果越差,这一结果与直观感受相一致。
[0049] 此外,从表2中还可以看出,在以决策树和SVM为基本分类器的情况下,IA0S同样 效果良好。此外,无论使用0V0、0VA或是IA0S,决策树上的效果大部分情况下都比SVM好。 这主要是因为数据的不平衡性导致SVM的决策边界会向少数类偏移,增大了少数类被错分 的概率。此外,可以发现对于IR只有1. 48的Wine数据集,不管使用何种方法,PAUC值都 在0.98以上。说明该方法可以应用于多类不平衡数据,并且不会对平衡数据集造成影响, 可用于各种不同程度平衡比的数据集。
[0050] 与已有技术相比,将改进的多类别分解策略A&0和不平衡数据采样技术SMOTE法 相结合,并运用到多类别不平衡虚拟资产数据分类中,可有效提高分类的精度。
[0051] 以上是对本发明进行了示例性的描述,显然本发明的实现并不受上述方式的限 制,只要采用了本发明技术方案进行的各种改进,或未经改进将本发明的构思和技术方案 直接应用于其它场合的,均在本发明的保护范围内。
[0052] [1] J. Alcala, A. Fernandez, J. Luengo, J. Derrac, S. Garcia, L. Sanchez, F. Herrera.KEEL data-mining software tool: data set repository,integration of algorithms and experimental analysis framework. Journal of Multiple-Valued Logic and Soft Computing,2011,17(2-3) :255-287.
[0053] [2]http://www. cs. waikato. ac. nz/ml/weka/.
【主权项】
1. 一种基于分解策略的多类别不平衡虚拟资产数据分类方法,其特征在于,包括以下 步骤:虚拟资产数据存储架构的描述和多类别不平衡虚拟资产数据的处理和分类器的构 建; 其中多类别不平衡虚拟资产数据的处理和分类器的构建步骤包括:首先通过使用OVA 法得到最有可能的两个候选类别,然后计算这两个类别之间的不平衡比值:如果该比值没 有超过一定的阈值,则直接训练0V0分类器;而如果比值超过该阈值,则先使用SMOTE法进 行采样,在采样后的数据集上训练0V0分类器。2. 根据权利要求1所述的一种基于分解策略的多类别不平衡虚拟资产数据分类方法, 其特征在于,所述多类别不平衡虚拟资产数据的处理和分类器的构建步骤为: 步骤一、A&0分解策略; 步骤二、SMOTE采样法; 步骤三、A&0策略和SMOTE采样法的融合。
【文档编号】G06F17/30GK106033432SQ201510108689
【公开日】2016年10月19日
【申请日】2015年3月12日
【发明人】李虎, 贾焰, 韩伟红, 李树栋, 李爱平, 周斌, 杨树强, 黄九鸣, 全拥, 邓璐, 朱伟辉, 傅翔, 刘斐
【申请人】中国人民解放军国防科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1