基于遗传算法从大规模高维数据中检测离群数据的方法

文档序号:6635786阅读:391来源:国知局
基于遗传算法从大规模高维数据中检测离群数据的方法
【专利摘要】本发明公开了一种基于遗传算法从大规模高维数据中检测离群数据的方法,属于离群数据挖掘【技术领域】,包括如下步骤:(1)样本离散化及编码:将高维数据进行编码,每一个个体对应一个字符串;选择稀疏系数作为适应度函数,由该系数作为判定个体优劣的标准;(2)循环迭代:维护一个群体,群体包括若干个体;通过交叉、变异、选择按照优胜劣汰的原则不断的更新这个群体;(3)译码得到离群数据:将最终获得的群体进行译码对应相应的样本数据,进而发现隐藏在其中的离群数据。本发明可以高效快速的从大规模高维数据中发现隐藏在其中的离群数据。
【专利说明】基于遗传算法从大规模高维数据中检测离群数据的方法

【技术领域】
[0001] 本发明涉及一种离群数据挖掘【技术领域】,具体地说是一种基于遗传算法从大规模 高维数据中检测离群数据的方法。

【背景技术】
[0002] 离群数据是指在大量数据存在的一些与数据的一般行为或模型不一致的数据。离 群数据的产生一般认为有两种原因: (1)、度量或执行错误所导致:对这类型离群数据的筛选,可以从大量数据中筛选出杂 质或存在问题的数据,进而提高数据的总体质量。
[0003] (2)、固有的数据变异性的结果:这类型数据的客观存在决定了对该类型离群数据 筛选的重要性。例如在科研数据发现客观存在的一些未知的离群数据,可以很好的提高相 关理论的研究。
[0004] 利用离群数据检测,不仅可以用来在分类、聚类及回归等其它应用中排除样本中 的杂质数据,而且可以发现在大样本数据中存在的一些分布比较少的特殊样本数据。
[0005] 随着数据的不断积累及数据的规模不断的增大,传统离群数据挖掘算法利用现有 计算条件在其中筛选离群数据越发地困难。


【发明内容】

[0006] 本发明的技术任务是提供一种结可以高效快速的从大规模高维数据中发现隐藏 在其中的离群数据的基于遗传算法从大规模高维数据中检测离群数据的方法。
[0007] 本发明的技术任务是按以下方式实现的: 基于遗传算法从大规模高维数据中检测离群数据的方法,包括如下步骤: (1) 、样本离散化及编码:将高维数据进行编码,每一个个体对应一个字符串;选择稀 疏系数作为适应度函数,由该系数作为判定个体优劣的标准; (2) 、循环迭代:维护一个群体,群体包括若干个体;通过交叉、变异、选择按照优胜劣 汰的原则不断的更新这个群体; (3) 、译码得到离群数据:将最终获得的群体进行译码对应相应的样本数据,进而发现 隐藏在其中的离群数据。
[0008] 编码及译码:遗传算法中的一个群体是由经过基因编码的一定数目的个体组成; 每个个体是染色体带有特征的实体,染色体用字符串的形式来表示,变量与个体之间的映 像通过编码实现;对于一个》维数据集,第个属性的取值为穸或者*,*表示 对该属性的取值不关心;对于原始数据中的第时*^?)个属性的取值按照数值的大小投影 到-个分组中,即数据映像到一维空间上后;每一区间包含相等数量的数据点,将转变为为 1?史之间的某个值。例如对一个四维数据集的二维子空间它的一个可能的二维子空间模 式为"*3*9",这个模式中,第二维和第四维的取值是确定的,而第一维和第三维的取值是不 关心的;而该字符串对应的原始数据是第二维和第四维的取值分别是3和9的数据,而第一 维和第三维不予考虑。
[0009] 适应度函数是评价所有个体的目标函数;通过编码,将数据的每一维分成个等 深度区间;即数据映像到一维空间上后,每一区间包含相等数量的数据点,占总数据点的 /= i/妒:在一个数据集k维子空间中的每一维上各取一个深度区间,组成一个k维立方 体D,引人稀疏系数S (D)来表示它的稀疏程度(D)对应的k个属性及取值相当于数据集的 一个模式;S(D)越小表示D所包含的数据点越少,稀疏系数很小的D对应的模式即为异常 模式;稀疏系数S(D)的定义如下:

【权利要求】
1. 基于遗传算法从大规模高维数据中检测离群数据的方法,其特征在于包括如下步 骤: (1) 、样本离散化及编码:将高维数据进行编码,每一个个体对应一个字符串;选择稀 疏系数作为适应度函数,由该系数作为判定个体优劣的标准; (2) 、循环迭代:维护一个群体,群体包括若干个体;通过交叉、变异、选择按照优胜劣 汰的原则不断的更新这个群体; (3)、译码得到离群数据:将最终获得的群体进行译码对应相应的样本数据,进而发现 隐藏在其中的离群数据。
2. 根据权利要求1所述的基于遗传算法从大规模高维数据中检测离群数据的方法,其 特征在于编码及译码:遗传算法中的一个群体是由经过基因编码的一定数目的个体组成; 每个个体是染色体带有特征的实体,染色体用字符串的形式来表示,变量与个体之间的映 像通过编码实现;对于一个I*维数据集,第个属性的取值为1?P或者*,*表示对 该属性的取值不关心;对于原始数据中的第个属性的取值按照数值的大小投影到 -个分组中,即数据映像到一维空间上后;每一区间包含相等数量的数据点,将转变为为 1?铲之间的某个值。
3. 根据权利要求1所述的基于遗传算法从大规模高维数据中检测离群数据的方法, 其特征在于适应度函数是评价所有个体的目标函数;通过编码,将数据的每一维分成-个 等深度区间;即数据映像到一维空间上后,每一区间包含相等数量的数据点,占总数据点的 /=V史;在一个数据集k维子空间中的每一维上各取一个深度区间,组成一个k维立方体 D,引人稀疏系数S(D)来表示它的稀疏程度(D)对应的k个属性及取值相当于数据集的一 个模式;S(D)越小表示D所包含的数据点越少,稀疏系数很小的D对应的模式即为异常模 式;稀疏系数S(D)的定义如下:
其中,n(ll)为立方体D包含的数据点的数目,/ = 1/伊,N为数据集大小;JVx/?为预期 分数,
为标准偏差点。
4. 根据权利要求1所述的基于遗传算法从大规模高维数据中检测离群数据的方法, 其特征在于交叉及变异:对于一对模式阶为k的字符串si和s2,串中的每一个位置,有三 种类型:全为*,都不是*,只有一个为* ;在交叉时,首先将第二类位置进行两点交叉,选取 稀疏系数最小的一个置在si'对应的位置上;反复选取第三类位置对应的父串值并设置在 si'的相应位置上,使得si'有最小的稀疏系数,直到si'对应的位置都设置完毕;si'的其 它位置设为* ;s2'为si'的补串; 对于模式阶为k的字符串s,串中的每一个位置为*或者不为*,两次位置独立进行变 异;对于第一类位置,变异时选取其中的一个位置变为1到-之间的一个随机值,同时选取 一个第二类位置变为* ;对于第二类位置,变异时选取其中的一个位置变为1到-之间的一 个随机值。
5.根据权利要求1所述的基于遗传算法从大规模高维数据中检测离群数据的方法,其 特征在于清除迭代:迭代计算时,如果群体中的个体收敛时将其中所有个体去除并进行解 码;回归初始条件,重新进行计算,直到适应度函数达到阈值或离群数据的个数达到阈值。
【文档编号】G06F17/30GK104408116SQ201410689745
【公开日】2015年3月11日 申请日期:2014年11月26日 优先权日:2014年11月26日
【发明者】韦鹏, 付兴旺, 吴楠 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1