一种基于模式挖掘的噪音数据过滤方法

文档序号:6367041阅读:706来源:国知局
专利名称:一种基于模式挖掘的噪音数据过滤方法
技术领域
本发明涉及一种数据处理方法,具体地说是一种基于模式挖掘的噪音数据过滤方法。
背景技术
数据质量指数据满足明确或隐含需求程度的指标,是对于现实世界的真实写照。数据质量问题不仅仅指出现不正确的数据还指数据不一致性问题,随着数据量的增加,数据的内部一致性问题变得极为重要,是广泛存在于各学科数据使用中的 一个主题。噪声作为测量误差的随机部分,它可能涉及到值的失真或加入了伪造的对象数据。关联分析作为数挖掘中的核心问题之一,用于寻找给定数据记录集中数据项间隐藏的关联关系及描述数据间有意义的联系,对于关联规则挖掘往往转化为基于支持度-置信度框架的频繁模式挖掘,但是,频繁模式往往不是真正用户感兴趣的模式,所以,兴趣模式挖掘的研究和应用得到人们的重视,在购物篮事物(market basket transaction)、生物信息学、公共健康及Web挖掘中等领域有着广泛的应用。设数据集二 {11,12,…,In}由/ 个事务构成,对于每一个去除词频的实例看作一个事Ii 二 {w11, W2,…,W11 Ii\} 0设\Hpl,p2,. . . ,/7衫表示兴趣模式集合,若实例/i中不包含任何兴趣模式,即(
Pfil),则实例n为数据集的噪音数据。为此,需要通过去除D中所有噪音实例的噪
音过滤获得高质量数据以确保数据的正确性、一致性。

发明内容
为了克服现有技术中采用频繁模式挖掘噪音数据存在的问题,本发明的目的是提供一种基于模式挖掘的噪音数据过滤方法。该方法根据兴趣度指标条件,将兴趣度指标直接进行剪枝,一步到位地挖掘出兴趣模式,有效实现噪音数据过滤,获得高质量数据,提高了数据的正确性、一致性。本发明的目的是通过以下技术方案来实现的
一种基于模式挖掘的噪音数据过滤方法,其特征在于该方法首先建立由词袋数据集D构成的预处理数据结构FP树,该FP树包含了词袋数据集及其相应的事物数据集;其次,根据FP-2INF算法,最终将所有2-项集兴趣模式添加到兴趣模式集L中,完成噪音数据过滤;具体步骤如下
1)预处理输入数据集;输入数据由二元组<Word_ID,Frequency}的词袋数据集组成的Word_ID-Instance矩阵,该矩阵每一行由Word_ID及其相关的实例数据构成,进而转化为构建FP树的事务数据集;
2)根据预处理的数据集,通过频繁集中频率降序的顺序建立FP树,设立基于2-项集余弦相似度兴趣模式噪音数据挖掘^^%Mn_supp、min_cos ;
3)使用算法FP-2INF,将FP树分成前缀路径FP树P和多缀路径FP树Q,算法开始试图寻找单路径树,遍历单路径树P上的任意2-项集卢U ,如果满足cos (AUff) ^min_cos兴趣模式,则将其添加至兴趣模式集L中;在多缀路 径树Q中,对路径上的任意元素若为单项集,建立条件模式基及条件FP树Tree^,对非空的FP树Tree^继续FP-2INF迭代;否则,对满足2-项集模式且符合余弦相似度条件的2-项集添加至兴趣模式集L中;
4)根据FP-2INF返回的2-项集余弦相似度兴趣模式,比较数据集D和模式集L中的数
据;对于任意数据彡而言,如果存在彳|£|则|即为被兴趣模式过滤的噪音数据,完成噪音数据过滤。本发明的初始输入是数据集合D、D上构建的FP树,及阈值。由兴趣度评估关联规则的定义,潜在兴趣模式的最小长度为2。对于D中的实例Ji,为了能够证明当存在一个左-项集請的兴趣模式下而不包含任意2-项集兴趣模式的情况存在,进而从很大程度上简化兴趣模式发现。本发明首先引入噪音数据过滤适用的条件及度量方法构建FP树,在此基础上通过定理证明了对于满足余弦相似度度量条件的2-项集调用 FP-2INFbased 2~Itemsets Noise Filter)算法可以有效达到噪音数据过滤的目的。为了验证噪音数据过滤的高效性,本发明使用了来自Flickr的图像数据集0xford_5Ko该数据集由标注了 11类不同牛津地标的5060张图片组成,由含有IM属性的词袋表示,特征值即为视觉词的出现频率。去除出现频率不足3次的属性,最终获得由658346个特征的数据集,其中数据密度0. 0228%,噪音91. 58%。本发明根据兴趣度指标条件,将兴趣度指标直接进行剪枝,一步到位地挖掘出兴趣模式,有效实现噪音数据过滤,获得高质量数据,提高了数据的正确性、一致性。


图I是本发明具体的流程图。图2是不同参数设置情况下噪音过滤前后聚类性能对比图。
具体实施例方式一种本发明所述的基于模式挖掘的噪音数据过滤方法,该方法首先建立由词袋数据集D构成的预处理数据结构FP树,该FP树包含了词袋数据集及其相应的事物数据集;其次,根据FP-2INF算法,最终将所有2-项集兴趣模式添加到兴趣模式集L中,完成噪音数据过滤;图I是本发明具体的流程图,具体步骤如下
1)预处理输入数据集;输入数据由二元组<Word_ID,Frequency}的词袋数据集组成的Word_ID-Instance矩阵,该矩阵每一行由Word_ID及其相关的实例数据构成,进而转化为构建FP树的事务数据集;
2)根据预处理的数据集,通过频繁集中频率降序的顺序建立FP树,设立基于2-项集余弦相似度兴趣模式噪音数据挖掘热參lmin_supp、min_cos ;
3)使用算法FP-2INF,将FP树分成前缀路径FP树P和多缀路径FP树Q,算法开始试图寻找单路径树,遍历单路径树P上的任意2-项集βUα,如果满足cos (βUα ) ≥min_cos兴趣模式,则将其添加至兴趣模式集L中;在多缀路径树Q中,对路径上的任意元素若为单项集,建立条件模式基及条件FP树Tree^,对非空的FP树Tree^继续FP-2INF迭代;否则,对满足2-项集模式且符合余弦相似度条件的2-项集添加至兴趣模式集L中;
4)根据FP-2INF返回的2-项集余弦相似度兴趣模式,比较数据集D和模式集L中的数
据;对于任意数据{而言,如果存在彳eJ) 则I即为被兴趣模式过滤的噪音数据,完成噪
音数据过滤。兴趣度指标条件如下
为了揭示对2-项集兴趣模式具有足够的噪音过滤能力,给出以下两个满足度量的条件。对于所有满足条件I或条件2的指标都可以作为兴趣度衡量指标,同时,由于余弦相似 度很好的满足了条件反单调性、交叉支持等性质,将选用余弦度量作为噪音数据过滤的方法。;# /f 2 :令V是项的集合,/=Z是V的幂集。对于兴趣度量/,如果VX, Yefi (I CY)^ 卿 > /(F),则(7 G L) — Cr G L)。这表明度量/满足反单调性,从而有助于修剪无兴趣候选项的超集。;# /f :令V是项的集合,/=Z是V的幂集。对于兴趣度量/,如果
vl.re Iw e 尤且 Wf e F\J,(j(m-3 < ff(wf) (Xe Y)-^ /(I) >/{F),则(Y g l) — (X g L)。其中,a CwJ是数据集D上的支持度度量/满足条件反单调性质。鉴于余弦度量方法很好的满足了以上性质,本发明主要采用余弦度量方法的噪音数据过滤。证明如定理I所示
定理I :设项集多2、模式/7 w2,.., ffAy,则关于/7的cosine度量如公式(I)所示满足条件2。 =
证明设左-项集模式w2,.., wkj及由其超集IM wl, w2,.., wk, wk+1,…,wk+m]构成的(k+m)-项集 Os 彡 2)。由条件 2 可知W e (k,lc + m] and j e [I,k], _+) > a(w/}。
ws(A)=-画;.....................................................................................................> ;....................................................................................................> ;■...............................................................................— = cos ())
) Wsl 5(w:j,nsf 电)
\ \ \也即<(96* ⑵ >〔(OS* ⑵,得证。算法如下
FP树通过频繁集中频率降序的顺序添加兴趣模式中的每一个事务构成,设FP树中的路径抑从i二W11,W12,…,wk},则 o (w11) ^ o (w12) ^^ o (w1 k)。由条件2简化2-项集兴趣模式,然后利用支持度的反单调性以及余弦相似度的条件反单调性一步到位进行兴趣模式的挖掘。由于本发明只要求对2-项集兴趣模式挖掘,且对FP树中满足支持度条件和余弦相似度条件的2-项集双剪枝操作,所以比传统先对满足支持度条件剪枝,进而在所得到频繁模式基础上做兴趣度分析的方法而言本发明速度更快、效率更高。定理2证明了本发明对满足cosine度量条件的2_项集可以有效达到噪音数据过滤的目的。定湮算法仅需挖掘满足以下条件的2-项集模式对于2-项集
P={wi, ,若满足支持度ff(p)>M cosine如果可以将所有的2-项
集兴趣模式添加到L中,则满足了噪音数据过滤要求。证明设2-项集模式X= {wi, wjj及以{wi, wjj结尾的左-项集模式Y= {wI, ,wk-2,wi, wjj ,根据条件 I 和 2 可得a ⑵ > o (Y) > cos (X) ^ cos (TJ。所以,当7满足阈值加入L时,Z同时也存在于L中,S卩如果一个实例包括7,这个实例必定也包括
I。所以只需添加2-项集兴趣模式到L就可过滤噪音数据。明为了验证算法的高效性,使用了来自Flickr的图像数据集0xford_5K。该数据集由标注了 11类不同牛津地标的5060张图片组成,由含有IM属性的词袋表示,特征值即为视觉词的出现频率。去除出现频率不足3次的属性,最终获得由658346个特征的数据集,其中数据密度0. 0228%,噪音91. 58%。为了评估本文所提出算法的有效性,首先在不同参数设置下使用本发明过滤方法得到剩余图片的数及在0Xford_5K中标注“Good”或“0K”的清晰图片数,其中,“Good”表示图像清晰可见,“0K”表示图像超过25%的部分清晰可见,结果如表I所示。在示例I中,当没有过滤时显示剩余图片5060张图片及标注清晰图片568张,随着参数阈值imin_suPP,min_cos)的持续增长,2-项集模式、剩余图片及清晰图片也稳步增长。特别地,在示例8中本发明过滤了将近82. 5%的噪音图片。表I.不同参数设置下的结果
权利要求
1.一种基于模式挖掘的噪音数据过滤方法,其特征在于该方法首先建立由词袋数据集D构成的预处理数据结构FP树,该FP树包含了词袋数据集及其相应的事物数据集;其次,根据FP-2INF算法,最终将所有2-项集兴趣模式添加到兴趣模式集L中,完成噪音数据过滤;具体步骤如下 1)预处理输入数据集;输入数据由二元组<Word_ID,Frequency}的词袋数据集组成的Word_ID-Instance矩阵,该矩阵每一行由Word_ID及其相关的实例数据构成,进而转化为构建FP树的事务数据集; 2)根据预处理的数据集,通过频繁集中频率降序的顺序建立FP树,设立基于2-项集余弦相似度兴趣模式噪音数据挖掘热參lmin_supp、min_cos ; 3)使用算法FP-2INF,将FP树分成前缀路径FP树P和多缀路径FP树Q,算法开始试图寻找单路径树,遍历单路径树P上的任意2-项集卢U ,如果满足cos (AUff) ^min_cos兴趣模式,则将其添加至兴趣模式集L中;在多缀路径树Q中,对路径上的任意元素若为单项集,建立条件模式基及条件FP树Tree^,对非空的FP树Tree^继续FP-2INF迭代;否则,对满足2-项集模式且符合余弦相似度条件的2-项集添加至兴趣模式集L中; 4)根据FP-2INF返回的2-项集余弦相似度兴趣模式,比较数据集D和模式集L中的数据;对于任意数据{而言,如果存在|g|> |£/卟即为被兴趣模式过滤的噪音数据,完成噪音数据过滤。
全文摘要
本发明公开了一种基于模式挖掘的噪音数据过滤方法,该方法首先建立由词袋数据集D构成的预处理数据结构FP树,该FP树包含了词袋数据集及其相应的事物数据集;其次,根据FP-2INF算法,最终将所有2-项集兴趣模式添加到兴趣模式集L中,完成噪音数据过滤。本发明根据兴趣度指标条件,将兴趣度指标直接进行剪枝,一步到位地挖掘出兴趣模式,有效实现噪音数据过滤,获得高质量数据,提高了数据的正确性、一致性。
文档编号G06F17/30GK102637208SQ20121008472
公开日2012年8月15日 申请日期2012年3月28日 优先权日2012年3月28日
发明者伍之昂, 曹杰, 李秀怡, 杨风召, 毛波 申请人:南京财经大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1