专利名称:基于约束概念格的天体光谱局部偏离数据挖掘系统和方法
技术领域:
本发明涉及一种数据挖掘系统和方法,具体来说是涉及一种基于约束概念格 的天体光谱局部偏离数据挖掘系统和方法。
背景技术:
随着数据库技术的飞速发展以及获取数据手段的多样化,先进的现代科学观测仪器的使 用使得每天都要产生巨量的数据。数据的丰富加大了对强有力的数据分析工具的需求,大量 的数据被描述为"数据丰富,但信息贫乏",快速增长的海量数据被收集、存放在大型和大 量数据库中,没有强有力的工具,理解它们已远远超过了人的能力,因此,如何从海量数据 中提取有价值的信息已经成为巨大的挑战。换句话说,人们通过这些数据所获得的信息量仅 仅是整个数据库中的很少一部分,而隐藏在这些数据背后的更重要的信息是关于这些数据的
整体特征的描述及对其发展趋势的预测,这些信息具有更重要的价值。数据挖掘(DM, Data Mining)的概念就是在此背景下,于九十年代初,应运而生的一种数据分析和知识提取新技 术。
离群数据挖掘(outliers mining),是数据挖掘的主要研究内容之一,也是数据挖掘研究 的一个重要分支。离群数据就是明显偏离其它数据,不满足数据的一般模式或行为,与存在 的其它数据不一致的数据。离群数据通常来源于测量错误、计算机录入错误、人为错误等, 这些数据要对其修改、删除,否则,可能影响数据分析结果;另外,它也可能就是数据的真 实性质的反映,可能比一般数据所包含的信息更有价值,这部分数据应予以保留。离群数据 的发现,往往可以使人们发现一些真实的,但又出乎意料的知识,在实际生活中有广泛的应 用,例如信用卡欺诈、网络入侵检测、市场营销、医药研究等。
随着机器学习、数据库和数据挖掘技术的不断深入,离群数据挖掘得到了不断的深入和 发展,成为数据挖掘领域中一个非常活跃的研究内容之一,已聚集了大量的研究人员从事离 群数据挖掘技术的理论和实际应用的研究。同时,离群数据挖掘在伸縮性、高维性、海量性 和效率,尤其是准确性等方面提出了更高的要求。
目前,离群数据挖掘方法主要分为距离的方法、统计的方法、局部密度的方法和基于 偏离模型的方法等。大多数的挖掘方法是利用全局的观点看待偏离数据,很难发现低维子空 间中的偏移数据或局部偏离数据,而且很难适合于高维数据。C. C.Agarwal等人于2005年 提出了一种基于子空间的离群数据挖掘方法,该方法采用遗传算法搜索离群子空间,提高了 挖掘的效率,而且结果具有可解释性。由于遗传算法并不能确保结果的准确性和完备性,导 致遗漏数据或没有发现稀疏度系数最小的数据。由于方法仅利用稀疏度系数'在子空间中来 考察数据的局部偏离行为,无法避免由于正常数据的稀疏,导致在子空间中也是稀疏性的不足,因此挖掘结果不是准确的。
概念格是一种数据分析和知识处理的有力工具,通过Hasse图生动简洁地体现了这些概 念之间的泛化和特化关系。概念格具有知识表示的直观、简洁和完备等特点,受到研究者的 关注,并已经被成功地应用于数据挖掘与知识发现、数字图书馆、文献检索、软件工程、医 疗案例数据分析、CBR (基于案例的推理)等领域。从概念格上提取知识,主要集中在规则、 关联、分类等知识的提取方面,但偏离知识提取的研究成果非常少。约束概念格是张继福等 人于2006年提出的一种新的概念格结构,具有构造效率高、提取知识针对性和实用性强等特 点。
本发明受到了国家自然科学基金(60773014)项目的资助。
发明内容
本发明就是针对上述偏离数据挖掘中存在的问题,提出了一种基于约束概念格的天体光 谱局部偏离数据挖掘系统和方法,以解决现有偏离数据挖掘技术中存在的无法处理海量高维 天体光谱局部偏离数据、挖掘结果不准确和针对性差等问题。
本发明提供以下技术方案
一种基于约束概念格的天体光谱局部偏离数据挖掘系统,以计算机为中心,连接中星仪 式反射施密特望远镜,并在计算机上建立依次以数据流连接的数据采集存储模块,天体光谱 数据离散化模块,约束概念格构造模块,局部偏离数据挖掘模块。数据采集存储模块上设有 一个I/0接口,其与光谱数据离散化模块成双向连接;中星仪式反射施密特望远镜,口径长 4m,在1.5h曝光时间内,可以以10埃的光谱分辨率观测到20.5mag的暗弱天体光谱,相对 于在5度视场的1.75m焦面上放置4000根光纤,然后连接到多台光谱仪上,同时获得4000 个天体的光谱,每个观测夜晚将收集近4万条光谱的数据,所观测到的光谱数据容量达到4TB。 天体光谱数据离散化模块是对天体光谱数据,按照特征线的流量高度和宽度,将其连续特征 值离散化为离散值,形成天体光谱数据形式背景,以便下一步进行约束概念格构造。约束概 念格构造模块是以一阶谓词逻辑表示用户感兴趣的天体光谱特征,并作为背景知识,由天体 光谱数据形式背景,按照约束概念格构造方法,构造天体光谱数据的约束概念格。局部偏离 数据挖掘模块是在对天体光谱数据的约束概念格基础上,设定天体光谱局部偏离数据的稀疏 度和稠密度系数参数,并遍历约束概念格,挖掘出天体光谱局部偏离数据,该参数是判断约 束概念格节点是否为局部偏离节点的阈值,通过对该参数的调整,可以得到不同要求的天体 光谱局部偏离数据。
一种基于约束概念格的天体光谱局部偏离数据方法,包含以下步骤
A通过中星仪式反射施密特望远镜采集回天体光谱数据,将数据输入计算机内,并存入数据采集存储模块中。
B将数据采集存储模块采集的天体光谱数据,依据特征线的流量高度和宽度,将其特征 值离散化为离散值,形成天体光谱数据形式背景;
C根据以上述天体光谱数据形式背景,以一阶谓词逻辑表示和描述用户感兴趣的天体光 谱特征,并作为背景知识,按照约束概念格构造方法,构造天体光谱数据的约束概念格。
D在天体光谱数据约束概念格的基础上,设定度量天体光谱局部偏离数据的稀疏度和稠 密度系数参数,该参数是判断约束概念格节点是否为局部偏离节点的阈值,并遍历约束概念 格,挖掘出天体光谱局部偏离数据,通过对该参数的调整,可以得到不同要求的天体光谱局 部偏离数据。
所要处理的天体光谱数据为中星仪式反射施密特望远镜采集的高维、海量、稀疏数据, 其中高维是指中星仪式反射施密特望远镜采集的天体光谱数据的属性达到了 1000维以上,主 要特征线高达50条;海量是指中星仪式反射施密特望远镜每天要获取将近4T的数据量;稀 疏是指中星仪式反射施密特望远镜采集的任何一条天体光谱数据的重要信息可用某些特征线 体现出来。
本发明与现有技术相比具有以下有益效果通过使用一种基于约束概念格的天体光谱局 部偏离数据挖掘系统和方法,解决现有偏离数据挖掘技术中存在的无法处理海量高维天体光 谱局部偏离数据、挖掘结果不准确和针对性差等问题。具体讲本发明具有以下优点
1、 本发明通过运用约束概念格作为一种天体光谱数据描述工具,即约束概念格结点 内涵描述了天体光谱特征子空间,结点外延描述了特征子空间中的天体光谱数据。充分地利 用约束概念格具有构造效率高、提取知识针对性和实用性强等特点,因此约束概念格的构造 效率高,且从中挖掘出的天体光谱局部偏离数据针对性强。
2、 通过运用稀疏度和稠密度系数两个参数,来共同度量天体光谱局部偏离数据,从根 本上克服了稀疏度系数并不能正确、准确反映稀疏子空间上的数据偏离程度的缺点。因此稀 疏度和稠密度系数的度量方法,保证了挖掘出的天体光谱局部偏离数据是准确性。
-
图1是本发明所述方法的流程图
图2是本发明所述方法的实施例流程图
图3是本发明所述系统的光谱数据离散参数设置装置图
图4是本发明所述系统的约束概念格构造装置图
图5是本发明所述系统的天体光谱离群数据挖掘装置图具体实现方式-
本发明涉及一种基于约束概念格的天体光谱局部偏离数据挖掘方法,主要解决以下问题
1、 天体光谱数据的离散化;
2、 离群的高效挖掘;
3、 挖掘结果的正确性和针对性。
针对上述几个问题,下面结合附图和具体实施例来详细描述本发明。 如图1和图2所示,本实施例包含如下步骤
第一、通过对原始天体光谱数据的预处理,包括数据的离散化,形成面向离群数据挖掘 的天体光谱数据集。
光谱数据是由一系列的特征线组成数据,包括特征线的高度和宽度,这样的数据由于不 能直观描述光谱波的特征,也不能适应数据挖掘的要求,因而需要对特征线进行预处理。特 征线预处理中,天体光谱要描述特征线的强度和宽度。比如可将特征线的高度分为六种情况 强发射线、 一般发射线、弱发射线、强吸收线、 一般吸收线、弱吸收线;将特征线的宽度分 为两种情况窄、宽。在离散化的过程中,用一维的数据来取代二维特征向量的存储,即将 特征线的高度和宽度两两组合,分别为强发射线窄、强发射线宽、 一般发射线宽、 一般发射 线窄、弱发射线宽、弱发射线窄、强吸收线宽、强吸收线窄、 一般吸收线宽、 一般吸收线窄、 弱吸收线宽、弱吸收线窄、无等共13种情况。
第二、利用一阶谓词逻辑描述的背景知识,构造出天体光谱数据的约束概念格。 为了描述方便,这里引入背景知识和约束概念格的概念。釆用谓词逻辑表示背景知识时, 首先定义描述背景知识的谓词,并指出每个谓词的确切含义,然后再用连接词(A (与)、V (或)、,(非)、一(蕴含)、V (全称量词)、3 (存在量词))把有关的谓词连接起来,形成
一个谓词公式以表达 -条完整的背景知识。描述形式背景的二维表,可表示为一个n元有序 组的集合, 一个集合可用一个特性谓词刻画,故一个n元有序组的集合可用一个n元特性谓 词刻画。
定义l G (z)为一个一元谓词,表示z是一个概念格结点。
定义2 Concept (z, x, y )为一个三元谓词,表示格结点z具有内涵x,外延y。
定义3 Include (x, y)表示由某属性集y组成的内涵x。
定义4 Interest(z)为一个一元谓词,表示z是一个关心结点。
其中内涵由用户关心的含有某些属性集合组成的知识定义为第I类背景知识,内涵由 用户关心的不含有某些属性集合组成的知识定义为第II类背景知识。
定义5 设Pl(Z)二Vz((G (z) A concept (z, x, y ) A include (x, y0) ) — interest (z))为一谓词公式,P1(Z)表示一个格结点。如果其内涵x是由用户关心的属性子集yo组成,则该结 点为关心结点。
定义6设P2(Z^Vz((G (z) A concept (z, x, y ) A (include (x, y0) A include (x, y!))) —interest (z))为一谓词公式,P2(Z)表示一个格结点。如果其内涵x是由用户关心的属性子 集yoy!组成,则该结点为关心结点。
定义7 P3(Z)-Vz((G (z) A concept (z, x, y ) A (include (x, y。) V include (x, y,))) —interest (z))为一谓词公式,P3(Z)表示一个格结点。如果其内涵x是由用户关心的属性子 集yo或y,组成,则该结点为关心结点。
定义8设P4(Z)二Vz((G (z) A concept (z, x, y ) A, include (x, y。) ) 一 interest (z)) 为一谓词公式,P4(Z)表示一个格结点。如果其内涵是由用户关心的不含属性子集yo组成,则 该结点为关心结点。
定义9设P5(Z)-Vz((G (z) A concept (z, x, y ) A (, (include (x, yo) ) A , (include (x, y,))) — interest(z))为一谓词公式,P5(Z)表示一个格结点。如果其内涵是由用户关心 的不含属性子集yQ且不含属性子集y,组成,则该结点为关心结点。
定义10设P6(Z)= Vz((G (z) A concept (z, x, y ) A (, ( include (x, y。) V, include (x, yi) )) — interest (z))为一谓词公式,P6(Z)表示一个格结点。如果其内涵是由用户关心 的不含属性子集yo或者不含属性子集"组成,则该结点为关心结点。
在概念格的构造过程中,概念格结点的内涵所包含的属性集用户并不都感兴趣,同时--些属性组成的内涵在实际应用中并无意义。因此,可以根据用户对数据集的兴趣、了解、认 识等作为背景知识指导概念格的构造,从而使概念格的结构更具有针对性和实用性。谓词逻 辑具有自然性、精确性、严密性和容易实现等优点,是一种广泛使用的知识表示技术。 定义ll由形式背景K构造出的概念格,每一个概念可表示为h-((A, B), P),其中P为约束 条件,且P ((A, B)) =.T., AG P(G)称为概念的外延,BE p(M)称为概念的内涵,且A, B
同时满足以下两个条件
(1) f(B)=A=B' ={AeG| VBeM,AIB}
(2) f' (A)=B=A' ={BeM| VAeQAIB}
称具有这种结构的概念格称之为约束概念格(Constrained concept lattice),表示为 <L(GM,I,P), ,其中L(G,M,I,P)表示满足约束条件的概念(结点)集合,S表示为满足约 束条件概念之间的偏序关系。满足上面两个条件且P ((A, B)) 、T.的序偶(A, B)均属于 L(G,M,I,P)。
定义19设h=((A!, B!), p)和h2=((A2, B2),P)是约束概念格中的任意两个不同节点,In是h2的下界(h2是h的上界)表示为h-h2C^B2eBioAieA2 (h^lnoB^BsoA^A,),如果
不存在hf ((A3, B3), P)有h《h3Sh2成立,则h2称为hi的父节点(父概念,直接前趋,下 确界),h,称为h2的子节点(子概念,直接后继,上确界),反之,则h2称为hi的祖宗节点。
在概念格增量式构造构成中,根据背景知识约束概念格格节点的生成,保留满足约束条
件的格节点,并根据定义19确定格节点之间的父子关系。约束概念格的渐进式构造算法主要 由如下步骤构成-
1) :判断新增记录具有的属性集是否满足约束条件,若不满足则退出,反之进入2);
2) :对于概念格的每个格节点,判断其内涵是否是新增记录的子集,若是则将新增记录 的编号加入格节点的外延中,反之进入3);
3) :新增记录与当前格节点的内涵取交集,若交集B为空,返回第二步,反之判断交集
B是否满足约束条件,若交集B不满足则返回2),反之判断概念格中是否存在某个格节点, 使得其内涵等于交集B,若存在则返回2),反之则进入4);
4) :新增一个格节点,其内涵为交集B,外延是当前格节点的外延与新增记录的编号的
并集;
5) :根据定义19,建立新增格节点与其它格节点之间的父子关系。
第三、依据设定的稀疏度系数阈值和稠密度系数阈值,局部偏离数据挖掘方法通过以下
步骤来实现
输入约束概念格格结构CCL,稀疏度系数阈值TS,稠密度系数DENSE,背景知识P1VP2 V,..VPn
输出局部偏离数据Outlier
1 Outlier: 0
2 sort(RCL) /*按照概念内涵中属性个数对概念从小到大排序*/
3 k= Llog』Gl/7S2+l)」 /*局部偏离概念的最大维数*/
4 N= |G|*/* + TS%/| GI */"(1 -/) /*局部偏离概念外延包含的最大对象数"
5 For each conc印t C=( (A, B),P) in RCL and |B|^K and |A|^N
6 If C=(A,B)isnotNC
7 Rec^BnUP^,(P2K.(Pnn,并去掉Red中的{0}元素
8 计算C的约束内涵縮减集Red
9 For each R in Red
10 If |R| = K11 SubR={R'i I R, cR且| Rj' |=|R|-1}
12 If VRj'eSubR构成的子空间均满足稠密子空间的条件
13 Outlier=OutlieruA
14 Mark every child of C as NC
15 Break End if End if End for
16 Else Mark every child of C as NC
17 End if
18 End for
19 End.
权利要求
1、 一种基于约束概念格的天体光谱局部偏离数据挖掘系统,其特征是以计算机为中心,连接中星仪式反射施密特望远镜,并在计算机上建立依次以数据流连接的数据采集存储模块,天体光谱数据离散化模块,约束概念格构造模块,局部偏离数据挖掘模块。
2、 根据权利要求1所述的一种基于约束概念格的天体光谱局部偏离数据挖掘系统,其特 征是 一架横卧南北方向的中星仪式反射施密特望远镜。它的口径长4m,在1.5h曝光时间 内,可以以10埃的光谱分辨率观测到20.5mag的暗弱天体光谱,相对于在5度视场的1.75m 焦面上放置4000根光纤,然后连接到多台光谱仪上,同时获得4000个天体的光谱,每个观 测夜晚将收集4万条天体光谱数据,所观测到的光谱数据容量可达到4TB。
3、 根据权利要求1所述的一种基于约束概念格的天体光谱局部偏离数据挖掘系统,其特 征是天体光谱数据离散化模块是对天体光谱数据,按照特征线的流量高度、宽度和形状, 将其连续特征值离散化为离散值,形成天体光谱数据形式背景,以便于下一步的约束概念格 构造。
4、 根据权利要求1所述的一种天体光谱局部偏离数据挖掘系统,其特征是约束概念格 构造模块是以一阶谓词逻辑表示和描述用户感兴趣的天体光谱特征,并作为背景知识,采用 约束概念格构造方法,由天体光谱数据形式背景,构造天体光谱数据约束概念格。
5、 根据权利要求1所述的一种天体光谱局部偏离数据挖掘系统,其特征是局部偏离数据挖掘模块是在已构造好的天体光谱数据约束概念格基础上,设定天体光谱局部偏离数据的 稀疏度和稠密度系数参数,该参数是判断约束概念格节点(内涵、外延)是否为局部偏离节 点(局部偏离子空间、局部偏离数据对象)的阈值,并遍历约束概念格,挖掘出天体光谱局 部偏离数据,通过对该参数的调整,可以得到不同要求的天体光谱局部偏离数据。
6、 一种天体光谱局部偏离数据挖掘方法,其特征是包含以下步骤A、 通过中星仪式反射施密特望远镜采集天体光谱数据,将数据输入计算机内,并由数 据采集存储模块,将其存入计算机中;B、 将数据采集存储模块采集的天体光谱数据,依据特征线的流量高度、宽度和形状, 将其连续特征值离散化为离散值,形成天体光谱数据形式背景;C、 根据以上述天体光谱数据形式背景,以一阶谓词逻辑表示和描述用户感兴趣的天体 光谱特征,并作为背景知识,采用约束概念格构造方法,构造天体光谱数据约束概念格;D、 在天体光谱数据约束概念格的基础上,设定度量天体光谱局部偏离数据的稀疏度和 稠密度系数参数,该参数是判断约束概念格节点是否为局部偏离节点的阈值,并遍历约束概 念格,挖掘出天体光谱局部偏离数据,通过对该参数的调整,可以得到不同要求的天体光谱局部偏离数据。
7、 如权利要求6所述的基于约束概念格的天体光谱离群数据挖掘方法,其特征在于,所 述步骤D更具体包含dl、利用约束概念格结点表示天体光谱特征子空间;d2、稀疏度和稠密度系数用于度量天体光谱特征子空间中的局部偏离数据;d3、依据设定的稀疏度和稠密度系数参数阈值,通过遍历约束概念格结点,判断约束概 念格结点内涵是否为天体光谱局部偏离的特征子空间;d4、对于天体光谱局部偏离的特征子空间,约束概念格结点外延中所包含的数据,是该 特征子空间中的局部偏离数据。
8、 根据权利要求6所述的一种天体光谱局部偏离数据挖掘方法,其特征是所要处理的 天体光谱数据为中星仪式反射施密特望远镜采集的高维、海量、稀疏数据,其中高维是指中星仪式反射施密特望远镜采集的天体光谱数据的属性达到了 iooo维以上,主要特征线高达50条;海量是指中星仪式反射施密特望远镜要获取将近4T的数据量;稀疏是指中星仪式反射施密特望远镜采集的任何一条天体光谱数据的重要信息可用某些特征线体现出来。
全文摘要
本发明公开了一种基于约束概念格的天体光谱局部偏离数据挖掘系统和方法,以计算机为中心,连接中星仪式反射施密特望远镜,并在计算机上建立天体光谱数据采集存储模块,天体光谱数据离散化模块,约束概念格构造模块,局部偏离数据挖掘模块。计算机通过上述模块,首先依据区间划分方法,对采集回的天体光谱数据进行离散化,形成天体光谱数据形式背景,其次根据天体光谱背景知识和形式背景,采用约束概念格构造方法,构造天体光谱数据约束概念格,最后设定稀疏度系数阈值和稠密度系数阈值,来判断约束概念格内涵(即特征子空间)是否为离群子空间,以及对应外延中的对象是否为局部离群数据,通过遍历约束概念格,挖掘出天体光谱局部偏离数据,可对该参数进行调整,得到不同要求的天体光谱局部偏离数据。通过使用本发明,可以提高天体光谱局部偏离数据挖掘的准确性和有效性。
文档编号G02B23/00GK101286158SQ20081000912
公开日2008年10月15日 申请日期2008年1月25日 优先权日2008年1月25日
发明者刘爱琴, 张素兰, 张继福, 杨海峰, 蒋义勇 申请人:太原科技大学