一种基于粗糙集的适用于不完备决策表的规则提取方法与流程

文档序号:13004791阅读:161来源:国知局
一种基于粗糙集的适用于不完备决策表的规则提取方法与流程
本发明属于智能决策系统中的数据挖掘技术,涉及一种规则提取方法,具体是指一种基于粗糙集的适用于不完备决策表的规则提取方法。
背景技术
:现实中由于数据采集的结果往往伴随着噪声数据,这使得不确定数学工具显得尤为重要。粗糙集理论与其他处理不确定和不精确问题理论相比,无需提供问题所需处理的数据集合之外的任何先验知识。由于粗糙集处理不确定数据的优越性,目前已经在分类、聚类等多个领域得到广泛应用,其中,决策规则提取是最为重要的应用之一。在基于粗糙集的决策规则方法中,规则提取方法lem2凭借其更为出众的获取结果,被越来越广泛的使用。lem2方法搜索属性-值对空间,选择覆盖率最大的属性-值对,也就是说lem2方法从属性-值对的观点提取规则,但在一些情况下,从属性的观点提取规则更合理。规则提取方法drica(jianhuadai,haoweitian,wentaowang,liangliu.decisionruleminingusingclassificationconsistencyrate[j].knowledge-basedsystems,2013,43(2):95–102.)从属性的观点提取规则,而且不需要提前进行属性约简,属性约简和规则提取同时进行。现实中的数据往往存在着缺失值,粗糙集中含有缺失值的决策表称作不完备决策表。但规则提取方法drica未考虑对不完备决策表的处理,不能直接处理不完备决策表。基于上面的背景,需要提出一种适用于不完备决策表的规则提取方法。技术实现要素:本发明要解决的技术问题是提供一种基于粗糙集的适用于不完备决策表的规则提取方法,该方法具有drica方法的优点,而且适用于不完备决策表,即可以直接从含有缺失值的数据中提取规则;本发明涉及粗糙集理论、相容关系、相似关系等相关知识。为了解决上述技术问题,本发明采用的技术方案为:一种基于粗糙集的适用于不完备决策表的规则提取方法,其特征在于,包括如下步骤:步骤一,通过不完备决策表数据给出一个决策类的上(下)近似集b;一个用户感兴趣的属性集a;全部条件属性c;步骤二,令已选择的属性集sa的初始值为a,未选择的属性集ua的初始值为c-a,规则集rules的初始值空集,近似集b中未被规则集r覆盖的对象g的初始值为b;步骤三,判断步骤二中对象g是否为空集,如果为空,进入步骤八,否则进行下一步。步骤四,将步骤二中未选择的属性集ua中每个属性按照max|sa∪arb∩g|的条件获得选择属性a;令已选择的属性集sa=sa∪a,未选择的属性集ua=ua–a,其中,sa∪arb,表示b的属性集sa∪a的基于关系r的下近似;步骤五,计算b的已选择的属性集sa基于关系r的下近似p,即p=sarb;计算p∩g,令gc=p∩g;用已选择的属性集sa从gc(即p与g的交集)中提取规则,得到规则集rules;步骤六,对步骤五中的提取的规则集rules中的每条规则r进行简化,并将简化后的规则rules添加到规则集rules中,即rules=rules∪rules,同时令g=g–{规则集rules覆盖的对象}。步骤七,判断近似集b的已选择属性sa的下近似sarb和近似集b的全部条件属性c的下近似crb是否相等;如果满足条件,则执行下一步;否则,返回步骤三;步骤八,对规则集rules进行整体简化并输出:删除某条规则r后,规则集rules仍可以覆盖近似集b,即判断使得规则s成立的所有对象构成的集合是否包含近似集b,若满足,则rules=rules–r;输出规则集rules。所述步骤一中不完备决策表数据,即给定一个决策表dt=(u,c∪d,v,f),如果存在x∈u,a∈c,fa(x)是一个缺失值,则该决策表被称做不完备决策表;假设fd(x)为非缺失值;一个不完备决策表可表示为idt=(u,c∪d,v,f),*∈vc=∪a∈cva,步骤一中不完备决策表中决策类的上(下)近似集b通过公式得到,公式(1)是下近似,公式(2)为上近似;其中,r为关系,可为容差关系t,也可为相似关系s;rb(x)是关于对象x(x∈u)的关系类,当r为相容关系t时其可以通过公式(3)得到,tb(x)={y∈u|(x,y)∈t(b)}公式(3)其中t(b)为对象关于属性集b的容差关系,其通过公式(4)、公式(5)得到;给定不完备信息系统iis=(u,a,v,f),*∈v,对象关于属性集b的容差关系t(b)定义如下:t(b)=∩a∈bt(a)公式(5)上(下)近似集b也可以通过相似关系s(b)获得,相似关系s(b)如公式(6)、公式(7)定义;给定不完备信息系统iis=(u,a,v,f),*∈v,对象关于属性集b的相似关系s(b)定义如下:s(b)=∩a∈bs(a)公式(7)基于上述定义的非对称相似关系s(b).非对称相似与x的集合sb(x)定义如下:sb(x)={y∈u|(y,x)∈s(b)}公式(8)x与之非对称相似的集合定义如下:给定不完备信息系统iis=(u,a,v,f),*∈v,x关于b的基于相似关系的下近似和上近似分别定义如下:所述步骤六中属性值对通过以下定义得到:给定决策表dt=(u,c∪d,v,f),属性和属性值之间的原子表达式表示为a=v,称为属性值对,其中a∈{c∪d},v∈v。所述步骤八中∪s∈{rules-r}[s]表示满足规则集合{rules-r]r中s的所有对象构成的集合,[s]表示所有满足s的对象。本发明的有益效果第一,该方法具有drica方法的优点,用户可以指定自己感兴趣的属性,选择分类一致率最大的属性,不需要对数据集提前进行属性约简,将属性约简和规则提取的过程合并为同一个过程,而且适用于不完备决策表,即可以直接从含有缺失值的数据中提取规则。第二,利用粗糙集的近似集(上近似和下近似)概念,可以根据实际的需求来获得近似或者确定的规则集。附图说明图1是本发明方法的流程图图2是本发明的实施流程图具体实施方式如图1所示,一种基于粗糙集的适用于不完备决策表的规则提取方法,概述表达为:输入要提取规则的集合b和用户感兴趣的属性集a。从未选择的属性集中选择某一属性,然后更新已选择属性集,利用已选择属性集,从未被规则集覆盖的对象中提取规则,并对提取到的规则进行简化;重复上述步骤,直到b的已选择属性sa的下近似和b的全部属性的下近似相等,或b中对象全部被规则覆盖。最后对规则集r进行简化。包括如下步骤:步骤一101,通过不完备决策表数据给出一个决策类的上(下)近似集b;一个用户感兴趣的属性集a;全部条件属性c;所述步骤一中不完备决策表数据,即给定一个决策表dt=(u,c∪d,v,f),如果存在x∈u,a∈c,fa(x)是一个缺失值(缺失值表示为“*”),则该决策表被称做不完备决策表;假设fd(x)为非缺失值。一个不完备决策表可表示为idt=(u,c∪d,v,f),*∈vc=ua∈cva,所述步骤一中不完备决策表中决策类的上(下)近似集b通过公式得到,公式(1)是下近似,公式(2)为上近似。其中,r为关系,可为容差关系t,也可为相似关系s;rb(x)是关于对象x(x∈u)的关系类,当r为相容关系t时其可以通过公式(3)得到,tb(x)={y∈u|(x,y)∈t(b)}公式(3)其中t(b)为对象关于属性集b的容差关系,其通过公式(4)、公式(5)得到。给定不完备信息系统iis=(u,a,v,f),*∈v,对象关于属性集b的容差关系t(b)定义如下:t(b)=∩a∈bt(a)公式(5)上(下)近似集b也可以通过相似关系s(b)获得,相似关系s(b)如公式(6)、公式(7)定义。给定不完备信息系统iis=(u,a,v,f),*∈v,对象关于属性集b的相似关系s(b)定义如下:s(b)=∩a∈bs(a)公式(7)基于上述定义的非对称相似关系s(b).非对称相似与x的集合sb(x)定义如下:sb(x)={y∈u|(y,x)∈s(b)}公式(8)x与之非对称相似的集合定义如下:给定不完备信息系统iis=(u,a,v,f),*∈v,x关于b的基于相似关系的下近似和上近似分别定义如下:步骤二102,令已选择的属性集sa的初始值为a,未选择的属性集ua的初始值为c-a,规则集rules的初始值空集,近似集b中未被规则集rules覆盖的对象g的初始值为b;步骤三103,判断步骤二中对象g是否为空集,如果为空,进入步骤八,否则进行下一步。步骤四104,将步骤二中未选择的属性集ua中每个属性按照max|sa∪arb∩g|的条件获得选择属性a。其中sa∪arb,表示b的属性集sa∪a的基于关系r的下近似,令已选择的属性集sa=sa∪a,未选择的属性集ua=ua–a;如果多个属性的优先条件都相同,则选择第一个。该步骤中sa∪arb,b的属性集sa∪a的基于关系r的下近似获得方式如公式(1)。步骤五105,计算b的已选择的属性集sa基于容差关系t的下近似p,即p=sarb;计算p∩g,令gc=p∩g;用已选择的属性集sa从gc(即p与g的交集)中提取规则,得到规则集rules;该步骤中p=sarb,即b的已选择的属性集sa基于关系r的下近似p获得方式如公式(1)。步骤六106,对步骤五中的提取的规则集rules中的每条规则r进行简化步骤;若删除r中某个属性值对(a,v)后,规则r覆盖的对象集(即满足规则r的所有对象构成的集合)仍全部为b的子集,则r=r–{(a,v)},即从r中删除该属性值对(a,v);将提取并简化后的规则rules添加到规则集rules中,即rules=rules∪rules,同时令g=g–{规则集r覆盖的对象};该步骤中属性值对通过以下定义得到:给定决策表dt=(u,c∪d,v,f),属性和属性值之间的原子表达式表示为a=v,称为属性值对,其中a∈{c∪d},v∈v。步骤七107,判断近似集b的已选择属性sa的下近似sarb和近似集b的全部条件属性c的下近似crb是否相等。如果满足条件,则执行下一步;否则,返回步骤三;该步骤中近似集b的已选择属性sa的下近似sarb和近似集b的全部条件属性c的下近似crb获得方式如公式(1)。步骤八108,对规则集rules进行整体简化并输出:该步骤对规则集rules进行整体简化步骤:删除某条规则r后,规则集rules仍可以覆盖近似集b,即判断使得规则r成立的所有对象构成的集合是否包含近似集b,若满足,则rules=rules–r;输出规则集rules。该步骤中∪s∈{rules-r}[s]表示满足规则集合{rules-r}中s的所有对象构成的集合,[s]表示所有满足s的对象。实施流程包括以下4个步骤,如图2所示。(1)将要提取规则的数据,转化为粗糙集中使用的决策表格式(2)计算决策表中各个决策类的上(下)近似集;如果是为了得到确定规则集,则计算各个决策类的下近似集,否则,计算各个决策类的上近似集(3)对(2)中得到的各个近似集,通过本发明的基于粗糙集的适用于不完备决策表的规则提取方法提取规则(4)将所有近似集的规则集合并,即完成了对该数据的规则提取,输出规则集实验例:本例已从决策类的上近似集提取可能规则为例进行说明,使用的关系为不完备决策表中相似关系。1.决策表格式的数据一个决策表dt=(u,at=c∪d,v,f),其中u是对象集(论域),c是条件属性集,d是决策属性集,v是值域,f是u和at到v的映射。a1a2a3a4dx111*11x22*111x3122*2x4**121x511*23x62*121对于上面的决策表:对象集u={x1,x2,x3,x4,x5,x6}条件属性集c={a1,a2,a3,a4}决策属性集d={d}“*”,表示缺失值2.计算各决策类的上近似集:决策类d1={d=1}={x1,x2,x4,x6}决策类d2={d=2}={x3}决策类d3={d=1}={x5}d1的条件属性集c的基于相似关系s的上近似集d2的条件属性集c的基于相似关系s的上近似集d3的条件属性集c的基于相似关系s的上近似集3.基于粗糙集的适用于不完备决策表的规则提取方法:对提取规则:(下述过程中,各符号的意义,如
发明内容中算法的具体描述所示)(0)c={a1,a2,a3,a4}(1)g={x1,x2,x4,x5,x6}(2)进入下一步(3)选择属性:|a1sb∩g|=|{x2,x6}|=2|a2sb∩g|=|{x1,x5}|=2|a3sb∩g|=|{x2,x4,x6}|=3|a4sb∩g|=0因此选择属性a3sa={a3},ua={a1,a2,a4}(4)提取规则:p∩g=sasb∩g={x2,x4,x6}sa从{x2,x4,x6}中提取到规则:(a3,1)→(d,1),覆盖对象{x1,x2,x4,x5,x6}(规则覆盖的对象为u中满足规则前件的对象)(5)提取规则的简化:规则(a3,1)→(d,1),只有1个属性值对,不用简化rules={(a3,1)→(d,1)}(6)sasb≠csb(7)进行规则集整体的简化(8)规则集整体的简化:rules中只有1条规则,不用简化最终从提取到规则集:{(a3,1)→(d,1)}类似,从提取到规则集:{(a2,2)∧(a3,2)→(d,1)}从提取到规则集:{(a1,1)∧(a2,1)∧(a4,2)→(d,3)}4.对和的规则集进行合并得到下列的规则:{(a3,1)→(d,1)(a2,2)∧(a3,2)→(d,2)(a1,1)∧(a2,1)∧(a4,2)→(d,3)}上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护范围的情况下,还可以做出很多变形,这些均属于本发明的保护之列。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1