一种面向增量式数据集的知识发现方法与发现装置

文档序号:25352784发布日期:2021-06-08 13:59阅读:来源:国知局

技术特征:
1.一种面向增量式数据集的知识发现方法与发现装置,包括以下几个部分:a.基于原始数据集db中数据的频繁事务项集合db_fi构建原始数据集频繁模式树db_fp

tree,并根据最小支持度min_conf计算db中的关联规则集合ar(db_fp

tree),令总关联关系集合arset=ar(db_fp

tree),初始化增量滑动窗口iw,设置窗口长度上限为m,初始化用于维护增量数据集的频繁模式树idb0_fp

tree。b.当第i次增量数据集idb
i
的数据到来时,将本次数据增量数据集idb
i
存储在增量数据库idb中,初始化增量数据集的频繁事务集idb
i
_fi,扫描idb
i
中的数据,计算idb
i
中每一个数据项i的支持度,并根据支持度分为4种情况进行不同操作。在b的基础上,将idb
i
_fp

tree更新为idb
i+1
_fp

tree。c.在增量滑动窗口iw内的队列末尾追加本次增量数据的主键信息,此时增量滑动窗口iw内的队列长度len(iw)加1,若len(iw)>m,则读取增量滑动窗口iw内的队首信息,根据主键信息将增量数据库idb中的数据转移至原始数据库db中,删除iw的队首节点,同时将这些数据的信息更新到原始数据的频繁模式树db_fp

tree中,并更新idb
i
_fp

tree中涉及到的节点信息,将计数信息减1,若计数减为0,则删除节点,将该节点的父节点与子节点相连,基于idb
i
_fp

tree与min_conf计算第i次数据增量后的关联关系集合ar(idbi_fp

tree),并令总关联关系集合arset=arset∪ar(idbi_fp

tree)。d.步骤b完成后,根据最终得到的增量频繁事务集idb
i
_fi构建/更新增量频繁模式树idb
i
‑1_fp

tree,在更新时,将idb
i
_fi中的事务按照出现次数降序排序,并再次扫描本次增量数据集idb
i
,并将idb
i
_fi中的事务信息按照构建频繁模式树的方法更新到idb
i
‑1_fp

tree中,此时idb
i
‑1_fp

tree被更新为idb
i
_fp

tree。2.根据权利要求1中所述的一种面向增量式数据集的知识发现方法与发现装置,其特征在于,所述的部分a中,基于db中的数据构建db_fp

tree,获取db中的频繁事务项集合db_fi,并根据最小支持度min_conf计算db中的关联规则集合ar(db),令总关联关系集合arset=ar(db),初始化增量窗口iw。3.根据权利要求1中所述的一种面向增量式数据集的知识发现方法与发现装置,其特征在于,所述的部分b中,原始数据(db)中数据和新增数据(idb)中的事务项在数据集增量演化过程中按支持度分为4种情况并进行相关操作:(1)case1:此时的事务i在db+idb
i
中依然是频繁的,将该事务i加入到idb
i
_fi中。(2)case2:此时的事务i在db中不频繁,但在idb
i
中是频繁的,因此可以视为是新出现的频繁事务项,将该事务i加入到idb
i
_fi中。(3)case3:此时的事务i在db中频繁,在idb
i
中不频繁,因此要分情况讨论,计算i的全局支持度:其中count(i,db)表示事务项i在原数据集d b中出现的次数,通过查找db_fp

tree得到,count(i,idb)表示事务项i在增量数据库idb中出现的次数,通过扫描增量频繁模式树idb
i
_fp

tree得到,len(db)与len(idb)分别表示数据集db与idb的长度。若事务项i的支持
度support(i)>=min_sup,则将该事务i加入到idb
i
_fi中;否则在db_fi中丢弃i,并删除db_fp

tree中对应的节点,将节点的父节点与子节点直连,同时删除arset中事务i的记录。(4)case4:此时该事务i在db以及idb
i
中都是不频繁的,对这样的事务进行丢弃。4.根据权利要求1中所述的一种面向增量式数据集的知识发现方法与发现装置,其特征在于,所述的部分c中,idb
i
_fp

tree则被更新为idb
i+1
_fp

tree,基于idb
i
_fp

tree与min_conf计算第i次增量数据集的关联关系集合ar(db
i
),并令总关联关系集合arset=arset∪ar(db
i
);当第一次增量发生时,第一次增量频繁事务集idb1_fi构建增量频繁模式树;第i(i>1)次增量发生时,则为动态调整增量频繁模式树。5.根据权利要求1中所述的一种面向增量式数据集的知识发现方法与发现装置,其特征在于,所述的部分d中,当第i次增量发生,若队列长度len(iw)<m,则更新频繁模式树idb
i
‑1_fp

tree,并计算此时的关联规则集合ar,合并到arset中;若队列长度len(iw)=m,则先将增量窗口iw的主键信息所对应数据更新到db中后,再更新频繁模式树idb
i
‑1_fp

tree,并计算此时的关联规则集合ar,合并到arset中。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1