基于项加权和项集关联度的课程正负模式挖掘方法及系统的制作方法
【专利摘要】一种基于项加权和项集关联度的课程正负关联模式挖掘方法及挖掘系统,利用教育数据预处理模块对教务数据预处理;利用课程项集模式生成模块生成课程候选项集,计算其支持度,由此得到课程频繁项集和负项集,根据课程频繁项集和负项集的关联度进行项集剪枝,得到有趣的课程频繁项集和负项集;利用课程正负关联规则模式生成模块计算课程关联规则兴趣度和置信度,从课程频繁项集和负项集挖掘矩阵加权课程强正负关联规则;课程正负关联模式显示模块将课程模式显示给用户,供用户分析和使用。本发明方法挖掘的课程候选项集和挖掘时间明显减少,避免了无效的课程关联模式出现,挖掘效率得到极大提高,其模式可为教务管理、决策以及教改提供科学依据。
【专利说明】基于项加权和项集关联度的课程正负模式挖掘方法及系统
【技术领域】
[0001] 本发明属于教育数据挖掘领域,具体是一种基于项加权和项集关联度的课程正负 模式挖掘方法及系统,适用于教务数据课程正负关联模式发现,其模式可为教学改革和教 育管理、决策提供科学的依据。该发明运用于高校教务管理系统,可以扩展教务管理功能, 其关联模式可以有助于教师改善和调整方法,提高教学质量,同时,可以帮助学生提高学习 效果。
【背景技术】
[0002] 教育数据无加权关联模式挖掘方法、教育数据加权关联规则挖掘方法和教育数 据矩阵加权关联规则挖掘方法是目前常见的教育数据关联规则挖掘方法。教育数据无加 权关联规则挖掘方法是传统的关联规则挖掘方法在教育信息化领域的具体应用。该方法 的特点是各个项目按平等一致的方式处理,只考虑项目频度,其缺陷是:在挖掘时只考虑 课程的选修关联,没有考虑课程之间具有不同的重要性,更没有考虑学生选修课程后的 教学效果(即课程考试成绩)。典型的教育数据无加权关联规则挖掘方法是Apriori方法 (R. Agrawal, T. Imielinski, A. Swami. Mining association rules between sets of items in large database[C]. In Proceeding of 1993 ACM SIGM0D International Conference on Management of Data, Washington D.C·,1993,(5): 207-216.)及其 改进方法(董辉.基于兴趣度的高职课程关联规则挖掘[J].吉首大学学报(自然科学 版),2012, 33(3) :41-46.李忠哗,王凤利,何丕廉.关联规则挖掘在课程相关分析中的 应用[J].河北农业大学学报,2010, 33 (3) :116-119.)。
[0003] 针对传统关联规则挖掘的缺陷,教育数据加权关联规则挖掘方法不仅考虑课程的 选修关联,还给每门课程赋予一定的权值,以体现课程之间具有不同的重要性。典型的教 育数据加权关联规则挖掘方法有Cai等(C. H. Cai, A. da, W. C. Fu, et al. Mining Association Rules with Weighted Items [C]//Proceedings of IEEE International database Engineering and Application Symposiums, 1998: 68-77.)提出的加权关联规 则挖掘方法(即MINWAL方法)及其改进方法(刘建炜,张颖.基于加权关联规则算法的 学生成绩数据挖掘研究[J].福建教育学院学报,2012 (3) : 123-125.)。教育数据加权关联 规则挖掘方法的缺陷是:只考虑课程之间的重要性,没有考虑课程考试成绩的影响。
[0004] 针对上述缺陷,教育数据矩阵加权关联规则挖掘方法引入项目权值,考虑了考虑 学生所选修课程的教学效果,即考虑课程考试成绩,其典型的矩阵加权关联规则挖掘方法 是谭义红等提出的向量空间模型中完全加权关联规则的挖掘方法(谭义红,林亚平.向 量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13) :208-211.)以 及面向查询扩展的矩阵加权关联规则挖掘方法MWARM(黄名选,严小卫,张师超.基于矩 阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7) : 1854-1865.)。 当前,矩阵加权关联规则挖掘方法在教育数据分析中的典型应用是余如等(余如,黄 丽霞,黄名选.教育信息化中课程考试成绩数据关联模式的发现.计算机与现代 化,2014(2):10-14.)提出的课程成绩数据关联模式发现方法,获得了显著的效果。现有 的教育数据完全加权关联规则挖掘方法的缺陷是:现有的方法只能挖掘完全加权正关联规 则模式,没有解决矩阵加权负关联模式挖掘问题,另外,现有方法其所挖掘的关联模式数量 仍然很庞大,增加用户选择所需模式的难度,无趣的、虚假的和无效的关联模式还很多,很 难将其技术上升到应用层面。
[0005] 针对上述问题,本发明根据教育数据的特点,提一种新的一种基于项加权和项集 关联度的课程正负模式挖掘方法及系统,。该发明方法克服了现有矩阵加权模式挖掘方法 的不足,不仅能挖掘矩阵加权课程正负关联规则模式,还能够有效地减少无趣的和无效的 课程关联模式出现,其课程候选项集和挖掘时间明显减少,提高了挖掘效率,其课程关联规 则模式更接近实际,可为教学改革和教育管理、决策提供科学的依据,在教育信息化教务数 据分析与挖掘领域具有重要的应用价值和广阔的应用前景。
【发明内容】
[0006] 本发明的目的在于,针对教育数据课程正负关联模式挖掘进行深入探索,提出一 种基于项加权和项集关联度的课程正负模式挖掘方法及系统,应用于教育数据挖掘领域, 为教育数据课程正负关联模式挖掘与分析提供新的挖掘方法,通过课程正负关联规则模式 分析发现教育领域潜在的教育、教学规律和教育发展趋势,提高任课教师提高教学质量和 学生的学习效果。
[0007] 本发明所采取的技术方案是:一种基于项加权和项集关联度的课程正负模式挖掘 方法,包括如下步骤: (1)教育数据预处理:待处理的教育数据进行如下的预处理:将课程当作项目,课程成 绩当作项目权值,课程权值规范化为〇至1之间,提取学生课程信息及其成绩,构建课程信 息库和课程项目库。
[0008] (2)挖掘教育数据课程矩阵加权频繁1-项集A :从课程项目库中提取课程候选 1-项集G,累加 G项集权值fKG),计算其支持度cisop (6;),与比较,从中挖掘课程 矩阵加权频繁1-项集乙加入ci/YS。候选1-项集q支持度的)公式如下:
【权利要求】
1. 一种基于项加权和项集关联度的课程正负模式挖掘方法,其特征在于,包括如下步 骤: (1) 教育数据预处理:待处理的教育数据进行如下的预处理:将课程当作项目,课程成 绩当作项目权值,课程权值规范化为〇至1之间,提取学生课程信息及其成绩,构建课程信 息库和课程项目库; (2) 挖掘教育数据课程矩阵加权频繁1-项集A :从课程项目库中提取课程候选1-项 集G,计算其支持度cisop (6;),与ms比较,从中挖掘课程矩阵加权频繁1-项集A加入 ciPIS] (3) 挖掘有趣的矩阵加权课程频繁i-项集和负i-项集% (所述的i > 2),包括以 下(3. 1)步至(3. 3)步: (3. 1)候选i_项集G由课程频繁(i-Ι)-项集Zh进行Apriori连接,然后累加 G的 权值,计算其cisopCC;.); (3.2) 对于课程候选i_项集G支持度cisop(G)彡最小支持度阈值5^,计算课程频繁 项集关联度,如果其>最小频繁关联度阈值?/少,则该G为有趣的矩 阵加权课程频繁i_项集并加入课程频繁项集集合ci/YS ; (3. 3)对于课程候选i_项集6;.支持度ms,计算课程负项集关联度 ciMTP(G),若其ciMTP(G) >最小负项集关联度阈值?^,则该G为有趣矩阵加权课程负 项集%,并加入课程负项集集合; (4) 从课程频繁项集集合ci/YS中挖掘有效的矩阵加权课程正负关联规则模式,包括 以下(4. 1)步至(4. 6)步: (4. 1)从课程频繁项集集合ci/YS中取出课程频繁项集,找出的所有真子集; (4. 2)从4.的真子集集合中任意取出两个真子集和心,当cisop (J7)彡ms, cisop%)彡ms,并且
Λ U心=心,计算矩阵加权课程频繁项集仏,心)的 相关系数; (4.3) 当>相关系数阈值
时,计算咖,?i)的值,若其值 等于1,则得出矩阵加权课程强关联规则/7 -厶,加入^7^/?;计算^_7?(1/7,1厶,5^, W)的值,若其值等于1,则得出矩阵加权课程强负关联规则,乃一,厶,加入uWWP; (4. 4)当矩阵加权课程项集(J7,心)的相关系数
计算 1厶,5^,5^)的值,若其值等于1,则得出矩阵加权课程强负关联规则/7-14,加入 ^姻7?;计算^_7?(,/7,4,咖,^)的值,若其值等于1,则得出矩阵加权课程强负关联 规则,/ 7 -厶,加入; (4. 5)继续(4. 2)步骤,当课程频繁项集的真子集集合中每个真子集都被取出一 次,而且仅能取出一次,则转入步骤(4.6)步; (4. 6)继续(4. 1)步骤,当课程频繁项集集合中每个频繁项集都被取出一次,而且 仅能取出一次,则(4)步运行结束,转入(5)步; (5) 从课程负项集集合中挖掘有效的矩阵加权课程负关联规则模式,包括以下 (5. 1)步至(5. 6)步: (5. 1)从课程负项集集合中取出课程负项集%,找出%的所有真子集; (5. 2)从Λ;.的真子集集合中任意取出两个真子集J7和心,当cisop (J7)彡ms, cisop%)彡ms,并且J7
/卢V,.,计算矩阵加权课程负项集(/7, 4)的相 关系數ciPCCHQ ·, (5.3) 当矩阵加权课程负项集(/7,心)的相关系数<
计算 ?i)的值,若其值等于1,则得出矩阵加权课程强负关联规则 -' I! 一-| 4,加入 cjAii/?; (5.4) 当矩阵加权课程负项集(/7,心)的相关系数_
计算 κ_τ?σ7,η4,?i)的值,若其值等于1,则得出矩阵加权课程强负关联规则 ,4,加入ci·?;计算4,咖,ffii)的值,若其值等于1,则得出矩阵加权课 程强负关联规则-厶,加入 (5. 5)继续(5. 2)步骤,当课程负项集Μ的真子集集合中每个真子集都被取出一次, 而且仅能取出一次,则转入步骤(5. 6)步; (5. 6)继续(5. 1)步骤,当课程频繁项集集合中每个负项集%都被取出一次,而且仅 能取出一次,则(5)步运行结束; 至此,矩阵加权课程正负关联模式挖掘结束; 所述的as为最小支持度阈值,为最小置信度阈值,为最小兴趣度阈值,
为相关 系数阈值。
2. -种适用于权利要求1所述的基于项加权和项集关联度的课程正负关联模式挖掘 系统,其特征在于,包括以下4个模块 : 教育数据预处理模块:将待处理的教育数据进行预处理,提取学生课程信息及其成绩, 将课程成绩权值规范化为〇至1之间,构建课程信息库和课程项目库; 课程项集模式生成模块:该模块从课程项目库和课程信息库挖掘矩阵加权课程候选 1-项集,计算其支持度,与支持度阈值比较得到课程频繁1-项集,从i_项集(i > 2)起,频 繁(i-Ι)-项集通过Apriori连接生成课程候选i-项集;计算课程候选i-项集支持度,与 最小支持度阈值比较得到课程频繁i_项集和负i_项集;计算课程频繁项集的关联度,与课 程频繁项集关联度阈值比较得到有趣的课程频繁项集;计算课程负项集关联度,与负项集 关联度阈值比较得到有趣的课程负项集; 课程正负关联规则模式生成模块:该模块生成课程频繁项集的真子集,计算课程关联 规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度阈值和置信度阈值比较, 从课程频繁项集中挖掘有效的矩阵加权课程强正负关联规则模式;然后生成课程负项集的 真子集,计算课程负关联规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度 阈值和置信度阈值比较,从课程负项集中挖掘有效的矩阵加权课程强负关联规则模式; 课程正负关联模式显示模块:该模块将有效的矩阵加权课程正负关联规则模式显示给 用户,供用户分析和使用。
3. 根据权利要求2所述的挖掘系统,其特征在于,所述的课程项集模式生成模块包括 以下3个模块: 课程候选项集生成模块:该模块从课程项目库和课程信息库挖掘矩阵加权课程候选 1-项集,计算其支持度,与支持度阈值比较得到课程频繁1-项集,从i-项集α > 2)起,频 繁(i-1)-项集通过Apriori连接生成课程候选i-项集,并计算其项集支持度; 课程频繁项集生成模块:该模块对于其支持度大于或者等于支持度阈值的课程候选项 集,计算其课程频繁项集的关联度,与其关联度阈值比较得到有趣的矩阵加权课程频繁项 集; 课程负项集生成模块:该模对于其支持度小于支持度阈值的课程候选项集,计算其课 程负项集的关联度,与其关联度阈值比较得到有趣的矩阵加权课程负项集。
4. 根据权利要求2所述的挖掘系统,其特征在于,所述的课程正负关联规则模式生成 模块包括以下2个模块: 来自课程频繁项集的强正负关联规则模式生成模块:该模块生成课程频繁项集的真子 集,计算课程关联规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度阈值和 置信度阈值比较,从课程频繁项集中挖掘有效的矩阵加权课程强正负关联规则模式; 来自课程负项集的强负关联规则模式生成模块:该模块生成课程负项集的真子集,计 算课程负关联规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度阈值和置信 度阈值比较,从课程负项集中挖掘有效的矩阵加权强负关联规则模式。
5. 根据权利要求2-4中任一项所述的挖掘系统,其特征在于,所述的挖掘系统中的支 持度阈值?·5,置信度阈值·?,兴趣度阈值,相关系数阈值
由用户输入。
【文档编号】G06Q50/20GK104217013SQ201410486033
【公开日】2014年12月17日 申请日期:2014年9月22日 优先权日:2014年9月22日
【发明者】黄名选, 韦吉锋 申请人:广西教育学院