基于课程数据的学习情况评估方法、终端设备

文档序号:33026528发布日期:2023-01-20 19:42阅读:29来源:国知局
基于课程数据的学习情况评估方法、终端设备

1.本发明涉及课程数据处理方法,特别是一种基于课程数据的学习情况评估方法、终端设备。


背景技术:

2.随着高校在校学生数量的不断增长,随之而来的是学生学习情况难以及时监管的问题。学生步入高校教育后,普遍个人自主学习时间较长,来自家长老师的督学促学变少,这就需要学生在高校学习期间有较强的自律意识。另一方面,越来越多的高校采用线上教学方式替代线下教学,且线上教学的比重显著增加,对传统的教学模式和学习方式产生了巨大的改变。由于学生的学习情况监测是一个受多方面因素影响的问题,每个高校学生个体的情况不同,学校无法全面掌握了解每一名学生的具体问题,这使得学生学习情况监测难度加大,进而使得一部分学习有问题的学生得不到及时预警,毕业生质量逐年偏离人才培养标准的要求。因此,亟需解决当今大学生的学习情况面临着难以及时、准确、合理评估和监测问题。
3.随着大学校园建设的不断深入,大数据、云计算、深度学习算法等先进技术在高校人才培养作出的创新实践,国内外对学生在校期间学习成绩影响因素判断和最终成绩分类预测所做的研究日益增多。例如,david baneres等人
1.首先根据学生实际专门为每门课程训练的成绩提出了一种新的自适应预测模型。对整个机构进行深入分析,以评估其性能准确性,其次开发了一个早期预警系统,重点是利益相关者(即学生和教师)的仪表板可视化,以便在识别风险的情况下进行干预。xu du等人
2.通过深度神经网络与潜变分自动编码器的集成,以缓解教育数据集的不平衡分布,并进一步为高危学生提供预警。胡祖辉等人
3.通过对决策树、关联规则、逻辑回归三种方法模型的建立和预测结果对比,对高校生在线教育表现与课堂成绩之间的相关性进行了研究,并按照分析的结果,确定了网络课时的使用期限,从而为校方和老师提供了科学的参考。刘譞等人
4.通过 c4.5和朴素贝叶斯等分类方法对学生某一阶段的学习成绩进行分类预测。王均霞等人
5.利用贝叶斯网络的方法对大数据背景下学生课堂掌握情况展开了研究。通过对不同影响因素的权重和因果关系的分析构建出了预警模型。
4.通过上述调研可以发现,上述关于人工智能背景下高校学生学习情况智能监测的相关研究主要存在以下不足。
5.(1)缺乏对学生成绩的综合分析。目前的研究主要集中于学生线下学习成绩的研究,而不同程度忽视了对学生在线多元学习数据的全面研究例如中国大学的雨课堂、慕课等在线学习过程产生的数据。随着高校数字化校园的普及,对线上线下课堂数据进行一定程度的综合分析,往往能对学生的学习情况给出较好的评价。此外,很多大学在教育体制、管理方式、教学氛围、评价标准等方面都存在着或多或少的不同。不加区分地把某一个研究成果机械的套用到所有大学生的学情监测上,无疑得不到很好的监测效果。明确研究对象的特点、数据组成、个体特征和具体学习环境是对学生学习情况准确、合理评估的基础要求
6.(2)忽视大数据环境。目前,随着教育大数据和人工智能的发展,学习情况监测的研究不可避免地要紧跟科技发展前沿,忽视甚至放弃深度学习算法的研究必然存在视角上的局限性和盲点。
7.(3)学情智能监测效果不佳。赵慧琼等人
6.通过对多元线性回归分析方法的深入研究,从分析网上学习数据着手,预测高校生对某门课程的成绩分类。由于学生学习行为影响因素之多,采用多元线性回归分析达不到良好地解释学生复杂的学习行为的效果,而且变量之间存在的相互影响因素导致了这种方法效果不佳。刘博鹏等人
7.使用支持向量机 (svm)根据以往的课程表现和有关的行为特点,通过三等级分类可以分析出学生在某一门课程中的多种学习状态。但是,在真实的高校教学环节中,对学生行为特点和课程相关性的确定十分困难,所以用支持向量机方法分析的结果效果不明显。
8.本发明用到的名词解释如下。
9.数据挖掘(data mining,dm),就是从大数据中提取出有意义的知识和信息的过程。数据挖掘是融合了多个学科的交叉性技术,对于大数据背景下的社会生产数据进行快速准确的处理,覆盖了人工智能与模式识别、统计学等领域的知识。数据挖掘作为一种新兴的技术,它从诞生到现在,经过前人不懈的研究,已经形成了较为完备的研究过程,其主要研究内容包含数据预处理、数据挖掘、模型评估。
10.数据预处理是指在采集原始资料时,由于人员操作误差,设备自身存在噪声等问题,导致最终构建的数据集存在许多问题,例如数据值缺失,数据离群等,如果不加处理地利用数据挖掘技术对这些存在噪声的数据集进行建模预测,即使可以完成数据挖掘过程,其结果也必然会出现质量不高、准确率达不到实现预测的要求等问题,因此需要在利用数据挖掘技术对数据进行分析前对数据集进行数据清洗等处理。
11.数据清洗是指发现并纠正数据文件中可识别的错误以及通过处理得到建模过程需要数据的过程,数据清洗主要包含缺失值处理、异常值检测与处理等过程。
12.缺失值是指粗糙数据中由于缺少信息而造成的数据的缺失、截断等,它具体表现为数据集中某个或某些属性的值是不完全的,目前缺失值处理主要有两种方法:缺失值删除和缺失值填充。
13.深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法,同时也是神经网络技术的一种。深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络、深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。
14.卷积神经网络(convolutional neural networks,cnn)是一类包含卷积计算且具有深度结构的前馈神经网络(feedforward neural networks),是深度学习(deep learning) 的代表算法之一。卷积神经网络主要由卷积层、池化层和全连接层构成,其中卷积层主要用于特征提取,池化层用于特征降维、提高模型的鲁棒性,全连接层用于特征的融合。
15.随机森林是一种机器学习算法,它指的是利用多棵决策树对样本进行训练并预测的一种分类器。随机森林通过多棵决策树的随机无序组合构建而成,并且决策树之间没有优先级顺序和权重等级,每一棵树独立自主的进行分类预测。所以从实质上来说,随机森林
是把很多树汇聚起来综合分析的一种集成学习法。集成体现在它将多个决策树集成为“森林”来解决单一的预测问题,最终通过每一个决策树做出的结果通过投票形成最终的随机森林预测结果。
16.决策树是一种基于树结构的决策算法,它是一种由节点和有向边组成的模型,与树相似,故称为决策树。机器学习中,决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树是数据挖掘中一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。
17.自助采样法(bootstrap sampling)是指给定包含m个样本的数据集,本实施例先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样,经过m次随机采样操作,本实施例得到含m个样本的采样集,初始训练集中有的样本在采样集里多次出现,有的则从未出现,初始训练集中约有63.2%的样本出现在采样集中。


技术实现要素:

18.本发明所要解决的技术问题是,针对现有技术不足,提供一种基于课程数据的学习情况评估方法、终端设备,提高课程数据分类精度,从而便于学习情况监督。
19.为解决上述技术问题,本发明所采用的技术方案是:一种基于课程数据的学习情况评估方法,包括以下步骤:
20.s1、利用线上课程数据和线下课程数据集构建原始数据集;
21.s2、基于随机森林回归方法,填充所述原始数据集中缺失的数据;
22.s3、利用步骤s2处理后得到的数据集构建训练集,训练一维卷积神经网络,得到评估模型;
23.s4、基于所述评估模型输出的课程数据分类结果,评估学习情况。
24.本发明存在的技术优势及其原因主要存在如下三个方面。首先本发明通过线上和线下课程数据构建了原始数据集,由于线上和线下的多元课程数据包含更加丰富的关于学生课程学习情况的信息,因此通过线上和线下数据构建的数据集可以更加准确、全面地评估学生课程学习情况,其次本发明采用了随机森林回归的方法对原始数据集中缺失的数据进行预测和填充,由于原始数据集由线上和线下不同来源的数据构建完成,因此存在较多的缺失值,本发明采用的随机森林回归方法由于充分挖掘了数据集中已有数据样本内部之间各种数据特征之间的关系,因此相比均值填充和零值填充方法可以更加准确的回归预测出缺失数据,同时该方法在数据集中多个特征维度均存在数据缺失的复杂情景下相比其它的填充技术鲁棒性更强,然后本发明利用处理后的完备数据集训练用于学生课程学习情况分类的一维卷积神经网络模型,由于本发明采用的一维卷积神经网络可以在数据中提取更加丰富和鲁棒的特征,因此相比于支持向量机、逻辑回归等传统的机器学习算法,一维卷积神经网络方法对学生的课程数据分类更加准确,最终可以利用课程数据分类的结果对学生的课程学习情况给出一个实时、准确的综合性评估并针对评估情况不理想的学生及时给予相关建议。
25.步骤s2的具体实现过程包括:
26.1)从所述原始数据集中有回放地抽取相同数量样本作为单棵决策树的训练样本,其中每一个训练样本均是一维数值向量,构成向量的每一个数值称为样本的不同特征;
27.2)随机从上述抽取的训练样本中选取多个特征作为当前决策树节点分支条件的特征范围;
28.3)基于上述确定的单颗决策树的特征范围,即决策树分裂标准,使决策树节点不断分裂最终构建整个随机森林模型;利用所述随机森林模型对袋外数据,即原始数据集中未被选作训练样本的剩余样本进行测试,将袋外数据输入到由所述随机森林模型中,计算随机森林模型输出预测值与袋外数据真实值之间的误差,
29.利用此误差调整每颗决策树的特征范围。
30.本发明中,依据误差不断调整选取的特征范围,调整过程是遍历的方式选择不同的特征进行组合作为决策树节点的分裂标准,然后将袋外数据输入到整个随机森林模型中进行测试并求得测试误差,最终选择一个袋外数据测试误差最小的特征范围作为每一颗决策树节点的分裂标准。
31.步骤s3中,所述一维卷积神经网络包括级联的输入侧、第一卷积层、第二卷积层、全连接层和输出层。
32.所述第一卷积层与第二卷积层之间接有第一批归一化层和第一relu激活函数;所述第二卷积层和所述全连接层之间接有第二批归一化层和第二relu激活函数
33.所述全连接层和输出层之间接有下采样层。
34.所述下采样层和所述输出层之间通过softmax分类器连接。
35.步骤s3中,训练所述一维卷积神经网络时,对所述一维卷积神经网络的每一层,以设定概率p随机选取一定数量的神经元,使选取的神经元失活,用剩余的神经元继续训练过程。
36.本发明中,为了防止数据量较少使得模型出现过拟合现象以及进一步增强模型对数据噪声的鲁棒性和泛化能力,我们在组成整个卷积神经网络的所有神经元中随机选取部分神经元,使其失活,进而利用剩余的神经元构建卷积神经网络,由于每一次训练都是随机选取神经元,因此将会构建许多不同结构的网络,卷积神经网络中所有神经元被选中的概率为p,即通过设定概率p使得每一个神经元都有被选中的概率,且被选中的概率相等。
37.步骤s3中,训练所述一维卷积神经网络之前,对训练集中相同标签下的序列数据按多组不同的权重进行加权平均,合成新的序列数据,将新的序列数据作为训练所述一维卷积神经网络的训练集;其中,所述多组不同的权重在(0,1)范围内随机采样获取,且多组数据加权过程中不同序列数据的权重之和为1。
38.本发明还提供了一种终端设备,其包括存储器、处理器及存储在存储器上的计算机程序;所述处理器执行所述计算机程序,以实现本发明上述方法的步骤。
39.本发明还提供了一种计算机可读存储介质,其上存储有计算机程序/指令;所述计算机程序/指令被处理器执行时实现本发明上述方法的步骤。
40.本发明首先在真实的课堂场景中收集了线上和线下结合的多元课程数据(包含雨课堂测试成绩、线上作业成绩、课堂测试成绩、平时作业成绩等),然后我们针对采集的数据中存在复杂的数据缺失模式在随机森林算法的基础上采用了基于迭代的数据插值方式对收集到的多元课程数据中缺失的数据进行回归预测进而构建了完备的数据集,在数据集构
建完成后本发明设计并构建了用于序列课程数据分类的一维卷积神经网络,并利用预处理后的数据对构建的一维卷积神经网络进行训练和评估,同时在真实的课程数据上对模型的分类性能进行测试,进而可以利用模型的分类结果对学生的课程学习情况以及教师的课堂教学效果进行进一步分析和评估并给出针对性的建议以提升学生的学习效果,最终利用训练得到的一维课程数据分类模型构建了学习情况智能监测系统。
41.与现有技术相比,本发明所具有的有益效果为:
42.1、本发明采用随机森林算法对实际场景下所获得的线上和线下多元课程数据中部分缺失数据进行回归插值的数据预处理进而构建完备的训练数据集,然后通过一维卷积神经网络对插值后的完备数据集进行课程数据分类模型的训练和性能评估,通过随机森林的数据填充预处理操作,可以使用多元的课程数据对学生的学习情况进行更加全面、准确的评估,进而可以及时改善学生的学习效果;
43.2、在基于随机森林算法进行数据填充过程中,由于基于随机森林算法进行数据填充的原理是将数据集中所有样本不存在缺失数据的其它维度特征作为输入,回归预测出样本存在缺失数据的同一个维度特征的缺失数据(在此处所提到的不同特征是指同一个学生的不同来源的课程数据),每一次回归预测只能填充数据集中同一维度的特征缺失值,而在实际场景下获取的多元课程数据存在多个特征维度均有数据缺失即属于数据缺失中的多变量缺失模式,数据集中缺失的数据较多而且分布在不同样本的不同特征维度,无法通过一次回归预测出所有维度特征的缺失数据,因此采用随机森林算法进行回归填充缺失数据具有一定的技术难度,针对这种复杂的数据缺失模式,本发明采用迭代插值的方式对数据集中缺失的数据进行回归预测,其具体流程如下:首先选择缺失数据最少的特征维度作为首先填充的对象,此处的特征维度对应数据集中某一列数据即所有样本的同一特征对应数据,由于此时样本的其它特征维度也存在数值缺失,因此为了训练整个缺失数据填充模型,将其它特征维度的缺失值填充为对应的特征维度的平均值,利用随机森林模型完成对选定特征维度数据的回归预测,然后将缺失数据最少的特征维度填充完毕后,本发明在初次填充后的数据中再选择缺失数据最少的特征维度作为下一次的填充对象,其余维度的缺失数据仍然填充平均值以完成选定特征维度的数据回归预测,采用相同的过程通过随机森林模型回归预测出选定的特征维度缺失值,最终通过迭代的方式依次完成所有维度缺失数据的填充。
附图说明
44.图1为本发明实施例1方法流程图;
45.图2为本发明实施例1随机森林算法流程图;
46.图3为本发明实施例1单变量缺失模式示意图;
47.图4为本发明实施例1多变量缺失模式示意图;
48.图5为本发明实施例1构建的基于课堂数据的数据集;
49.图6为本发明实施例1随机森林预测流程图;
50.图7为本发明实施例1一维卷积神经网络模型网络结构框图;
51.图8为本发明实施例1一维卷积神经网络模型的网络结构以及参数设置;
52.图9为本发明实施例1混淆矩阵;
53.图10为本发明实施例1卷积神经网络提取特征可视化结果;
54.图11为基于随机森林算法插值后的数据集。
具体实施方式
55.为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
56.实施例1
57.针对当下学生学习情况智能监测这一教育问题,以信号与系统课程学生的学习情况监测为例,本实施例利用线上和线下丰富的多元课程数据,由于已有数据集中存在部分数据缺失,因此本实施例首先采用了随机森林机器学习算法对数据集进行数据插值的数据预处理进而构建完备的数据集,然后设计和构建了用于序列数据分类的一维卷积神经网络模型,并在预处理后的训练数据集上面进行模型训练,同时基于真实的学生课程数据对训练后的模型的性能进行评估,最后基于训练后的一维卷积神经网络模型对学生的真实课程学习成绩进行分类进而实现学生学习情况的监测,便于针对学习情况评估较差的学生及时给予建议和辅导,进而构建完整的基于课程数据的学习情况智能监测系统, 本实施例具体算法流程图如图1所示。在构建基于课程数据的学习情况智能监测系统的过程中,其主要内容包含多元数据预处理以及数据集构建、基于深度学习的学习情况监测模型的设计与构建,基于真实课程数据的学习情况监测卷积神经网络模型训练与性能评估,下面将对基于课程数据的学习情况智能监测系统的构建过程作详细介绍。
58.为了构建学生学习情况智能监测系统,本实施例采用了多元的课程数据(包含雨课堂测试成绩、线上作业成绩、课堂测试成绩、平时作业成绩等),但是由于课程数据量巨大,各种信息平台之间存在着一定的差别以及各种数据有自己独立的数据结构,而且部分数据由于学生未参与某一项教学、测试环节或者可能存在的系统缺陷和人为失误,导致得到的数据集中存在很多缺失值和噪声数据,因此需要对缺失值进行补充以及对噪声值进行预处理,防止因为部分异常或缺失数据导致最终监测误差太大。对于数据集中缺失值的处理,本实施例采用随机森林回归的方法对数据集中的缺失值进行回归预测,并将回归结果补充到数据集中以构建完备的数据集,方便后续的数据分类。随机森林通过很多棵决策树的随机无序组合构建而成,并且决策树之间没有优先级顺序和权重等级,每一棵树独立自主的进行分类预测。所以从实质上来说,随机森林是把很多树汇聚起来综合分析的一种集成学习法。集成体现在它将多个决策树集成为“森林”来解决单一的预测问题,最终通过每一个决策树做出的结果通过投票形成最终的随机森林预测结果,其具体的算法流程如图2所示。
59.为了填充数据集中缺失的数据,本实施例采用了随机森林的机器学习算法对数据集中缺失的数据进行回归插值。在对数据集中缺失值进行回归插值的过程中,由于造成数据缺失的原因有多种例如线上数据库学生成绩导出时会出现不兼容的情况导致存在空值、线下课程数据记录过程出现误差,导致部分学生参与了教学活动而没有被记录、学生未参加某一项教学活动导致该项成绩为空,针对以上三种缺失原因,前两种情况下需要对其进行回归插值,而针对第三种情况学生本就没有参加教学环节,本实施例仍然补全数据,则势必导致预测误差增加,因此本实施例将第三种原因导致的数据缺失值填充为0,在此基础上
利用随机森林算法对缺失值进行回归填充。基于随机森林进行插值的第一步需要对课程数据的缺失类型进行判断,并针对不同的模式采取不同的插值方法。从缺失值的缺失类型分析,最多见的是单变量缺失和多变量缺失这两种类型,为了说明单变量和多变量缺失模式的区别以及更好的利用多变量缺失模式进行随机森林插值,这里介绍单变量和多变量缺失模式插补方法。
60.当数据集中有多个变量时,其中只有一个变量存在部分数据缺失而其他任何变量没有数据缺失的情况就叫做单变量缺失。如图3所示。
61.在仅有一个变量存在缺失值时,通常采用的插值方法为:在已有的p个变量中,将不完整的变量q找到设置为输出变量,为本实施例下一步要回归填充的。剩下的全变量 q(q1,q2,

,q
p-1
)作为参照。首先,把数据集进行遍历,没有数据缺失的划分为d
com
,有缺失值存在的划分到d
mis
;然后进行随机森林模型训练的数据准备,根据数据规模特点,在d
com
中选取合适的训练集和测试集进行验证模型;下一步利用变量重要性评估方法,找到对结果影响较大的特征变量进行建模;最后利用随机森林中自主采样法从d
com
中的训练数据集抽取n个样本,然后构建出cart决策树模型,并根据每一个决策树模型的结果进行分析汇总:
[0062][0063]
在公式(1)中,q1(x)表示一颗决策树模型,q为随机森林模型最终的特征分类变量,i(
·
)代表显性函数,q(x)为多棵决策树组合之后的输出结果。
[0064]
与单变量缺失相比较,多变量的缺失不仅仅只有一个特征下有丢失,而是多个特征变量存在不同程度的缺失值,具有一定的偶然性。所以在分析与处理的过程中比较复杂。在图4中可以看到。
[0065]
多变量缺失模式可以看作是单变量缺失模式的线性叠加,所以类似单变量模式的处理方法进行插值。单变量缺失处理有多个完整变量作为应变量,而多变量缺失中可能不存在完整变量或者完整变量比较少,所以本实施例首先要找到完整变量作为插值时的应变量,如果没有完整变量必须选取缺失值最少的变量通过快速插补方法构造出一个完整变量。然后通过随机森林插补计算出各个观测值的相似性。利用插补完成的某一变量进行下一轮迭代,再计算相似性后继续插补,多次迭代到所有缺失数据变量均被插补完整。通过袋外数据计算每一次回归完成后插补模型的袋外数据泛化误差,在袋外数据误差趋于最小状态时完成插值。
[0066]
基于上述随机森林数据插值的原理,本实施例选取某年级信号与系统a班和b班的学生课程数据构建数据集,其中共有83组数据,每组数据包含6个预测变量和1个响应变量即学生成绩评级,前6个是数值变量,最后一个是分类变量。研究样本数据缺失详细见图5,展示了读入系统中数据的缺失情况。通过分析数据集,发现各个变量下均有不同程度数据的缺失,且分布无规律可循。由此本实施例判断该数据集的缺失值插补应该采用多变量模式的插值。
[0067]
由于本实施例构建的课程成绩数据集中每一列都存在不同程度的缺失值,都需要填充。当本实施例在填充实验成绩时,可以考虑选取实验成绩不为空的数据,然后将其余列作为特征值,而实验数据作为目标值。这样本实施例就可以训练出一个可以预测的实验数
据模型。在实际实现过程中,当选取的是实验数据中不为空的数据,但是这些数据的其他值可能为空。这个时候可以考虑先用其他简单方法先对其缺失值进行填充,然后训练模型填充实验成绩的缺失值。在实验数据填充完毕后,利用同样的方法填补其余有缺失值的特征。同时为了效果好,本实施例优先选取填充缺失值较少的列,这样本实施例就可以拿到较多的数据,可以更好的填充该列数据。除此之外,随机森林模型构建过程中存在两个随机的过程:一是从信号与系统课程a班和b班一共83个训练集中通过有放回的方式选择训练子集;二是在随机选取课堂数据特征来确定每个决策树上的节点。最终,本实施例所构建的基于随机森林的数据插值算法流程图如下。
[0068]
依据上述随机森林插值算法流程图,本实施例所采取的具体数据插值过程如下:
[0069]
(1)选择单棵树的训练样本
[0070]
如图6所示,随机森林插值算法的第一步就是为每一棵决策树抽取训练样本,本实施例所构建的随机森林中包含200棵决策树,那么必须针对200棵树抽取各自对应的200 个训练样本,由于本实施例所构建的课程数据集一共包含83个样本,因此采取有放回的自助抽样方法(bootstrap sampling),由自助采样的算法理论可知,全部数据中经过一次抽样大约有37%的样本不会被抽到,但是下一次抽样会抽取到。这些未被抽到的样本被称为袋外数据(out of bag,oob),也就是每次随机森林的训练集中有52个样本。
[0071]
(2)随机选择课程数据特征指标
[0072]
在每一棵决策树独立进行预测的过程中,课程数据中6个预测变量并不是一次性都参与到某一棵具体的决策树预测,而是200棵决策树随机选择某几个变量进行比较预测,本实施例选择每一次在6个预测变量中选取5个变量参与单棵决策树的预测。因为每棵决策树所使用的特征变量都是随机选取的结果,这样便可以降低各棵决策树之间的相关性,提高模型的预测性能,提高模型的泛化能力。
[0073]
(3)将多棵决策树聚合为随机森林
[0074]
第二步完成每一个单独决策树的预测后,下一步就是将决策树汇聚成随机森林进行综合判断,形成最终的随机森林预测。具体步骤是当需要进行插值的课程数据输入随机森林模型后,已经构建的所有决策树同时进行各自的预测,当通过袋外数据误差稳定到一个固定且较小的值时完成每一棵树的预测。最后,随机森林模型会对所有决策树的预测结果进行统计,采取所有决策树中预测相同最多的结果作为随机森林的预测结果,而 200棵决策树的生成和预测过程是独立自主的,这样的并行进程明显增加了随机森林的识别效率和泛化能力。
[0075]
通过上述随机森林数据插补算法,本实施例构建了完备的课程数据集,接下来本实施例基于深度学习理论构建了用于学习情况智能监测的一维卷积神经网络模型。本实施例所构建的一维卷积神经网络模型的第一层为输入层、第二第三层分别为两个卷积层,在每个卷积层后面添加了一个批归一化层和relu激活函数。第四层为全连接层,在全连接层后增加了一个dropout层,然后利用softmax分类器进行五分类。最后一层为输出层。如图7是一维卷积神经网络的具体结构模型。
[0076]
上述网络模型中,激活函数(activation function,af)的作用是对该层输出的六维特征向量进行非线性映射,从而使其表征能力得到明显的提高。relu函数由于可以有效抑制网络的梯度消失问题,并且可以提高网络模型训练的效率,因此是目前深度神经网络
中常用的激活函数,在本实施例所构建的网络模型中,最终也采用了relu激活函数。为了防止模型过拟合,本实施例在所构建的模型中添加了dropout层,其基本思想是:在一维卷积神经网络模型的训练过程中,训练集中的许多数据会存在冗余信息,本实施例不希望网络记住这些冗余信息,所以在每层网络训练时随机选取一定概率p的神经元使其失活,用其余的神经元继续训练网络,在本网络模型中选取p为0.4随机失活,失活的节点可以在下一次的训练中发挥作用。除此之外,为了加快模型收敛,有效抑制模型训练过程中的梯度消失问题,本实施例引入了批归一化(batch normalization,bn)层。如图8是本实施例所构建的用于学习成绩分类的一维卷积神经网络模型的结构以及每一层的参数设置。
[0077]
由于本实施例所构建的数据集中数据样本较少,因此为了进一步提高训练模型的性能,在训练一维卷积神经网络模型之前本实施例首先采用了基于平均的方法对数据集中相同标签下的序列数据按多组不同的权重进行加权平均合成新的序列数据,实现了对数据的扩充,扩充后数据量达到了500组,经过扩充后的课堂数据可以满足网络训练的需要,然后按照训练集:测试集=9:1的比例将数据集划分为训练集和测试集,在划分过程中秉持不重复且独立原则,同时本实施例依据数据集中学生综合成绩的高低,将用于模型训练的数据样本分为五种类别即“优秀”、“良好”、“中等”、“及格”和“不及格”,以此作为数据的标签。当数据扩充完成后,本实施例在所构建的真实课程数据上进行了模型训练和评估,由于卷积神经网络模型训练过程中的超参数设置对于模型最终的性能有着重要的影响,因此训练过程中本实施例采用k折交叉验证的方式不断调整网络模型训练的超参数,最终本实施例对网络模型训练的超参数作如表1所示的设置。
[0078]
表1超参数设置
[0079][0080]
通过以上超参数的设置,本实施例最终在所构建的数据集上面训练得到性能优越的用于学生成绩分类的一维卷积神经网络模型,为了评估模型的性能,然后本实施例又在课程数据测试集上面测试了模型的分类准确率(如表2所示)同时获得了模型分类结果的混淆矩阵(如图9所示),以便对模型的性能进行全面的测评。
[0081]
表2系统预测准确率
[0082][0083]
为了进一步理解卷积神经网络模型所学习到的成绩分类能力,本实施例提取了所构建的卷积神经网络模型最后一层卷积层输出的特征,由于该特征维数较高,因此本实施例采用了t-sne非线性降维技术,将卷积神经网络模型最后一层提取的特征降至两维,然后本实施例在二维平面上对降维后的特征进行了可视化,其可视化结果如图10。通过可视化卷积神经网络提取的特征,本实施例可以清楚的观测到在特征空间中不同类别的数据可以
清晰可分,每一类分类数据都各自聚成一簇,进而说明训练得到的卷积神经网络模型可以辨别不同类型的输入成绩数据,分类效果良好。
[0084]
通过训练得到的一维卷积神经网络模型对学生的线上和线下混合的实时课堂数据进行分类后,为了构建完整的学生学习情况智能监测系统,需要进一步利用学生成绩分类的结果对学生的学习情况进行全面分析和评估,进而可以帮助教师细粒度地对每一个学生的学习情况有初步的了解,以便下一步指定教学计划开展针对性教学,最终实现可以有效指导学生课程学习以及进一步提高教师的教学质量的目标。
[0085]
在基于随机森林算法进行数据插值过程中,通过观察图11插值后的结果可以发现,所有缺失数据均得到了填充,没有漏填数据,填充的数据具有较高的精度,而且通过观察所有填充的数据没有出现离群值即最终的课程成绩都在(0,100)区间内,其次计算了所采用的随机森林回归模型的决定系数,其值为0.97,逼近1,说明模型拟合效果良好,最后本实施例通过随机森林回归模型训练过程中所没有使用的袋外数据测试了模型的预测误差,预测误差稳定在0.2左右,进一步体现了该随机森林模型良好的预测效果。
[0086]
本实施例构建了用于学习情况监测的一维卷积神经网络模型并在插值后的数据集上面进行训练和性能评估,通过实验结果可以发现本实施例构建的用于课程数据分类的一维卷积神经网络模型的分类准确率可以达到85%,分类效果达到了预期,可以满足任务的需要。最后本实施例可以利用卷积神经网络产生的学生课程数据的分类结果对学生的学习情况做进一步的评估,有效地指导学生的课程学习以及提高教师的教学质量和成效。
[0087]
实施例2
[0088]
本发明实施例2提供一种对应上述实施例1的终端设备,终端设备可以是用于客户端的处理设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行上述实施例的方法。
[0089]
本实施例的终端设备包括存储器、处理器及存储在存储器上的计算机程序;处理器执行存储器上的计算机程序,以实现上述实施例1方法的步骤。
[0090]
在一些实现中,存储器可以是高速随机存取存储器(ram:random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
[0091]
在另一些实现中,处理器可以为中央处理器(cpu)、数字信号处理器(dsp)等各种类型通用处理器,在此不做限定。
[0092]
实施例3
[0093]
本发明实施例3提供了一种对应上述实施例的计算机可读存储介质,其上存储有计算机程序/指令。计算机程序/指令被处理器执行时,实现上述实施例1方法的步骤。
[0094]
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。
[0095]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产
品的形式。本技术实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言java和直译式脚本语言javascript等。
[0096]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0097]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0098]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0099]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1