本发明属于数据挖掘领域,涉及一种基于超图神经网络多角度特征融合的先决学习方法。
背景技术:
1、随着在线教育平台的蓬勃发展,为学习者积累了海量资源。为每位学习者在庞大的学习资源中规划精准合理、个性有效的学习路径,是自适应学习的重要研究内容之一,概念先决关系识别在其中扮演了关键角色。概念先决关系(concept prerequisitelearning)是概念之间的前后依赖关系,在确立后可被广泛应用于课程推荐、学习路径规划、学习资源排序、知识追踪等下游任务。
2、现有概念先决关系研究主要基于特征提取和基于二元图结构两类,其中基于特征提取的方法依赖于手工制作特征,在文档结构规范的教科书文档资源中表现良好,但缺乏泛化性,并且计算时间成本高。随着图神经网络的发展,更多工作针对概念,以及概念隶属的文档资源来建模二元图结构,但难以表征概念和文档资源对象间的复杂关系。课程在进行概念先决关系识别时,概念与文档资源之间具有概念和文档多对多、文档之间前后关联,以及概念与其相似概念呈现聚类现象等复杂关系,但基于二元图结构的方法对概念和文档资源间复杂的关系不能充分表达,难以完整建模对象之间的复杂、高阶关系。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种基于超图神经网络多角度特征融合的先决学习方法。针对单一的超图结构建模对建模对象的关联关系表达不足,提出从三个角度,即概念在文档资源中的结构关系,概念与概念之间的语义相似度关系,以及文档资源与概念之间的隶属关系构建超图,从多个角度深入挖掘建模对象的高阶关系,学习不同语义结构下的概念潜在表征。此外,多角度建模得到的多个概念潜在表征,提出两阶段融合机制融合多个概念潜在表征。由于文档资源先后顺序蕴含了概念先决关系,利用交叉熵损失函数联合优化概念先决关系学习和文档资源先决关系学习,从而提高模型的预测精度。
2、为达到上述目的,本发明提供如下技术方案:
3、获取真实公开的概念先决关系学习数据集,对数据集进行预处理,标注数据集提供概念集合的同义词概念。删除未出现在文档资源中的概念,并删除不包含概念的文档;
4、利用概念同义词替换数据集标注的概念先决关系对,对正样本进行数据增强;
5、多角度超图建模,利用概念-概念关系,概念-文档关系构建概念结构超图、概念语义距离超图和文档概念超图。概念结构超图由逐点互信息(pmi)的共现窗口计算概念与概念在文档资源中的关联度,得到概念结构矩阵(n表示概念数量)。概念语义距离超图建模利用等距离特征映射(isomap)计算得到概念与概念的流形测地线距离并转换得到语义相似度矩阵文档概念超图由概念隶属于文档的关系构建生成。利用超图表征复杂、高阶关系的能力,相较于二元图结构,更有利于建模文档、概念之间的多对多、聚类关系特征;
6、超图卷积,利用超图神经网络对概念结构超图、概念语义距离超图和文档概念超图各自执行卷积操作,学习在不同语义超图结构下的概念潜在表征,此外,文档概念超图还提供了文档资源潜在表征;
7、概念特征融合,由多角度建模超图结构得到的不同语义结构下的概念潜在表征,使用两阶段特征融合,融合不同语义结构下的特征表达,进一步挖掘概念先决关系。第一阶段对多个概念潜在特征进行纵向拼接后,利用最大值或均值或求和融合特征,第二阶段使用自注意力机制在概念全域下进一步融合特征;
8、先决关系预测,概念特征融合后得到的概念潜在表征和文档概念超图得到的文档资源潜在表征分别送入孪生网络,对概念先决关系和文档资源先决关系进行预测;
9、使用交叉熵损失函数度量概念先决损失和文档资源先决损失最终损失由超参数λ调节得到,
10、本发明的有益效果在于:
11、基于文档资源中概念与其相关概念,和概念与其相似概念的聚类特性,以及概念与文档资源的多对多关系,利用超图结构更准确、充分建模其复杂、高阶关联关系,从三个角度构造了三个不同表达能力的超图结构,有利于深入挖掘概念之间的关联关系,更准确学习概念表征,提升模型对概念先决关系的预测能力。
12、基于流形测地线距离度量概念之间的距离,进一步计算得到概念之间的相似度,在概念词嵌入的高维特征下,相较于传统的余弦相似度计算方法,更准确的度量了概念之间的相似度,有利于基于概念相似度的概念语义超图建模。
13、文档资源中同一概念具有不同表达的同义词概念,利用同义词概念替换对具有先决关系的概念对正样本进行数据增强,减少分类不平衡问题对正样本分类的误差影响。
14、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
1.一种基于超图神经网络多角度特征融合的先决学习方法,其特征在于:该方法包括以下步骤:
2.根据权利要求1所述的一种基于超图神经网络多角度特征融合的先决学习方法,其特征在于:所述多角度超图建模为:引入逐点互信息pmi度量文档资源中概念之间的关联度,构建概念结构超图;利用等距离特征映射isomap计算概念词嵌入的流形测地线距离,构建概念语义距离超图;根据文档资源-概念隶属关系,构建文档概念超图。
3.根据权利要求2所述的一种基于超图神经网络多角度特征融合的先决学习方法,其特征在于:所述概念语义距离超图为:由isomap计算得到概念词嵌入的测地线距离矩阵再由公式转换为概念词嵌入的语义相似度矩阵。
4.根据权利要求3所述的一种基于超图神经网络多角度特征融合的先决学习方法,其特征在于:所述标注同义词为,对具有概念先决关系的正样本数据,利用同义词替换,对少数类样本实现数据增强,解决数据不平衡分类问题。
5.根据权利要求4所述的一种基于超图神经网络多角度特征融合的先决学习方法,其特征在于:所述概念特征融合为,第一阶段将超图卷积得到的概念潜在表征拼接,利用最大值或均值或求和融合特征,第二阶段基于自注意力机制进一步融合概念特征。