一种扩充慕课课程概念的方法及系统

文档序号：24877974发布日期：2021-04-30 12:54阅读：120来源：国知局

本发明涉及计算机技术领域，尤其涉及一种扩充慕课课程概念的方法及系统。

背景技术：

随着大规模在线开放课程平台(也称为慕课，massiveopenonlinecourse，简称mooc)的普及和商业化，这种新型的教育方式吸引了越来越多的自主学习者根据自己的需求和喜好进行在线的学习。实际上，这种模式在带来便利的同时也有一些功能的缺失：在传统课堂中，教师可以根据学生的表现和提问来补充所需讲解的知识点，而这种交互在慕课上很难达成，因为慕课课程主要是预先录制好的课程视频，学生在学习课程视频时，不能将课程学习过程中的问题及时反馈给老师，而这些问题一般都属于该课程中的一些扩充内容和知识点延伸，由于老师无法当场获取到学生的反馈，导致老师和学生之间所收获的交互往往是非常滞后的。针对这些问题，对额外的在线课程知识进行补充的关键技术之一，就是根据课程内容，从多种外部的资源，如知识库，文本，搜索引擎中找到课程相关的知识概念，来对课程的概念进行补充。

然而，现有的概念自动扩充方法，主要存在两个原因而难以在实际的慕课上使用，一、一门慕课课程的概念往往是由多个类别的概念所组成的，已有方法在扩展此类概念集合时，很产生造成“语义漂移”现象，从而使得扩展结果的质量过低而不能使用；二、已有方法主要是有监督训练的方法，而慕课课程常常更新，这使得这些方法在新录入的课程上的表现效果不理想，不能达到教学的要求。

因此，现在亟需一种用扩充慕课课程概念的方法及系统来解决上述问题。

技术实现要素：

针对现有技术存在的问题，本发明实施例提供一种用于扩充慕课课程概念的方法及系统。

第一方面，本发明实施例提供了一种扩充慕课课程概念的方法，包括：

将在线的交互式游戏作为训练环境，训练得到强化学习模型；

基于课内概念集合和所述强化学习模型进行概念扩展，并在扩展过程中获取用户反馈，所述课内概念集合是由慕课课程中需补充讲解的课程知识点内容构成的；

将所述用户反馈返回所述交互式游戏中重新进行扩展，直至达到预设目标，得到扩展结果。

进一步地，所述基于课内概念集合和所述强化学习模型进行概念扩展，并在扩展过程中获取用户反馈，包括：

获取课内概念集合，并从所述课内概念集合中抽取部分作为扩展种子；

利用所述扩展种子，在外部资源中搜索，去除搜索结果中已在课内出现的概念，得到候选概念集合；

将所述候选概念集合输入到所述强化学习模型进行概念扩展，并在扩展过程中获取用户反馈。

进一步地，所述将所述用户反馈返回所述交互式游戏中重新进行扩展，直至达到预设目标，得到扩展结果，包括：

对所述候选概念集合中每一个概念进行判别，得到结果为0或1；

将结果为1的概念输入到游戏接口中，以获取用户反馈；

将所述用户反馈作为模型的独立奖励值，并将所述独立奖励值映射到预设区间内，作为模型低阶训练奖励；

当所有概念都被判别后，将得到的所有独立奖励值求和，得到高阶训练奖励；

基于所述低阶训练奖励和所述高阶训练奖励，进行自我优化，并重复模型扩展过程，直至达到预设目标，得到扩展结果。

进一步地，所述预设目标为：

课内概念集合中包含概念的量达到预设的目标，或者所有候选概念都已经被确认过。

进一步地，所述将在线的交互式游戏作为训练环境，包括：

构建一个用于收集用户对扩展结果进行反馈的游戏接口；

基于所述游戏接口与用户反馈进行数据交互。

进一步地，所述获取课内概念集合，包括：

根据待扩充慕课的课程内容，从外部资源中获取所述课程内容对应的课程知识概念，其中，所述外部资源包括知识库、文本内容和搜索引擎；

将所述课程知识概念作为课程知识点内容，构建所述课内概念集合，以根据所述课内概念集合对所述待扩充慕课进行概念扩展。

第二方面，本发明实施例提供了一种扩充慕课课程概念的系统，包括：

模型训练模块，用于将在线的交互式游戏作为训练环境，训练得到强化学习模型；

用户反馈模块，用于基于课内概念集合和所述强化学习模型进行概念扩展，并在扩展过程中获取用户反馈，所述课内概念集合是由慕课课程中需补充讲解的课程知识点内容构成的；

扩展模块，用于将所述用户反馈返回所述交互式游戏中重新进行扩展，直至达到预设目标，得到扩展结果。

进一步地，所述系统还包括：

采集模块，用于根据待扩充慕课的课程内容，从外部资源中获取所述课程内容对应的课程知识概念，其中，所述外部资源包括知识库、文本内容和搜索引擎；

处理模块，用于将所述课程知识概念作为课程知识点内容，构建所述课内概念集合，以根据所述课内概念集合对所述待扩充慕课进行概念扩展。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种扩充慕课课程概念的方法及系统，通过使用强化学习的训练方法，可以在某些特定课程上进行训练后大规模应用于新设立的课程，相比传统的方法节省了大量人工标注，因此具有较强的延展性。同时，并且由于多层次的训练模式，可以在处理涉及多学科的领域的课程时，保持产生较高质量的扩展结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的扩充慕课课程概念的方法的流程示意图；

图2为本发明实施例提供的强化学习流程图；

图3为本发明实施例提供的扩充慕课课程概念的系统的结构示意图；

图4为本发明实施例提供的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的扩充慕课课程概念的方法的流程示意图，如图1所示，本发明实施例提供了一种扩充慕课课程概念的方法，包括：

步骤101，将在线的交互式游戏作为训练环境，训练得到强化学习模型；

步骤102，基于课内概念集合和所述强化学习模型进行概念扩展，并在扩展过程中获取用户反馈，所述课内概念集合是由慕课课程中需补充讲解的课程知识点内容构成的；

步骤103，将所述用户反馈返回所述交互式游戏中重新进行扩展，直至达到预设目标，得到扩展结果。

在本发明实施例中，提供了一种能够对包含多类别概念的课程概念集合进行高质量扩展的方法，同时能够对于监督以外的课程概念有较强的泛化能力，即在未训练过的课程上保持较优的表现，从而满足慕课课程概念的自动扩充需要。图2为本发明实施例提供的强化学习流程图，如图2所示，首先，需要构建游戏反馈接口，该游戏反馈接口是用来和模型进行数据交互，获取用户的反馈信息；进而，基于采集到的用于对慕课进行扩充的课内概念集合和强化学习模型，对慕课课程进行扩展，并将扩展过程中的扩展内容发送至用户端，并根据用户反馈，重复更新训练学习过程，直至达到无法扩展的程度，输出得到扩展结果。需要说明的是，在本发明中，还可将其他类型的交互系统作为训练环境，从而训练得到强化学习模型，例如，交互式数据收集系统。

本发明实施例提供的扩充慕课课程概念的方法，使用了强化学习的训练方法，可以在某些特定课程上进行训练后大规模应用于新设立的课程，相比传统的方法节省了大量人工标注，因此具有较强的延展性。同时，并且由于多层次的训练模式，可以在处理涉及多学科的领域的课程时，保持产生较高质量的扩展结果。

在上述实施例的基础上，所述基于课内概念集合和所述强化学习模型进行概念扩展，并在扩展过程中获取用户反馈，包括：

获取课内概念集合，并从所述课内概念集合中抽取部分作为扩展种子；

利用所述扩展种子，在外部资源中搜索，去除搜索结果中已在课内出现的概念，得到候选概念集合；

将所述候选概念集合输入到所述强化学习模型进行概念扩展，并在扩展过程中获取用户反馈。

在本发明实施例中，首先收集课内概念集合，并选取课内概念集合中的一部分概念为种子，同时，在外部资源中搜索这些课内概念；然后，通过使用已有概念抽取方法，对这些搜索结果中的概念进行保留，并去除课内已经出现过的概念，作为候选扩展集合使用；最后，基于强化学习模型，对所述候选概念集合中每一个概念进行判别，并根据反馈结果重新进行扩展，直至达到扩展上限，得到扩展结果。

在上述实施例的基础上，所述将所述用户反馈返回所述交互式游戏中重新进行扩展，直至达到预设目标，得到扩展结果，包括：

对所述候选概念集合中每一个概念进行判别，得到结果为0或1；

将结果为1的概念输入到游戏接口中，以获取用户反馈；

将所述用户反馈作为模型的独立奖励值，并将所述独立奖励值映射到预设区间内，作为模型低阶训练奖励；

当所有概念都被判别后，将得到的所有独立奖励值求和，得到高阶训练奖励；

基于所述低阶训练奖励和所述高阶训练奖励，进行自我优化，并重复模型扩展过程，直至达到预设目标，得到扩展结果。

在本发明实施例中，从候选扩展集合中，根据上述实施例中得到的扩展种子(作为本轮扩展的种子)以及得到的候选扩展集合整体，对候选扩展集合中的每一个概念进行判别，得到一个0或1的二元结果，将得到1的概念输入至游戏接口，收集用户的反馈情况，作为模型的独立奖励值，这个独立奖励值应被映射到一个(-1,1)的区间中，作为本模型的低阶训练奖励。模型得到低阶训练奖励后，其低阶部分将根据奖励的大小进行自我优化。

进一步地，当这一个候选扩展集合的所有概念都被判别后，将所有得到的独立奖励值进行加和，得到本轮奖励值，这个奖励值就是本模型的高阶训练奖励。当本轮所有被判别为1的概念都被作为扩展结果，输入到课内概念集合中之后，模型根据本轮得到的高阶训练对其高阶部分进行自我优化。

在上述实施例的基础上，所述预设目标为：

课内概念集合中包含概念的量达到预设的目标，或者所有候选概念都已经被确认过。

在本发明实施例中，概念扩展过程为反复重复的过程，具体的停止条件为课内概念集合中包含概念的量达到预设的目标，或者所有找出的候选概念都已经被确认过。

在上述实施例的基础上，所述将在线的交互式游戏作为训练环境，包括：

构建一个用于收集用户对扩展结果进行反馈的游戏接口；

基于所述游戏接口与用户反馈进行数据交互。

在本发明实施例中，首先会构建一个可以收集用户对扩展结果进行反馈的游戏接口，然后再收集课内概念集合，利用该集合进行种子选取以及概念扩展，最后达到多层次训练，获得较高质量的扩展结果。

在上述实施例的基础上，所述获取课内概念集合，包括：

根据待扩充慕课的课程内容，从外部资源中获取所述课程内容对应的课程知识概念，其中，所述外部资源包括知识库、文本内容和搜索引擎；

将所述课程知识概念作为课程知识点内容，构建所述课内概念集合，以根据所述课内概念集合对所述待扩充慕课进行概念扩展。

在本发明实施例中，基于现有慕课的课程内容，从多种外部资源，例如，知识库，文本内容和搜索引擎中找到该慕课课程相关的知识概念，从而对课程的知识概念进行补充。

图3为本发明实施例提供的扩充慕课课程概念的系统的结构示意图，如图3所示，本发明实施例提供一种扩充慕课课程概念的系统，包括模型训练模块301、用户反馈模块302和扩展模块303，其中，模型训练模块301用于将在线的交互式游戏作为训练环境，训练得到强化学习模型；用户反馈模块302用于基于课内概念集合和所述强化学习模型进行概念扩展，并在扩展过程中获取用户反馈，所述课内概念集合是由慕课课程中需补充讲解的课程知识点内容构成的；扩展模块303用于将所述用户反馈返回所述交互式游戏中重新进行扩展，直至达到预设目标，得到扩展结果。

本发明实施例提供的扩充慕课课程概念的系统，使用了强化学习的训练方法，可以在某些特定课程上进行训练后大规模应用于新设立的课程，相比传统的方法节省了大量人工标注，因此具有较强的延展性。同时，并且由于多层次的训练模式，可以在处理涉及多学科的领域的课程时，保持产生较高质量的扩展结果。

在上述实施例的基础上，所述系统还包括采集模块和处理模块，其中，采集模块用于根据待扩充慕课的课程内容，从外部资源中获取所述课程内容对应的课程知识概念，其中，所述外部资源包括知识库、文本内容和搜索引擎；处理模块用于将所述课程知识概念作为课程知识点内容，构建所述课内概念集合，以根据所述课内概念集合对所述待扩充慕课进行概念扩展。

本发明实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图4为本发明实施例提供的电子设备结构示意图，参照图4，该电子设备可以包括：处理器(processor)401、通信接口(communicationsinterface)402、存储器(memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令，以执行如下方法：将在线的交互式游戏作为训练环境，训练得到强化学习模型；基于课内概念集合和所述强化学习模型进行概念扩展，并在扩展过程中获取用户反馈，所述课内概念集合是由慕课课程中需补充讲解的课程知识点内容构成的；将所述用户反馈返回所述交互式游戏中重新进行扩展，直至达到预设目标，得到扩展结果。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的扩充慕课课程概念的方法，例如包括：将在线的交互式游戏作为训练环境，训练得到强化学习模型；基于课内概念集合和所述强化学习模型进行概念扩展，并在扩展过程中获取用户反馈，所述课内概念集合是由慕课课程中需补充讲解的课程知识点内容构成的；将所述用户反馈返回所述交互式游戏中重新进行扩展，直至达到预设目标，得到扩展结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李涓子;于济凡;罗干;侯磊;张鹏;唐杰;许斌
技术所有人：清华大学
我是此专利的发明人

上一篇：一种科技成果技术研发用前期开发平台的制作方法
上一篇：一种节能环保的喷绒无纺布快速干燥冷却机构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。