视频课堂的互动方法、装置、设备及存储介质与流程

文档序号：23231137发布日期：2020-12-08 15:19阅读：179来源：国知局

本发明实施例涉及计算机领域，尤其涉及一种视频课堂的互动方法、装置、设备及存储介质。

背景技术：

随着人工智能技术的发展，以人工智能技术为基础的ai课堂老师(即录制视频老师)也随之出现，通过录制好的视频实现课堂教学，也即：视频课堂。

为了保证视频课堂的上课的质量，通常会设置一些互动环节来调动视频课堂的学习氛围，但是目前在视频课堂中的互动，都是基于设定的节点和已经录制好的视频而进行的定向互动，在整个视频课堂过程中互动次数较少，而且僵化不自然，与真实的上课场景存在较大差距。

因此，如何实现提高视频课堂的互动效果，成为亟需解决的技术问题。

技术实现要素：

本发明实施例解决的技术问题是提供一种视频课堂的互动方法、装置、设备及存储介质，以实现提高视频课堂的互动效果。

为解决上述问题，本发明实施例提供一种视频课堂的互动方法，包括：

获取课堂的学生状态数据；

当所述学生状态数据满足互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频，其中，所述触发时刻为所述学生状态数据满足互动触发阈值的时刻；

将所述互动视频插播于所述视频课堂的课堂播放视频的当前播放帧之后。

可选地，所述获取课堂的学生状态数据的步骤包括：

获取课堂的全部学生图像；

根据所述全部学生图像获取各学生当前姿态数据；

所述当所述学生状态数据满足互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频的步骤包括：

当各所述学生当前姿态数据中的至少一个满足学生姿态数据互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频。

可选地，所述获取课堂的学生状态数据的步骤还包括：

根据全部的所述学生当前姿态学生当前姿态数据，得到所述课堂的整体专注度；

所述当所述学生状态数据满足互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频的步骤还包括：

当所述整体专注度满足整体专注度互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频。

可选地，所述根据全部的所述学生当前姿态学生当前姿态数据，得到所述课堂的整体专注度的步骤包括：

根据全部的所述学生当前姿态学生当前姿态数据，得到不同所述学生当前姿态数据的数量占比；

将各所述数量占比与各所述学生当前姿态数据的权重相乘，得到各数量权重占比；

计算各所述数量权重占比之和，得到所述整体专注度。

可选地，所述获取课堂的学生状态数据的步骤还包括：

获取所述获取全部学生图像的时刻之前预定时间长度内的各时刻的各学生当前姿态数据；

根据各时刻的各学生当前姿态数据，得到所述课堂的各个人专注度；

所述当所述学生状态数据满足互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频的步骤还包括：

当至少一个所述个人专注度满足个人专注度互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频。

可选地，所述根据各时刻的各学生当前姿态数据，得到所述课堂的各个人专注度的步骤包括：

根据各时刻的各学生当前姿态数据，得到各学生的不同学生当前姿态数据在所述预定时间长度内的时间占比；

将同一学生的各所述时间占比与各所述学生当前姿态数据的权重相乘，得到各同一学生的时间权重占比，并计算各所述时间权重占比之和，得到同一学生的所述个人专注度，直至遍历各学生，得到各所述个人专注度。

可选地，所述根据所述全部学生图像获取各学生当前姿态数据的步骤包括：

检测和识别所述全部学生图像中的各学生的人脸框图，并检测各学生的身体框图；

选定各学生的人脸框图中的一个，得到选定人脸框图，计算所述选定人脸框图与各所述身体框图的重叠度，得到所述重叠度符合所述重叠度阈值的匹配身体框图，匹配所述选定人脸框图与所述匹配身体框图，直至遍历各所述学生的人脸框图，根据相互匹配的所述选定人脸框图与所述匹配身体框图得到各所述学生当前姿态数据。

可选地，所述获取课堂的学生状态数据的步骤还包括：

根据预先设定的获取触发标准，获取课堂的学生状态数据。

可选地，所述获取触发时刻的课堂场景数据，生成老师的互动视频的步骤包括：

根据所述触发时刻的课堂场景数据，生成老师的音频；

根据所述触发时刻和所述音频，生成老师的视频；

将所述音频和所述视频合成，得到所述互动视频。

可选地，所述根据所述触发时刻的课堂场景数据，生成老师的音频的步骤包括：

根据所述触发时刻的课堂场景数据，查找所述课堂场景数据下的老师的语言文本数据；

利用语音合成技术将所述语言文本数据生成所述音频。

可选地，所述根据所述触发时刻和所述音频，生成老师的视频的步骤包括：

获取所述触发时刻的课堂播放视频帧；

提取所述课堂播放视频帧的老师的动作姿态；

根据所述动作姿态生成与所述音频相匹配的动作姿态视频；

根据所述动作姿态视频生成所述视频。

可选地，所述动作姿态包括脸部动作姿态；

所述根据所述动作姿态生成与所述音频相匹配的动作姿态视频的步骤包括：

根据所述动作姿态生成与所述音频的时间长度相同的同时间动作姿态视频；

根据所述音频生成脸部动作姿态视频；

用所述脸部动作姿态视频替换所述同时间动作姿态视频中的脸部视频，得到与所述音频相匹配的动作姿态视频。

为解决上述问题，本发明实施例还提供一种视频课堂的互动装置，包括：

学生状态数据获取单元，适于获取课堂的学生状态数据；

互动视频生成单元，适于当所述学生状态数据满足互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频，其中，所述触发时刻为所述学生状态数据满足互动触发阈值的时刻；

互动视频插播单元，适于将所述互动视频插播于所述视频课堂的课堂播放视频的当前播放帧之后。

为解决上述问题，本发明实施例还提供一种设备，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如前述的视频课堂的互动方法。

为解决上述问题，本发明实施例还提供一种存储介质，所述存储介质存储有适于视频课堂的互动的程序，以实现如前述的视频课堂的互动方法。

与现有技术相比，本发明的技术方案具有以下优点：

本发明实施例所提供的视频课堂的互动方法、装置、设备及存储介质，视频课堂的互动方法，获取课堂的学生状态数据；当所述学生状态数据满足互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频，其中，所述触发时刻为所述学生状态数据满足互动触发阈值的时刻；将所述互动视频插播于所述视频课堂的课堂播放视频的当前播放帧之后。本发明实施例所提供的视频课堂的互动方法，在视频课堂过程中不断获取课堂的学生状态数据，并与相应的互动触发阈值进行比较，当满足互动触发阈值时，触发互动视频的生成，互动视频需要基于触发时刻的课堂场景数据生成，在生成互动视频后，将互动视频拼接于视频课堂的课堂播放视频的当前播放帧之后进行播放。可见，本发明实施例所提供的视频课堂的互动方法，根据视频课堂进行过程中的学生状态数据，触发互动视频的生成和播放，基于实际的学生状态数据，确定是否需要进行互动，提高了互动的必要性，并可以根据实际的学生状态数据确定互动的次数，不受提前设定的影响，保证了互动的灵活性；同时，互动视频的生成基于触发时刻的课堂场景数据，能够与课堂场景数据密切贴合，提高了互动的真实性和可信度，保证课堂的学习氛围；进一步地，互动视频在触发时刻的视频课堂的课堂播放视频的当前播放帧之后进行播放，相当于在触发时刻向后延互动视频的生成时间，便进行播放，由于互动视频的生成速度很快，达到了即时生成即时播放，保证了互动的效果。

附图说明

图1是本发明实施例所提供的视频课堂的互动方法的一种流程示意图；

图2为本发明实施例所提供的视频课堂的互动方法的另一流程示意图；

图3为本发明实施例所提供的视频课堂的互动方法的根据所述全部学生图像获取各学生当前姿态数据步骤的可选流程示意图；

图4为本发明实施例所提供的视频课堂的互动方法的再一流程示意图；

图5是本发明实施例所提供的视频课堂的互动装置的一框图；

图6本发明实施例提供的设备一种可选硬件设备架构。

具体实施方式

现有技术中，在视频课堂中，视频课堂的互动效果较差。

在一种方案中，老师根据录制视频所设定的互动场景，假想出学生的课堂反应，然后录制接下来的互动响应视频，比如：老师指示一单词，让学生跟读，假想出学生读的都正确，录制响应视频--老师说“great”，来实现互动效果。

然而，这种方案只能实现对于课堂的整体互动，无法与具体的个人进行定向互动，并且，如果在互动过程中，出现学生没有回答或者回答错误的情况，还会导致互动结果不匹配，并进一步影响ai课堂老师的可信度以及课堂的学习氛围。

在另一种方案中，在录制的视频中预设一些互动节点，并根据在各个互动节点预先设置ai老师的互动方式以及互动内容录制互动视频，比如：举手点名回答问题，ai课堂老师根据已经设定好的内容，点名学生回答问题，并判断对错。

这种方法可以在课堂中起到一定的互动作用，但需要预先设计互动的内容和方式，因此，互动次数较少，也无法根据课堂的情况触发互动。

为了提高视频课堂的互动效果，本发明实施例提供了一种视频课堂的互动方法及相关装置，视频课堂的互动方法包括：获取课堂的学生状态数据；当所述学生状态数据满足互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频，其中，所述触发时刻为所述学生状态数据满足互动触发阈值的时刻；将所述互动视频插播于所述视频课堂的课堂播放视频的当前播放帧之后。

这样，本发明实施例所提供的视频课堂的互动方法，在视频课堂的进行过程中，不断获取课堂的学生状态数据，并与相应的互动触发阈值进行比较，当满足互动触发阈值时，触发互动视频的生成，互动视频需要基于触发时刻的课堂场景数据生成，而在生成互动视频后，将互动视频拼接于视频课堂的课堂播放视频的当前播放帧之后进行播放，也就是在互动视频的生成过程中，课堂播放视频继续向前播放，等到互动视频生成后，将其拼接在课堂播放视频正在播放的当前播放帧之后，进行播放。

可见，本发明实施例所提供的视频课堂的互动方法，根据视频课堂进行过程中的学生状态数据，触发互动视频的生成和播放，基于课堂上实际的学生状态数据，确定是否需要进行互动，从而提高了互动的必要性；并且可以根据实际的学生状态数据确定互动的次数，不受提前设定的影响，保证了互动的灵活性；同时，互动视频的生成基于触发时刻的课堂场景数据，保证了与课堂场景数据的密切贴合，提高了互动的真实性和可信度，保证课堂的学习氛围；进一步地，互动视频在触发时刻的视频课堂的课堂播放视频的当前播放帧之后进行播放，相当于在触发时刻向后延互动视频的生成时间，便进行播放，由于互动视频的生成速度很快，达到了即时生成即时播放，保证了互动的效果。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1是本发明实施例所提供的视频课堂的互动方法的一种流程示意图。

如图中所示，本发明实施例所提供的视频课堂的互动方法包括以下步骤：

步骤s10：获取课堂的学生状态数据。

在视频课堂的进行过程中，一方面通过视频播放器播放老师讲课的课堂播放视频，同时，学生观看课堂播放视频进行学习。在上课的过程中，根据设定实时获取课堂的学生状态数据。

具体地，可通过摄像头实时拍摄学生上课的图像，进而分析图像中的学生状态数据的方式，获取课堂的学生状态数据。

上述获取课堂的学生状态数据的步骤可以从视频课堂开始上课便开始进行，在另一种具体实施方式中，也可以根据预先设定的获取触发标准，获取课堂的学生状态数据，比如：通过在课堂播放视频中预先设定获取课堂的学生状态数据的开始点和结束点的方式，进行课堂的学生状态数据获取的开始和停止的触发。

比如：在老师开始讲解知识点的视频位置，设置停止获取课堂的学生状态数据的触发，从而停止获取课堂的学生状态数据；在老师进行题目的解答的视频位置，设置开始获取课堂的学生状态数据的触发，实现开始获取课堂的学生状态数据。

根据预先设定的获取触发标准获取课堂的学生状态数据，一方面保证了在需要较高频次的互动的场景下的互动需要，保证互动效果；另一方便，还避免了在需要减少互动的场景下的互动，保证上课质量；同时，还可以减小传输量和运算量，降低对于运算设备的要求，降低成本。

当然，容易理解的是，为了保证整个课堂的互动质量，获取课堂的学生状态数据的步骤可以是在视频课堂进行过程中，所预定的需要获取的时间范围内，持续执行的；同理，本发明实施例所提供的视频课堂的互动方法也可以是在在视频课堂进行过程中，所预定的需要获取的时间范围内，持续进行的。

另外，可以理解的是，在视频课堂上课时，通常会有多个学生聚集在教室中，因此，所获取的学生状态数据，即可以包括全部学生的整体状态数据，也可以包括具体某个学生的状态数据。

步骤s11：判段所述学生状态数据是否满足互动触发阈值，如果满足，则执行步骤s12，如果不满足，则执行步骤s14。

获取到课堂的学生状态数据后，将其与预定的互动触发阈值进行比较，如果满足互动触发阈值的要求，则执行步骤s12，如果不满足，则执行步骤s14，即继续获取课堂的学生状态数据，进行下一次的判断。

也就是，不论学生状态数据是否满足互动触发阈值，都需要持续地进行学生状态数据的获取，保证在整个获取时间内对学生状态数据的把握，同时在满足互动阈值的情况下，则进行后续的互动视频的生成和播放。

可以理解的是，互动触发阈值是与具体学生状态数据类型相对应的，当学生状态数据为整体学生的状态时，互动触发阈值为整体学生的互动触发阈值。基于不同的学生状态数据类型，满足互动触发阈值的标准也不同，比如：当学生状态数据为学生姿态数据时，满足互动触发阈值可以是与互动触发阈值中的某个姿态(如：交谈)相同；当学生状态数据为专注度时，满足互动触发阈值可以是小于专注度阈值。

互动触发阈值可以是提前确定好的，互动触发阈值的获取可以通过大量的研究获取，也可以根据具体应用情况不断的调整。

步骤s12：根据触发时刻的课堂场景数据，生成老师的互动视频，其中，所述触发时刻为所述学生状态数据满足互动触发阈值的时刻。

当学生状态数据满足互动触发阈值时，则根据触发时刻的课堂场景数据，需要生成老师的互动视频，具体触发时刻即为学生状态数据满足互动触发阈值的时刻，如果通过获取全部学生图像的方式获取学生状态数据，触发时刻也可以理解为所获取的全部学生图像所对应的时刻。

为了保证互动视频的真实性，互动视频的生成需要根据触发时刻的课堂场景数据生成。所述课堂场景数据可以包括所述学生状态数据和所述课堂播放视频中的老师状态数据，，比如：此时时间节点，课堂播放视频中老师状态为老师要求同学们伏案在书本上自行解答习题，学生状态为其中某个学生(已识别出具体是哪个学生)没有伏案写字，未解答习题，基于此课堂场景，所需要生成的互动视频为：视频中老师指出某某同学请抓紧时间解题的视频段。

步骤s13：将所述互动视频插播于所述视频课堂的课堂播放视频的当前播放帧之后。

得到互动视频后，需要将互动视频插播于课堂播放视频中进行播放，由于从触发时刻到互动视频完全生成需要一定的时间，在上述过程中，课堂播放视频已经进一步播放至触发时刻后的某一帧，即：当前播放帧，此时将互动视频拼接于当前播放帧之后进行播放即可。

从而，本发明实施例所提供的视频课堂的互动方法，在视频课堂的进行过程中，不断获取课堂的学生状态数据，并与相应的互动触发阈值进行比较，当满足互动触发阈值时，触发互动视频的生成，互动视频需要基于触发时刻的课堂场景数据生成，而在生成互动视频后，将互动视频拼接于视频课堂的课堂播放视频的当前播放帧之后进行播放，也就是在互动视频的生成过程中，课堂播放视频继续向前播放，等到互动视频生成后，将其拼接在课堂播放视频正在播放的当前播放帧之后，进行播放。

步骤s14：停止。

当学生状态数据满足互动触发阈值时，则停止触发生成老师的互动视频，可以理解的是，在播放的课堂播放视频也正继续播放。

为了能够实现学生状态数据与互动触发阈值的比较，进而实现对于互动视频生成的触发，在一种具体实施方式中，所述学生状态数据可以包括学生姿态数据。

请参考图2，图2为本发明实施例所提供的视频课堂的互动方法的另一流程示意图。

如图中所示，本发明实施例所提供的视频课堂的互动方法包括以下步骤：

步骤s20：获取课堂的全部学生图像。

首先，可以通过摄像头拍摄课堂的全部学生图像，然后传输至处理器等处理装置，处理器获取课堂的全部学生图像。

可以理解的是，全部学生图像是指上课时，对班级里全部同学所拍摄的图像，比如：上课时，共有10个同学在听课，那么全部学生图像就是指拍摄了10个同学的图像。

步骤s21：根据所述全部学生图像获取各学生当前姿态数据。

对全部学生图像进行分析，获取学生当前姿态数据。可以理解的是，学生当前姿态数据是指全部学生图像中，学生的姿态。

由于全部学生图像中包含了上课的全部学生，在一种具体实施方式中，为了确定各学生的当前姿态，请参考图3，图3为本发明实施例所提供的视频课堂的互动方法的根据所述全部学生图像获取各学生当前姿态数据步骤的可选流程示意图。

步骤s311：检测和识别所述全部学生图像中的各学生的人脸框图，并检测各学生的身体框图。

由于全部学生图像中包含了上课的全部学生，可以利用人脸检测算法，检测出全部学生图像中的所有人脸以及人脸的位置，得到人脸框图，并进一步可以利用人脸识别算法，识别出检测到的人脸，实现人脸与人名的对应。

同时，利用目标检测算法，检测全部学生图像中的每个学生的身体所对应的位置，得到身体框图。

步骤s312：选定各学生的人脸框图中的一个，得到选定人脸框图，计算所述选定人脸框图与各所述身体框图的重叠度，得到所述重叠度符合所述重叠度阈值的匹配身体框图，匹配所述选定人脸框图与所述匹配身体框图。

选定各学生的人脸框图中的一个，作为选定人脸框图，计算选定人脸框图与身体框图的重叠度。比如：选定人脸框图的面积为a，选定人脸框图与各个身体框图中的一个的重叠区域的面积为b，二者之间的重叠度即为：b/a。

计算选定人脸框图与各个不同的身体框图的各个重叠度，将各个重叠度与重叠度阈值进行比较，得到的满足重叠度阈值的重叠度所对应的身体框图即匹配身体框图，将选定人脸框图与匹配身体框图进行匹配。

如果得到多个满足重叠度阈值的重叠度，则选择重叠度最高的身体框图作为匹配身体框图。

步骤s313：判段是否存在未匹配的学生的人脸框图，若是，执行步骤s312，若否，执行步骤s314。

完成一个选定人脸框图的匹配后，判断是否还存在未进行匹配的学生的人脸框图，如果存在，则需进一步匹配，执行步骤s312，如果不存在，则完成了各人脸框图与各身体框图的匹配，并可以将人脸框图的身份赋予身体框图，然后根据相互匹配的所述选定人脸框图与所述匹配身体框图得到各所述学生当前姿态数据。

步骤s314：根据相互匹配的所述选定人脸框图与所述匹配身体框图得到各所述学生当前姿态数据。

完成人脸框图的识别以及各人脸框图与各身体框图的匹配，根据相互匹配的所述选定人脸框图与所述匹配身体框图得到各学生当前姿态数据。

通过所述方法根据全部学生图像获取各学生当前姿态数据后，进行进一步的处理，请继续参考图2，在一种具体实施方式中，可以执行图2中的步骤s22，在其他具体实施方式中，也可以执行步骤s25或者步骤s27，当然也可以执行步骤s22、步骤s25和步骤s27中的任何一个、任何两个或者三个全部执行。

当执行步骤s22时，步骤s22：判段各所述学生当前姿态数据中是否存在至少一个满足学生姿态数据互动触发阈值，如果是，执行步骤s23，如果否，执行步骤s210。

得到各学生当前姿态数据后，将学生当前姿态数据与学生姿态数据互动触发阈值进行比较，比如学生姿态数据触发阈值中包括：举手姿态、转头姿态等，当各学生当前姿态数据中有一个举手姿态，则与学生姿态数据互动触发阈值相同，满足学生姿态数据互动触发阈值，触发执行步骤s23，如果均不满足，则不会触发执行步骤s23。

步骤s23：根据触发时刻的课堂场景数据，生成老师的互动视频，其中，所述触发时刻为所述学生状态数据满足互动触发阈值的时刻

步骤s23具体内容请参考图1所示的步骤s12，在此不再赘述。

步骤s24：将所述互动视频插播于所述视频课堂的课堂播放视频的当前播放帧之后。

步骤s24具体内容请参考图1所示的步骤s13，在此不再赘述。

当执行步骤s22时，将学生当前姿态数据作为触发互动视频生成的条件，对学生当前姿态数据的判断很及时，并且基于个人，可以实现对于具体个人的互动。

在另一种具体实施方式中，得到各学生当前姿态数据后，执行步骤s25：

步骤s25：根据全部的所述学生当前姿态数据，得到所述课堂的整体专注度。

在一种具体实施方式中，可以根据全部的所述学生当前姿态学生当前姿态数据，得到不同所述学生当前姿态数据的数量占比；将各所述数量占比与各所述学生当前姿态数据的权重相乘，得到各数量权重占比；计算各所述数量权重占比之和，得到所述整体专注度。

具体地，基于得到的各学生当前姿态数据，统计不同类型的学生当前姿态数据的数量，比如：写字状态、看老师状态、举手状态等等，基于不同的学生当前姿态数据数量，计算其与整体学生数量的比例，从而可以得到不同所述学生当前姿态数据的数量占比。

将不同的学生当前姿态数据的数量占比与提前确定的学生当前姿态数据的权重相乘，即可得到各数量权重占比。

具体地，学生当前姿态数据的权重可以根据课堂场景数据有所不同，比如：在课堂播放视频中播放的老师正在讲课，那么，看老师状态的权重相对较高；而在课堂播放视频中播放的老师要求学生写字时，写字状态的权重相对较高。

当然，可以理解的是，学生当前姿态数据的权重还可以随着使用数量的增加，不断调整，使其计算的结果更能满足触发条件的要求。

得到各数量权重占比后，计算各数量权重占比之和，就可以得到学生整体图像中的学生的整体专注度。

步骤s26：判断所述整体专注度满足整体专注度互动触发阈值，如果是，执行步骤s23，如果否，执行步骤s210。

得到整体专注度后，将整体专注度与整体专注度互动触发阈值进行比较，在一种具体实施方式中，将整体专注度大于整体专注度互动触发阈值定义为整体专注度满足整体专注度互动触发阈值，则当整体专注度大于整体专注度互动触发阈值时，触发执行步骤s23，如果小于，则不会触发执行步骤s23。

步骤s23和步骤s24的具体内容，在此不再赘述。

将整体专注度作为触发互动视频生成的条件，实现了对上课学生的整体状态的把握，可以基于整体的情况，实现课堂的互动。

在另一种具体实施方式中，得到各学生当前姿态数据后，执行步骤s27：

步骤s27：获取所述获取全部学生图像的时刻之前预定时间长度内的各时刻的各学生当前姿态数据。

得到了获取全部学生图像的时刻的各学生当前姿态数据，再进一步获取全部学生图像的时刻之前预定时间内的各个学生当前姿态数据。

这样，对于每一个学生，都获得了一段时间内的多个数量学生当前姿态数据。

具体地，预定时间长度，可以根据需要确定，例如：10s(秒)、20s等等。

步骤s28：根据各时刻的各学生当前姿态数据，得到所述课堂的各个人专注度。

在一种具体实施方式中，首先根据各时刻的各学生当前姿态数据，得到各学生的不同学生当前姿态数据在所述预定时间长度内的时间占比；然后将同一学生的各所述时间占比与各所述学生当前姿态数据的权重相乘，得到各同一学生的时间权重占比，并计算各所述时间权重占比之和，得到同一学生的所述个人专注度，直至遍历各学生，得到各所述个人专注度。

得到各学生当前姿态数据后，再获取从获取全部学生图像的时刻之前的各时刻的各学生当前姿态数据，比如：针对同一个同学，获取从获取全部学生图像的时刻之前的预定时间长度内各个时刻的学生当前姿态数据，然后统计该学生的各个学生当前姿态数据所持续的时间(即所存在的帧数)，比如：写字状态的持续时间、看老师状态的持续时间、举手状态的持续时间等等，计算不同的学生当前姿态数据在预定时间长度内的时间占比，得到此同学在预定时间长度内的不同学生当前姿态数据的时间占比；得到时间占比后，再将该学生的不同学生当前姿态数据的时间占比与对应的各学生当前姿态数据的权重相乘，得到一个学生的各时间权重占比，进而计算各时间权重占比之和，得到一个学生的个人专注度，然后遍历全部学生，就可以得到全部学生的个人专注度。

具体地，学生当前姿态数据的权重也可以根据课堂场景数据有所不同，比如：在课堂播放视频中播放的老师正在讲课，那么，看老师状态的权重相对较高；而在课堂播放视频中播放的老师要求学生写字时，写字状态的权重相对较高。

当然，可以理解的是，学生当前姿态数据的权重还可以随着使用数量的增加，不断调整，使其计算的结果更能满足触发条件的要求。

步骤s29：判段各所述个人专注度中是否存在至少一个满足个人专注度互动触发阈值，如果是，执行步骤s23，如果否，执行步骤s210。

得到各个人专注度后，将各个人专注度与个人专注度互动触发阈值进行比较，在一种具体实施方式中，将个人专注度大于个人专注度互动触发阈值定义为个人专注度满足个人专注度互动触发阈值，则当至少一个个人专注度大于个人专注度互动触发阈值时，触发执行步骤s23，如果小于，则不会根据此条件，触发执行步骤s23。

步骤s23和步骤s24的具体内容，在此不再赘述。

步骤s210：停止。

步骤s210的具体内容请参考步骤s14，在此不再赘述。

当然，在另一种具体实施方式中，可以获取完一个同学的个人专注度后，即判断所获取的个人专注度是否满足个人专注度互动触发阈值，然后再执行获取另一个同学的个人专注度以及判断的步骤。

将个人专注度作为触发互动视频生成的条件，实现了对上课学生在一段时间内的状态的把握，可以基于学生持续状态的情况，实现课堂的互动。

在同时将学生当前姿态数据、整体专注度和个人专注度作为触发互动视频生成的条件时，其中任何一个满足相应的触发条件(分别为学生当前姿态数据中的至少一个满足学生姿态数据互动触发阈值、整体专注度满足整体专注度互动触发阈值和至少一个所述个人专注度满足个人专注度互动触发阈值)，都可以触发生成互动视频，当其中同时至少有两个满足触发条件时，在一种具体实施方式中，为了保证优先整体学生优先的原则，优先顺序为：整体专注度优先于个人专注度，个人专注度优先于学生当前姿态数据，在此情况下，生成老师互动视频所根据的触发时刻的课堂场景数据中，优先考虑的课堂场景数据也是整体专注度场景优先于个人专注度场景，个人专注度场景优先于学生当前姿态数据场景。

为了保证生成的老师的互动视频的效果，本发明实施例还提供一种视频课堂的互动方法，请参考图4，图4为本发明实施例所提供的视频课堂的互动方法的再一流程示意图。

如图中所示，本发明实施例所提供的视频课堂的互动方法包括以下步骤：

步骤s40：获取课堂的学生状态数据。

步骤s40具体内容请参考图1所示的步骤s10，在此不再赘述。

步骤s41：判段所述学生状态数据是否满足互动触发阈值，如果满足，则执行步骤s421；如果不满足则执行步骤s44。

获取到课堂的学生状态数据后，将其与预定的互动触发阈值进行比较，如果满足互动触发阈值的要求，则执行步骤s421，如果不满足则执行步骤s44。步骤s41的其他具体内容请参考图1所示的步骤s11，在此不再赘述。

步骤s421：根据所述触发时刻的课堂场景数据，生成老师的音频。

根据所述触发时刻的课堂场景数据，比如：学生状态数据以及触发时刻课堂播放视频中老师的状态，查找所述课堂场景数据下的老师的语言文本数据。

例如：学生状态数据为a学生正在说话，触发时刻课堂播放视频中老师的状态为老师看大家做题，此时所需要得到的老师的语言文本数据即为：a同学请不要说话，专心做题。

具体课堂场景数据下的老师的语言文本数据可以通过在数据库中查找的方式获取。

得到老师的语言文本数据后，可以利用语音合成技术将所述语言文本数据生成为所述音频，从而可以得到音频的长度。

步骤s422：根据所述触发时刻和所述音频，生成老师的视频。

在一种具体实施方式中，可以通过首先获取所述触发时刻的课堂播放视频帧，然后提取所述课堂播放视频帧的老师的动作姿态，根据所述动作姿态生成与所述音频相匹配的动作姿态视频，以及根据所述动作姿态视频生成所述视频的步骤生成老师的视频。

得到老师的音频后，需要生成老师的视频，由于老师的视频最终用于生成互动视频，插播于课堂播放视频中进行播放，就需要保证生成的老师的视频与课堂播放视频拼接后的真实性，为此，可以获取所述触发时刻的课堂播放视频帧，将其作为生成老师的视频的基础，尽管具体播放互动视频时，课堂播放视频已经进一步播放了一段时间，但由于时间很短，可以认为课堂播放视频中的动作变化很小，不影响拼接后播放的真实性。

得到触发时刻的课堂播放视频帧后，可以利用人体姿态检测算法检测其中的老师的动作姿态，具体可以通过骨骼点表示，包括：脸部骨骼点、身体骨骼点和手部骨骼点。

然后根据所述动作姿态生成与所述音频相匹配的动作姿态视频，可以理解的是，与音频相匹配既包括与音频的长度相同，也包括与音频的口型相符合。

为此，在一种具体实施方式中，可以首先根据所述动作姿态生成与所述音频的时间长度相同的同时间动作姿态视频；再根据所述音频生成脸部动作姿态视频；最后用所述脸部动作姿态视频替换所述同时间动作姿态视频中的脸部视频，得到与所述音频相匹配的动作姿态视频。

具体地，根据动作姿态生成与所述音频的时间长度相同的同时间动作姿态视频可以根据音频的时间长度，确定所需要的视频帧数，然后，利用人物动作建模等方法，得到同时间动作姿态视频，由于同时间动作姿态视频的嘴部状态与音频不完全匹配，为此，根据音频，采用由音频到人脸关键点生成算法，将音频生成对应语言文本数据的人脸关键点，进而得到脸部动作姿态视频，最后用所述脸部动作姿态视频替换所述同时间动作姿态视频中的脸部视频，就可以得到与所述音频相匹配的动作姿态视频。

得到动作姿态视频后，再将动作姿态视频对应的老师的视频，即所述视频。

步骤s423：将所述音频和所述视频合成，得到所述互动视频。

得到相互匹配的音频和视频后，将二者合成，即可得到所述互动视频。

步骤s43：将所述互动视频插播于所述触发时刻的课堂视频帧和所述课堂视频帧的后一帧之间。

步骤s43具体内容请参考图1所示的步骤s13，在此不再赘述。

步骤s44:停止。

步骤s44具体内容请参考图1所示的步骤s13，在此不再赘述。

采用上述视频课堂的互动方法，保证了与课堂场景数据的匹配，同时还保证了互动视频的真实性，提高了视频课堂的互动效果。

下面对本发明实施例提供的视频课堂的互动装置进行介绍，下文描述的视频课堂的互动装置可以认为是，电子设备(如：pc)为实现本发明实施例提供的视频课堂的互动方法所需设置的功能模块架构。下文描述的视频课堂的互动装置的内容，可与上文描述的视频课堂的互动方法的内容相互对应参照。

图5是本发明实施例所提供的视频课堂的互动装置的一框图，该视频课堂的互动装置即可应用于客户端，也可应用于服务器端，参考图5，该视频课堂的互动装置可以包括：

学生状态获取单元100，适于获取课堂的学生状态数据；

互动视频生成单元110，适于当所述学生状态数据满足互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频，其中，所述触发时刻为所述学生状态数据满足互动触发阈值的时刻；

互动视频插播单元120，适于将所述互动视频插播于所述视频课堂的课堂播放视频的当前播放帧之后。

具体地，学生状态获取单元100，适于根据预先设定的获取触发标准，获取课堂的学生状态数据。

学生状态获取单元100获取课堂的学生状态数据后，将其发送至互动视频生成单元110，互动视频生成单元110，首先判断所述学生状态数据是否满足互动触发阈值，当满足时，根据触发时刻的课堂场景数据，生成老师的互动视频，其中，所述触发时刻为所述学生状态数据满足互动触发阈值的时刻，并发送至互动视频插播单元120，互动视频插播单元120将所述互动视频插播于所述视频课堂的课堂播放视频的当前播放帧之后，实现视频课堂的互动。

具体地，所述课堂场景数据可以包括所述学生状态数据和所述课堂播放视频中的老师状态数据，，比如：此时时间节点，课堂播放视频中老师状态为老师要求同学们伏案在书本上自行解答习题，学生状态为其中某个学生(已识别出具体是哪个学生)没有伏案写字，未解答习题，基于此课堂场景，所需要生成的互动视频为：视频中老师指出某某同学请抓紧时间解题的视频段。

可以看出，本发明实施例所提供的视频课堂的互动装置，在视频课堂过程中不断获取课堂的学生状态数据，并与相应的互动触发阈值进行比较，当满足互动触发阈值时，触发互动视频的生成，互动视频需要基于触发时刻的课堂场景数据生成，在生成互动视频后，将互动视频拼接于视频课堂的课堂播放视频的当前播放帧之后进行播放。

可见，本发明实施例所提供的视频课堂的互动方法，根据课堂进行过程中的学生状态数据，触发互动视频的生成和播放，基于实际的学生状态数据，确定是否需要进行互动，提高了互动的必要性，并可以根据实际的学生状态数据确定互动的次数，不受提前设定的影响，保证了互动的灵活性；同时，互动视频的生成基于触发时刻的课堂场景数据，能够与课堂场景数据密切贴合，提高了互动的真实性和可信度，保证课堂的学习氛围；进一步地，互动视频在触发时刻的课堂的课堂播放视频的当前播放帧之后进行播放，相当于在触发时刻向后延互动视频的生成时间，便进行播放，由于互动视频的生成速度很快，达到了即时生成即时播放，保证了互动的效果。

在一种具体实施方式中，学生状态获取单元100，适于获取课堂的学生状态数据，可以具体包括：获取课堂的全部学生图像；根据所述全部学生图像获取各学生当前姿态数据；

互动视频生成单元110，适于当所述学生状态数据满足互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频，其中，所述触发时刻为所述学生状态数据满足互动触发阈值的时刻，可以具体包括：当各所述学生当前姿态数据中的至少一个满足学生姿态数据互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频。

具体地，学生状态获取单元100适于获取课堂的学生状态数据，可以具体包括：检测和识别所述全部学生图像中的各学生的人脸框图，并检测各学生的身体框图；选定各学生的人脸框图中的一个，得到选定人脸框图，计算所述选定人脸框图与各所述身体框图的重叠度，得到所述重叠度符合所述重叠度阈值的匹配身体框图，匹配所述选定人脸框图与所述匹配身体框图，直至遍历各所述学生的人脸框图，根据相互匹配的所述选定人脸框图与所述匹配身体框图得到各所述学生当前姿态数据。

将学生当前姿态数据作为触发互动视频生成的条件，对学生当前姿态数据的判断很及时，并且基于个人，可以实现对于具体个人的互动。

在另一种具体实施方式中，学生状态获取单元100，适于获取课堂的学生状态数据，可以具体包括：根据全部的所述学生当前姿态学生当前姿态数据，得到所述课堂的整体专注度；互动视频生成单元110，适于当所述学生状态数据满足互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频，其中，所述触发时刻为所述学生状态数据满足互动触发阈值的时刻，具体可以包括：当所述整体专注度满足整体专注度互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频。

具体地，学生状态获取单元100，适于获取课堂的学生状态数据，可以具体包括：根据全部的所述学生当前姿态学生当前姿态数据，得到不同所述学生当前姿态数据的数量占比；将各所述数量占比与各所述学生当前姿态数据的权重相乘，得到各数量权重占比；计算各所述数量权重占比之和，得到所述整体专注度。

将整体专注度作为触发互动视频生成的条件，实现了对上课学生的整体状态的把握，可以基于整体的情况，实现课堂的互动。

在另一种具体实施方式中，学生状态获取单元100，适于获取课堂的学生状态数据，可以具体包括：获取所述获取全部学生图像的时刻之前预定时间长度内的各时刻的各学生当前姿态数据；根据各时刻的各学生当前姿态数据，得到所述课堂的各个人专注度；互动视频生成单元110，适于当所述学生状态数据满足互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频，其中，所述触发时刻为所述学生状态数据满足互动触发阈值的时刻，具体可以包括：当至少一个所述个人专注度满足个人专注度互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频。

具体地，学生状态获取单元100，适于获取课堂的学生状态数据，可以具体包括：根据各时刻的各学生当前姿态数据，得到各学生的不同学生当前姿态数据在所述预定时间长度内的时间占比；将同一学生的各所述时间占比与各所述学生当前姿态数据的权重相乘，得到各同一学生的时间权重占比，并计算各所述时间权重占比之和，得到同一学生的所述个人专注度，直至遍历各学生，得到各所述个人专注度。

将个人专注度作为触发互动视频生成的条件，实现了对上课学生在一段时间内的状态的把握，可以基于学生持续状态的情况，实现课堂的互动。

在一种具体实施方式中，互动视频生成单元110适于当所述学生状态数据满足互动触发阈值时，根据触发时刻的课堂场景数据，生成老师的互动视频，其中，所述触发时刻为所述学生状态数据满足互动触发阈值的时刻，具体可以包括：根据所述触发时刻的课堂场景数据，生成老师的音频；根据所述触发时刻和所述音频，生成老师的视频；将所述音频和所述视频合成，得到所述互动视频。

具体地，互动视频生成单元110适于根据所述触发时刻的课堂场景数据，查找所述课堂场景数据下的老师的语言文本数据；利用语音合成技术将所述语言文本数据生成所述音频。

具体地，互动视频生成单元110适于获取所述触发时刻的课堂播放视频帧；提取所述课堂播放视频帧的老师的动作姿态；根据所述动作姿态生成与所述音频相匹配的动作姿态视频；根据所述动作姿态视频生成所述视频。

具体地，互动视频生成单元110适于根据所述动作姿态生成与所述音频的时间长度相同的同时间动作姿态视频；根据所述音频生成脸部动作姿态视频；用所述脸部动作姿态视频替换所述同时间动作姿态视频中的脸部视频，得到与所述音频相匹配的动作姿态视频。

这样，保证了与课堂场景数据的匹配，同时还保证了互动视频的真实性，提高了视频课堂的互动效果

本发明实施例提供的设备可以通过程序形式装载上述所述的程序模块架构，以实现本发明实施例提供的视频课堂的互动方法；该硬件设备可以应用于具体数据处理能力的电子设备，该电子设备可以为：例如终端设备或者服务器设备。

可选的，图6示出了本发明实施例提供的设备一种可选硬件设备架构，可以包括：至少一个存储器3和至少一个处理器1；所述存储器存储有程序，所述处理器调用所述程序，以执行前述的视频课堂的互动方法，另外，至少一个通信接口2和至少一个通信总线4；处理器1和存储器3可以位于同一电子设备，例如处理器1和存储器3可以位于服务器设备或者终端设备；处理器1和存储器3也可以位于不同的电子设备。

作为本发明实施例公开内容的一种可选实现，存储器3可以存储程序，处理器1可调用所述程序，以执行本发明上述实施例提供的视频课堂的互动方法。

本发明实施例中，电子设备可以是能够进行视频课堂的互动的平板电脑、笔记本电脑等设备。

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；显然，图6所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式；

可选的，通信接口2可以为通信模块的接口，如gsm模块的接口；

处理器1可能是中央处理器cpu，或者是特定集成电路asic(applicationspecificintegratedcircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

需要说明的是，上述的实现终端设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出)；鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需，本发明实施例对此不进行逐一介绍。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，当该指令被处理器执行时可以实现如上所述视频课堂的互动方法。

本发明实施例所提供的本发明实施例所提供的计算机可读存储介质所存储的计算机可执行指令，根据视频课堂进行过程中的学生状态数据，触发互动视频的生成和播放，基于实际的学生状态数据，确定是否需要进行互动，提高了互动的必要性，并可以根据实际的学生状态数据确定互动的次数，不受提前设定的影响，保证了互动的灵活性；同时，互动视频的生成基于触发时刻的课堂场景数据，能够与课堂场景数据密切贴合，提高了互动的真实性和可信度，保证课堂的学习氛围；进一步地，互动视频在触发时刻的视频课堂的课堂播放视频的当前播放帧之后进行播放，相当于在触发时刻向后延互动视频的生成时间，便进行播放，由于互动视频的生成速度很快，达到了即时生成即时播放，保证了互动的效果。

上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及，否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外，本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中，并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是，所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式，或者可在提交本申请之后的修改中作为新的权利要求包括。

本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中，根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理器件(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、处理器、控制器、微控制器、微处理器等来实现。

在固件或软件配置方式中，本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部，并可经由各种己知手段向处理器发送数据以及从处理器接收数据。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

虽然本发明实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金磊;冀志龙;张无名
技术所有人：北京新唐思创教育科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。