
本发明涉及视频分类和动作识别
技术领域:
,尤其是涉及一种专注度识别方法、装置和电子设备。
背景技术:
:相关技术中,为了测量学生的专注度,主要有三种方法:学生自我评估、外部评价和专注度的自动识别。其中,学生自我评估和外部评价的方法依赖于学生的诚信回答和老师对学生专注度指标的把握,主观性过强且无法应用于大规模专注度识别。现有的专注度的自动识别方法主要有三类:基于传感器数据、基于点击流数据和基于计算机视觉与视频数据。其中,基于传感器数据的方法依赖高性能传感器,无法应用于大规模专注度识别;基于点击流数据的方法由于采用的模型的结构复杂、类型不同,导致数据结果处理难度高;基于计算机视觉与视频数据的方法耗时较长、特征提取不充分、模型不鲁棒、且可靠性较差。技术实现要素:有鉴于此,本发明的目的在于提供一种专注度识别方法、装置和电子设备,以减少识别时间,在空间维度和时空维度同时提取全局特征,增加专注度识别的可靠性。第一方面,本发明实施例提供了一种专注度识别方法,包括:获取待处理视频;其中,待处理视频中包含有待识别对象;将待处理视频输入至预设的视频特征提取模型中,输出待处理视频的rgb流特征;其中,视频特征提取模型通过基于核函数膨胀的三维卷积神经网络训练得到;根据rgb流特征,确定待处理视频中的待识别对象的专注度识别结果。在本发明较佳的实施例中,上述在获取待处理视频的步骤之后,还包括:如果待处理视频的时间长度小于预设的时间阈值,则将待处理视频的时间长度增加至时间阈值;如果待处理视频的时间长度大于时间阈值,则将待处理视频的时间长度减少至时间阈值。在本发明较佳的实施例中,上述将待处理视频的时间长度增加至时间阈值的步骤,包括:提取待处理视频末尾部分的视频帧;将末尾部分的视频帧添加到待处理视频后,以使待处理视频的时间长度增加至时间阈值。在本发明较佳的实施例中,上述将待处理视频的时间长度减少至时间阈值的步骤,包括:计算待处理视频的时间长度与时间阈值的差值;从待处理视频的开始部分起提取时间长度为差值的视频帧;将提取的视频帧删除,以使待处理视频的时间长度减少至时间阈值。在本发明较佳的实施例中,上述在获取待处理视频的步骤之后,还包括:根据预设的采样间距,对待处理视频的视频帧进行等间距采样。在本发明较佳的实施例中,上述视频特征提取模型通过以下步骤建立:基于预设的训练集确定训练视频和训练视频对应的rgb流特征;将训练视频输入至视频特征取模型中,输出训练rgb流特征;通过以下算式计算视频特征提取模型的损失值:l=-(ω1ylogypred+ω0(1.0-y)log(1.0-ypred));其中,l为视频特征提取模型的损失;ω0为预设的预测为负样本的损失权重;ω1为预设的预测为正样本的损失权重;ypred为训练rgb流特征;y为训练视频对应的rgb流特征;根据损失值调整视频特征提取模型的参数;继续执行基于预设的训练集确定训练视频和训练视频对应的rgb流特征的步骤,直至损失值收敛,得到视频特征提取模型。第二方面,本发明实施例还提供一种专注度识别装置,包括:待处理视频获取模块,用于获取待处理视频;其中,待处理视频中包含有待识别对象;rgb流特征输出模块,用于将待处理视频输入至预设的视频特征提取模型中,输出待处理视频的rgb流特征;其中,视频特征提取模型通过基于核函数膨胀的三维卷积神经网络训练得到;识别结果输出模块,用于根据rgb流特征,确定待处理视频中的待识别对象的专注度识别结果。在本发明较佳的实施例中,上述装置还包括:时间长度增加模块,用于如果待处理视频的时间长度小于预设的时间阈值,则将待处理视频的时间长度增加至时间阈值;时间长度减少模块,用于如果待处理视频的时间长度大于时间阈值,则将待处理视频的时间长度减少至时间阈值。第三方面,本发明实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述专注度识别方法的步骤。第四方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述专注度识别方法的步骤。本发明实施例带来了以下有益效果:本发明实施例提供的专注度识别方法、装置和电子设备,通过视频特征提取模型提取待处理视频的rgb(redgreenblue,红绿蓝)流特征,根据rgb流特征确定专注度识别结果,在空间维度和时空维度同时提取待处理视频的全局特征并进行处理,形成一个端到端的学生专注度识别网络,可以减少识别时间,在空间维度和时空维度同时提取全局特征,增加专注度识别的可靠性。本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种专注度识别方法的流程图;图2为本发明实施例提供的另一种专注度识别方法的流程图;图3为本发明实施例提供的一种的训练集的样本不均衡分布的示意图;图4为本发明实施例提供的另一种的训练集的样本不均衡分布的示意图;图5为本发明实施例提供的一种视频特征提取模型的结构示意图;图6为本发明实施例提供的一种专注度识别装置的结构示意图;图7为本发明实施例提供的一种电子设备的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。学生专注度的识别一直一来是教育领域的一个研究重点。学生专注度不仅和个人学业息息相关,识别学生专注度也能为减少mooc(massiveopenonlinecourses,大型开放式网络课程)平台的高辍学率提供解决思路。学生专注度的重要性引起了对学生专注度识别的许多研究。现有的学生专注度识别方法主要包括3类:(1)学生自我评估;(2)外部评价;(3)学生专注度的自动识别。方法(1)主要通过设计问卷由学生回答相应问题,来完成专注度的测量。方法(2)主要通过外部评价者如老师等通过一定的课堂专注度指标来给学生进行专注度评级。虽然方法(1)和方法(2)都比较简单,但是依赖于学生的诚信回答和老师对学生专注度指标的把握,因此具有很强的主观性。其次,这两种方法都无法用于大规模的网上学习平台中的学生专注度识别。现有的学生专注度的自动学习识别方法根据处理的数据类型的不同有可以分为以下几类:基于传感器数据、基于点击流数据和基于计算机视觉和视频数据。基于喜欢传感器数据的方法依靠高性能的传感器设备来检测学生的心率、血压、eeg(electroencephalogram,脑电波)、皮肤电反应等指标来监测学生的专注度,这类方法依赖于高性能的传感器不能大规模的推广。学习网站中的日志文件保存了大量的学生在线学时的操作,对学生专注度的识别提供了丰富的信息。基于点击流数据的学生专注度识别方法主要从预测学生的辍学率来对学生专注度进行侧面的识别。这类方法不同的方法间的创新主要体现在用于分析点击流数据的模型的不同上。例如,使用pca(principalcomponentsanalysis,主成分分析技术)进行特征预处理,并用支持向量机(svm)进行特征分析;或者,应用了隐马尔可夫模型(hmms),将学生点击流数据,作业分数和论坛评论结合在一起,预测学生辍学;或者,根据逻辑回归,锁定mooc在线课程中存在辍学风险的学生。这种方法根据学生以前的行为来预测学生何时停止访问课程,因此他们更加重视辍学的结果,忽略了学生专注度在学习过程中的许多细微变化。此外,点击流数据的数据结构是不规则或不完整的,即非结构化的,结构复杂,类型可变,增加了处理的难度。随着相机设备的廉价和普及,记录学生学习过程的视频数据变得非常容易获得。图像分类和视频理解方面的深度学习模型的巨大进步也使得基于视频数据的学生参与度识别方法成为自动学生专注度识别的新兴力量。基于视频数据的专注度的识别中根据抽取视频中学生特征的不同,可以分为基于局部特征和基于总体特征。其中基于局部特征的方法利用提取特征提取工具提取学生面部表情、眼部凝视、头部姿态、身体姿态等局部特征,将这些特征单独或者进行组合应用于后续的模型中进行分析。基于局部特征的方法主要存在以下问题:首先,这些方法将焦点放在某个局部特征、或者是简单的几个特征的组合,然而在学习过程中,学生是一个整体。学生的各个部分协调共同完成这个学习过程,所以应该考虑学生对象的全局特征来分析学生专注度。其次,基于局部特征的方法在空间上抽取学生的局部特征,然后在进行分析。这样做剥离了原始视频中的同步的时空信息,使视频的处理变得不自然,而且更加耗时。此外,基本面部情绪如快乐、悲哀、愤怒、恐惧在学习过程中并不常见。无聊和沮丧是学习过程中出现的显著情感状态,但是无聊的学习者没有明显的面部表情。数据中受试者的表达变化很小,眼睛注视变化很小,身体运动也很小。因此,过于依赖的局部特征,如面部表情、眼睛注视和身体运动,是不合适的。最后,面部特征长期以来都与影响有关,在非特定的学习环境中经常遇到遮挡、移动和照明问题,因此在非特定的学习环境中学生专注度检测并不可靠。综上,学生自我评估和外部评价的方法依赖于学生的诚信回答和老师对学生专注度指标的把握,主观性过强且无法应用于大规模专注度识别。现有的专注度的自动识别方法主要有三类:基于传感器数据、基于点击流数据和基于计算机视觉与视频数据。其中,基于传感器数据的方法依赖高性能传感器,无法应用于大规模专注度识别;基于点击流数据的方法由于采用的模型的结构复杂、类型不同,导致数据结果处理难度高;基于计算机视觉与视频数据的方法耗时较长、特征提取不充分、模型不鲁棒、且可靠性较差。基于此,本发明实施例提供的一种专注度识别方法、装置和电子设备,可以应用于学生专注度识别的领域,具体涉及一种基于多粒度全局时空特征的端到端学生专注度识别网络。为便于对本实施例进行理解,首先对本发明实施例所公开的一种专注度识别方法进行详细介绍。实施例1参见图1所示的一种专注度识别方法的流程图,该方法包括如下步骤:步骤s102,获取待处理视频;其中,上述待处理视频中包含有待识别对象。待处理视频是指待进行专注度识别的视频,待处理视频中的带识别对象为人类,进行专注度识别需要对人的面部表情进行视频,因此,待处理视频中需要包括人的整体特征的视频。例如:面部表情,眼部凝视,姿态等,或者是简单的将他们组合起来。步骤s104,将待处理视频输入至预设的视频特征提取模型中,输出待处理视频的rgb流特征;其中,上述视频特征提取模型通过基于核函数膨胀的三维卷积神经网络训练得到。视频特征提取模型为单流rgb模型,单流rgb模型通过基于核函数膨胀的三维卷积神经网络训练得到。单流rgb模型只识别待处理视频的rgb流特征,可以在空间维度和时空维度同时提取的全局特征并进行处理,以增加专注度识别的可靠性。此外,视频特征提取模型通过基于核函数膨胀的三维卷积神经网络训练得到,视频特征提取模型的卷积核为三维卷积核,可以同时提取时空特征。步骤s106,根据rgb流特征,确定待处理视频中的待识别对象的专注度识别结果。根据提取的rgb流特征,既可以确定视频中的人的专注度。举例来说,分析rgb流特征,根据视频中的人面部表情、眼部凝视、姿态等来判断此人是否专注,然后对其进行标注,标注的类型可以是不同的数量的类型。例如:可以简单将标注类型分为专注和不专注,或者按照专注等级分为更多的类型。本发明实施例提供的一种专注度识别方法,通过视频特征提取模型提取待处理视频的rgb流特征,根据rgb流特征确定专注度识别结果,在空间维度和时空维度同时提取待处理视频的全局特征并进行处理,形成一个端到端的学生专注度识别网络,可以减少识别时间,在空间维度和时空维度同时提取全局特征,增加专注度识别的可靠性。实施例2本发明实施例还提供另一种专注度识别方法;该方法在上述实施例方法的基础上实现;该方法重点描述在获取待处理视频的步骤之后的步骤的具体实现方式。如图2所示的另一种专注度识别方法的流程图,该方法包括如下步骤:步骤s202,获取待处理视频;其中,上述待处理视频中包含有待识别对象。步骤s204,如果待处理视频的时间长度小于预设的时间阈值,则将上述待处理视频的时间长度增加至时间阈值。步骤s204和步骤s206为对待处理视频进行预处理的流程。一般来说,需要将待处理视频的时间统一为预设的时间阈值,以方便视频特征提取模型提取rgb流特征。预设的时间阈值根据训练的视频特征提取模型进行设定,取值范围一般在5秒-1分钟之间,这里以10秒为例,以后不再赘述。如果待处理视频的时间长度小于10秒,则需要添加一定长度的视频,使得添加后的待处理视频的时间长度等于10秒。具体的添加视频的方法,可以按照步骤a1-a2执行:步骤a1,提取待处理视频末尾部分的视频帧;由于视频不能直接放入网络,我们需要对原始转化为帧的集合,对于视频长度小于10秒的视频,可以末尾部分的视频帧以补充视频达到标准长度。因此,需要首先提取待处理视频末尾部分的视频帧,一般是将最后的1秒-2秒时间的视频称作待处理视频末尾部分。将最后的1秒-2秒时间的视频截取后,提取截取的视频的视频帧,得到待处理视频末尾部分的视频帧。步骤a2,将末尾部分的视频帧添加到待处理视频后,以使待处理视频的时间长度增加至时间阈值。在提取待处理视频末尾部分的视频帧后,将其添加到待处理视频后,以补充待处理视频达到标准长度。举例来说,一个视频只有5秒,可以提取最后1秒的待处理视频末尾部分的视频帧,然后将5份末尾部分的视频帧补充到待处理视频后,得到标准长度(10秒)的待处理视频;也可以提取1秒和2秒的末尾部分的视频帧,然后将2份2秒的和1份1秒的末尾部分的视频帧补充到待处理视频后,得到标准长度(10秒)的待处理视频。总之,只需要将末尾部分的视频帧补充到待处理视频的尾部,得到标准长度的待处理视频即可。除了将末尾部分的视频帧补充到待处理视频的尾部的方法之外,还可以通过其它方法补充待处理视频的时间长度。例如,将黑屏画面加入添加到待处理视频中。上述方式中,将末尾部分的视频帧补充到待处理视频的尾部,得到标准长度的待处理视频,可以保证补充后的待处理视频的长度是一致的,利于视频特征提取模型提取rgb流特征,增加视频特征提取模型的提取速度,增加视频特征提取模型提取的准确率。步骤s206,如果待处理视频的时间长度大于时间阈值,则将上述待处理视频的时间长度减少至时间阈值。对于视频长度大于10秒的视频,可以减少视频的时间以使视频达到标准长度。考虑到视频中的专注度研究对象在待处理视频的开始部分还没有进入状态,对研究专注度没有贡献,因此可以去除开始部分的视频帧,具体通过步骤b1-b3执行:步骤b1,计算待处理视频的时间长度与时间阈值的差值;首先需要确定待处理视频的时间长度与时间阈值的差值。例如,时间阈值为10秒,待处理视频的时间长度为12秒,那么差值就是12-10=2秒。步骤b2,从待处理视频的开始部分起提取时间长度为差值的视频帧;从视频的开始部分(也就是第0秒开始),截取时间长度为差值的视频帧,也就是将待处理视频0-2秒的视频帧截取。步骤b3,将提取的视频帧删除,以使待处理视频的时间长度减少至时间阈值。删除提取的视频帧,这样即可保证删除后的待处理视频的时间长度与时间阈值相等。也就是说,将0-2秒的视频帧删除,只保留2-12秒的视频帧,待处理视频的时间长度为10秒整。上述方式中,从视频的开始部分(也就是第0秒开始),截取时间长度为上述差值的视频帧,得到标准长度的待处理视频,可以保证补充后的待处理视频的长度是一致的,利于视频特征提取模型提取rgb流特征,增加视频特征提取模型的提取速度,增加视频特征提取模型提取的准确率。考虑到将视频全部帧送入到网络将产生大量的信息冗余,消耗计算和存储资源开销,因此还需要对视频帧进行等间距采样。等间距采样的步骤可以通过以下步骤执行:根据预设的采样间距,对待处理视频的视频帧进行等间距采样。一个预设的时间长度的视频,每秒的帧数并非一个固定值,可能为20帧、30帧、60帧甚至120帧,帧数越高,视频越流畅和逼真。但是对于专注度识别来说,20帧的视频就可以保证视频特征提取模型正常提取rgb流特征,因此,需要对待处理视频的视频帧进行等间距采样。等间距采样,是指每隔一定的帧数提取一帧画面,以使待处理视频的视频帧满足要求(一般为20帧)。即30帧的待处理视频每隔1.5帧提取1个视频帧,60帧的待处理视频每隔2帧提取1个视频帧,120帧的待处理视频每隔6帧提取1个视频帧。上述方式中,对待处理视频的视频帧进行等间距采样,可以减少信息冗余和存储资源的开销,增加计算能力。步骤s208,将待处理视频输入至预设的视频特征提取模型中,输出待处理视频的rgb流特征;其中,上述视频特征提取模型通过基于核函数膨胀的三维卷积神经网络训练得到。近些年来,受2d(two-dimensional,二维)、3d(three-dimensional,三维)卷积在视频分类和理解领域发展的启发,并且动作识别任务本质上与学生专注度识别任务是有联系的。例如,这些任务是充分挖掘视频中的空间特征和时间关系,以实现正确的识别和分类。但是,学生参与度识别和行为分类之间存在很大差异。动作视频分类往往具有丰富的动作信息,视觉特征的变化速度快于学生参与识别。但是在专注度识别领域的动作信息较少,因此,需要专注度识别用到的视频特征提取模型,不需要考虑动作信息。视频特征提取模型将二维的网络添加扩充一维,将原来n*n大小的卷积核扩充成n*n*n的三维卷积。并在大型的动作识别数据库上训练这个三维模型,虽然3d卷积已经能够同时提取时空特征,但是原始模型中除了提取rgb信息之外,还提取了视频的光流信息进行了补充,以提高模型的效果。本实施例提供的视频特征提取模型可以称为带权重的rgb流i3d(inflated3dconvnet,嵌入式三维卷积神经网络)模型,首先,对于原始的双流i3d进行了流结构的选择。考虑到研究学生专注度的学生的在线学习视频和行为分类视频是非常不同的,最重要的一点是在在线学习视频中,主体的运动幅度比在行为分类中的运动幅度的要小得多,动作持续时间也很短。原始的双流i3d提取光流特征和rgb特征,而专注度领域的光流特征不存在明显变化,而且主要集中在眼部,几乎可以忽略。因此,不能盲目地使用光流来补充原始i3d纸张中rgb流中的运动信息,以提高性能。相反,考虑到学生专注度识别数据集的特点,本实施例放弃了对光流的耗时抽取计算,直接利用rgb流训练端到端的学生专注度识别网络,大大缩短了模型的训练时间。视频特征提取模型通过步骤c1-c5建立:步骤c1,基于预设的训练集确定训练视频和训练视频对应的rgb流特征;首先,确定训练集,训练集中包括多个训练视频和训练视频对应的rgb流特征,用于分析视频特征提取模型的训练情况。步骤c2,将训练视频输入至视频特征提取模型中,输出训练rgb流特征;通过视频特征提取模型提取训练集中的训练视频的rgb流特征,不提取光流特征。这里对只提取rgb流特征和rgb流特征、光流特征同时提取的情况作出结果分析,首先说明光流特征如何提取:1)于每一个视频,我们首先获取第一帧并检测一些shi-tomasi角点,2)采用lucaskanade光学流方法迭代跟踪这些角点,提取光流信息。分别用学生专注度识别数据集中rgb流特征和光流特征训练的原始i3d模型结果如表1:表1模型准确率rgb流i3d模型98.82%光流i3d模型95.08%如表1所示,rgb流i3d模型的准确率要高于光流i3d模型,因此,在训练室只采用rgb流i3d模型进行训练即可。步骤c3,通过以下算式计算视频特征提取模型的损失值:l=-(ω1ylogypred+ω0(1.0-y)log(1.0-ypred));其中,l为视频特征提取模型的损失;ω0为预设的预测为负样本的损失权重;ω1为预设的预测为正样本的损失权重;ypred为训练rgb流特征;y为训练视频对应的rgb流特征;损失值根据训练rgb流特征、训练视频对应的rgb流特征、负样本的损失权重和正样本的损失权重这四个参量决定。一般来说,训练集很可能存在正样本数目和负样本数目比例不同的情况。因此,除了对数据进行采样等数据预处理之外,如果不对网络进行调整,直接将数据丢入网络,那么网络预测的结果就会偏向样本量大的分类,这样自动识别出来的学生专注度就不能对后续的使用提供决策。所以需要对不同类的损失加以权重进行调整和限制。例如,参见图3所示的一种的训练集的样本不均衡分布的示意图和图4所示的另一种的训练集的样本不均衡分布的示意图,可以看出,图3中,正样本(专注样本)占比94%,负样本(不专注样本)占比6%。图4中将样本分为4个类型,分别占比1%、5%、49%和45%。可以看出图3和图4对应的训练集的样本不均衡分布较为明显。如果不添加损失权重,则损失函数可以表示为:l=-(ylogypred+(1.0-y)log(1.0-ypred));其中,l为视频特征提取模型的损失;ω0为预设的预测为负样本的损失权重。这样会因为训练集中正负样本的比例差距导致训练结果存在差异,影响模型的可靠性。因此,损失函数可以为:l=-(ω1ylogypred+ω0(1.0-y)log(1.0-ypred)),对预测为正样本和预测为负样本均设定一个损失权重,根据损失权重,可以调节因为训练集中正负样本的比例差距导致的结果差异。步骤c4,根据损失值调整视频特征提取模型的参数;根据带损失权重的损失函数计算出的损失值调整视频特征提取模型的参数,调整后继续从训练集提取一个训练视频,进行下一次的训练过程。步骤c5,继续执行基于预设的训练集确定训练视频和训练视频对应的rgb流特征的步骤,直至损失值收敛,得到视频特征提取模型。当多次进行训练之后,当满足预设的停止训练条件,便可以停止收敛,得到视频特征提取模型。停止训练条件可以是损失值收敛,即损失值向某一值靠近。除了损失值收敛以外,停止训练条件还可以是训练次数达到预设阈值,例如50次;或者,训练集中的训练视频全部训练完毕等。训练得到的rgb单流i3d模型的结构可以参见图5所示的一种视频特征提取模型的结构示意图,如图5所示,经过对待处理视频依次进行卷积和池化,得到待处理视频对应的rgb流特征。其中,图5中的inc指的是inceptionnet神经网络,sigmoid函数作为神经网络的激活函数。步骤s210,根据rgb流特征,确定待处理视频中的待识别对象的专注度识别结果。训练模型可以对专注度进行自动识别,对rgb流特征进行分类和识别,得到待处理视频中的待识别对象的专注度识别结果,还可以将上述专注度识别结果返回给用户,以便于后续的决策。该方式中,与基于局部特征的方法相比,首先,本方法将用于专注度研究视频中的学生作为一个整体考虑,抽取学生对象的全局特征,而不是简单的关注某个局部特征,如面部表情,眼部凝视,姿态等,或者是简单的将他们组合起来。这样更有利于充分利用学生体征,解决了基于局部特征的方法容易受照明等影响,特征提取不充分,模型不鲁棒等问题;其次,基于局部特征的方法将用于分析学生专注度的视频的时空特征剥离开来,不能同时处理时空维度信息,而本实施例利用3d卷积同时处理时空维度信息,使模型处理更自然,耗时更短。为了证明本文的全局特征由于局部特征,实验中也抽取了局部特征进行专注度识别,其实验结果如表2,除了和实验做对比之外,我们也和基于局部特征(面部表情)的经典论文进行了比较,其结果如表3。表2如表2所示,无论是对于2标签还是4标签,可以看出全局特征的准确率要比局部特征的准起来更高。表3如表3所示,本文提供的基于全局三维特征的算法要比经典论文的mlr(mixedlogisticregression,混合逻辑回归)算法、boost(提升)算法、svm(supportvectormachine,支持向量机)算法、human(人类水平)算法的准确率更高。该方式中,与基于2d全局特征的方法相比,本实施例不仅考虑了空间维度的特征,也考虑了视频的时序信息,因此,本实施例的结果优与基于2d全局特征的方法。需要说明的是,一般在学生专注度的识别中,将专注度等级分为4分类过于细分,2分类即可满足要求。事实上区分专注和不专注是比较容易的,然而将专注度等级分为4分类以后,区分专注度等级相邻的变得十分艰难,标签其实具有很强的主观性,因此4分类的学生专注度识别其实没有参考意义。表4展示了我们的方法和基于2d全局网络方法的对比。表4如表4所示,基于2d全局网络方法有inceptionnet(接入网)按帧分类算法、inceptionnet按视频分类算法和lrcn(long-termrecurrentconvolutionalnetworks,长期递归卷积网络)算法,和基于2d全局网络方法对比本文算法对于2个标签的准确率最高,本文算法对于4个标签的准确率也较高。该方式中,与基于3d全局特征的方法相比,本实施例提供的方法得力于inception模块对不同感受野大小的卷积核特征进行融合,与固定大小的卷积核相比,我们的3d全局特征具有多粒度、多层次。因此我们模型结果优与基于3d全局特征的方法。表5展示了实验结果。表5如表5所示,基于3d全局特征的方法有c3dfinetune算法和c3dtraining算法,和基于3d全局特征的方法对比本文算法对于2个标签的准确率最高,本文算法对于4个标签的准确率也较高。本发明实施例提供的上述方法,与基于局部特征的方法、基于2d全局特征的方法和基于3d全局特征的方法相比,均有更高的对于2个标签的准确率。需要说明的是,上述各方法实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。实施例3对应于上述方法实施例,本发明实施例提供了一种专注度识别装置,如图6所示的一种专注度识别装置的结构示意图,该装置包括:待处理视频获取模块61,用于获取待处理视频;其中,待处理视频中包含有待识别对象;rgb流特征输出模块62,用于将待处理视频输入至预设的视频特征提取模型中,输出待处理视频的rgb流特征;其中,视频特征提取模型通过基于核函数膨胀的三维卷积神经网络训练得到;识别结果输出模块63,用于根据rgb流特征,确定待处理视频中的待识别对象的专注度识别结果。本发明实施例提供的一种专注度识别装置,通过视频特征提取模型提取待处理视频的rgb流特征,根据rgb流特征确定专注度识别结果,在空间维度和时空维度同时提取待处理视频的全局特征并进行处理,形成一个端到端的学生专注度识别网络,可以减少识别时间,在空间维度和时空维度同时提取全局特征,增加专注度识别的可靠性。在一些实施例中,装置还包括:时间长度增加模块,用于如果待处理视频的时间长度小于预设的时间阈值,则将待处理视频的时间长度增加至时间阈值;时间长度减少模块,用于如果待处理视频的时间长度大于时间阈值,则将待处理视频的时间长度减少至时间阈值。在一些实施例中,时间长度增加模块,用于:提取待处理视频末尾部分的视频帧;将末尾部分的视频帧添加到待处理视频后,以使待处理视频的时间长度增加至时间阈值。在一些实施例中,时间长度减少模块,用于:计算待处理视频的时间长度与时间阈值的差值;从待处理视频的开始部分起提取时间长度为差值的视频帧;将提取的视频帧删除,以使待处理视频的时间长度减少至时间阈值。在一些实施例中,装置还包括:等间距采样模块,有益根据预设的采样间距,对待处理视频的视频帧进行等间距采样。在一些实施例中,视频特征提取模型通过以下步骤建立:基于预设的训练集确定训练视频和训练视频对应的rgb流特征;将训练视频输入至视频特征提取模型中,输出训练rgb流特征;通过以下算式计算视频特征提取模型的损失值:l=-(ω1ylogypred+ω0(1.0-y)log(1.0-ypred));其中,l为视频特征提取模型的损失;ω0为预设的预测为负样本的损失权重;ω1为预设的预测为正样本的损失权重;ypred为训练rgb流特征;y为训练视频对应的rgb流特征;根据损失值调整视频特征提取模型的参数;继续执行基于预设的训练集确定训练视频和训练视频对应的rgb流特征的步骤,直至损失值收敛,得到视频特征提取模型。本发明实施例提供的专注度识别装置,与上述实施例提供的专注度识别方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。实施例4本发明实施例还提供了一种电子设备,用于运行上述专注度识别方法;参见图7所示的一种电子设备的结构示意图,该电子设备包括存储器100和处理器101,其中,存储器100用于存储一条或多条计算机指令,一条或多条计算机指令被处理器101执行,以实现上述专注度识别方法。进一步地,图7所示的电子设备还包括总线102和通信接口103,处理器101、通信接口103和存储器100通过总线102连接。其中,存储器100可能包含高速随机存取存储器(ram,randomaccessmemory),也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是isa总线、pci总线或eisa总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessor,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现场可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100,处理器101读取存储器100中的信息,结合其硬件完成前述实施例的方法的步骤。本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述专注度识别方法,具体实现可参见方法实施例,在此不再赘述。本发明实施例所提供的专注度识别方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和/或电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本
技术领域:
的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。当前第1页12