1.一种学员课堂学习状态在线评估方法,其特征在于,包括:
同步采集学员的视频图像及声音信号;
分别将视频图像及声音信号对应输入至训练完成的表情识别模型和情绪状态识别模型中,输出学员对应的表情类别和情绪状态类别及对应的概率;其中,表情、情绪状态和课堂学习状态划分的类别均相同;
将表情识别结果和情绪状态识别结果输入至学员状态评估模型中,输出评估的学员课堂学习状态类别;其中,学员状态评估模型为:
rti=(αeti+βsti)·γ(t-1)i
其中,i为第i种课堂学习状态,i取值范围为1~m,m表示课堂学习状态的总类别;rti表示t时刻第i种课堂学习状态的概率值;eti为t时刻第i种表情类别的概率值;sti为t时刻第i种情绪状态类别的概率值;α、β为已知权重系数,且α+β=1;γ(t-1)i为t-1时刻的结果识别系数,若t-1时刻识别为第i种课堂学习状态,其值为1,否则为0.9;t为大于或等于1的正整数,当t=1时,γ(t-1)i=1。
2.如权利要求1所述的一种学员课堂学习状态在线评估方法,其特征在于,从视频图像采集区域内同步采集学员的视频图像及声音信号;其中,视频图像采集区域是根据学员的位置设置;每个视频图像采集区域与一个学员相对应。
3.如权利要求1所述的一种学员课堂学习状态在线评估方法,其特征在于,所述学员课堂学习状态在线评估方法还包括:
记录评估的学员课堂学习状态类别及状态持续时间,进而计算出预设时间段内的学员课堂学习状态及其所占比重。
4.如权利要求1所述的一种学员课堂学习状态在线评估方法,其特征在于,将视频图像输入至训练完成的表情识别模型中,输出学员对应的表情类别及对应的概率的过程为:
对视频图像首先利用边界跟踪获取人体上半身的轮廓图像,然后提取轮廓图像的不变矩的做特征向量,以此与模板图像的特征向量相匹配,采用欧式距离作为相似性度量,粗检测出人体轮廓区域;对粗检测后保留的图像区域采用基于haar-like特征的adaboost人脸检测算法,细检测出人脸区域;
对细检测出的人脸区域进行裁剪,得到面部图像区域,再经过旋转校正后输入至练完成的表情识别模型中,输出学员对应的表情类别及对应的概率;所述表情识别模型为双通道加权混合的cnn-lstm网络。
5.如权利要求1所述的一种学员课堂学习状态在线评估方法,其特征在于,将声音信号输入至训练完成的情绪状态识别模型中,输出学员对应的情绪状态类别及对应的概率的过程为:
采用预加重滤波器对获取的语音信号进行预加重处理;
提取预加重处理的声音信号的特征,所述声音信号的特征包括基音频率、短时能量、短时过零率、共振峰和梅尔频域倒谱系数;
将提取的声音信号的特征输入至训练完成的情绪状态识别模型中,输出学员对应的情绪状态类别及对应的概率;所述情绪状态识别模型为dbn网络+softmax分类器结构。
6.一种学员课堂学习状态在线评估系统,其特征在于,包括:
状态检测机,其被配置为:
同步采集学员的视频图像及声音信号;
分别将视频图像及声音信号对应输入至训练完成的表情识别模型和情绪状态识别模型中,输出学员对应的表情类别和情绪状态类别及对应的概率;其中,表情、情绪状态和课堂学习状态划分的类别均相同;
上位机,其被配置为接收表情识别结果和情绪状态识别结果,并输入至学员状态评估模型中,输出评估的学员课堂学习状态类别;其中,学员状态评估模型为:
rti=(αeti+βsti)·γ(t-1)i
其中,i为第i种课堂学习状态,i取值范围为1~m,m表示课堂学习状态的总类别;rti表示t时刻第i种课堂学习状态的概率值;eti为t时刻第i种表情类别的概率值;sti为t时刻第i种情绪状态类别的概率值;α、β为已知权重系数,且α+β=1;γ(t-1)i为t-1时刻的结果识别系数,若t-1时刻识别为第i种课堂学习状态,其值为1,否则为0.9;t为大于或等于1的正整数,当t=1时,γ(t-1)i=1。
7.如权利要求6所述的一种学员课堂学习状态在线评估系统,其特征在于,从视频图像采集区域内同步采集学员的视频图像及声音信号;其中,视频图像采集区域是根据学员的位置设置;每个视频图像采集区域与一个学员相对应。
8.如权利要求6所述的一种学员课堂学习状态在线评估系统,其特征在于,所述上位机还被配置为:
记录评估的学员课堂学习状态类别及状态持续时间,进而计算出预设时间段内的学员课堂学习状态及其所占比重;
或在所述表情及情绪状态分类模块中,将视频图像输入至训练完成的表情识别模型中,输出学员对应的表情类别及对应的概率的过程为:
对视频图像首先利用边界跟踪获取人体上半身的轮廓图像,然后提取轮廓图像的不变矩的做特征向量,以此与模板图像的特征向量相匹配,采用欧式距离作为相似性度量,粗检测出人体轮廓区域;对粗检测后保留的图像区域采用基于haar-like特征的adaboost人脸检测算法,细检测出人脸区域;
对细检测出的人脸区域进行裁剪,得到面部图像区域,再经过旋转校正后输入至练完成的表情识别模型中,输出学员对应的表情类别及对应的概率;所述表情识别模型为双通道加权混合的cnn-lstm网络;
或在所述表情及情绪状态分类模块中,将声音信号输入至训练完成的情绪状态识别模型中,输出学员对应的情绪状态类别及对应的概率的过程为:
采用预加重滤波器对获取的语音信号进行预加重处理;
提取预加重处理的声音信号的特征,所述声音信号的特征包括基音频率、短时能量、短时过零率、共振峰和梅尔频域倒谱系数;
将提取的声音信号的特征输入至训练完成的情绪状态识别模型中,输出学员对应的情绪状态类别及对应的概率;所述情绪状态识别模型为dbn网络+softmax分类器结构。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的学员课堂学习状态在线评估方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述的学员课堂学习状态在线评估方法中的步骤。