
1.本发明属于医疗辅助诊断、信息处理和人工智能技术领域,具体涉及一种基于自监督的预训练和面瘫分级的建模、分级方法及系统。
背景技术:2.面瘫是一种较为常见的面部肌肉运动障碍的疾病。由于不健康的生活方式、各种生活和精神压力,越来越多的年轻人患有面瘫疾病。面瘫的主要症状是患者面部表情肌肉丧失了正常的运动功能。患者无法正常表达出常见的面部表情。面瘫对患者的身心健康以及正常生活产生不利影响。大多数面瘫患者的临床特征是单侧性面瘫。因此,面瘫评估主要是依据面部运动的不对称性和面部肌肉运动模式。目前面瘫的诊断和分级评估基本都是由专科医生根据医学经验和相关标准进行的,诊断结果很大程度上受医生主观医学经验的影响,且效率低下。而利用计算机视觉技术的辅助诊断可以减轻医生的工作量,提高工作效率,减少诊断结果受主观因素的影响,提升准确性。
3.目前,基于计算机视觉技术的面瘫分级评估方法主要有:
4.(1)基于静态面部图像的非对称性的评价方法,该方法主要依据面部形状和纹理信息的不对称性,高度依赖于关键点检测的准确性,然而对具有多种面部状态和复杂面部运动患者面部关键点难以准确定位。此外,依据静态面部图像进行面瘫分级评估忽略了面部肌肉的运动特征,不能准确地表达面部运动的时序特征信息,难以通过多个相邻帧的级联而获得的特征向量来表达面部运动的时序特征。
5.(2)基于深度模型的面瘫分级评估(googlenet)方法,该主要是依据静态面部图像的特征信息来评估面瘫等级。但是,该方法仅关注静态面部的全局特征,却忽略了面部运动的时序特征,以及面部的非对称运动。
6.通过以上现有的面瘫评估方法的分析可以得出,针对行为识别,表情和微表情识别等问题,可利用经典的分类模型,如goolenet,vgg
‑
16,resnet34,resnet50和resnet101来提取全局面部视觉特征,还可使用lstm,cnn
‑
lstm,3d cnn,cnn
‑
fer和microexpstcnn等提取面部运动的时序特征。但是,这些方法难以有效提取面部肌肉运动的非对称性特征,而这一特征又是面瘫分级评估的关键性特征。
技术实现要素:7.本发明的目的在于提供一种基于自监督的预训练和面瘫分级的建模、分级方法及系统,用以解决现有技术中的小规模面瘫视频数据的有效特征难以准确提取的问题。
8.为了实现上述任务,本发明采用以下技术方案:
9.基于自监督的预训练模型建立方法,包括如下步骤:
10.步骤1:获取面部表情视频集,对面部表情视频集中的每个面部表情视频进行采样获得视频段,将面部表情视频集采样后得到的所有视频段作为面部数据集;
11.步骤2:对于面部数据集进行预处理,获得面部视频序列集,所述的面部视频序列
集包括多组左侧面子视频段序列和多组右侧面子视频段序列,其中,对于面部数据集中的任意一个视频段进行预处理包括如下子步骤:
12.步骤2.1:将视频段依次通过faster rcnn进行人脸检测,获得视频段的人脸数据;
13.步骤2.2:采用aam算法计算人脸数据的面部中轴线,根据面部中轴线将视频段分离为左侧面视频段和右侧面视频段;
14.步骤2.3:对左侧面视频段进行分割得到多个左侧面子视频段,获取左侧面子视频段的所有排列顺序,将每种排列顺序的左侧面子视频段作为一个左侧面子视频段序列,获得所有左侧面子视频段序列作为一组左侧面子视频段序列;
15.步骤2.4:采用步骤2.3的方法根据右侧面视频段获得一组右侧面子视频段序列;
16.步骤3:建立3d
‑
cnn模型,将步骤2获得的面部视频序列集作为训练集进行自监督训练,将训练好的模型作为3d
‑
cnn预训练模型。
17.进一步的,步骤2.2中采用式ⅰ计算人脸数据的面部中轴线ml:
[0018][0019]
其中,x表示横坐标,x1表示aam算法提取到的鼻梁与眼角间左侧关键点横坐标,x2表示aam算法提取到的鼻梁与眼角间右侧关键点横坐标。
[0020]
进一步的,步骤2.3中将左侧面视频段分割为3个子视频段,获取3个左侧面子视频段的所有排列顺序共6种。
[0021]
面瘫分级模型的建立方法,包括如下步骤:
[0022]
步骤一:获取面部表情视频集和面部表情视频集中每个面部表情视频的面瘫等级,对每个面部表情视频进行采样获得视频段,将面部表情视频集采样后得到的所有视频段作为面部数据集;
[0023]
步骤二:对于面部数据集采用任一所述的基于自监督的预训练模型建立方法中步骤2.1至步骤2.2的方法进行分离,获得面部视频段集,所述的面部视频段集包括多个左侧面子视频段和多个右侧面子视频段;
[0024]
步骤三:建立双路3d
‑
cnn模型,所述的双路3d
‑
cnn模型包括两个3d
‑
cnn预训练模型,所述的3d
‑
cnn预训练模型采用任一所述的基于自监督的预训练模型建立方法得到;
[0025]
将面部视频片段集中的多个左侧面子视频段和多个右侧面子视频段分别作为两个3d
‑
cnn预训练模型的训练集,将每个面部表情视频的面瘫等级作为两个3d
‑
cnn预训练模型的标签集,对双路3d
‑
cnn模型进行训练,将训练好的模型作为面瘫分级模型。
[0026]
进一步的,所述面瘫等级包括正常、轻度、中度和危重四个等级。
[0027]
面瘫分级方法,包括如下步骤:
[0028]
步骤ⅰ:获取待识别面部表情视频,对待识别面部表情视频进行分离处理,获取待识别左侧面子视频段和待识别右侧面子视频段;
[0029]
步骤ⅱ:将待识别左侧面子视频段和待识别右侧面子视频段输入任一种面瘫分级模型的建立方法得到的面瘫分级模型中,输出待识别面部表情视频的面瘫等级。
[0030]
面瘫分级系统,该系统包括处理器和用于存储能够在处理器上运行的多个功能模块的存储器,所述功能模块包括:数据采集模块、数据预处理模块、预训练模块、面瘫分级模型建立模块和面瘫分级模块;
[0031]
所述的数据采集模块用于获取面部表情视频集,对面部表情视频集中的每个面部表情视频进行采样获得视频段,将面部表情视频集采样后得到的所有视频段作为面部数据集;还用于获取面部表情视频集中每个面部表情视频的面瘫等级;
[0032]
所述的数据预处理模块用于对于面部数据集进行预处理,获得面部视频序列集,所述的面部视频序列集包括多组左侧面子视频段序列和多组右侧面子视频段序列,其中,对于面部数据集中的任意一个视频段进行预处理包括如下子模块:
[0033]
第一子模块用于将视频段依次通过faster rcnn进行人脸检测,获得视频段的人脸数据;
[0034]
第二子模块采用aam算法计算人脸数据的面部中轴线,根据面部中轴线将视频段分离为左侧面视频段和右侧面视频段;
[0035]
第三子模块用于对左侧面视频段进行分割得到多个左侧面子视频段,获取左侧面子视频段的所有排列顺序,将每种排列顺序的左侧面子视频段作为一个左侧面子视频段序列,获得所有左侧面子视频段序列作为一组左侧面子视频段序列;采用同样的方法根据右侧面视频段获得一组右侧面子视频段序列;
[0036]
所述的预训练模块用于建立3d
‑
cnn模型,将面部视频序列集作为训练集进行自监督训练,将训练好的模型作为3d
‑
cnn预训练模型;
[0037]
所述的面瘫分级模型建立模块用于建立双路3d
‑
cnn模型,所述的双路3d
‑
cnn模型包括两个3d
‑
cnn预训练模型,所述的3d
‑
cnn预训练模型根据预训练模块得到;将面部视频片段集中的多个左侧面子视频段和多个右侧面子视频段分别作为两个3d
‑
cnn预训练模型的训练集,将每个面部表情视频的面瘫等级作为两个3d
‑
cnn预训练模型的标签集,对双路3d
‑
cnn模型进行训练,将训练好的模型作为面瘫分级模型
[0038]
所述的面瘫分级模块用于获取待识别面部表情视频,对待识别面部表情视频进行分离处理,获取待识别左侧面子视频段和待识别右侧面子视频段;将待识别左侧面子视频段和待识别右侧面子视频段面瘫分级模型中,输出待识别面部表情视频的面瘫等级。
[0039]
进一步的,第二子模块中采用式ⅰ计算人脸数据的面部中轴线ml:
[0040][0041]
其中,x表示横坐标,x1表示aam算法提取到的鼻梁与眼角间左侧关键点横坐标,x2表示aam算法提取到的鼻梁与眼角间右侧关键点横坐标。
[0042]
进一步的,第三子模块中将左侧面视频段分割为3个子视频段,获取3个左侧面子视频段的所有排列顺序共6种。
[0043]
本发明与现有技术相比具有以下技术特点:
[0044]
(1)本发明采用序列预测的自监督任务作为预训练,以提高模型对面部运动时序特征的学习能力。
[0045]
(2)本发明与传统的面瘫评估方法中的特征提取不同,传统方法提取到的是人工特征或基于2d
‑
cnn提取的二维特征。而本发明采用预训练的3d
‑
cnn模型提取面部运动的时序特征,提取到的是三维特征。相比与传统人工特征或二维特征,三维特征包含了时序特征,针对面瘫分级评估任务而言,二维特征仅能获取到面部纹理形态特征,而三维特征获取到了面部肌肉的运动过程特征,面瘫诊断核心是判断左右脸运动的差异情况,采用三维特
征更符合医学诊断需求。
[0046]
(3)在视频序列预测的上游任务中,本发明可以利用大量无标签数据对3d
‑
cnn模型进行预训练。且该上游任务并非传统的分类或评估任务,不同于模型迁移的下游任务。与视频分类任务相比,序列预测包含更丰富的监督信息,3d
‑
cnn模型可以利用众多无标签视频数据,并且预训练后模型可较为容易地迁移到新的应用领域,例如面瘫分级评估任务。
[0047]
(4)本发明提出的方法重点关注整个面部和面部相关局部区域的面部非对称性运动特征,并将整体与局部的时序特征相结合,以用于最终的面瘫分级评估。
[0048]
(5)本发明的主要贡献在于提取了左右脸的运动差异,对于存在动态差异识别的问题,如步态识别、人脸表情活体检测,本发明也有较好的效果。
附图说明
[0049]
图1为面瘫分级评估模型的整体框架;
[0050]
图2为实施例中面部对称分离的特征点示意图;
[0051]
图3为基于自监督的预训练模型的整体框架;
[0052]
图4为基于预训练模型的面瘫分级评估的框架;
[0053]
图5为实施例中利用aam方法计算出的完整特征点示意图。
具体实施方式
[0054]
首先对本申请中出现的技术词语进行解释:
[0055]
aam算法(active shape model):asm是一种基于点分布模型(point distribution model,pdm)的算法。在pdm中,外形相似的物体,例如人脸、人手、心脏、肺部等的几何形状可以通过若干关键特征点(landmarks)的坐标依次串联形成一个形状向量来表示。而aam则是在asm的基础上,进一步对纹理(将人脸图像变形到平均形状而得到的形状无关图像g)进行统计建模,并将形状和纹理两个统计模型进一步融合为表观模型。
[0056]
本发明中采用的算法出处:cootes t f,edwards g j,taylor c j.active appearance models[c]//european conference on computer vision.springer,berlin,heidelberg,1998:484
‑
498.
[0057]
faster rcnn:一种目标检测算法,faster r
‑
cnn的结构主要分为三大部分,第一部分是共享的卷积层
‑
backbone(resnet网络),第二部分是候选区域生成网络
‑
rpn,第三部分是对候选区域进行分类的网络
‑
classifier。在本发明中用于识别出人脸区域。faster r
‑
cnn具体执行步骤如下:
[0058]
1)特征提取(convolutional layer)。faster r
‑
cnn首先使用一组基础的conv+relu+pooling层提取候选图像的特征图。该特征图被共享用于后续rpn(region proposal network)层和全连接(fully connection)层。
[0059]
2)区域候选网络(region proposal network)。rpn网络用于生成区域候选图像块。该层通过softmax判断锚点(anchors)属于前景(foreground)或者背景(background),再利用边界框回归(bounding box regression)修正anchors获得精确的proposals。
[0060]
3)目标区池化(roi pooling)。该层收集输入的特征图和候选的目标区域,综合这些信息后提取目标区域的特征图,送入后续全连接层判定目标类别。
[0061]
4)目标分类(classification)。利用目标区域特征图计算目标区域的类别,同时再次边界框回归获得检测框最终的精确位置。
[0062]
本发明中采用的算法出处:ren s,he k,girshick r,et al.faster r
‑
cnn:towards real
‑
time object detection with region proposal networks[j].arxiv preprint arxiv:1506.01497,2015.
[0063]
c3d、r3d和r(2+1)d:三种3d卷积算法,c3d网络包括8个逐个堆叠的卷积层,其中5层池层交错,然后是两个完全连接的层。所有卷积核的大小均为3
×3×
3。r3d网络是添加了残差连接的c3d网络。r(2+1)d相比于r3d网络,它把3维卷积分解成2维空间卷积和1维时间卷积。这样两个子卷积之间多出来一个非线性操作,和原来同样参数量的3维卷积相比非线性操作的次数翻倍,增强了网络的表达能力。
[0064]
本发明中采用的算法出处:xu d,xiao j,zhao z,et al.self
‑
supervised spatiotemporal learning via video clip order prediction[c]//proceedings of the ieee/cvf conference on computer vision and pattern recognition.2019:10334
‑
10343.
[0065]
在本实施例中公开了一种基于自监督的预训练模型建立方法,包括如下步骤:
[0066]
步骤1:获取面部表情视频集,对面部表情视频集中的每个面部表情视频进行采样获得视频段,将面部表情视频集采样后得到的所有视频段作为面部数据集;
[0067]
步骤2:对于面部数据集进行预处理,获得面部视频片段集,所述的面部视频序列集包括多组左侧面子视频段序列和多组右侧面子视频段序列,其中,对于面部数据集中的任意一个视频段进行预处理包括如下子步骤:
[0068]
步骤2.1:将视频段依次通过faster rcnn进行人脸检测,获得视频段的人脸数据;
[0069]
步骤2.2:采用aam算法计算人脸数据的面部中轴线,根据面部中轴线将视频段分离为左侧面视频段和右侧面视频段;
[0070]
步骤2.3:对左侧面视频段进行分割得到多个左侧面子视频段,获取左侧面子视频段的所有排列顺序,将每种排列顺序的左侧面子视频段作为一个左侧面子视频段序列,获得所有左侧面子视频段序列作为一组左侧面子视频段序列;
[0071]
步骤2.4:采用步骤2.3的方法根据右侧面视频段获得一组右侧面子视频段序列;
[0072]
步骤3:建立3d
‑
cnn模型,将步骤2获得的面部视频序列集作为训练集进行自监督训练,将训练好的模型作为3d
‑
cnn预训练模型。
[0073]
具体的,所述面部表情包括闭眼、示齿、抬眉、皱眉、耸鼻、微笑、鼓腮七种动作,每种面部表情视频指被测者从面部平复状态开始,做一项诊断动作的最大幅度,再恢复至平复状态的完整过程。
[0074]
具体的,步骤1包括如下子步骤:
[0075]
对于一个n帧的面部表情视频,对其采样是指从该面部表情视频帧序列h={h1,h2...h
k
...h
n
}中选择帧序为的m帧作为采样结果,k是视频的采样间隔,n为总帧数,m为所需帧数。实际拍摄过程中,由于拍摄设备的帧率存在差异,因此单个诊断动作视频段的帧数从十几帧到几百帧不等,而由于模型数据数据帧数为一固定值,需要对所得视频进行采样。
[0076]
优选的,在本实施例中,采样为等间隔采样,采样的帧数为30帧即m=30。
[0077]
具体的,步骤2.2中的aam算法用于检测人脸关键点,并通过计算面部中轴线实现面部对称分离。
[0078]
具体的,选用aam算法进行面部对称分离时,会计算出多个关键点,本实施例选用关键点p1(x1,y1)和关键点p2(x2,y2)作为面部中轴线的确定参考点,其中p1、p2点分别为鼻梁与眼角间的提取到的左右两个关键点,即为沿鼻子两侧到达眼角附近的鼻根的点。
[0079]
如图5所示为利用aam方法计算出的完整的122个关键点示例,其中p1、p2为图中鼻子部分的最上面的两点,如果采用眼部、嘴部、脸部等位置点进行定位计算中轴线,由于面瘫患者面部形态差异较大,有些患者存在口眼歪斜严重、左右极度不对称的情况,得到的偏差较大。因此本实施例采用p1、p2点受面瘫影响导致的面部差异较小,于是采用它作为面部中轴线确定参考点。
[0080]
具体的,步骤2.2中,采用下式计算面部中轴线ml:
[0081][0082]
为保证面部两侧的尺寸相同,在水平方向上单侧面部的宽为为保证面部两侧的尺寸相同,在水平方向上单侧面部的宽为其中x为所有关键点的水平坐标,y为所有关键点的垂直坐标,min(y)和max(y)分别为面部的上、下边界。
[0083]
优选的,步骤2.3中将左侧面视频段分割为3个子视频段,对于面瘫诊断,部分患者的面部动作非常迅速,导致只能采集到短暂的面瘫诊断视频,这些视频的帧数较少,不适合采样为多个子视频段,因此选择分割为3个。
[0084]
具体的,在本实施例中步骤2.3的左侧面视频段分割包括如下子步骤:
[0085]
若左侧面视频段的帧数为30帧,则按照帧的次序将左侧面子视频段依次分割为8帧、3帧、8帧、3帧、8帧五个子视频段,其中8帧的子视频段为所需进行自监督训练的视频片段,3帧的子视频段为间隔帧,间隔帧是为了防止网络单纯检查子视频片段的首位帧相似度来进行排列预测,删除所有间隔帧,获得三段长度为8帧的子视频段a、b和c。
[0086]
具体的,在本实施例中步骤2.3中对得到的三个子视频序列a,b,c进行随机排列,有六个可能的结果:abc(原始视频序列),acb,cab,cba,bca,bac,之后对这六种结果依次标记为0,1,2,3,4,5,进行6分类预测。其中,获取左侧面子视频段的所有排列顺序其实是对多个子视频段的顺序进行随机置乱处理,形成多个可能的子视频段序列,以作为视频序列预测上游任务的输入数据。
[0087]
具体的,步骤3中的3d
‑
cnn模型用于提取每个左侧或右侧子视频段的时序特征信息后进行子视频段的序列预测,即步骤3进行训练时每次的输入为每个左侧或右侧子视频段的六种可能的组合序列,输出为模型预测该输入子视频段为何种排列方式。如图3所示,为对一个视频段的多个子视频段(包括左侧和右侧)使用3d
‑
cnn模型提取特征。
[0088]
具体的,每次训练的输入为面部视频序列集中任一组子视频段序列,该子视频段序列进行排列后为长度为3*8=24帧的子视频片段。
[0089]
具体的,所述的3d cnn模型包括c3d、r3d或r(2+1)d模型。
[0090]
具体的,针对一些需要提取差异的领域、如采用视频数据步态识别,手势识别等,
将本方法前期预处理工作时针对面部数据的替换为步态数据或手势数据即可,依据具体问题的任务需求对处理的数据进行相应修改。
[0091]
本发明将基于自监督的预训练模型建立方法作为上游任务,得到相应的3d
‑
cnn预训练模型,这些模型具有学习面部运动特征的能力,将这些模型迁移到面瘫分级评估的下游任务中。
[0092]
如图1所示,本实施例还公开了一种面瘫分级模型的建立方法,包括如下步骤:
[0093]
步骤一:获取面部表情视频集和面部表情视频集中每个面部表情视频的面瘫等级,对每个面部表情视频进行采样获得视频段,将面部表情视频集采样后得到的所有视频段作为面部数据集;
[0094]
步骤二:对于面部数据集采用如上所述的基于自监督的预训练模型建立方法中步骤2.1至步骤2.2的方法进行分离,获得面部视频段集,所述的面部视频段集包括多个左侧面子视频段和多个右侧面子视频段;
[0095]
步骤三:建立双路3d
‑
cnn模型,所述的双路3d
‑
cnn模型包括两个3d
‑
cnn预训练模型,所述的3d
‑
cnn预训练模型采用如上所述的基于自监督的预训练模型建立方法得到;
[0096]
将面部视频片段集中的多个左侧面子视频段和多个右侧面子视频段分别作为两个3d
‑
cnn预训练模型的训练集,将每个面部表情视频的面瘫等级作为两个3d
‑
cnn预训练模型的标签集,对双路3d
‑
cnn模型进行训练,将训练好的模型作为面瘫分级模型。
[0097]
具体的,所述面瘫等级包括正常、轻度、中度和危重四个等级。
[0098]
具体的,步骤三进行训练的过程实质是特征提取的过程,双路3d
‑
cnn模型用于提取整体特征和局部特征,整体特征和局部特征提取时的不同在于3d
‑
cnn模型的权值不同,整体特征是指输入数据为从完整的半侧面部视频序列,而局部特征的输入数据仅为所做动作对应的主要运动区域(如闭眼:采用眼部区域,示齿:采用嘴部区域)如图4所示。
[0099]
具体的,训练好的模型提取到的特征向量为f
d,g
与f
d,lr
级联融合向量,其中,f
d,g
为整体特征且f
d,g
=(f
l,g
‑
f
r,g
)2,f
d,lr
为局部特征且f
d,lr
=(f
l,lr
‑
f
r,lr
)2,l表示左侧面,r表示右侧面,f
d
为运动特征的差异信息且f
d
=(f
l
‑
f
r
)2,f
l
和f
r
分别是提取的面部左右两侧面的运动特征,f
l,g
为整体的左侧面的运动特征,f
r,g
为整体的右侧面的运动特征,f
l,lr
为局部的左侧面的运动特征,f
r,lr
为局部的右侧面的运动特征。
[0100]
本实施例中还公开了一种面瘫分级方法,包括如下步骤:
[0101]
步骤i:获取待识别面部表情视频,对待识别面部表情视频进行分离处理,获取待识别左侧面子视频段和待识别右侧面子视频段;
[0102]
步骤ii:将待识别左侧面子视频段和待识别右侧面子视频段输入面瘫分级模型中,输出待识别面部表情视频的面瘫等级。
[0103]
本实施例中还公开了一种面瘫分级系统,系统包括处理器和用于存储能够在处理器上运行的多个功能模块的存储器,所述功能模块包括:数据采集模块、数据预处理模块、预训练模块、面瘫分级模型建立模块和面瘫分级模块;
[0104]
所述的数据采集模块用于获取面部表情视频集,对面部表情视频集中的每个面部表情视频进行采样获得视频段,将面部表情视频集采样后得到的所有视频段作为面部数据集;还用于获取面部表情视频集中每个面部表情视频的面瘫等级;
[0105]
所述的数据预处理模块用于对于面部数据集进行预处理,获得面部视频序列集,
所述的面部视频序列集包括多组左侧面子视频段序列和多组右侧面子视频段序列,其中,对于面部数据集中的任意一个视频段进行预处理包括如下子模块:
[0106]
第一子模块用于将视频段依次通过faster rcnn进行人脸检测,获得视频段的人脸数据;
[0107]
第二子模块采用aam算法计算人脸数据的面部中轴线,根据面部中轴线将视频段分离为左侧面视频段和右侧面视频段;
[0108]
第三子模块用于对左侧面视频段进行分割得到多个左侧面子视频段,获取左侧面子视频段的所有排列顺序,将每种排列顺序的左侧面子视频段作为一个左侧面子视频段序列,获得所有左侧面子视频段序列作为一组左侧面子视频段序列;采用同样的方法根据右侧面视频段获得一组右侧面子视频段序列;
[0109]
所述的预训练模块用于建立3d
‑
cnn模型,将面部视频序列集作为训练集进行自监督训练,将训练好的模型作为3d
‑
cnn预训练模型;
[0110]
所述的面瘫分级模型建立模块用于建立双路3d
‑
cnn模型,所述的双路3d
‑
cnn模型包括两个3d
‑
cnn预训练模型,所述的3d
‑
cnn预训练模型根据预训练模块得到;将面部视频片段集中的多个左侧面子视频段和多个右侧面子视频段分别作为两个3d
‑
cnn预训练模型的训练集,将每个面部表情视频的面瘫等级作为两个3d
‑
cnn预训练模型的标签集,对双路3d
‑
cnn模型进行训练,将训练好的模型作为面瘫分级模型
[0111]
所述的面瘫分级模块用于获取待识别面部表情视频,对待识别面部表情视频进行分离处理,获取待识别左侧面子视频段和待识别右侧面子视频段;将待识别左侧面子视频段和待识别右侧面子视频段面瘫分级模型中,输出待识别面部表情视频的面瘫等级。
[0112]
具体的,第二子模块中采用式ⅰ计算人脸数据的面部中轴线ml:
[0113][0114]
其中,x表示横坐标,x1表示aam算法提取到的鼻梁与眼角间左侧关键点横坐标,x2表示aam算法提取到的鼻梁与眼角间右侧关键点横坐标。
[0115]
具体的,第三子模块中将左侧面视频段分割为3个子视频段,获取3个左侧面子视频段的所有排列顺序共6种。
[0116]
实施例1
[0117]
本实施例公开了一种面瘫分级方法,在上述实施例的基础上还公开了如下技术特征:
[0118]
为了实现面瘫的自动分级评估,本实施例采集了面瘫患者的面部诊断动作的视频数据。该面部视频数据集有117名面瘫患者的视频,40名志愿者的视频。每个人都要做7个面部动作,包括:抬眉、闭眼、耸鼻、鼓腮、示齿、微笑和皱眉。且每个人都要重复3次这7个面部动作。
[0119]
本实施例中标签集通过专业医生给这些视频数据按面瘫分级情况进行标注,将面瘫的严重程度分为正常、轻度、中度和危重四个等级,并用0、1、2、3表示。所有视频数据的70%用于模型训练,训练数据按5:1分配作为训练集和验证集。剩余的30%视频数据作为测试集。另外,本实施例还使用一些传统的需要使用静态的面部图片来评估面瘫的严重程度的方法作为对比实验,因此我们从所有视频片段中选取关键帧作为对比实验的数据,这些
关键帧反映了面部诊断动作最大的动作状态。此外,准确率(acc)、精确率(pre)、召回率和f1用于不同方法性能的评价参数。
[0120]
为验证本发明提出的面瘫分级评估方法的有效性和先进性,采用了五类面瘫分级评估方法作为对比方法,包括:传统的基于人工特征的方法、基于cnn的方法、用于表情识别方法、基于lstm的方法和基于3d
‑
cnn的方法,实验结果如表1所示。
[0121]
表1与目前最先进的方法进行比较
[0122][0123]
对于面瘫分级评估,基于gabor特征和svm的方法准确率更低,但是在recall和f1评分上有更好的结果。这两种方法的性能整体上都低于基于cnn的方法。其原因在于人工特征难以准确表达深层的面部非对称性特征,且这些方法主要关注全局的面部特征,没有考虑局部的面部运动特征,且这些方法对实验图像有更严格的要求。基于cnn的方法也可以应用于面瘫分级评估任务中,并在从视频中挑选出来的静态面部图像上进行测试。与传统方法相比,googlenet和vgg
‑
16的面瘫分级评估方法在acc和pre方面表现相似,但在recall和f1方面表现更好。而基于resnets的方法在四个评价参数上都有大幅度提升。其中,resnet50的性能优于传统方法,准确率为66.67%,f1得分为67.90%。这些实验结果表明基于cnn的模型可以捕获到更有效的面部非对称性特征。
[0124]
对于将面部表情和微表情识别方法应用于面瘫分级评估,由表1可以看出,其效果欠佳。其中,microexpstcnn在acc、re
‑
call和f1得分上都优于cnn
‑
fer。但由于这些方法主要关注面部整体运动特征,而不是面部运动的非对称性特征,因此,难以取得良好的面瘫评估效果。相比之下,本发明提出方法充分考虑了面部整体和局部运动的非对称性特征,同时通过自监督训练的策略提高模型特征提取的能力,从而在最终的目标任务中取得了最佳的性能。与microexpstcnn相比,本方法(r3d(自监督))在acc、pre、recall和f1评分上分别有39.73%,38.12%,40.04%和39.31%的提升。利用基于lstm和cnn
‑
lstm的模型以及基于
3d
‑
cnn的模型进行面瘫分级评估。与传统的基于人工特征的评估方法、基于cnn的方法以及用于表情识别的方法相比,基于lstm的方法总体上具有更好的性能。原因在于这些方法能够更有效地提取了面部肌肉运动的时序特征。而未经过自监督预训练的3d
‑
cnn模型进行面瘫评估的性能仍然较差,原因在于随机初始化的网络模型难以在小规模的面瘫视频数据中学习到有效的面部动态特征。此外,这些方法侧重于面部运动的整体特征,而不是面部运动的非对称性特征,而这又是面瘫评估的关键性特征。
[0125]
本发明在视频序列预测的上游任务中预训练的3d
‑
cnn模型具有提取面部两侧的动态特征的能力,并将其迁移到面瘫分级评估的下游任务中,通过利用面部运动的差异特征来评估面瘫的严重程度。此外,方法还结合了面部的全局和局部运动的时序特征,进一步提高了面瘫分级评估的准确性。实验结果表明:本发明提出方法在准确率、精确率、召回率和f1方面均具有最优的性能。