通过迁移学习生成具有不同疲劳程度的视频数据集的系统和方法与流程

文档序号：29571519发布日期：2022-04-09 04:04阅读：来源：国知局

技术特征：
1.一种用于训练应用程序以识别驾驶员疲劳的计算机实施的方法：使用第一神经网络从多个第二面部表情图像生成多个第一面部表情图像，其中，根据从所述第一神经网络学习的所述多个第二面部表情图像的第一表示来重构所述多个第一面部表情图像；基于所述第一表示，使用第二神经网络从表达当前疲劳程度之前的疲劳程度的第三面部表情图像和第二图像生成表达所述当前疲劳程度的第一图像，其中，根据所述第一表示以及从所述第二神经网络学习的所述第三面部表情图像的第二表示来重构所述第一图像和所述第二图像；在相应的光流期间，从所述第一图像和所述第二图像生成内插视频数据的多个中间图像，其中，所述光流通过融合所述第一图像和所述第二图像来形成并且位于所述第一图像与所述第二图像之间的时间帧中；以及至少使用所述第一图像和所述第二图像以及所述内插视频数据的所述多个中间图像来编译驾驶员的假疲劳状态视频，以在其中训练所述应用程序以检测所述驾驶员疲劳。2.根据权利要求1所述的计算机实施的方法，其特征在于，所述第一神经网络执行以下步骤：将所述多个第二面部表情图像映射到相应的第一表示；以及将所述相应的第一表示映射到具有与所述多个第二面部表情图像相同的形状的所述多个第一面部表情图像。3.根据权利要求1所述的计算机实施的方法，其特征在于，所述第二神经网络包括执行以下步骤的条件变分自动编码器：对所述第三面部表情图像和所述第二图像进行编码，并且输出描述所述第二表示的每个维度的分布的参数；以及通过计算每个参数相对于输出损失的关系对所述第二表示的每个维度的所述分布进行解码，以重构所述第三面部表情图像和所述第二图像。4.根据权利要求1至3中任一项所述的计算机实施的方法，其特征在于，所述第二神经网络还包括执行以下步骤的生成式对抗网络：将所述重构图像与所述第三面部表情图像进行比较，以生成鉴别器损失；将所述重构图像与处于相同程度的地面真实图像进行比较，以生成重构损失；基于所述鉴别器损失和所述重构损失，预测所述重构图像具有与所述第三面部表情图像相对应的外观的可能性；以及当所述预测将所述第一图像分类为真实图像时，将所述重构图像作为表达当前疲劳程度的所述第一图像而输出、并且作为表达所述当前疲劳程度之前的疲劳程度的所述第二图像而输入到所述条件变分自动编码器。5.根据权利要求1至4中任一项所述的计算机实施的方法，其特征在于，所述重构损失指示所述第三面部表情图像与所述重构图像之间的相异度，并且所述鉴别器损失指示生成不正确的预测的成本，所述预测是指所述重构图像具有所述第三面部表情图像的所述外观。6.根据权利要求1至4中任一项所述的计算机实施的方法，其特征在于，还包括：根据在不同时间帧处的所述第一图像与所述第二图像之间的差异，以不同的疲劳程度迭代地生成
所述第一图像，直到所述重构损失和所述鉴别器损失的总值满足预定标准。7.根据权利要求1所述的计算机实施的方法，其特征在于，生成所述多个中间图像还包括：在所述相应的光流期间，预测所述第一图像与所述第二图像之间的中间图像；以及内插所述第一图像和所述第二图像，以生成所述相应的光流，以在其中生成所述驾驶员的所述假疲劳状态视频。8.根据权利要求1所述的计算机实施的方法，其特征在于，生成所述多个中间图像还包括：接收以输入顺序布置的中间图像的序列；使用编码器处理中间图像的所述序列，以将中间图像的所述序列转换成中间图像的所述序列的替代性表示；以及使用解码器处理中间图像的所述序列的所述替代性表示，以生成中间图像的所述序列的目标序列，所述目标序列包括根据输出顺序布置的多个输出。9.根据权利要求1所述的计算机实施的方法，其特征在于，所述第一表示通过学习分布将所述多个第二面部表情图像映射到所述第一表示。10.根据权利要求1所述的计算机实施的方法，其特征在于，所述第二表示通过学习分布将所述第三面部表情图像映射到所述第二表示。11.一种用于训练应用程序以识别驾驶员疲劳的设备，其特征在于，包括：非瞬时性存储器，其包括指令；以及一个或多个处理器，其与所述存储器通信，其中，所述一个或多个处理器执行所述指令以：使用第一神经网络从多个第二面部表情图像生成多个第一面部表情图像，其中，根据从所述第一神经网络学习的所述多个第二面部表情图像的第一表示来重构所述多个第一面部表情图像；基于所述第一表示，使用第二神经网络从表达当前疲劳程度之前的疲劳程度的第三面部表情图像和第二图像生成表达所述当前疲劳程度的第一图像，其中，根据所述第一表示以及从所述第二神经网络学习的所述第三面部表情图像的第二表示来重构所述第一图像和所述第二图像；在相应的光流期间，从所述第一图像和所述第二图像生成内插视频数据的多个中间图像，其中，所述光流通过融合所述第一图像和所述第二图像来形成并且位于所述第一图像与所述第二图像之间的时间帧中；以及至少使用所述第一图像和所述第二图像以及所述内插视频数据的所述多个中间图像来编译驾驶员的假疲劳状态视频，以在其中训练所述应用程序以检测所述驾驶员疲劳。12.根据权利要求11所述的设备，其特征在于，所述第一神经网络执行以下步骤：将所述多个第二面部表情图像映射到相应的第一表示；以及将所述相应的第一表示映射到具有与所述多个第二面部表情图像相同的表情的所述多个第一面部表情图像。13.根据权利要求11所述的设备，其特征在于，所述第二神经网络包括执行以下步骤的条件变分自动编码器：
对所述第三面部表情图像和所述第二图像进行编码，并且输出描述所述第二表示的每个维度的分布的参数；以及通过计算每个参数相对于输出损失的关系对所述第二表示的每个维度的所述分布进行解码，以重构所述第三面部表情图像和所述第二图像。14.根据权利要求11至13中任一项所述的设备，其特征在于，所述第二神经网络还包括执行以下步骤的生成式对抗网络：将所述重构图像与所述第三面部表情图像进行比较，以生成鉴别器损失；将所述重构图像与处于相同程度的地面真实图像进行比较，以生成重构损失；基于所述鉴别器损失和所述重构损失，预测所述重构图像具有与所述第三面部表情图像相对应的外观的可能性；以及当所述预测将所述第一图像分类为真实图像时，将所述重构图像作为表达当前疲劳程度的所述第一图像而输出、并且作为表达所述当前疲劳程度之前的疲劳程度的所述第二图像而输入到所述条件变分自动编码器。15.根据权利要求11至14中任一项所述的设备，其特征在于，所述重构损失指示所述第三面部表情图像与所述重构图像之间的相异度，并且所述鉴别器损失指示生成不正确的预测的成本，所述预测是指所述重构图像具有所述第三面部表情图像的所述外观。16.根据权利要求11至14中任一项所述的设备，其特征在于，所述一个或多个处理器执行所述指令以：根据在不同时间帧处的所述第一图像与所述第二图像之间的差异，以不同的疲劳程度迭代地生成所述第一图像，直到所述重构损失和所述鉴别器损失的总值满足预定标准。17.根据权利要求11所述的设备，其特征在于，生成所述多个中间图像还包括：在所述相应的光流期间，预测所述第一图像与所述第二图像之间的中间图像；以及内插所述第一图像和所述第二图像，以生成所述相应的光流，以在其中生成所述驾驶员的所述假疲劳状态视频。18.根据权利要求11所述的设备，其特征在于，生成所述多个中间图像还包括：接收以输入顺序布置的中间图像的序列；使用编码器处理中间图像的所述序列，以将中间图像的所述序列转换成中间图像的所述序列的替代性表示；以及使用解码器处理中间图像的所述序列的所述替代性表示，以生成中间图像的所述序列的目标序列，所述目标序列包括根据输出顺序布置的多个输出。19.根据权利要求11所述的设备，其特征在于，所述第一表示通过学习分布将所述多个第二面部表情图像映射到所述第一表示。20.根据权利要求11所述的设备，其特征在于，所述第二表示通过学习分布将所述第三面部表情图像映射到所述第二表示。21.一种非瞬时性计算机可读介质，其特征在于，存储用于训练应用程序以识别驾驶员疲劳的计算机指令，所述指令在由一个或多个处理器执行时，使所述一个或多个处理器执行以下步骤：使用第一神经网络从多个第二面部表情图像生成多个第一面部表情图像，其中，根据从所述第一神经网络学习的所述多个第二面部表情图像的第一表示来重构所述多个第一
面部表情图像；基于所述第一表示，使用第二神经网络从表达当前疲劳程度之前的疲劳程度的第三面部表情图像和第二图像生成表达所述当前疲劳程度的第一图像，其中，根据所述第一表示以及从所述第二神经网络学习的所述第三面部表情图像的第二表示来重构所述第一图像和所述第二图像；在相应的光流期间，从所述第一图像和所述第二图像生成内插视频数据的多个中间图像，其中，所述光流通过融合所述第一图像和所述第二图像来形成并且位于所述第一图像与所述第二图像之间的时间帧中；以及至少使用所述第一图像和所述第二图像以及所述内插视频数据的所述多个中间图像来编译驾驶员的假疲劳状态视频，以在其中训练所述应用程序以检测所述驾驶员疲劳。22.根据权利要求21所述的非瞬时性计算机可读介质，其特征在于，所述第一神经网络执行以下步骤：将所述多个第二面部表情图像映射到相应的第一表示；以及将所述相应的第一表示映射到具有与所述多个第二面部表情图像相同的表情的所述多个第一面部表情图像。23.根据权利要求21所述的非瞬时性计算机可读介质，其特征在于，所述第二神经网络包括执行以下步骤的条件变分自动编码器：对所述第三面部表情图像和所述第二图像进行编码，并且输出描述所述第二表示的每个维度的分布的参数；以及通过计算每个参数相对于输出损失的关系对所述第二表示的每个维度的所述分布进行解码，以重构所述第三面部表情图像和所述第二图像。24.根据权利要求21至23中任一项所述的非瞬时性计算机可读介质，其特征在于，所述第二神经网络还包括执行以下步骤的生成式对抗网络：将所述重构图像与所述第三面部表情图像进行比较，以生成鉴别器损失；将所述重构图像与处于相同程度的地面真实图像进行比较，以生成重构损失；基于所述鉴别器损失和所述重构损失，预测所述重构图像具有与所述第三面部表情图像相对应的外观的可能性；以及当所述预测将所述第一图像分类为真实图像时，将所述重构图像作为表达当前疲劳程度的所述第一图像而输出、并且作为表达所述当前疲劳程度之前的疲劳程度的所述第二图像而输入到所述条件变分自动编码器。25.根据权利要求21至24中任一项所述的非瞬时性计算机可读介质，其特征在于，所述重构损失指示所述第三面部表情图像与所述重构图像之间的相异度，并且所述鉴别器损失指示生成不正确的预测的成本，所述预测是指所述重构图像具有所述第三面部表情图像的所述外观。26.根据权利要求21至24中任一项所述的非瞬时性计算机可读介质，其特征在于，还包括：根据在不同时间帧处的所述第一图像与所述第二图像之间的差异，以不同的疲劳程度迭代地生成所述第一图像，直到所述重构损失和所述鉴别器损失的总值满足预定标准。27.根据权利要求21所述的非瞬时性计算机可读介质，其特征在于，生成所述多个中间图像还包括：
在所述相应的光流期间，预测所述第一图像与所述第二图像之间的中间图像；以及内插所述第一图像和所述第二图像，以生成所述相应的光流，以在其中生成所述驾驶员的所述假疲劳状态视频。28.根据权利要求21所述的非瞬时性计算机可读介质，其特征在于，生成所述多个中间图像还包括：接收以输入顺序布置的中间图像的序列；使用编码器处理中间图像的所述序列，以将中间图像的所述序列转换成中间图像的所述序列的替代性表示；以及使用解码器处理中间图像的所述序列的所述替代性表示，以生成中间图像的所述序列的目标序列，所述目标序列包括根据输出顺序布置的多个输出。29.根据权利要求21所述的非瞬时性计算机可读介质，其特征在于，所述第一表示通过学习分布将所述多个第二面部表情图像映射到所述第一表示。30.根据权利要求21所述的非瞬时性计算机可读介质，其特征在于，所述第二表示通过学习分布将所述第三面部表情图像映射到所述第二表示。

技术总结
本公开涉及用于训练应用程序以识别驾驶员疲劳的技术。根据从第一神经网络学习的图像的第一表示来重构面部表情图像。基于所述第一表示，使用第二神经网络以在先前的间隔或程度生成的图像中生成表达当前程度或疲劳的图像。根据所述第一表示以及从所述第二神经网络学习的第二表示来重构所述图像，并且根据相应的图像光流来生成内插视频数据的中间图像，其中，所述光流是通过将图像之间的时间帧中的图像融合在一起而形成的。根据所述数据来编译驾驶员的假疲劳状态视频，以在其中训练应用程序以检测驾驶员疲劳。以检测驾驶员疲劳。以检测驾驶员疲劳。

技术研发人员：贾程程杨磊
受保护的技术使用者：华为技术有限公司
技术研发日：2019.12.05
技术公布日：2022/4/8

完整全部详细技术资料下载

当前第2页1 2