用于实时技能评估的方法及系统以及计算机可读介质与流程

文档序号：20956079发布日期：2020-06-02 20:25阅读：144来源：国知局

本公开总体涉及相机系统，更具体地，涉及通过使用相机系统进行任务检测和技能评估。

背景技术：

使用相机的技能评估能够用于检查任务是否已被执行并且用于评估任务执行得如何。技能评估系统在质量控制、依从性、培训、提高工人效率和福祉方面具有有用的应用。

在相关技术中，已经提出了通过深度排序和计算任务和子任务的语义相似性来确定技能的算法。这些相关技术方法通常要求视频是单个任务的单独视频，或者子任务的手动预分段的视频剪辑。

技术实现要素：

对于具有子任务的复杂任务的视频流的更现实的情况，对这些复杂任务的技能评估仍未得到解决。此外，相关技术的另一个问题涉及分析任务工作流设计。例如，当工厂中具有多个子任务的任务工作流周期性地改变时，需要进行监测，以便能够调整并改进工作流。在相关技术中，用视频相机进行改变并手动注释。对于这种实现方式需要更自动化的系统。

本文所描述的示例实现方式旨在通过深度学习方法解决上述问题。一种方法是自下而上的方法，用子任务标签(使用卷积神经网络(cnn)和光流)标记视频帧，然后将顺序帧分组为对其计算技能评估得分(例如，使用深度排序)的子任务事件，并且子任务事件被分组为对其检查子任务完成和子任务顺序的任务事件。另一种方法是使用基于骨骼跟踪的3d手部运动的时间卷积网络(tcn)的更专业的架构。在以下公开内容中详细描述这些方法。

本公开的各方面涉及一种方法，该方法涉及如下步骤：从相机系统检测用户的与要完成的任务相关联的身体部位；基于被配置为将要完成的所述任务的多个子任务中的每一个与顺序帧相关联的机器学习模型的应用，将从所述相机系统接收的顺序帧分组到多个子任务中；以及基于对多个子任务的完成和子任务的顺序正确性的检测，来提供对任务的完成的评估。

本公开的各方面还涉及一种具有指令的计算机程序，该指令涉及从相机系统检测用户的与要完成的任务相关联的身体部位；基于被配置为将要完成的所述任务的多个子任务中的每一个与顺序帧相关联的机器学习模型的应用，将从所述相机系统接收的顺序帧分组到多个子任务中；以及基于对多个子任务的完成和子任务的顺序正确性的检测，来提供对任务的完成的评估。

本公开的各方面涉及一种系统，该系统涉及用于从相机系统检测用户的与要完成的任务相关联的身体部位的装置；基于被配置为将要完成的所述任务的多个子任务中的每一个与顺序帧相关联的机器学习模型的应用，将从所述相机系统接收的顺序帧分组到多个子任务中的装置；以及用于基于对多个子任务的完成和子任务的顺序正确性的检测来提供对任务的完成的评估的装置。

本公开的各方面涉及一种系统；该系统涉及相机系统以及处理器，该处理器被配置为从相机系统检测用户的与要完成的任务相关联的身体部位；基于被配置为将要完成的所述任务的多个子任务中的每一个与顺序帧相关联的机器学习模型的应用，将从所述相机系统接收的顺序帧分组到多个子任务中；以及基于对多个子任务的完成和子任务的顺序正确性的检测，来提供对任务的完成的评估。

附图说明

图1(a)和图1(b)例示了示例洗手过程。

图2(a)和图2(b)例示了根据示例实现方式的由相机系统拍摄的洗手的示例图像。

图3(a)和图3(b)例示了产品的示例组装说明。

图4(a)和图4(b)例示了根据示例实现方式的由相机系统拍摄的组装任务的示例图像。

图5(a)和图5(b)例示了根据示例实现方式的系统的示例流程图。

图6例示了根据示例实现方式的用于帧标签(framelabeling)的示例流程图。

图7例示了根据示例实现方式的涉及时间卷积网络的示例流程图。

图8例示了根据示例实现方式的涉及相机设置的系统的示例硬件图。

具体实施方式

以下详细描述提供了本申请的附图和示例实现方式的进一步细节。为清楚起见，省略了图之间的冗余元件的附图标记和描述。整个说明书中使用的术语是作为示例提供的，并非旨在进行限制。例如，依据本领域普通技术人员实践本申请的实现方式的期望实现方式，术语“自动”的使用可以包括涉及用户或管理员对实现方式的一些方面的控制的全自动实现方式或半自动实现方式。能够由用户通过用户界面或其它输入装置进行选择，或者能够通过期望的算法来实现选择。如本文所述的示例实现方式能够单独使用或组合使用，并且示例实现方式的功能能够根据期望的实现方式通过任何手段来实现。

为了进一步关注这个问题，我们将考虑用手或者用手和工具执行的任务。域的示例包括医院的手卫生依从性(图1(a)、图1(b)、图2(a)和图2(b))，以及在工厂或家中组装物体(图3(a)、图3(b)、图4(a)、图4(b))。

图1(a)和图1(b)例示了示例洗手过程。具体而言，图1(a)例示了根据世界卫生组织手卫生手册的用于手卫生的十一步过程的范例步骤四，并且图1(b)例示出了步骤5。当洗手过程是十一步过程时，步骤四可以被指定为洗手过程的子任务四并且步骤五可以被指定为子任务五。类似地，图3(a)和图3(b)例示了涉及多个步骤的产品的示例组装说明。

示例实现方式涉及用于由诸如手之类的身体部位执行的任务的技能评估的方法。这些任务可涉及医院的洗手依从性，或工厂中组装产品或使用工具。现有方法通常与数据集当中的手动分段的视频剪辑一起操作，并且与具有多步骤子任务的复杂过程相比而具有更简单的任务。为了解决这些问题，示例实现方式应用手跟踪和骨骼跟踪以及深度神经网络，来检测和识别子任务并评估关于每个子任务的技能。此外，检查子任务的顺序是否正确。除了监控个人用户之外，我们的方法还能用于分析和改进具有多个子任务的工作流设计。

在关于图1(a)和图1(b)的子任务的图2(a)和图2(b)中分别示出了由相机系统拍摄的关于洗手的图像示例，并且在关于图3(a)和图3(b)的子任务的图4(a)和图4(b)中分别示出了由相机系统拍摄的关于组装任务的图像示例。

图5(a)和图5(b)例示了根据示例实现方式的系统的示例流程图。具体而言，图5(a)例示了根据示例实现方式的用于实时分析子任务实例的示例流程图。针对子任务，实时分析由各个用户执行的任务实例。在图5(a)的示例中，输入来自相机501的图像，诸如图2(a)和图2(b)、或者图4(a)和图4(b)中所示的图像。在502处，计算机视觉技术分析身体部位(例如，手)与对象的交互或者其中执行的动作。在503，对于特定任务事件实例，确定每个子任务的技能得分、子任务的顺序正确性和子任务的完成。

图5(b)例示了根据示例实现方式的用于分析子任务的工作流程的示例流程图。通过随时间收集关于任务实例的数据来分析任务工作流程。在510处，收集从图5(a)的503的流程所确定的关于任务事件实例的数据。在511处，计算任务工作流统计数据。在512处，针对期望统计数据(例如，均值、方差)的任务事件工作流，计算子任务技能得分、完成时间和顺序正确性。

图6例示了根据示例实现方式的用于帧标签的示例流程图。所提出的帧标签方法是自下而上的方法，其中加标签的帧被分组到子任务事件中，子任务事件被聚合到任务事件中。在图6中的流程图中示出了处理流水线。

在示例实现方式中，相机可以是低成本网络相机、视频相机或红绿蓝深度(rgb-d)相机。利用rgb-d相机，附加深度通道提供灰度深度帧图像流，并且它们与颜色通道帧图像类似地被处理。

在示例实现方式中，在601处，流水线的第一部分是获取当前视频帧，并且使用602处的手检测算法在603处提取手周围的动作所处的区域。根据期望的实现方式，如果相机被设置为仅拍摄场景的相关部分(例如，相机被安装在用于洗手的水槽上方、或被安装在用于组装任务的工作台上方)，则可以跳过这些过程。在前一种情况下，仅需要检测，这比手姿势或骨骼估计更稳健；在后一种情况下，不需要手检测或姿势估计，这在存在遮挡或者手-对象交互时提高了稳健性。

处理的下一步是在604处计算帧区域上的密集光流。使用光流的一个动机是它对不同的背景场景是稳健的，这有助于支持不同的设置。另一个动机是它对于少量的遮挡和噪音是稳健的，这能够帮助处理噪声图像，诸如手上的肥皂水。已经表明光流方法成功地用于视频中的动作识别。为了计算光流，能够使用opencv计算机视觉库中的诸如算法之类的实现方式。光流处理产生x分量图像和y分量图像。

在605处，示例实现方式使用卷积神经网络(cnn)对光流图像进行分类，以向帧指配子任务标签。对于cnn架构，通过适于与实时交互式应用集成的任何期望的深度学习工具包，利用具有两个交替的卷积层和最大池化层的标准架构，接着是密集层(denselayer)和softmax层。

在606处，在缓冲区中累积其上具有活动性的帧区域的连续序列，并且将这些帧分组到子任务事件中。通过对帧区域的分类子任务标签进行表决，对每个事件缓冲区进行分类并赋予子任务标签。帧的每个光流分量被分别表决。另选地，这里描述的示例实现方式能够对光流分量执行融合，以获得每帧的单个标签；一个示例实现方式涉及在每个流分量的输出上添加全连接网络。

在607处，对于作为视频片段的各子任务事件，能够应用技能评估算法以给予技能评分。技能评估算法能够根据期望的实现方式以任何方式来实现。

在608处，通过基于观察到任务事件被没有活动性或动作的时间段分隔开来确定任务时间边界，将子任务依次分组为任务事件。

最后，在609处，基于子任务的技能分数来为各任务事件指配技能分数。依据期望的实现方式，如果子任务未完成，以及在子任务顺序重要的情况下如果子任务被无序执行，则也能够引发警报。

在示例实现方式中，能够利用3d手部运动的时间卷积网络(tcn)。这里描述的示例实现方式涉及视频流以及实时提取3d骨骼关节作为特征表示。实时3d手跟踪的最新进展表明能够可靠地检测骨骼关节并且与光流相比需要较少的计算。

图7例示了根据示例实现方式的涉及时间卷积网络的示例流程图。

对于在701处从视频获得的各帧，示例实现方式在702处从每个手提取手关节(例如，21个手关节)的2d位置和3d位置以检测3d手骨骼。在703处，流程使用树结构将骨骼位置扁平化为矢量以保持空间层次关系。在704处，树结构资产用于维持从l个视频帧提取的骨骼矢量序列。

在705处，为了预测每帧的子任务，示例实现方式能够涉及序列预测方法。对于语言和活动性识别中的许多序列问题，卷积神经网络能够胜过递归神经网络。在示例实现方式中，采用时间卷积网络(tcn)架构来预测子任务，时间卷积网络与递归网络相比表现得更快并且实现更好的准确性。

假设接收到来自l个视频帧的输入骨骼序列，并且要从帧1至l预测两个标签<subtask,ischange>。这能够经由tcn架构来实现，这确保了等量的输入和输出长度。一种可能的实现方式是从开源tcn库中调整网络结构。例如，网络能够使用扩张因子为1、2、4、8的扩张因果卷积(dilatedcasualconvolution)，其从具有与输入层尺寸相同的各隐藏层的1d全卷积网络开始，然后使扩张卷积具有零填充以保持后续层长度相同。

在706，最后的步骤是将子任务的基于帧的预测聚类到根据任何期望实现方式能够进行的任务。

通过图7的示例实现方式，能够生成并训练机器学习算法，以相应地基于相机馈送来检测子任务。机器学习算法是直接使用在使用图7的时间卷积网络的深度学习算法中的时间特征以及要学习的手或身体部位的骨骼生成的。这样的示例实现方式是对相关技术的改进，因为子任务的信息被隔离并且被深入利用到深度学习算法中。

图8例示了根据示例实现方式的涉及相机设置的系统的示例硬件图。系统800能够包括用于任务拍摄的相机系统801、处理器802、存储器803、显示器804和接口(i/f)805。系统800被配置为监测任务并且根据期望的实现方式，能够与工作站、特定装置(例如，水槽、生产线位置等)等相关联。

相机系统801能够是被配置为根据期望的实现方式来拍摄视频图像和深度图像的任何形式。在示例实现方式中，处理器802可以利用相机系统来拍摄正在执行的任务的图像。根据期望的实现方式，显示器804能够是触摸屏的形式或者用于视频会议或用于显示计算机装置的结果的任何其它显示器。显示器804还能够包括具有向执行任务的用户提供反馈(例如，推荐的校正动作、关于是否检测到子任务的完成的指示)的中央控制器的一组显示器。i/f805依据所期望的实现方式能够包括用于显示器804的诸如键盘、鼠标、触摸板或其它输入装置之类的接口装置。

在示例实现方式中，处理器802能够是包括物理硬件处理器或者硬件处理器和软件处理器的组合的中央处理单元(cpu)的形式。处理器802被配置为接收系统的输入，该输入能够包括来自相机801的关于子任务的相机图像。处理器802能够通过利用如本文所述的深度学习识别算法来处理子任务的完成。依据期望的实现方式，处理器802能够由专用硬件替换以便于深度学习识别的实现，所述专用硬件诸如被配置为根据深度学习算法处理图像以进行识别的专用图形处理单元(gpu)、现场可编程门阵列(fpga)、或者根据所需的实现方式的其它形式。此外，该系统能够利用计算机处理器和专用硬件处理器(诸如gpu和fpga)的混合，以便于期望的实现方式。

如本文所述，处理器802能够被配置为执行图6和图7的流程。处理器802能够被配置为从相机系统801检测用户的与要完成的任务相关联的身体部位；基于被配置为将要完成的任务的多个子任务中的每一个与顺序帧相关联的机器学习模型的应用，将从相机系统接收的顺序帧分组到多个子任务中；以及基于如图6的流程图中所示的对多个子任务的完成以及子任务的顺序正确性的检测，来提供对任务的完成的评估。虽然示例实现方式中的身体部位是参照手来描述的，但是也可以利用其它身体部位(例如，脚、手臂等)来完成任务，并且本公开不限于此。此外，通过本文描述的示例实现方式能够检测多个身体部位(例如，手脚结合)。

处理器802能够被配置为通过如图6的流程所示的针对相机系统的各帧提取身体部位周围的帧区域，从相机系统检测用户的与要完成的任务相关联的身份部位。

处理器802能够被配置为通过如图6和图7的流程所示的以下步骤，基于被配置为将要完成的任务的多个子任务中的每一个与顺序帧相关联的机器学习模型的应用，将从相机系统接收的顺序帧分组到多个子任务中：应用机器学习模型，以通过对顺序帧中的每一个加标签来将多个子任务中的每一个与顺序帧相关联；基于顺序帧的标签的分组来分割出多个子任务中的每一个；以及将分割出的多个子任务中的顺序子任务分组为要完成的任务。

处理器802能够被配置为通过如图6中所示的如下步骤，基于对多个子任务的完成和子任务的顺序正确性的检测，来提供对任务的完成的评估：通过根据多个子任务的顺序子任务的分组来识别顺序正确性；通过对加标签的顺序帧中的对应顺序帧应用计算机视觉算法来识别多个子任务中的每一个的完成；基于顺序正确性、多个子任务中每一个子任务的完成、以及多个子任务中每一个子任务的技能得分的识别，来计算要完成的任务的另一技能得分。

在示例实现方式中，用户的身体部位能够涉及用户的手，其中要完成的任务是洗手，其中多个子任务是用于进行洗手的步骤，如图1(a)、图1(b)、图2(a)和图2(b)所示。

此外，能够根据期望的实现方式检测与任务相关联的对象(例如，水槽、螺丝刀等)。处理器802被配置为通过检测与任务的一个或更多个相关联对象并且针对相机系统的每个帧提取身体部位和一个或更多个相关联对象周围的帧区域，从相机系统检测用户的与要完成的任务相关联的身体部位，如图3(a)、图3(b)、图4(a)和图4(b)的示例中所示。

通过本文描述的示例实现方式，能够提供技术解决方案以解决确定系统正监测的用户是否正在以正确方式执行任务的问题。在诸如洗手或制造组装的情况下，这种检测系统对于确保与规程的依从性或者正在恰当地实施最有效的方法是必要的。

此外，通过如本文所述的评分系统，能够监测子任务时间和得分以确定该过程中的给予用户的瓶颈。这样的实现方式允许立即识别可能的方式以修改任务，确定是否需要进一步训练，或者是否应当去除或修改特定子任务以提高给定过程的效率。

如本文所述，示例实现方式能够涉及洗手或其中用户根据一组子任务组装对象或执行任务的工厂设置。通过本文描述的示例实现方式，能够实现在用户正在执行任务时监测用户的实时系统。由于特定子任务被隔离和检测以确保与任务的特定例程的依从性，所以这种实现方式是相关技术实现方式的改进。

此外，在本文描述的示例实现方式中，能够实时向用户提供技能评估得分以指示他们执行特定子任务的程度。这样的示例实现方式解决了在各种时间段(例如，每几个月)重新配置的组装线，因为能够提供反馈以确定应该如何调整任务的工作流以及人们执行任务的良好程度以及哪些子任务造成瓶颈或进行得不好。通过这样的反馈，能够相应地调整要执行的任务，这使组装线更高效。

详细描述的一些部分从计算机内的算法或操作的符号表示的角度来呈现的。这些算法描述和符号表示是数据处理领域的普通技术人员将它们的创新的本质传达给本领域其它技术人员的手段。算法是导致期望的最终状态或结果的一系列定义步骤。在示例实现方式中，所实施的步骤需要有形量的物理操纵以实现有形结果。

除非另外特别说明，否则从讨论中可明显看出，应理解，在整个说明书中，利用诸如“处理”、“计算”、“计算出”、“确定”、“显示”等术语的讨论能够包括计算机系统或其它信息处理装置的动作和过程，计算机系统或其它信息处理装置将在计算机系统的寄存器和存储器内表示为物理(电子)量的数据操纵和变换成在计算机系统的存储器或寄存器或其它信息存储、传输或显示装置内类似地呈现为物理量的其它数据。

示例实现方式还可以涉及用于执行本文操作的设备。该设备可以为所需目的而专门构造的，或者它可以包括通过一个或更多个计算机程序选择性地激活或重新配置的一个或更多个通用计算机。这样的计算机程序可以存储在诸如计算机可读存储介质或计算机可读信号介质之类的计算机可读介质中。计算机可读存储介质可以涉及诸如但不限于光盘、磁盘、只读存储器、随机存取存储器、固态装置和驱动器之类的有形介质、或者适于存储电子信息的任何其它类型的有形或非暂时性介质。计算机可读信号介质可以包括诸如载波之类的介质。这里呈现的算法和显示并非固有地与任何特定计算机或其它设备相关。计算机程序能够涉及包括执行期望实现方式的操作的指令的纯软件实现方式。

根据这里的示例，各种通用系统可以与程序和模块一起使用，或者可以证明便于构造更专用设备以执行期望的方法步骤。另外，未参照任何特定编程语言描述示例实现方式。将理解，可以使用各种编程语言来实现如本文所述的示例实现方式的教导。编程语言的指令可以由一个或更多个处理装置(例如，中央处理单元(cpu)、处理器或控制器)执行。

如本领域中已知的，上述操作能够由硬件、软件或软件和硬件的一些组合来执行。可以使用电路和逻辑装置(硬件)来实现示例实现方式的各个方面，而其它方面可以使用机器可读介质上存储的指令(软件)来实现，如果由处理器执行该指令则将使处理器执行实施本申请的实现的方法。此外，本申请的一些示例实现方式可以仅在硬件中执行，而其它示例实现方式可以仅在软件中执行。此外，所描述的各种功能能够在单个单元中执行，或者能够以任何数量的方式分布在多个组件上。当由软件执行时，该方法可以基于计算机可读介质上存储的指令由诸如通用计算机之类的处理器来执行。如果需要，指令能够以压缩和/或加密格式存储在介质上。

此外，考虑到说明书及实践本申请的教导，本申请的其它实现对于本领域技术人员而言将是显而易见的。所描述的示例实现方式的各个方面和/或部件可以单独使用或以任何组合使用。旨在将说明书和示例实现方式仅视为示例，本申请的真实范围和精神由所附权利要求指示。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：C·A·巴特;P·邱;金哲暄;刘琼;织田英人;张艳霞
技术所有人：富士施乐株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。