用于脸部防欺骗的方法、服务器和设备与流程

文档序号：27378814发布日期：2021-11-15 19:12阅读：112来源：国知局

1.本文一般性地而非唯一地涉及用于脸部防欺骗的方法、服务器和设备。

背景技术：

[0002]“电子化了解你的客户(ekyc)”是实体为验证其用户的身份并评估非法意图的潜在风险而进行的数字尽职调查处理。在ekyc处理中，有时会使用脸部识别来基于脸部生物特征验证用户的身份。在脸部识别处理中，脸部真实性检测是用来确定为脸部识别而拍摄的自拍脸部图像是来自真人还是来自攻击(例如，屏幕截图、纸质打印件或面具)的一项重要的防欺骗过程。
[0003]
现有的脸部防欺骗采用两种主要方法：一种方法主要依靠用户的合作来拍摄大量的脸部图像以确定脸部的真实性，另一种方法主要依靠服务器侧的算法来分析一个静止的脸部图像以确定脸部的真实性。这两种主要方法有很大的缺点。例如，第一种方法可能给用户带来明显的不良体验，因为它需要用户合作进行多种交互(例如转头、开口、眨眼等)以获取所需的大量脸部图像。至于第二种方法，由于仅使用一个图像来确定脸部的真实性，而脸部其他视角(例如偏航角或俯仰角)的图像则被丢弃，因此在脸部真实性检测时无法达到令人满意的准确度。
[0004]
因此，存在提供试图克服或至少最小化上述问题的方法和设备的需求。

技术实现要素：

[0005]
根据本文的实施例，提供了一种脸部防欺骗方法。所述方法包括：从用户设备接收用户的脸部的多个图像，所述多个图像中的每个图像对应于一个脸部表情，所述脸部表情为所述用户对于多个交互质询中的每个交互质询而做出的响应，所述多个交互质询是从交互质询库随机选择的；将所述多个图像拼接为拼接图像；使用卷积神经网络(cnn)分类器获得所述拼接图像的置信度得分；以及基于所述置信度得分与阈值的比较来确定所述用户的脸部的真实性。
[0006]
根据本文的另一实施例，提供了一种脸部防欺骗方法。所述方法包括：从服务器接收对多个交互质询的请求，其中，所述多个交互质询是从交互质询库随机选择的；拍摄用户的脸部的多个图像，所述多个图像中的每个图像对应于一个脸部表情，所述脸部表情为所述用户对于多个交互质询中的每个交互质询而做出的响应；以及将所述拍摄的多个图像发送给所述服务器以获得置信度得分，以便基于所述置信度得分与阈值的比较来确定所述脸部的真实性。
[0007]
根据本文的另一实施例，提供了一种脸部防欺骗服务器。所述服务器包括：至少一个处理器；以及耦接至所述至少一个处理器且存储有用于由所述至少一个处理器执行的编程指令的存储器，所述编程指令指示所述服务器：从用户设备接收用户的脸部的多个图像，所述多个图像中的每个图像对应于一个脸部表情，所述脸部表情为所述用户对于多个交互质询中的每个交互质询而做出的响应，所述多个交互质询是从交互质询库随机选择的；将
所述多个图像拼接为拼接图像；使用卷积神经网络(cnn)分类器获得所述拼接图像的置信度得分；以及基于所述置信度得分与阈值的比较来确定所述用户的脸部的真实性。
[0008]
根据本文的另一实施例，提供了一种用于脸部防欺骗的设备，所述设备包括：至少一个处理器；以及耦接至所述至少一个处理器且存储有用于由所述至少一个处理器执行的编程指令的存储器，所述编程指令指示所述设备：从服务器接收对多个交互质询的请求，其中，所述多个交互质询是从交互质询库随机选择的；拍摄用户的脸部的多个图像，所述多个图像中的每个图像对应于一个脸部表情，所述脸部表情为所述用户对于多个交互质询中的每个交互质询而做出的响应；以及将所述拍摄的多个图像发送给所述服务器以获得置信度得分，以便基于所述置信度得分与阈值的比较来确定所述脸部的真实性。
附图说明
[0009]
实施例和实施方式仅以举例的方式提供，并且通过以下结合附图阅读的书面描述，本领域普通技术人员将更好地理解实施例和实施方式，并且这些实施例和实施方式将易于理解，其中：
[0010]
图1是示出根据实施例的脸部防欺骗方法100的示例的流程图。在该实施例中，脸部防欺骗方法100是在用于脸部防欺骗的服务器(以下称为脸部防欺骗服务器)处执行的。
[0011]
图2是示出根据另一实施例的脸部防欺骗方法200的示例的流程图。在该实施例中，方法200在用于脸部防欺骗的设备处执行。该设备可以为用户在ekyc处理中使用的用户设备，例如用户的移动电话等。
[0012]
图3a示出了描绘脸部防欺骗方法的实施例中的用户设备302与脸部防欺骗服务器304之间的数据流的示例的图300a。
[0013]
图3b示出了描绘脸部防欺骗方法的另一实施例中的用户设备302与脸部防欺骗服务器304之间的数据流的示例的图300b。
[0014]
图4示出了描绘交互质询库的实施例的图400。在实施例400中，交互质询库包括以下交互质询：眨眼、开口、闭口、低头(head pitch down)402、抬头(head pitch up)404、向左歪头(head roll left)406、向右歪头(head roll right)408、向左转头(head yaw left)410和/或向右转头(head yaw right)412。
[0015]
图5示出了说明根据实施例的脸部防欺骗处理500的示例的流程图。该实施例包括在脸部防欺骗服务器和用于脸部防欺骗的设备处执行的步骤。
[0016]
图6示出了说明根据实施例的训练卷积神经网络(cnn)分类器的方法600的示例的流程图。在该实施例中，利用大小为n
×9×
h
×
w的训练数据集来训练cnn分类器，其中，n为一次迭代中要训练的图像的数量，h为每个图像的高度，w为每个图像的宽度。在该实施例中，9表示训练数据集中用作输入的每个图像中拼接3个图像。
[0017]
图7示出了适合用作如图300a和图300b所示的脸部防欺骗服务器304或用户设备302的计算机系统700的示例的框图。
[0018]
所属领域的技术人员将理解，为了简单和清楚起见而示出图中的元件，且未必按比例描绘。例如，可相对于其他元件扩大图示、框图或流程图中的一些元件的大小，以帮助增进对实施例的理解。
具体实施方式
[0019]
将仅以举例的方式参照附图描述了实施例。附图中相同的附图标记和字符表示相同的元件或等同物。
[0020]
以下描述的某些部分是根据对计算机存储器内数据的操作的算法以及功能或符号表示来显式或隐式呈现的。这些算法描述以及功能或符号表示是数据处理领域技术人员用来最有效地向本领域其他技术人员传达其工作实质的手段。这里，算法通常被认为是导致所需结果的一系列自洽的步骤。这些步骤是需要对能够存储、传输、组合、比较和以其他方式操纵的电信号、磁信号或光信号之类的物理量进行物理操纵的步骤。
[0021]
除非另有特别说明，并且从下文中可明显看出，否则将理解，在整个本文中，利用诸如“接收”、“拼接(concatenate)”、“使用”、“确定”、“拍摄”、“发送”等的术语指的是计算机系统或类似电子设备的动作和处理，所述计算机系统或类似电子设备将计算机系统内的以物理量表示的数据操纵和转换为计算机系统或其他信息存储、传输或显示设备内的类似以物理量表示的其他数据。
[0022]
本文还公开了用于执行所述方法的操作的装置。这样的装置可被专门地构造用于所需的目的，或者可包括计算机或由存储在计算机中的计算机程序选择性地激活或重新配置的其他设备。本文提出的算法和显示与任何特定计算机或其他装置没有固有的关联。根据本文的教导，各种机器可与程序一起使用。可选地，用于执行所需方法步骤的更专用的装置的构造可能是合适的。适合于执行本文描述的各种方法/处理的计算机的结构将从下面的描述中显现。
[0023]
另外，本文还隐含地公开了一种计算机程序，因为对于本领域技术人员而言清楚的是，本文所述方法的各个步骤可通过计算机代码来实现。计算机程序不旨在限于任何特定的编程语言及其实现。应当理解，各种编程语言及其代码可用于实现本文所包含的本公开的教导。而且，计算机程序不旨在限于任何特定的控制流。在不脱离本文的精神或范围的情况下，计算机程序还有许多其他变体，其可使用不同的控制流。
[0024]
此外，计算机程序的一个或多个步骤可并行而不是顺序地执行。这样的计算机程序可存储在任何计算机可读介质上。计算机可读介质可包括诸如磁盘或光盘的存储设备、存储芯片、或适合于与计算机接口的其他存储设备。计算机可读介质还可包括诸如在互联网系统中例示的硬连线介质，或者诸如在gsm移动电话系统中例示的无线介质。当在这样的计算机上加载并执行该计算机程序时，该计算机程序有效地产生了实现方法的步骤的装置。
[0025]
本文中的方法和设备的实施例需要来自用户侧的交互较少，并且同时，在服务器侧能够分析示出脸部的多个视角的多个脸部图像，以确定为脸部识别而拍摄的多个脸部图像是来自活人还是来自攻击。以此方式，方法和设备的实施例不仅改善了用户体验，而且在脸部真实性检测中实现了更高的准确度。
[0026]
图1是示出在用于脸部防欺骗的服务器处执行的脸部防欺骗方法100的实施例的流程图。在本文中，用于脸部防欺骗的服务器可互换地称为脸部防欺骗服务器。在本实施例中，脸部防欺骗方法100包括步骤102、104、106和108。
[0027]
在步骤102，脸部防欺骗服务器从用户设备接收用户的脸部的多个图像。多个图像中的每个图像对应于一个脸部表情，所述脸部表情为所述用户对于多个交互质询中的每个
交互质询而做出的响应，所述多个交互质询是从交互质询库随机选择的。
[0028]
在一些实施例中，步骤102可以是由脸部防欺骗服务器响应于来自用户设备的、用以发起脸部防欺骗处理的请求而发起的。这种处理的示例在图3a和图3b中进行了描绘，并且在相应的段落中进行了描述。
[0029]
在步骤102之前，脸部防欺骗服务器可以建立交互质询库。交互质询库的实施例400在图4中示出。如图4所示，交互质询库包括以下交互质询：眨眼、开口、闭口、低头402、抬头404、向左歪头406、向右歪头408、向左转头410和/或向右转头412。本领域技术人员将理解，交互质询库可以包括其他交互质询。
[0030]
对于每个交互质询，至少需要脸部的起始表情和结束表情，并且用户必须在特定时间段内完成该交互质询；否则，该交互质询将终止。例如，在开口质询期间，用户需要在特定时间段内张开他/她的嘴巴，然后合上他/她的嘴巴。特定时间段可以是基于实际准确度和用户体验要求而预先确定的，例如2秒、3秒等。
[0031]
在步骤102之前，在一些实施例中，脸部防欺骗服务器可以从交互质询库随机选择3个交互质询以形成多个交互质询。在一些可选实施例中，随机选择的交互质询的数量是可变的，以满足准确度和用户体验的实际要求。例如，在这些可选实施例中，多个交互质询可以包括2个、4个或其他数量的随机选择的交互质询。
[0032]
在一些实施例中，随机选择的交互质询可以由脸部防欺骗服务器响应于接收到来自用户设备的、用以发起脸部防欺骗处理的请求，而在发送给用户设备的、对多个交互质询的请求中指示。响应于来自脸部防欺骗服务器的、对多个交互质询的请求，用户设备根据多个交互质询来拍摄用户的脸部的多个图像。
[0033]
如上所述，多个交互质询中的每个交互质询至少需要脸部的起始表情和结束表情，并且用户必须在特定时间段内完成该交互质询。例如，眨眼质询可能需要睁开眼睛的表情作为起始表情，闭上眼睛的表情作为结束表情。开口质询可能需要合上嘴巴的表情作为起始表情，张开嘴巴的表情作为结束表情。闭口质询可能需要张开嘴巴的表情作为起始表情，合上嘴巴的表情作为结束表情。低头质询可能需要头部正面朝前的起始表情和头部朝下的结束表情。抬头质询可能需要头部正面朝前的起始表情和头部朝上的结束表情。向左歪头质询可能需要头部正面朝前的起始表情和头部歪向左的结束表情。向右歪头质询可能需要头部正面朝前的起始表情和头部歪向右的结束表情。向左转头质询可能需要头部正面朝前的起始表情和头部转向左的结束表情。向右转头质询可能需要头部正面朝前的起始表情和头部转向右的结束表情。本领域技术人员可以理解，上述多个交互质询可能需要其他表情作为起始表情和结束表情。
[0034]
对于多个交互质询中的每个交互质询，至少需要起始表情和结束表情，这是有利的。这样的要求定义了每个交互质询的起始点和结束点。以此方式，无论用户是谁，仅当用户做出交互质询的起始表情时才触发交互质询的起始点，仅当用户做出交互质询的结束表情时才触发交互质询的结束点。这种机制有助于确定用户是否完成了交互质询，并有助于计算从起始点到结束点的持续时间，以便确定交互质询是否在特定时间段(例如2秒、3秒等)内完成。如果用户在特定时间段内未能完成交互质询，则用户设备可以请求用户重做相同或不同的交互质询。
[0035]
本领域技术人员可以理解，除了或代替起始表情和结束表情，多个交互质询的每
个交互质询可能需要一个或多个中间表情。在这些情况下，一个或多个中间表情为每个交互质询定义一个或多个中间点。为了简单起见，本文不描述中间表情和中间点的细节。
[0036]
对于多个交互质询中的每个交互质询，一旦用户完成任务，就将拍摄结束表情的图像作为用于脸部防欺骗的多个图像之一。例如，如果多个交互质询包括开口质询，则用户需要在特定时间段内张开他/她的嘴巴然后合上他/她的嘴巴，并且将在该特定时间段结束之前在用户合上他/她的嘴巴时拍摄图像。以此方式，多个图像中的每个图像对应于一个脸部表情，所述脸部表情为所述用户对于多个交互质询中的每个交互质询而做出的响应，所述多个交互质询是从交互质询库随机选择的。
[0037]
针对多个交互质询中的每个交互质询拍摄结束表情的图像，并将其作为用于脸部防欺骗的多个图像之一，这提供了两方面的优点。首先，该机制确保从同一交互质询的不同用户拍摄的图像反映相同的脸部表情，从而有助于拍摄的图像的准确数据训练过程。此外，该机制使在每个交互质询的结束点拍摄每个交互质询的图像的时机标准化，从而提高了脸部防欺骗处理的效率。
[0038]
本领域技术人员可以理解，除了或代替结束表情的图像，可以针对多个交互质询中的每个交互质询拍摄中间表情的图像和/或起始表情的图像。以此方式，本文描述的脸部防欺骗方法、设备和系统可以提供进一步增强的准确度。
[0039]
然后在步骤102，多个图像从用户设备被发送，并被脸部防欺骗服务器接收。这种处理的示例在图3a和图3b中进行了描绘，并且在相应的段落中进行了描述。
[0040]
在步骤104，脸部防欺骗服务器将多个图像拼接为拼接图像。例如，如果多个图像包括3个图像，每个图像的大小为128
×
128
×
3，则可以将3个图像拼接为大小为128
×
128
×
9的拼接图像。
[0041]
在步骤106，脸部防欺骗服务器使用卷积神经网络(cnn)分类器来获得拼接图像的置信度得分。
[0042]
cnn分类器可以在步骤102之前由脸部防欺骗服务器进行训练。在步骤102之前，脸部防欺骗服务器可以利用训练数据集来训练cnn分类器。在一些实施例中，训练数据集的大小为n
×9×
h
×
w，其中，n为一次迭代中要训练的图像的数量，h为每个图像的高度，w为每个图像的宽度。在该实施例中，9表示在训练数据集中用作输入的每个图像中拼接3个图像。这种经训练的cnn分类器适合于基于用户的脸部的3个图像来确定用户的脸部的真实性，其中，用户的脸部的3个图像对应于3个脸部表情，所述3个脸部表情为所述用户对于随机选择的3个交互质询而做出的响应，如上所述。
[0043]
在可选实施例中，cnn分类器可以由脸部防欺骗服务器利用不同大小的训练数据集进行训练。例如，训练数据集的大小可以为n
×
v
×
h
×
w，其中，n为一次迭代中要训练的图像的数量，h为每个图像的高度，w为每个图像的宽度，v表示在训练数据集中用作输入的每个图像中拼接1/3v个图像。以此方式，利用大小为n
×6×
h
×
w的训练数据集训练的cnn分类器将适合于基于用户的脸部的2个图像来确定用户的脸部的真实性，其中，用户的脸部的2个图像对应于2个脸部表情，所述2个脸部表情为所述用户对于随机选择的2个交互质询而做出的响应。同样，利用大小为n
×
12
×
h
×
w的训练数据集训练的cnn分类器将适合于基于用户的脸部的4个图像来确定用户的脸部的真实性，其中，用户的脸部的4个图像对应于4个脸部表情，所述4个脸部表情为所述用户对于随机选择的4个交互质询而做出的响应。
[0044]
在图6所示的实施例中，在步骤106，可以由脸部防欺骗服务器将拼接图像608输入到cnn分类器634以获得置信度得分。
[0045]
此后，在步骤108，脸部防欺骗服务器基于置信度得分与阈值t的比较来确定用户的脸部的真实性。例如，如果置信度得分大于阈值t，则脸部防欺骗服务器可以确定从用户设备接收的多个图像是来自攻击，而不是来自活人。拼接图像608可以被标记为“攻击”，并且被用于cnn分类器634的未来训练。同样，如果置信度得分小于或等于阈值t，则脸部防欺骗服务器可以确定从用户设备接收的多个图像的确来自活人。拼接图像608可以被标记为“真实”，并且被用于cnn分类器634的未来训练。
[0046]
通过从在交互质询库中收集的广泛的交互质询随机选择交互质询，本文在无需用户进行大量交互的情况下，实现了可靠的脸部防欺骗机制。以此方式，可以在不牺牲脸部真实性检测的准确度的情况下改善用户体验。
[0047]
同时，通过使用多个图像，每个图像对应于一个脸部表情，所述脸部表情为所述用户对于多个交互质询中的每个交互质询而做出的响应，所述多个交互质询是从交互质询库随机选择的，本文通过拼接多个图像并使用cnn分类器来确定拼接图像的真实性，可以在脸部真实性检测中实现更高的准确度。
[0048]
图2是示出根据另一实施例的脸部防欺骗方法200的流程图。在该实施例中，方法200在用于脸部防欺骗的设备处执行。该设备可以为用户在ekyc处理中使用的用户设备，例如用户的移动电话等。为了简单起见，在本文中，用于脸部防欺骗的设备可互换地称为用户设备。在本实施例中，脸部防欺骗方法200包括步骤202、204和206。
[0049]
在步骤202，用户设备从服务器接收对多个交互质询的请求。在该实施例中，服务器为关于图1描述的脸部防欺骗服务器。多个交互质询是由脸部防欺骗服务器从交互质询库随机选择的。
[0050]
在一些实施例中，交互质询库被建立并被存储在脸部防欺骗服务器处。交互质询库可以包括以下交互质询：眨眼、开口、闭口、低头、抬头、向左歪头、向右歪头、向左转头和/或向右转头。本领域技术人员将理解，交互质询库可以包括其他交互质询。对于每个交互质询，至少需要脸部的起始表情和结束表情，并且用户必须在特定时间段内完成该交互质询；否则，该交互质询将终止。例如，在开口质询期间，用户需要在特定时间段内张开他/她的嘴巴，然后合上他/她的嘴巴。特定时间段可以基于实际准确度和用户体验要求而预先确定，例如2秒、3秒等。
[0051]
在一些实施例中，多个交互质询包括从交互质询库随机选择的3个交互质询。在一些可选实施例中，随机选择的交互质询的数量是可变的，以满足准确度和用户体验的实际要求。例如，在这些可选实施例中，多个交互质询可以包括2个、4个或其他数量的随机选择的交互质询。
[0052]
在一些实施例中，在步骤202由用户设备接收的、对多个交互质询的请求可以由脸部防欺骗服务器响应于接收到来自用户设备的、用以发起脸部防欺骗处理的请求而生成。这种处理的示例在图3a和图3b中进行了描绘并且在相应的段落中进行了描述。
[0053]
在步骤204，用户设备拍摄用户的脸部的多个图像，多个图像中的每个图像对应于一个脸部表情，所述脸部表情为所述用户对于多个交互质询中的每个交互质询而做出的响应。如上所述，多个交互质询中的每个交互质询至少需要脸部的起始表情和结束表情，并且
用户必须在特定时间段内完成该交互质询。对于多个交互质询中的每个交互质询，一旦用户完成任务，就将拍摄结束表情的图像作为用于脸部防欺骗的多个图像之一。例如，如果多个交互质询包括开口质询，则用户需要在特定时间段内张开他/她的嘴巴然后合上他/她的嘴巴，并且将在该特定时间段结束之前在用户合上他/他的嘴巴时拍摄图像。
[0054]
在步骤206，用户设备将拍摄的多个图像发送给脸部防欺骗服务器以获得置信度得分，以便基于置信度得分与阈值的比较来确定脸部的真实性。
[0055]
当在步骤206从用户设备向脸部防欺骗服务器发送拍摄的多个图像时，脸部防欺骗服务器将多个图像拼接为拼接图像，并使用卷积神经网络(cnn)分类器来获得该拼接图像的置信度得分，如关于图1的步骤104和106所描述的。此后，在一些实施例中，脸部防欺骗服务器基于置信度得分与阈值t的比较来确定用户的脸部的真实性，如关于图1的步骤108所描述的。在可选实施例中，脸部防欺骗服务器可以将置信度得分发送给用户设备，用户设备随后基于置信度得分与阈值t的比较来确定用户的脸部的真实性。可选实施例的示例在图3b中进行了描绘。
[0056]
如上所述，通过从在交互质询库中收集的广泛的交互质询随机选择交互质询，本文在无需用户进行大量交互的情况下，实现了可靠的脸部防欺骗机制。以此方式，可以在不牺牲脸部真实性检测的准确度的情况下改善用户体验。
[0057]
同时，通过使用多个图像，每个图像对应于一个脸部表情，所述脸部表情为所述用户对于多个交互质询中的每个交互质询而做出的响应，所述多个交互质询是从交互质询库随机选择的，本文通过拼接多个图像并使用cnn分类器来确定拼接图像的真实性，可以在脸部真实性检测中实现更高的准确度。
[0058]
图3a和图3b描绘了脸部防欺骗方法的实施例300a和300b中的用户设备302与脸部防欺骗服务器304之间的数据流。
[0059]
如图所示，脸部防欺骗方法的实施例300a和300b包括相同的步骤306、308、310、312、314、316、318、320和322。在步骤322之后，实施例300a还包括步骤324和326，而实施例300b包括步骤324'和326'。
[0060]
在图3a中，步骤318、320、322和324对应于如图1所示的脸部防欺骗方法100的步骤102、104、106和108。在图3a和图3b中，步骤314、316和318对应于如图2所示的脸部防欺骗方法200的步骤202、204和206。
[0061]
在步骤306，脸部防欺骗服务器304建立交互质询库，其中，交互质询库包括以下交互质询：眨眼、开口、闭口、低头、抬头、向左歪头、向右歪头、向左转头和/或向右转头。
[0062]
在步骤308，脸部防欺骗服务器304利用大小为n
×9×
h
×
w的训练数据集来训练卷积神经网络(cnn)分类器，其中，n为一次迭代中要训练的图像的数量，h为每个图像的高度，w为每个图像的宽度。在该实施例中，9表示在训练数据集中用作输入的每个图像中拼接3个图像。
[0063]
在步骤310，用户设备302发起脸部防欺骗处理。
[0064]
在步骤312，响应于接收到来自用户设备302的、用以发起脸部防欺骗处理的请求，脸部防欺骗服务器304从交互质询库随机选择3个交互质询以形成多个交互质询。可选地，如关于图1和图2所描述的，脸部防欺骗服务器304可以从交互质询库随机选择不同数量的交互质询以形成多个交互质询。在这些可选实施例中，cnn分类器可以是已利用除n
×9×
h
×
w以外的不同大小的训练数据集训练的。
[0065]
在步骤314，用户设备302从脸部防欺骗服务器304接收对多个交互质询的请求。
[0066]
在步骤316，响应于在步骤314接收的请求，用户设备302拍摄用户的脸部的多个图像，多个图像中的每个图像对应于一个脸部表情，所述脸部表情为所述用户对于多个交互质询中的每个交互质询而做出的响应。
[0067]
在步骤318，用户设备302将多个图像发送给脸部防欺骗服务器304。换句话说，脸部防欺骗服务器304从用户设备302接收多个图像。
[0068]
在步骤320，脸部防欺骗服务器304将多个图像拼接为拼接图像。
[0069]
在步骤322，脸部防欺骗服务器304使用卷积神经网络(cnn)分类器来获得拼接图像的置信度得分。
[0070]
一旦在步骤322获得了置信度得分，则在步骤324，脸部防欺骗服务器304基于置信度得分与阈值的比较来确定用户的脸部的真实性。
[0071]
作为步骤324的可选实施例，在步骤324'，脸部防欺骗服务器304可以将置信度得分发送给用户设备302。换句话说，在步骤324'，用户设备302从脸部防欺骗服务器304接收置信度得分。
[0072]
一旦在步骤324确定了用户的脸部的真实性，则在步骤326，脸部防欺骗服务器304可以将脸部真实性确定的结果发送给用户设备302。换句话说，在步骤326，用户设备302从脸部防欺骗服务器304接收脸部真实性确定的结果。
[0073]
作为步骤326的可选实施例，在步骤326'，用户设备302可以基于在步骤324'所接收的置信度得分与阈值的比较来确定用户的脸部的真实性。
[0074]
图5示出了说明根据实施例的脸部防欺骗处理500的流程图。该实施例包括在脸部防欺骗服务器和用户设备处执行的步骤。
[0075]
如图5所示，在步骤502，在用户设备处发起脸部防欺骗处理500。
[0076]
在步骤504，响应于脸部防欺骗处理的发起，脸部防欺骗服务器从交互质询库随机选择3个交互质询以形成多个交互质询。
[0077]
在本实施例中，随机选择开口质询，向左转头质询和抬头质询，并形成多个交互质询。脸部防欺骗服务器随后将对多个交互质询的请求发送给用户设备。
[0078]
在接收到对多个交互质询的请求时，在步骤506，用户设备响应于开口质询，请求用户做出脸部表情，在步骤508，响应于向左转头质询做出另一脸部表情，并在步骤510响应于抬头质询，做出另一脸部表情。
[0079]
在步骤512、514和516，由用户设备分别拍摄与这些脸部表情相对应的用户的脸部的多个图像。随后将用户的脸部的多个图像518、520和522从用户设备发送给脸部防欺骗服务器。
[0080]
脸部防欺骗服务器随后在步骤524将多个图像518、520和522拼接为拼接图像，在步骤526使用cnn分类器来获得该拼接图像的置信度得分；然后在步骤528基于置信度得分与阈值的比较来确定用户的脸部的真实性。
[0081]
在步骤530，脸部防欺骗服务器可以将脸部真实性确定的结果发送给用户设备，其标记脸部防欺骗处理500的结束。
[0082]
图6示出了说明根据实施例的训练卷积神经网络(cnn)分类器634的方法600的流
程图。可以在脸部防欺骗服务器中配置和训练cnn分类器634。
[0083]
在该实施例中，利用大小为n
×9×
h
×
w的训练数据集来训练cnn分类器634，其中，n为一次迭代中要训练的图像的数量，h为每个图像的高度，w为每个图像的宽度。在该实施例中，9表示训练数据集中用作输入的每个图像中拼接3个图像。
[0084]
如图6所示，在本实施例中，将3个图像602、604和606拼接为拼接图像608。3个图像602、604和606中的每个图像的大小为128
×
128
×
3，因此拼接图像608的大小为128
×
128
×
9。拼接图像608被提供给cnn分类器634作为输入608。
[0085]
在该实施例中，cnn分类器634包括第一卷积层610、第一池化层612、第二卷积层614、第二池化层616、第三卷积层618、第三池化层620、第四卷积层622、第四池化层624、完全连接层626和输出层628。
[0086]
在该实施例中，cnn分类器634可以通过层610至628处理拼接图像608，并且在输出层628处获得拼接图像608的置信度得分。
[0087]
cnn分类器634还可以包括比较组件630，以将置信度得分与阈值t进行比较。例如，如果置信度得分大于阈值t，则脸部防欺骗服务器可以确定从用户设备接收的多个图像来自攻击，而不是活人。拼接图像608可以被标记为“攻击”，并且被用于cnn分类器634的未来训练。同样，如果置信度得分小于或等于阈值t，则脸部防欺骗服务器可以确定从用户设备接收的多个图像的确来自活人。拼接图像608可以被标记为“真实”，并且被用于cnn分类器634的未来训练。
[0088]
cnn分类器634还可以包括softmax损失层632。在比较组件630处进行比较之后，从输出层628获得的置信度得分可以通过softmax损失层632。softmax损失层随后将置信度得分转换为概率值。以此方式，训练数据中的每个输入被分类为具有最高概率值的对应类别。
[0089]
该实施例中的这种cnn分类器634适合于基于用户的脸部的3个图像来确定用户的脸部的真实性，其中，用户的脸部的3个图像对应于3个脸部表情，所述3个脸部表情为所述用户对于随机选择的3个交互质询而做出的响应，如上所述。
[0090]
在可选实施例中，cnn分类器可以由脸部防欺骗服务器利用不同大小的训练数据集进行训练。例如，训练数据集的大小可以为n
×
v
×
h
×
w，其中，n为一次迭代中要训练的图像的数量，h为每个图像的高度，w为每个图像的宽度，v表示在训练数据集中用作输入的每个图像中拼接1/3v个图像。以此方式，利用大小为n
×6×
h
×
w的训练数据集训练的cnn分类器634将适合于基于用户的脸部的2个图像来确定用户的脸部的真实性，其中，用户的脸部的2个图像对应于2个脸部表情，所述2个脸部表情为所述用户对于随机选择的2个交互质询而做出的响应。同样，利用大小为n
×
12
×
h
×
w的训练数据集训练的cnn分类器634将适合于基于用户的脸部的4个图像来确定用户的脸部的真实性，其中，用户的脸部的4个图像对应于4个脸部表情，所述4个脸部表情为所述用户对于随机选择的4个交互质询而做出的响应。
[0091]
图7示出了适合用作如图300a和图300b所示的脸部防欺骗服务器304或用户设备302的计算机系统700的框图。
[0092]
仅以举例的方式提供对计算机系统/计算设备700的描述，而不旨在进行限制。
[0093]
如图7所示，示例性计算设备700包括用于执行软件例程的至少一个处理器704。尽管为了清楚起见示出了单个处理器，但是计算设备700还可包括多处理器系统。处理器704连接到通信基础设施706，以与计算设备700的其他组件进行通信。通信基础设施706可包括
例如通信总线、交叉开关或网络。
[0094]
计算设备700还包括诸如随机存取存储器(ram)之类的主存储器708和辅助存储器710。辅助存储器710可包括例如硬盘驱动器712和/或可移动存储驱动器714，其中，可移动存储驱动器714可包括磁带驱动器、光盘驱动器等。可移动存储驱动器714以众所周知的方式对可移动存储单元718进行读取和/或写入。可移动存储单元718可包括由可移动存储驱动器714读取和写入的磁带、光盘等。如相关领域技术人员将理解的那样，可移动存储单元718包括其中存储有计算机可执行程序代码指令和/或数据的计算机可读存储介质。
[0095]
在可选实施方式中，辅助存储器710可附加地或可选地包括用于允许将计算机程序或其他指令加载到计算设备700中的其他类似装置。这样的装置可包括例如可移动存储单元722和接口720。可移动存储单元722和接口720的示例包括可移动存储芯片(例如eprom或prom)和相关联的插槽以及允许软件和数据从可移动存储单元722传输到计算机系统700的其他可移动存储单元722和接口720。
[0096]
计算设备700还包括至少一个通信接口724。通信接口724允许软件和数据经由通信路径726在计算设备700和外部设备之间传送。在各种实施例中，通信接口724允许在计算设备700和诸如公共数据或私有数据通信网络之类的数据通信网络之间传输数据。通信接口724可用于在不同的计算设备700之间交换数据，这些计算设备700形成互连的计算机网络的一部分。通信接口724的示例可包括调制解调器、网络接口(诸如以太网卡)、通信端口、具有相关电路的天线等。通信接口724可以是有线的或者可以是无线的。经由通信接口724传送的软件和数据的形式为信号，该信号可以是能够被通信接口724接收的电、电磁、光或其他信号。这些信号通过通信路径726提供给通信接口。
[0097]
可选地，计算设备700还包括：显示器接口702，其执行用于将图像呈现到相关联的显示器730的操作；以及音频接口732，其执行用于经由相关联的扬声器734播放音频内容的操作。
[0098]
如本文所使用的，术语“计算机程序产品”可部分地指代可移动存储单元718、可移动存储单元722、安装在存储驱动器712中的硬盘、或承载通过通信路径726(无线链路或电缆)至通信接口724的软件的载波。计算机可读存储介质是指将记录的指令和/或数据提供给计算设备700以执行和/或处理的任何非暂时性、有形存储介质。这种存储介质的示例包括软盘、磁带、cd
‑
rom、dvd、蓝光(blu
‑
ray tm
)光盘、硬盘驱动器、rom或集成电路、usb存储器、磁光盘或诸如pcmcia卡之类的计算机可读卡，无论这些设备是在计算设备700的内部还是外部。也可参与向计算设备700提供软件、应用程序、指令和/或数据的暂时性或非有形计算机可读传输介质的示例包括无线电或红外传输信道及至另一计算机或联网设备的网络连接，以及包括电子邮件传输和网站等上记录的信息的互联网或以太网等。
[0099]
计算机程序(也称为计算机程序代码)存储在主存储器708和/或辅助存储器710中。也可经由通信接口724接收计算机程序。此类计算机程序在被执行时使计算设备700能够执行本文所讨论的实施例的一个或多个特征。在各种实施例中，计算机程序在被执行时使处理器704能够执行上述实施例的特征。因此，此类计算机程序表示计算机系统700的控制器。
[0100]
软件可存储在计算机程序产品中，并可使用可移动存储驱动器714、存储驱动器712或接口720加载到计算设备700中。可选地，可通过通信路径726将计算机程序产品下载
到计算机系统700。该软件在由处理器704执行时使计算设备700执行本文描述的实施例的功能。
[0101]
应该理解，图7的实施例仅以举例的方式给出。因此，在一些实施例中，可省略计算设备700的一个或多个特征。而且，在一些实施例中，计算设备700的一个或多个特征可被组合在一起。另外，在一些实施例中，计算设备700的一个或多个特征可被分成一个或多个组成部分。
[0102]
例如，计算设备700可以为脸部防欺骗服务器。脸部防欺骗服务器包括至少一个处理器；以及耦接至所述至少一个处理器且存储有用于由所述至少一个处理器执行的编程指令的存储器，所述编程指令指示所述脸部防欺骗服务器：从用户设备接收用户的脸部的多个图像，所述多个图像中的每个图像对应于一个脸部表情，所述脸部表情为所述用户对于多个交互质询中的每个交互质询而做出的响应，所述多个交互质询是从交互质询库随机选择的；将所述多个图像拼接为拼接图像；使用卷积神经网络(cnn)分类器获得所述拼接图像的置信度得分；以及基于所述置信度得分与阈值的比较来确定所述用户的脸部的真实性。
[0103]
在一些实施例中，所述脸部防欺骗服务器还被指示：建立交互质询库，其中，所述交互质询库包括以下交互质询：眨眼、开口、闭口、低头、抬头、向左歪头、向右歪头、向左转头和/或向右转头。
[0104]
在一些实施例中，所述脸部防欺骗服务器还被指示：从所述交互质询库随机选择3个交互质询以形成所述多个交互质询。
[0105]
在一些实施例中，所述脸部防欺骗服务器还被指示：利用大小为n
×9×
h
×
w的训练数据集来训练所述cnn分类器，其中，n为一次迭代中要训练的图像的数量，h为每个图像的高度，w为每个图像的宽度。
[0106]
例如，计算设备700可以为用于脸部防欺骗的设备或用户设备。所述设备包括：至少一个处理器；以及耦接至所述至少一个处理器且存储有用于由所述至少一个处理器执行的编程指令的存储器，所述编程指令指示所述设备：从服务器接收对多个交互质询的请求，其中，所述多个交互质询是从交互质询库随机选择的；拍摄用户的脸部的多个图像，所述多个图像中的每个图像对应于一个脸部表情，所述脸部表情为所述用户对于多个交互质询中的每个交互质询而做出的响应；以及将所述拍摄的多个图像发送给所述服务器以获得置信度得分，以便基于所述置信度得分与阈值的比较来确定所述脸部的真实性。
[0107]
在一些实施例中，所述交互质询库包括以下交互质询：眨眼、开口、闭口、低头、抬头、向左歪头、向右歪头、向左转头和/或向右转头。
[0108]
在一些实施例中，所述多个交互质询包括从所述交互质询库随机选择的3个交互质询。
[0109]
在一些实施例中，所述多个交互质询中的每个交互质询至少需要所述脸部的起始表情和结束表情，所述脸部表情为所述脸部的结束表情。
[0110]
本文描述的技术产生一个或多个技术效果。如上所述，本文实施例提供了需要来自用户侧的交互较少的脸部防欺骗方法，并且同时，在服务器侧能够分析示出脸部的多个视角的多个脸部图像，以确定为脸部识别而拍摄的多个脸部图像是来自活人还是来自攻击。以此方式，方法和设备的实施例不仅改善了用户体验，而且在脸部真实性检测中实现了更高的准确度。
[0111]
如上所述，通过从在交互质询库中收集的广泛的交互质询随机选择交互质询，本文在无需用户进行大量交互的情况下，实现了可靠的脸部防欺骗机制。以此方式，可以在不牺牲脸部真实性检测的准确度的情况下改善用户体验。
[0112]
同时，通过使用多个图像，每个图像对应于一个脸部表情，所述脸部表情为所述用户对于多个交互质询中的每个交互质询而做出的响应，所述多个交互质询是从交互质询库随机选择的，本文通过拼接多个图像并使用cnn分类器来确定拼接图像的真实性，可以在脸部真实性检测中实现更高的准确度。
[0113]
本领域技术人员将理解，在不脱离如广泛描述的本文的精神或范围的情况下，可对本文特定实施例所示的内容进行多种变化和/或修改。因此，所述实施例在所有方面都应被认为是说明性的而非限制性的。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐炎
技术所有人：支付宝实验室（新加坡）有限公司
我是此专利的发明人

上一篇：一种降低龙井茶涩味的加工方法与流程
上一篇：一种循环水动力发电设备之管轮驱动结构及其工艺方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。