使用视听不一致性的活体检测的制作方法

文档序号:30390006发布日期:2022-06-11 14:07阅读:223来源:国知局
使用视听不一致性的活体检测的制作方法

1.本公开涉及用户身份认证,并且更具体地,涉及使用认证用户身份的视听一致性检查的活体检测(liveness detection)。


背景技术:

2.在诸如银行、保险、酒店、金融服务、基于支付的服务等这样的各种行业中使用电子了解你的顾客(ekyc)程序来识别和验证顾客的身份。现有技术的ekyc方案通常采用生物特征识别验证系统。如图1中所示,生物特征识别验证系统包括两个阶段:登记阶段,在登记阶段中将用户的生物特征映射到数据库中的用户;以及验证阶段,在该验证阶段中,通过传感器提取用户的生物特征并将其与先前在数据库中登记的特征进行比较,以便认证用户。
3.然而,现有技术的生物特征识别系统容易受到各种类型的演示攻击(presentation attack)的侵害,即,受到目的是欺骗的对生物特征捕获子系统(例如,生物特征识别传感器)的欺骗性演示或以其它方式干扰生物特征识别系统操作的侵害。例如,可以将人为地表示生物特性的副本的伪像向生物识别系统演示,以模仿注册用户并认证攻击者。
4.演示攻击包括二维(2d)攻击、三维(3d)攻击和语音攻击。2d攻击包括打印攻击、显示攻击和视频攻击,在打印攻击中演示的是注册用户的打印照片(例如,面部图像)或注册用户的生物特征的伪像(例如,伪造指纹),在显示攻击中经由诸如移动电话这样的显示装置演示注册用户的图像,并且在视频攻击中演示的是注册用户的视频。此外,3d攻击包括面具攻击,在面具攻击中,攻击者穿戴可穿戴的打印的或硅胶3d面具,或者攻击者穿戴或以其它方式演示用户的生物特征的3d伪像(例如,伪造虹膜)以模仿注册用户。
5.现有技术的ekyc方案采用各种演示攻击检测机制来自动地确定并防止演示攻击。这种机制包括通过创建用于验证用户的3d面部深度图的深度图分析进行的面部检测、基于心率或心脏监测来验证用户的远程光电容积描记(rppg)方法以及基于实时热图像来验证用户的基于热成像的面部活体检测。然而,这些机制有各种缺点。例如,3d面部深度分析和基于热成像的面部活体检测二者都产生由附加所需的传感器(例如,热像仪)导致的额外成本和复杂度。另外,rppg方法需要大量时间并具有相对低的精度。


技术实现要素:

6.提供了基于随机短语考验(random phrase challenge)来验证用户的视听相似度检查的活体检测验证方法和系统。
7.还提供了包括语音识别机器学习模型以基于随机短语考验来验证视听相似度检测机器学习模型的检测结果的活体检测验证方法和系统。
8.还提供了训练视听相似度检测机器学习模型和用于在ekyc应用中认证用户的语音识别机器学习模型的方法和系统。
9.根据实施方式的一方面,提供了一种通过至少一个处理装置验证活体检测的方
法,该方法包括以下步骤:获得用户响应于向所述用户呈现的问题或随机生成短语而说出短语的视频;对所述视频进行处理,以获得所述用户的视频数据和音频数据;将所获得的视频数据和所获得的音频数据输入到第一确定模型,以获得指示所述用户的嘴部运动是否与所述音频数据同步的第一确定;将与所述音频数据对应的第一输入和与预定短语对应的第二输入输入到第二确定模型,以获得指示所述用户说出的短语是否对应于预定短语的第二确定;以及确定所述第一确定是否指示所述嘴部运动与所述音频数据同步以及所述第二确定是否指示所述用户说出所述预定短语,以验证所述用户的活体检测。
10.所述方法还可以包括以下步骤:从预存储的词汇集随机生成呈现给所述用户的所述随机生成短语,其中,获得所述视频可以包括获得用户响应于呈现的所述随机生成短语而说出短语的视频,其中,所述预定短语可以是所述随机生成短语,其中,所述预存储的词汇集可以包括预定数量的类别中的每一类的预定术语,并且其中,所述随机生成短语可以包括从预定数量的类别中的每一类随机选择的一个术语的组合。
11.获得所述视频可以包括:向用户装置发送所述问题和所述随机生成短语中的一个;以及从所述用户装置接收用户响应于经由所述用户装置呈现给所述用户的问题和随机生成短语中的一个而说出短语的视频。
12.处理所述视频可以包括:从所述视频获得音频流和视频流;获得第一预定数量批次的第二预定数量的视频数据的帧,所述视频数据的帧包括从所述视频流生成的裁剪的嘴部区域;以及获得所述第一预定数量批次的所述第二预定数量的音频数据的帧,所述音频数据的帧包括从所述音频流生成的梅尔尺度声谱图(mel-scaled spectrogram)。
13.将所获得的视频数据和所获得的音频数据输入到所述第一确定模型可以包括以下步骤:将所获得的视频数据输入到第一机器学习神经网络,并将所获得的音频数据输入到第二机器学习神经网络;以及获得与来自所述第一机器学习神经网络的输出的特征与来自所述第二机器学习神经网络的输出的特征之间的距离对应的对比损失值作为所述第一确定。
14.输入到所述第二确定模型可以包括:将所述第一输入和所述第二输入输入到第三机器学习神经网络,所述第一输入是从所述第二机器学习神经网络的输出中提取的特征,并且所述第二输入是所述预定短语的字符对齐或词对齐;以及获得联结主义时间分类(ctc)损失值作为所述第二确定。
15.确定所述第一确定是否指示所述嘴部运动与所述音频数据同步以及所述第二确定是否指示所述用户说出所述预定短语可以包括:基于所述对比损失值小于预定阈值,确定所述用户没有正确地说出所述预定短语;基于所述预定短语与从所述ctc损失值获得的预测标签不对应,确定所述用户没有正确地说出所述预定短语;以及基于所述对比损失值大于所述预定阈值并且所述预测标签对应于所述预定短语两者,确定所述用户正确地说出了所述预定短语。
16.根据另一实施方式的一方面,提供了一种活体检测验证系统,该活体检测验证系统包括:存储器,该存储器被配置为存储指令;以及至少一个处理器,所述至少一个处理器被配置为执行所述指令以:获得用户响应于向用户呈现的问题或随机生成短语而说出短语的视频;对所述视频进行处理,以获得所述用户的视频数据和音频数据;将所获得的视频数据和所获得的音频数据输入到第一确定模型,以获得指示所述用户的嘴部运动是否与所述
音频数据同步的第一确定;将与所述音频数据对应的第一输入和与预定短语对应的第二输入输入到第二确定模型,以获得指示用户说出的短语是否与所述预定短语对应的第二确定;以及确定所述第一确定是否指示所述嘴部运动与所述音频数据同步以及所述第二确定是否指示所述用户说出所述预定短语,以验证所述用户的活体检测。
17.所述至少一个处理器还可以被配置为执行指令,以从预存储的词汇集中随机地生成呈现给用户的所述随机生成短语;所获得的视频可以是用户响应于呈现的随机生成短语而说出短语的视频;所述预定短语可以是所述随机生成短语;所述预存储的词汇集可以包括预定数量的类别中的每一类的预定术语;并且所述随机生成短语可以包括从所述预定数量的类别中的每一类随机选择的一个术语的组合。
18.所述活体检测验证系统还可以包括:通信接口,其中,所述至少一个处理器还被配置为执行指令以:控制所述通信接口,从而向用户装置发送所述问题和所述随机生成短语中的一个;以及经由所述通信接口从所述用户装置接收用户响应于经由所述用户装置向所述用户呈现所述问题和所述随机生成短语中的一个而说出短语的视频。
19.所述至少一个处理器还可以被配置为执行指令以:从所述视频获得音频流和视频流;获得第一预定数量批次的第二预定数量的视频数据的帧,所述视频数据的帧包括从所述视频流生成的裁剪的嘴部区域;以及获得所述第一预定数量批次的所述第二预定数量的音频数据的帧,所述音频数据的帧包括从所述音频流生成的梅尔尺度声谱图。
20.所述至少一个处理器还可以被配置为执行指令以:将所获得的视频数据输入到第一机器学习神经网络,并且将所获得的音频数据输入到第二机器学习神经网络;以及获得与来自所述第一机器学习神经网络的输出的特征与来自所述第二机器学习神经网络的输出的特征之间的距离对应的对比损失值作为所述第一确定。
21.所述至少一个处理器还可以被配置为执行指令以:将所述第一输入和所述第二输入输入到第三机器学习神经网络,所述第一输入是从所述第二机器学习神经网络的输出中提取的特征,并且所述第二输入是所述预定短语的字符对齐或词对齐;以及获得联结主义时间分类ctc损失值作为所述第二确定。
22.所述至少一个处理器还可以被配置为执行指令以:基于所述对比损失值小于预定阈值,确定所述活体检测未通过验证;基于所述预定短语与从所述ctc损失值获得的预测标签不对应,确定所述活体检测未通过验证;以及基于所述对比损失值大于所述预定阈值并且所述预测标签对应于所述预定短语两者,确定所述用户正确地说出了所述预定短语。
23.根据另一实施方式的一方面,提供了一种非临时计算机可读介质,该非临时计算机可读介质存储了指令,在由一个或更多个处理器执行指令时使所述一个或更多个处理器:获得用户响应于向所述用户呈现的问题或随机生成短语而说出短语的视频;对所述视频进行处理,以获得所述用户的视频数据和音频数据;将所获得的视频数据和所获得的音频数据输入到第一确定模型,以获得指示所述用户的嘴部运动是否与所述音频数据同步的第一确定;将与所述音频数据对应的第一输入和与预定短语对应的第二输入输入到第二确定模型,以获得指示用户说出的短语是否与所述预定短语对应的第二确定;以及确定所述第一确定是否指示所述嘴部运动与所述音频数据同步以及所述第二确定是否指示所述用户说出所述预定短语,以验证所述用户的活体检测。
24.在由所述一个或更多个处理器执行指令时还可以使所述一个或更多个处理器从
预存储的词汇集中随机地生成呈现给用户的所述随机生成短语;所获得的视频可以是用户响应于呈现的所述随机生成短语而说出短语的视频;所述预定短语可以是所述随机生成短语;所述预存储的词汇集可以包括预定数量的类别中的每一类的预定术语;并且所述随机生成短语可以包括从所述预定数量的类别中的每一类随机选择的一个术语的组合。
25.在由所述一个或更多个处理器执行指令时还可以使所述一个或更多个处理器:从所述视频获得音频流和视频流;获得第一预定数量批次的第二预定数量的视频数据的帧,所述视频数据的帧包括从所述视频流生成的裁剪的嘴部区域;以及获得所述第一预定数量批次的所述第二预定数量的音频数据的帧,所述音频数据的帧包括从所述音频流生成的梅尔尺度声谱图。
26.在由所述一个或更多个处理器执行指令时还可以使所述一个或更多个处理器:将所获得的视频数据输入到第一机器学习神经网络,并将所获得的音频数据输入到第二机器学习神经网络;以及获得与来自所述第一机器学习神经网络的输出的特征与来自所述第二机器学习神经网络的输出的特征之间的距离对应的对比损失值作为所述第一确定。
27.在由所述一个或更多个处理器执行指令时还可以使所述一个或更多个处理器:将所述第一输入和所述第二输入输入到所述第三机器学习神经网络,所述第一输入是从所述第二机器学习神经网络的输出中提取的特征,并且所述第二输入是所述预定短语的字符对齐或词对齐;以及获得联结主义时间分类ctc损失值作为所述第二确定。
28.在由所述一个或更多个处理器执行指令时还可以使所述一个或更多个处理器:基于所述对比损失值小于预定阈值,确定所述活体检测未通过验证;基于所述预定短语与从所述ctc损失值获得的预测标签不对应,确定所述活体检测未通过验证;以及基于所述对比损失值大于所述预定阈值并且所述预测标签对应于所述预定短语两者,确定所述活体检测通过了验证。
29.根据另一实施方式的一方面,提供了一种训练活体检测验证系统的方法,该方法包括以下步骤:获得用户说出短语的视频;对所述视频进行处理,以获得所述用户的视频数据和音频数据;以及训练用于检测视听相似度的第一机器学习模型和用于语音识别的第二机器学习模型,所述第一机器学习模型是基于所述视频数据和所述音频数据训练的,并且所述第二机器学习模型是基于与所述音频数据对应的第一输入和预定短语训练的,所述预定短语与随机生成短语和预定问题的答案中的一个对应。
30.所述训练可以包括同时训练所述第一机器学习模型和所述第二机器学习模型。
31.与所述音频数据对应的所述第一输入可以包括从所述第一机器学习模型的完全连接层中提取的特征
32.所述训练可以包括:将所述视频数据和所述音频数据输入到所述第一机器学习模型,以获得指示所述用户的嘴部运动是否与所述音频数据同步的第一确定;将与所述音频数据对应的所述第一输入和与所述预定短语对应的第二输入输入到所述第二机器学习模型,以获得指示所述用户说出的短语是否是所述预定短语的第二确定。
33.将所获得的视频数据和所获得的音频数据输入到所述第一机器学习模型可以包括:将所获得的视频数据输入到第一机器学习神经网络,并将所获得的音频数据输入到第二机器学习神经网络;以及获得与来自所述第一机器学习神经网络的输出的特征与来自所述第二机器学习神经网络的输出的特征之间的距离对应的对比损失值作为所述第一确定。
34.将所述第一输入和所述第二输入输入到所述第二机器学习模型可以包括以下步骤:将所述第一输入和所述第二输入输入到第三机器学习神经网络,所述第一输入是从所述第二机器学习神经网络的输出中提取的特征,并且所述第二输入是所述预定短语的字符对齐或词对齐;以及获得联结主义时间分类ctc损失值作为所述第二确定。
35.所述训练可以包括:将所述视频数据和所述音频数据输入到所述第一机器学习模型,以获得指示所述用户的嘴部运动是否与所述音频数据同步的第一确定;将与所述音频数据对应的所述第一输入和与所述预定短语对应的第二输入输入到所述第二机器学习模型,以获得指示所述用户说出的所述短语是否是所述预定短语的第二确定;聚合所述第一确定和所述第二确定;以及基于聚合的确定来训练所述第一机器学习模型和所述第二机器学习模型。
36.另外的方面将在下面的描述中至少部分地显而易见或阐明,或者可以通过实践所呈现的实施方式来理解。
附图说明
37.根据以下结合附图的描述,这些和/或其它方面将变得显而易见并且更容易理解,在附图中:
38.图1是生物特征识别验证系统的流程图;
39.图2是根据实施方式的用于训练第一机器学习模型和第二机器学习模型的训练方法的流程图;
40.图3是根据实施方式的训练方法的实现方式示例的流程图;
41.图4是根据实施方式的活体检测验证方法的流程图;
42.图5是根据实施方式的活体检测验证方法的实现方式示例的流程图;
43.图6是根据实施方式的活体检测验证方法的实现方式示例的流程图;
44.图7是根据实施方式的活体检测验证系统的数据预处理方法的流程图;
45.图8是根据实施方式的活体检测验证系统的框图;
46.图9是根据实施方式的活体检测验证系统的数据预处理器的框图;以及
47.图10是可以实现根据一个或更多个实施方式的系统和/或方法的示例环境的框图。
具体实施方式
48.下文中,将参考附图详细地描述本公开的示例性实施方式,在附图中,相同的附图标记始终指示相同的元件。然而,要理解,本公开不限于本文中描述的实施方式,并且一个实施方式中的特征和部件可以被包括在另一实施方式中或者可以被省略。
49.另外,要理解,如本文中使用的,诸如“至少一个”的措辞在元件列表之前修饰了整个元件列表,而并不修饰列表中的单独元件。例如,措辞“[a]、[b]和[c]中的至少一个”或“[a]、[b]或[c]中的至少一个”意指仅a、仅b、仅c、a和b、b和c、a和c或a、b和c。
[0050]
还要理解,尽管在本文中可以使用术语“第一”、“第二”等来描述各种元件,但这些元件不应该受这些术语限制(例如,不应该被解释为指定了相对顺序或重要性)。这些术语只是用于将一个元件与另一个区分开。
[0051]
另外,如本文中使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非另外清楚地指示或者由周围上下文指示。
[0052]
本公开的一个或更多个实施方式提供了可以更可靠且有效地确保生物特征识别认证并防止演示攻击的用于ekyc应用的活体检测验证系统和方法。具体地,根据一个或更多个实施方式的活体检测验证方法包括第一确定,该第一确定捕获并比较用户的视听信息以确定嘴部运动与音频的一致性(即,视听相似度检测)。为了进一步防止演示攻击(诸如,视频攻击),活体检测验证方法利用随机短语(例如,在认证时生成随机短语),并包括附加的一致性检查(第二确定)以确认说出了该随机短语,由此验证活体检测。通过使用随机短语并结合语音识别以确认该短语被说出,需要用户实时地讲话,由此阻止使用先前录制或篡改的视频。
[0053]
根据一个或更多个实施方式的第一确定(即,视听相似度检测)可以利用第一机器学习模型(例如,神经网络、深度学习模型、卷积神经网络(cnn)等)来确定嘴部运动与音频同步的第一概率(例如,嘴部运动与音频之间的第一吻合度的概率)。另外,第二确定(即,语音识别)可以利用第二机器学习模型(例如,神经网络、深度学习模型、人工循环神经网络、长短期记忆(lstm)网络等)来确定用户说出了随机短语的第二概率(例如,音频与随机短语之间的第二吻合度的概率)。因此,当第一概率和第二概率二者都超过阈值时(例如,如果组合损失低于预定值或满足一个或更多个预定条件),用户的活体检测通过了验证。
[0054]
结合了根据一个或更多个实施方式的活体检测验证系统和方法的ekyc应用(例如,在线认证系统)还可以包括诸如面部识别这样的用于认证用户的附加措施。这里,可以例如通过在验证活体检测之前或之后捕获另外的图像来单独执行面部识别,或者可以使用从为了活体检测而捕获的视频获得的图像来执行面部识别。要理解,面部识别只是生物特征识别认证的一个示例,一个或更多个其它实施方式可以利用诸如指纹检测、虹膜扫描等这样的其它生物特征识别认证方案来认证用户。
[0055]
图2是根据实施方式的用于训练第一机器学习模型和第二机器学习模型的训练方法的流程图,图3是根据实施方式的训练方法的实现方式示例的流程图。
[0056]
参照图2,在操作210中,对所捕获的说出随机生成短语的用户的视频执行数据预处理。执行该数据预处理,以获得与随机生成短语对应的视频数据(例如,视频帧)和音频数据(例如,音频帧),以供输入到第一机器学习模型。例如,第一机器学习模型可以包括用于视频数据的3d cnn和用于音频数据的3d cnn,如图3的示例所示。下面,参照图7来提供对数据预处理的详细描述。
[0057]
尽管参考随机生成短语描述了本实施方式,但要理解,一个或更多个其它实施方式不限于此。例如,根据另一个实施方式,对所捕获的说出与预定问题的答案对应的短语的用户的视频执行数据预处理。
[0058]
在操作220中,将随机生成短语输入到包括第二机器学习模型(例如,循环神经网络)的语音识别器(例如,语音识别引擎、语音识别处理器等)。例如,可以将随机生成短语的字符或词对齐输入到语音识别器,作为用于确定损失(例如,联结主义时间分类(ctc)损失)的标签。要理解,操作210和220可以同时、基本上同时或顺序地执行(例如,操作210至少部分地或完全地在操作220之前或之后进行)。
[0059]
如以上所阐述的,尽管参考随机生成短语描述了本实施方式,但要理解,一个或更
多个其它实施方式不限于此。例如,根据另一实施方式,与预定问题的答案对应的预定短语被输入到语音识别器。在这种情况下,可以将预定短语的字符或词对齐输入到语音识别器,作为用于确定损失(例如,ctc损失)的标签。
[0060]
在操作230中,第一机器学习模型处理视频数据和音频数据,以获得嘴部运动与音频同步的第一概率(例如,嘴部运动与音频之间的第一吻合度的概率)。例如,第一概率可以是基于从用于视频数据的3d cnn的完全连接层和用于音频数据的3dcnn的完全连接层的特征之间的测量距离的对比损失值。根据实施方式的对比损失函数(l1(y,x))可以是按照下式1。
[0061]
[式1]
[0062][0063]
其中,
[0064][0065]
并且
[0066][0067]
其中:l1对应于对比损失;x
vid
对应于对网络1(视频网络)、视频帧数据的输入,并且(n
×w×
h)是输入数据的形状;x
aud
对应于对网络2(音频网络)、音频帧数据的输入,并且(n
×w×
h)是输入数据的形状;(x
vid
,x
aud
)i对应于第i输入对;yi是对应的标签(1-真正的对,即,当帧(x
vid
,x
aud
)来自同一身份时,并且0-假冒的对,即,当帧(x
vid
,x
aud
)来自不同身份时);n是训练样本的数量;dc是具有输入x
vid
和x
aud
的两个网络的fc层的输出之间的欧几里德距离;λ是正则化参数;m是预定的裕度;n对应于帧的数量;w对应于帧的宽度;并且h对应于帧的高度。
[0068]
在操作240中,第二机器学习模型基于在操作220中输入的随机生成短语来处理音频数据以执行语音识别,从而获得用户说出随机短语的第二概率。第二概率可以是ctc损失值。根据实施方式,第二机器学习模型可以接收从第一机器学习模型输出的音频数据,以执行语音识别。例如,第二机器学习模型可以从3d cnn接收用于第一机器学习模型的音频数据的完全连接层(或其特征)以及用于随机生成短语的字符或词对齐的标签。基于这些输入,第二机器学习模型可以执行语音识别,以获得ctc损失值。
[0069]
如以上所阐述的,尽管参考随机生成短语描述了本实施方式,但要理解,一个或更多个其它实施方式不限于此。例如,根据另一实施方式,与预定问题的答案对应的预定短语被输入到语音识别器,以确定用户说出的短语(即,音频数据)是否对应于预定短语。也就是说,根据另一实施方式,第二机器学习模型可以从3d cnn接收用于第一机器学习模型的音频数据的完全连接层(或其特征)以及用于预定短语的字符或词对齐的标签。基于这些输入,第二机器学习模型可以执行语音识别,以获得ctc损失值。
[0070]
在操作250中,将第一概率(例如,对比损失值)与第二概率(例如,ctc损失值)聚合。
[0071]
在操作260中,通过反向传播算法传播聚合的概率(例如,聚合损失),并且更新第一机器学习模型和第二机器学习模型(例如,用于视频数据的3d cnn、用于音频数据的3d cnn以及循环神经网络)的权重。然后,可以重复执行训练方法,直到例如达到停止标准,如图3中所示。
[0072]
根据实施方式,如上所述,第一机器学习模型和第二机器学习模型二者都是从相同的训练数据集训练出的,彼此有关。因此,第一机器学习模型和第二机器学习模型可以被同时训练,由此与机器学习模型被单独训练的情况相比,压缩并节约了训练时间。训练后的模型随后可以被用于执行活体检测验证方法,如下面参照图4至图6描述的。
[0073]
图4是根据实施方式的活体检测验证方法的流程图,图5是根据实施方式的活体检测验证方法的实现方式示例的流程图,图6是根据实施方式的活体检测验证方法的实现方式示例的流程图。例如,通过用于执行用户或顾客的在线认证的服务器,可以与ekyc应用有关地执行活体检测验证方法。
[0074]
参照图4,在操作410中执行数据预处理,以获得对应于随机生成短语的视频数据(例如,视频帧)和音频数据(例如,如图6中例示的音频帧或声谱图),以供输入到视听相似度检测器(例如,视听相似度检测引擎、视听相似度检测处理器等)的第一机器学习模型。如上文所述以及在图5和图6的示例中示出的,第一机器学习模型可以包括用于视频数据的视频网络(例如,3d cnn)和音频网络(例如,用于音频数据的3d cnn)。另外,操作410中的数据预处理与为了训练机器学习模型而执行的数据预处理(即,图2中的操作210)相同或基本上相似。
[0075]
在数据预处理时,提供随机生成短语,以供用户读取。例如,第一服务器可以生成或以其它方式获得该短语,并将其发送到用户装置(例如,移动电话、个人计算机等)以在用户装置的显示器上(例如,经由网页、应用、用户界面等)进行显示。随后,可以获得用户读出随机生成短语的视频数据和音频数据。例如,第一服务器或第二服务器可以从用户装置接收读出随机生成短语的用户的视频(包括视频数据和音频数据)。该视频可以是由用户装置的相机或图像传感器和麦克风捕获的。然后,对接收到的视频进行预处理,以获得视频数据(例如,视频帧)和音频数据(例如,如图6中所示的音频帧或声谱图)。下面,参照图7来提供对数据预处理的详细描述。
[0076]
尽管参考随机生成短语描述了本实施方式,但要理解,一个或更多个其它实施方式不限于此,可以应用任何其它预定短语。例如,根据另一实施方式,预定问题被呈现给用户,以进行显示。随后,可以获得用户提供该问题的答案的视频数据和音频数据。因此,第一服务器或第二服务器可以从用户装置接收说出所呈现问题的答案的用户的视频(包括视频数据和音频数据)。然后,对接收到的视频进行预处理,以获得视频数据(例如,视频帧)和音频数据(例如,如图6中所示的音频帧或声谱图)。
[0077]
在操作420中,将随机生成短语输入到包括第二机器学习模型(例如,循环神经网络)的语音识别器(例如,语音识别引擎、语音识别处理器等)。例如,可以将随机生成短语的字符或词对齐输入到语音识别器,作为用于确定损失(例如,联结主义时间分类(ctc)损失)的标签。要理解,操作410和420可以被同时、基本上同时或顺序地执行(例如,操作410至少部分地或完全地在操作420之前或之后进行)。
[0078]
如以上所阐述的,尽管参考随机生成短语描述了本实施方式,但要理解,一个或更
多个其它实施方式不限于此。例如,根据另一实施方式,与预定问题的答案对应的预定短语被输入到语音识别器,以确定用户说出的短语(即,音频数据)是否对应于预定短语。在这种情况下,可以将预定短语的字符或词对齐输入到语音识别器,作为用于确定损失(例如,ctc损失)的标签。
[0079]
在操作430中,第一机器学习模型处理视频数据和音频数据,以获得嘴部运动与音频同步的第一概率(例如,嘴部运动与音频之间的第一吻合度的概率)。例如,第一概率可以是基于从用于视频数据的3d cnn的完全连接层和用于音频数据的3d cnn的完全连接层的特征之间的测量距离的对比损失值,如图5中所示。根据实施方式的对比损失函数可以是按照以上参照图2描述的式1。
[0080]
在操作440中,语音识别器基于在操作420中输入的随机生成短语来处理音频数据以执行语音识别,从而获得用户说出随机短语的第二概率。第二概率可以是ctc损失值。根据实施方式,第二机器学习模型可以接收从第一机器学习模型输出的音频数据,以执行语音识别。例如,第二机器学习模型可以接收用于第一机器学习模型的音频数据的3d cnn的完全连接层(或从中提取的特征)以及用于随机生成短语的字符或词对齐的标签。基于这些输入,第二机器学习模型可以执行语音识别,以获得ctc损失值,如图5和图6中所示。
[0081]
如以上所阐述的,尽管参考随机生成短语描述了本实施方式,但要理解,一个或更多个其它实施方式不限于此。例如,根据另一实施方式,与预定问题的答案对应的预定短语被输入到语音识别器,以确定用户说出的短语(即,音频数据)是否对应于预定短语。也就是说,根据另一实施方式,第二机器学习模型可以接收用于第一机器学习模型的音频数据的3d cnn的完全连接层(或其特征)以及用于预定短语的字符或词对齐的标签。基于这些输入,第二机器学习模型可以执行语音识别,以获得ctc损失值。
[0082]
在操作450中,基于第一预测值和第二预测值是否满足一个或更多个条件来验证活体检测。如图6中例示的,可以执行基于第一预测值(例如,对比损失值)和第二预测值(例如,ctc损失值)的组合损失确定,以验证活体检测。
[0083]
图5中示出了组合损失确定的示例。具体地,将从第一机器学习模型获得的对比损失值(l1)与阈值(例如,预定裕度值(m))进行比较。如果对比损失小于阈值,则确定活体检测未通过验证。另外,使用从第二机器学习模型获得的ctc损失值(l2)来预测所识别语音的标签。如果所预测标签不对应于随机生成短语,则确定活体检测未通过验证。此外,如果对比损失值大于(或大于或等于)阈值并且预测标签对应于随机生成短语,则确定活体检测通过了验证。
[0084]
针对从操作410的数据预处理获得的各批的视频和音频数据重复图4的方法。例如,如图5和图6中例示的,各自与所捕获视频的1秒对应的三批25帧视频和音频数据被接连地输入到第一机器学习模型。
[0085]
如上所述的根据实施方式的活体检测验证方法可以通过实现语音识别以基于随机生成短语(或从多个预定(或频繁/周期性更新)问题当中随机选择的问题)验证视听相似度检测来更可靠地确保生物特征识别认证并防止演示攻击。例如,通过利用随机短语(或问题)并结合语音识别以确认该短语(或问题的答案)被说出,需要用户实时地讲话,由此阻止使用先前录制或篡改的视频。
[0086]
图7是根据实施方式的活体检测验证系统的数据预处理方法的流程图。可以实现
channel stream)、将样本频率改变为预定频率(例如,22.05khz)以及提取预定数量的非交叠帧(例如,对应于3秒的75个非交叠帧)使得各帧对应于预定时长(例如,40毫秒的音频)中的至少一个。另外,就图7的数据预处理用于训练活体检测模型而言,操作750的处理还可以包括将供输入的音频帧篡改为训练数据集的反类(或不将供输入的音频帧篡改为正类)。篡改可以包括修改音频帧的音素和音高中的至少一个。当然,如果图7的数据预处理不是用于训练活体检测模型,则省去篡改。
[0096]
操作750的处理还可以包括针对各音频帧提取梅尔尺度声谱图(mel-scaled spectrogram)。像视频帧一样,梅尔尺度声谱图也可以被转换成灰度或单道图像。
[0097]
要理解,操作740和750可以同时、基本上同时或顺序地执行(操作740至少部分地或完全地在操作750之前或之后进行)。
[0098]
在操作760中,可以针对处理后的视频帧和处理后的音频帧中的每个创建多批预定数量的帧(例如,对应于1秒数据的25个帧批次)。例如,在操作760中生成三批25帧的视频和音频,并且可以将其输入到第一机器学习模型。
[0099]
在操作760中获得的视频和音频数据(例如,如图3、图5和图6中所示的视频帧和声谱图)被输入到第一机器学习模型,以如上文参照图2和图3描述地训练模型,或如上文参照图4至图6描述地执行视听相似度检测和验证。
[0100]
图8是根据实施方式的活体检测验证系统800的框图。活体检测验证系统800可以在一个或更多个(例如,用于在线认证系统的)服务器、用户终端(例如,顾客终端)中实现,或者跨用户终端和一个或更多个服务器分布。
[0101]
参照图8,活体检测验证系统800包括数据预处理器810、视听相似度检测器820、语音识别器830和活体检测验证器840。
[0102]
数据预处理器810获得与随机生成短语对应的视频数据(例如,视频帧)和音频数据(例如,如图6中例示的音频帧或声谱图)。图9中例示了根据实施方式的数据预处理器的详细框图。
[0103]
参照图9,数据预处理器810包括存储器910、随机短语生成器920、通信单元930、解复用器940、视频流处理器950和音频流处理器960。
[0104]
存储器910存储如上参照图7描述的词汇集。例如,词汇集可以包括如上表1中示例的针对预定数量的类别中的各类别的预定数量的条目或候选术语(例如,词、字母、数字等)。存储器910可以包括硬盘(例如,磁盘、光盘、磁光盘和/或固态盘)、光盘(cd)、数字多功能盘(dvd)、软盘、盒式磁带、磁带和/或另一种类型的非临时计算机可读介质连同对应的驱动器。另外,要理解,存储器910可以被设置在不同的或单独的装置或服务器中。
[0105]
随机短语生成器920从词汇集随机生成短语。例如,随机短语生成器920可以随机地组合词汇集的各类别中的一个术语,以生成短语。
[0106]
通信单元930(例如,通信器、通信接口等)经由有线或无线网络(例如,蜂窝网络、互联网网络、光纤网络、wi-fi网络等)中的至少一个将随机生成短语发送到用户终端(例如,移动电话、个人计算机等)。另外,通信单元930从用户终端接收说出随机生成短语的用户的视频。这里,视频可以具有预定长度(例如,3秒)并且一旦呈现了随机短语考验(即,在用户说出随机短语考验时),就可以通过用户终端的相机或图像传感器和麦克风捕获该视频。
[0107]
要理解,通信单元930可以通过托管在线认证服务的网站或顾客门户的网站(例如,金融机构的网站)的网络服务器向用户提供随机生成短语和/或接收所捕获的视频。另外,要理解,在数据预处理器810被用于训练第一机器学习模型和第二机器学习模型的情况下,和/或在数据预处理器810获得用户本地读出随机生成短语的视频的情况下(例如,在活体检测验证系统800被包括在用户终端或顾客终端中的情况下),可以省去通信单元930。
[0108]
解复用器940将所获得的视频解复用为基本视频和音频流。
[0109]
视频流处理器950处理视频流,以输入到视听相似度检测器820从而训练模型和/或从模型获得决策。这里,视频处理可以包括以下中的至少一个:将视频流帧速率转换成预定帧速率(例如,每秒25帧(fps))、提取预定数量的视频帧(例如,对应于3秒的75个视频帧)使得各帧对应于预定的时长(例如,40毫秒的视频)、针对各视频帧检测嘴部坐标、按检测到的坐标(或边界框)裁剪嘴部区域、将裁剪后的嘴部区域转换成灰度或单道图像并将灰度或单道图像改变大小成预定大小(例如,60
×
100个像素)。
[0110]
另外,视频流处理器950获得并输出预定数量批次的预定数量的帧的灰度或单道图像(例如,对应于1秒数据的25个帧批次)。例如,可以通过视频流处理器950输出三批25帧的视频。
[0111]
音频流处理器960处理音频流,以输入到视听相似度检测器820从而训练模型和/或从模型获得决策。这里,音频处理可以包括将音频转换成单信道流、将样本频率改变为预定频率(例如,22.05khz)以及提取预定数量的非交叠帧(例如,对应于3秒的75个非交叠帧)使得各帧对应于预定时长(例如,40毫秒的音频)中的至少一个。另外,就音频处理用于训练活体检测模型而言,处理还可以包括将供输入的音频帧篡改为训练数据集的反类(或不将供输入的音频帧篡改为正类)。篡改可以包括修改音频帧的音速和音高中的至少一个。
[0112]
音频处理还可以包括针对各音频帧提取梅尔尺度声谱图和将该声谱图转换成灰度或单道声谱图中的至少一个。
[0113]
另外,音频流处理器960获得并输出预定数量批次的预定数量的帧的灰度或单通道声谱图(例如,对应于1秒数据的25个帧批次)。例如,可以通过音频流处理器960输出三批25帧。
[0114]
要理解,数据预处理器810的上述部件中的一个或更多个可以被实现为电路、硬件、软件或硬件与软件的组合。另外,要理解,数据预处理器810的上述部件中的一个或更多个可以被实现为能由至少一个处理器执行的软件。此外,要理解,数据预处理器810的上述部件中的一个或更多个可以跨多个装置分布。
[0115]
再来参照图8,视听相似度检测器820获得由数据预处理器810(即,视频流处理器950和音频流处理器960)输出的视频数据(例如,多批视频帧)和音频数据(例如,多批音频帧),并输出指示视频数据(例如,视频数据中的嘴部运动)是否与音频同步的第一确定值。具体地,视听相似度检测器820包括第一机器学习模型,以针对对应的各批视频数据和音频数据获得嘴部运动与音频同步的第一概率(例如,嘴部运动与音频之间的第一吻合度的概率)。
[0116]
第一机器学习模型可以包括用于视频数据的第一神经网络(例如,3d cnn)、用于音频数据的第二神经网络(例如,3d cnn)以及对比损失计算器。这里,第一神经网络可以将与视频数据对应的完全连接层输出到对比损失计算器,并且第二神经网络可以将与音频数
据对应的完全连接层输出到对比损失计算器。对比损失计算器可以测量从第一神经网络和第二神经网络的完全连接层提取的特征之间的距离(如图5中所示)。根据实施方式的对比损失函数可以是按照以上参照图2描述的式1。
[0117]
另外,视听相似度检测器820可以将音频数据输出到语音识别器830。例如,视听相似度检测器820可以将音频数据的完全连接层(或其特征)输出到语音识别器830。
[0118]
语音识别器830从数据预处理器810接收随机生成短语并从视听相似度检测器820接收音频数据,并基于其来执行语音识别,以输出第二确定值。具体地,语音识别器830处理音频数据以执行语音识别,并确定用户是否说出随机短语(例如,获得用户说出随机短语的第二概率作为第二确定值)。
[0119]
为此目的,语音识别器830可以包括第二机器学习模型(例如,循环神经网络、lstm网络等)。例如,第二机器学习模型可以接收用于第一机器学习模型的音频数据的3d cnn的完全连接层(或从中提取的特征)以及用于随机生成短语的字符或词对齐的标签作为输入。这里,可以通过语音识别器830获得随机生成短语的字符或词对齐的标签,以确定损失(例如,联结主义时间分类(ctc)损失)。语音识别器830可以生成用于字符或词对齐的标签,或者可以从数据预处理器810获得标签。基于这些输入,第二机器学习模型可以执行语音识别,以获得第二确定值(例如,ctc损失值,如图5和图6中所示)。
[0120]
要理解,可以如以上参照图2和图3描述地训练第一机器学习模型和第二机器学习模型。
[0121]
活体检测验证器840基于第一确定值(例如,第一概率)和第二确定值(例如,第二概率)来验证活体检测。例如,活体检测验证器840基于第一预测值和第二预测值是否满足一个或更多个条件来验证活体检测。如图6中例示的,活体检测验证器840可以基于第一预测值(例如,对比损失值)和第二预测值(例如,ctc损失值)来执行组合损失确定,以验证活体检测。
[0122]
如上所述,图5中示出了组合损失确定的示例。具体地,将从第一机器学习模型获得的对比损失值(l1)与阈值(例如,预定裕度值(m))进行比较。如果对比损失小于阈值,则活体检测验证器840确定活体检测未通过验证。另外,使用从第二机器学习模型获得的ctc损失值(l2)来预测所识别语音的标签。如果所预测标签不对应于随机生成短语,则活体检测验证器840确定活体检测未通过验证。此外,如果对比损失值大于(或大于或等于)阈值并且预测标签对应于随机生成短语,则活体检测验证器840确定活体检测通过了验证。
[0123]
针对从数据预处理器810获得的各批视频数据和音频数据,重复视听相似度检测器820、语音识别器830和活体检测验证器840的操作。
[0124]
要理解,活体检测验证系统800的上述部件中的一个或更多个可以被实现为电路、硬件、软件或硬件与软件的组合。另外,要理解,活体检测验证系统800的上述部件中的一个或更多个可以被实现为能由至少一个处理器执行的软件。此外,要理解,活体检测验证系统800的上述部件中的一个或更多个可以跨多个装置分布。
[0125]
图10是可以实现根据一个或更多个实施方式的系统和/或方法的示例环境1000的框图。如图10中所示,环境1000可以包括用户装置1100、平台1200和网络1300。环境1000的装置可以经由有线连接、无线连接或有线连接与无线连接的组合而互连。
[0126]
用户装置1100是能够接收、生成、存储、处理和/或提供与平台1200关联的信息的
装置。例如,用户装置1100可以包括计算装置(例如,台式计算机、膝上型计算机、平板计算机、手持计算机、智能扬声器、服务器等)、移动电话(例如,智能电话、无线电话等)、便携式装置(例如,便携式多媒体播放器、导航装置等)、可穿戴装置(例如,一副智能眼镜或智能手表)、终端装置(例如,顾客终端、自动柜员机、自助结账终端或机器等)或类似装置。用户装置1100可以从平台1200接收信息和/或向平台1200发送信息。
[0127]
更详细地,用户装置1100可以包括存储器1110和至少一个处理器1120,处理器1120被配置为执行指令(例如,存储在存储器1110的非临时计算机可读介质中的指令)以执行如本文中描述的各种操作。存储器1110包括单个物理存储装置内的存储空间或跨多个物理存储装置的存储空间。可以经由通信单元1160将软件指令从另一计算机可读介质或从另一装置读取到存储器1110中。在被执行时,存储在存储器1110中的软件指令可以致使至少一个处理器1120执行本文中描述的一个或更多个处理。另外地或另选地,可以使用硬连线电路来取代软件指令或与软件指令结合,以执行本文中描述的一个或更多个处理。因此,本文中描述的实现方式不限于硬件电路与软件的任何特定组合。
[0128]
用户装置1100还可以包括图像捕获装置1130(例如,相机)、麦克风1140、显示器1150和通信单元1160(例如,通信器、通信接口、通信电路等)。
[0129]
至少一个处理器1120可以控制显示器1150输出经由通信单元1160从平台1200接收的随机短语。根据另一实施方式,至少一个处理器1120可以实现数据预处理器810的至少一部分,如以上参照图9描述的。例如,至少一个处理器1120可以实现随机短语生成器920,并从如上所述的词汇集(例如,存储在存储器1110中或外部存储的词汇集)生成随机短语。
[0130]
至少一个处理器1120可以控制图像捕获装置1130和麦克风1140捕获视频(组合的或对应的视频数据和音频数据)。例如,基于在显示器1150上输出随机短语,至少一个处理器1120可以控制图像捕获装置1130和麦克风1140捕获预定长度(例如,3秒)的视频。这里,可以控制图像捕获装置1130和麦克风1140,以在第一次在显示器1150上输出随机短语的同时或者在第一次在显示器1150上输出随机短语之后的预定时长(例如,在显示器150上开始输出随机短语之后1秒)时,响应于生成的随机短语而捕获视频。
[0131]
另外,至少一个处理器1120可以控制显示器1150输出指示符,以告知用户何时正在捕获视频(例如,关于何时将开始捕获视频的倒计时、关于何时将停止捕获视频的倒计时、指示正在捕获视频的符号、图标或图形用户界面(gui)条目等)。另外,显示器1150可以基于视频的捕获(例如,一旦视频捕获停止或者视频捕获停止之后的预定时长)而停止显示随机短语。
[0132]
通信单元1160经由网络1300与平台1200通信。根据实施方式,通信单元1160将所捕获的视频(即,组合的或对应的音频和视频数据)发送到平台1200。根据另一实施方式,至少一个处理器1120可以实现数据预处理器810的解复用器940、视频流处理器950和音频流处理器960中的至少一个。在这种情况下,如上所述,通信单元1160可以将处理后的视频流和处理后的音频流中的至少一个或如上所述的一批视频帧和一批音频帧或声谱图中的至少一个发送到平台1200。
[0133]
另外,通信单元1160可以将随机生成短语发送到平台1200(例如,在由用户装置1100生成随机短语的情况下)。当然,在由平台1200生成并由用户装置1100经由通信单元1160接收随机生成短语的情况下,通信单元1160可以不将随机生成短语发送回平台1200。
根据另一实施方式,在平台1200包括多个装置(例如,服务器)并且用户装置1100从多个装置当中的第一装置接收随机生成短语的情况下,通信单元1160可以将随机生成短语(以及所捕获的视频)发送到多个装置当中的第二装置。
[0134]
平台1200包括实现如上所述的活体检测验证系统800的全部或至少一部分的一个或更多个装置。在一些实现方式中,平台1200可以包括服务器(例如,云服务器、网络服务器、认证服务器等)或服务器组。在一些实施方式中,平台1200可以被设计为模块化的,使得可以根据特定需要来换出或换入某些软件组件。
[0135]
如图10中所示,平台1200包括存储器1210、至少一个处理器1220和通信单元1230(例如,通信器、通信接口、通信电路等)。存储器1210包括单个物理存储装置内的存储空间或跨多个物理存储装置或服务器散布的存储空间。可以经由通信单元1230将软件指令从另一计算机可读介质或从另一装置读取到存储器1210中。在被执行时,存储在存储器1210中的软件指令可以致使至少一个处理器1220执行本文中描述的一个或更多个处理。另外地或另选地,可以使用硬连线电路来取代软件指令或与软件指令结合,以执行本文中描述的一个或更多个处理。因此,本文中描述的实现方式不限于硬件电路与软件的任何特定组合。
[0136]
根据实施方式,至少一个处理器1220可以进行控制,以实现上述的活体检测验证系统800的全部或至少一部分。例如,至少一个处理器1220可以进行控制,以实现数据预处理器810的至少一部分。为此目的,存储器1210可以存储词汇集,并且至少一个处理器1220可以从中随机生成短语。另外,至少一个处理器1220可以控制通信单元1230经由网络1300将随机生成短语发送到用户装置1100,并且可以经由网络1300从用户装置1100接收所捕获的说出随机生成短语的用户的视频。
[0137]
至少一个处理器1220可以将视频解复用为基本视频和音频流。另外,至少一个处理器1220可以进行控制,以执行以下中的至少一个:将视频流帧速率转换成预定帧速率(例如,每秒25帧(fps))、提取预定数量的视频帧(例如,对应于3秒的75个视频帧)使得各帧对应于预定的时长(例如,40毫秒的视频)、针对各视频帧检测嘴部坐标、按检测到的坐标(或边界框)裁剪嘴部区域、将裁剪后的嘴部区域转换成灰度或单道图像并将灰度或单道图像改变大小成预定大小(例如,60
×
100个像素)。
[0138]
另外,至少一个处理器1220可以获得预定数量批次的预定数量的帧的灰度或单道图像(例如,对应于1秒数据的25个帧批次)。例如,可以通过视频流处理器950输出三批25帧的视频。
[0139]
至少一个处理器1220还可以处理音频流。这里,音频处理可以包括将音频转换成单信道流、将样本频率改变为预定频率(例如,22.05khz)以及提取预定数量的非交叠帧(例如,对应于3秒的75个非交叠帧)使得各帧对应于预定时长(例如,40毫秒的音频)中的至少一个。另外,就音频处理用于训练机器学习模型而言,处理还可以包括将供输入的音频帧篡改为训练数据集的反类(或不将供输入的音频帧篡改为正类)。篡改可以包括修改音频帧的音速和音高中的至少一个。
[0140]
音频处理还可以包括针对各音频帧提取梅尔尺度声谱图,并将该声谱图转换成灰度或单道声谱图。
[0141]
另外,至少一个处理器1220可以获得并输出预定数量批次的预定数量的帧的灰度或单道图像(例如,对应于1秒数据的25个帧批次)。例如,可以通过音频流处理器960输出三
批25帧。
[0142]
至少一个处理器1220还可以实现如上所述的视听相似度检测器820和语音识别器830。为此目的,至少一个处理器1220可以处理视频数据(例如,多批视频帧)和音频数据(例如,多批音频帧),并输出指示视频数据(例如,视频数据中的嘴部运动)与音频是否同步的第一确定值。具体地,至少一个处理器1220可以将视频数据和音频数据输入到第一机器学习模型,以针对对应的各批视频数据和音频数据获得嘴部运动与音频同步的第一概率(例如,嘴部运动与音频之间的第一吻合度的概率)。
[0143]
另外,至少一个处理器可以对音频数据执行语音识别,并确定用户是否说出随机短语(例如,获得用户说出随机短语的第二概率作为第二确定值)。音频数据的完全连接层(或其特征)到语音识别器830。
[0144]
为此目的,至少一个处理器1220可以将用于第一机器学习模型的音频数据的3dcnn的完全连接层(或从中提取的特征)输入到第二机器学习模型(例如,循环神经网络、lstm网络等)。至少一个处理器1220还可以进行控制,以将用于随机生成短语的字符或词对齐的标签输入到第二机器学习模型。这里,可以通过至少一个处理器1220获得随机生成短语的字符或词对齐的标签,以确定损失(例如,联结主义时间分类(ctc)损失)。至少一个处理器1220可以生成用于字符或词对齐的标签,或者可以从另一装置获得标签。基于这些输入,第二机器学习模型可以执行语音识别,以获得第二确定值(例如,ctc损失值,如图5和图6中所示)。
[0145]
此外,至少一个处理器1220可以进行控制,以训练第一机器学习模型和/或第二机器学习模型,如以上参照图2和图3所描述的。
[0146]
至少一个处理器1220还可以实现如上所述的活体检测验证器840,以基于第一确定值(例如,第一概率)和第二确定值(例如,第二概率)来验证活体检测。例如,至少一个处理器1220可以进行控制,以基于第一预测值和第二预测值是否满足一个或更多个条件来验证活体检测。在这种情况下,至少一个处理器1220可以基于第一预测值(例如,对比损失值)和第二预测值(例如,ctc损失值)来执行组合损失确定,以验证活体检测。
[0147]
网络1300包括一个或更多个有线和/或无线网络。例如,网络1300可以包括蜂窝网络(例如,第五代(5g)网络、长期演进(lte)网络、第四代(4g)网络、第三代(3g)网络、码分多址(cdma)网络等)、公共陆地移动网络(plmn)、局域网(lan)、广域网(wan)、城域网(man)、电话网络(例如,公共交换电话网(pstn))、专用网络、自组织(ad hoc)网络、内联网、互联网、基于光纤的网络等中的至少一种和/或这些或其它类型网络的组合。
[0148]
提供图10中示出的装置和网络的数量和布置作为示例。实际上,与图10中示出的设备和/或网络相比,可以有附加的装置和/或网络、更少的装置和/或网络、不同的装置和/或网络或不同地布置的装置和/或网络。此外,可以在单个装置内实现图10中示出的两个或更多个装置,或者图10中示出的单个装置可以被实现为多个分布式装置。另外地或另选地,环境1000的一组装置(例如,一个或更多个装置)可以执行被描述为由环境1000的另一组装置执行的一个或更多个功能。
[0149]
如上所述,根据实施方式的活体检测验证系统和方法可以通过利用随机短语和第二一致性检查(语音识别)来验证视听活体检测从而更可靠且有效地确保生物特征识别认证并防止演示攻击。例如,通过使用随机短语并结合语音识别以确认该短语被说出,需要用
户实时地讲话,由此阻止使用先前录制或篡改的视频。
[0150]
示例性实施方式可以被实施为计算机可读记录介质上的计算机可读代码,但不限于此。计算机可读记录介质是可以存储可以此后供计算机系统读取的数据的任何数据存储装置。计算机可读记录介质的示例包括只读存储器(rom)、随机存取存储器(ram)、cd-rom、磁带、软盘和光学数据存储装置。计算机可读记录介质也可以分布于联网的计算机系统,使得计算机可读代码被以分布式方式存储和执行。另外,示例性实施方式可以被编写为通过诸如载波这样的计算机可读传输介质传输的计算机程序,并且在执行程序的通用或专用数字计算机中被接收和实现。
[0151]
尽管图2至图7示出了参考其描述的方法的示例框,但在一些实现方式中,与所描绘的那些框相比,相应方法可以包括附加的框、更少的框、不同的框或不同布置的框。另外地或另选地,可以并行地执行相应方法的框中的两个或更多个。
[0152]
提供图8至图10中示出的部件的数量和布置作为示例。实际上,与图中示出的部件相比,活体检测验证系统800、数据预处理器900、环境1000、用户装置1100和平台1200可以包括附加的部件、更少的部件、不同的部件、或不同布置的部件。另外地或另选地,各种装置的一组部件(例如,一个或更多个部件)可以执行被描述为由另一组部件执行的一个或更多个功能。
[0153]
以上公开提供了例示和描述,但不旨在是排他性的或将实现方式限于所公开的精确形式。鉴于以上公开,修改形式和变化形式是可能的,或者可以通过实践实现方式而获取。
[0154]
如本文中使用的,术语“部件”旨在被广义地解释为硬件、固件或硬件和软件的组合。
[0155]
尽管上述实施方式是参照短语的,但要理解,一个或更多个其它实施方式可适用于词,例如,获得用户说出词的视频并确定用户说出的词是否对应于预定的词。
[0156]
将清楚的是,本文中描述的系统和/或方法可以以硬件、固件或硬件与软件的组合的不同形式来实现。用于实现这些系统和/或方法的实际的专用控制硬件或软件代码并不限制实现方式。因此,本文在不参考特定软件代码的情况下描述了系统和/或方法的操作和行为,要理解,可以将软件和硬件设计为基于本文描述的实现系统和/或方法。
[0157]
即使在权利要求书中阐述了和/或在说明书中公开了特征的特定组合,这些组合也不旨在限制可能的实现方式的公开。实际上,这些特征中的一些可以以权利要求书中未具体阐述和/或本说明书中未公开的方式组合。尽管下面列出的各从属权利要求可以仅直接从属于一个权利要求,但可能的实现方式的公开内容包括各从属权利要求以及权利要求集合中的每个其它权利要求相结合。
[0158]
虽然以上已经参考附图描述了一个或更多个示例性实施方式,但要理解,本领域的普通技术人员将理解,可以在不脱离至少部分由所附权利要求书限定的精神和范围的情况下,在本文中进行形式和细节上的各种改变。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1