基于多模态信息的人口统计分析的系统和方法
【专利摘要】本发明的系统和方法描述了用于通过分析个人的生物特征(如语音、图像或人脸)和其它相关的人口统计信息(如个人的名字),或者在创建这种信息数据库时实时地、或者在基于个人记录的现有数据库上,自动检测个人的特定类别项中的错误(特别指的是性别和年龄分类),以便于每个人与唯一标识相符。
【专利说明】基于多模态信息的人口统计分析的系统和方法
【技术领域】
[0001]本发明涉及数据处理领域,并且更具体而言,涉及用于基于多模态数据分析方法的个人性别验证的方法和设备。
【背景技术】
[0002]为了捕获用于符合个人唯一标识的个人的记录,需要收集所有必要的信息并且在适当的数据库中对该信息进行管理。该信息包括他们的姓名、性别、年龄、婚姻状况、任何照片和生物特征(如指纹、掌纹、视网膜识别、虹膜扫描、人脸识别或语音样本)。将这样有价值的一条信息存储在适当的数据库中以用于进一步的个人标识和他们的性别验证。
[0003]然而,已经观察到,在许多情况中,当实时地进行记录比较时,个人的性别或年龄被错误地输入到这种数据库中。这继而需要用于基于所收集的人口统计信息的性别验证、他们的种族划分和年龄估计的策略或方法的需求。人口统计信息的自动验证具有包括被动监测的大量的应用,使得正确地标识每一个个人,并且将他/她的身份存储在数据库中以在每当寻求访问时能够进行搜索。
[0004]因此,在近些年中,研究与开发的活跃领域致力于改善生物特征标识。例如,人脸检测已经成为良好研的究领域以基于整体特征(形状、头发轮廓)和几何特征(眉毛浓度、鼻子宽度等)来检测性别,而在这种情况中取得的准确率处于85%到92%的范围内。
[0005]基于共振峰(formant)/音调(pitch)分析来估计性别和年龄的另一种流行的方法是通过使用语音识别技术。然而,基于当前语音识别的标识通常表现出很高的出错率;针对纯净语音而言,其准确率报告为98%,并且针对噪声语音而言,其准确率报告为95%。此夕卜,语音识别系统在实验室条件下工作良好,但是当在正常工作环境中使用时在识别率上意图显示相当大的降低。由于在正常工作设置中发现的不可预测的且可变的噪声级以及个人改变他们的语音模式来对该噪声进行补偿的方式,这种在准确率方面的降低多半会出现。
[0006]将姓名并入用于性别和/或年龄标识和验证的多个参数中的一个参数也基于个人地理来源或位置而引起多个挑战,并且因此倾向于大约5%的攻击误差。
[0007]因此,对针对特定类别(例如,年龄和/或性别类别)基于个人的错误分类来自动报告错误的方法和设备存在广泛地公认的需求,并且具有这样的方法和设备将是非常有利的。
[0008]这继而触发了开发更成熟且可靠的系统的需求,该系统并非仅依靠任何的生物特征识别技术,而是通过使用多个数据输入来提取智能信息以报告在适当的数据库处维护的人口统计数据的一致性和性别验证。
【发明内容】
[0009]根据本发明,提供了一种基于个人的预先确定的生物特征和其他相关信息来自动检测信息存储介质中的特定类别项中的错误的系统和方法。[0010]本发明的另一个目的在于检测数据库中的性别和年龄类别项的错误。
[0011]本发明的一个目的在于将个人的姓名用作用于性别标识的其他相关信息。
[0012]本发明的又一个目的是根据人脸识别来提供用于性别检测的90%以上的非常高的准确率范围。
[0013]本发明的又一个目的在于使用包括生物特征信息的多个数据输入来验证在数据库中在性别或年龄类别中进行的数据的一致性。
[0014]本发明的另一个方面将背景颜色、人脸图像特征、语音和姓名用作用于性别和年龄验证的识别参数。
[0015]本发明的又一个目的在于分析用于验证人口统计信息的多模态数据。
[0016]本发明的另一个目的在于通过基于多个输入提取智能信息并且确定这些输入的正确性来实现系统的最大性能。
[0017]本发明的又一个目的在于每当报告特定类别的错误数据项时生成自动相互作用警报。
【专利附图】
【附图说明】
[0018]当结合附图阅读时更好理解优选实施例的前述详细描述。为了说明本发明的目的,在附图中示出本发明的示例构造;然而,本发明不限制于所公开的具体的方法和系统。在这样的图示中:
[0019]图1强调根据本发明的实施例的执行性别和年龄验证的构建模块的很好描绘的架构视图。
[0020]图2给出根据本发明的一个方面的说明性别验证并且检查数据一致性的流程图。【具体实施方式】
[0021]现在将详细讨论说明本发明所有特征的本发明的一些实施例。
[0022]词语“包括”、“具有”、“包含”和“含括”以及它们的其它形式意味着等效的意义并且为可容纳的,在于跟随这些词语中的任何一个的一个或多个项目不意味着这样的一个或多个项目的详尽列表或者不意味着仅限于所列出的该一个或多个项目。
[0023]还应当说明的是,除非上下文明确地另外规定,否则本文和附图中所使用单一形式“一”、“一个”、“这”包括复数参考。虽然类似于或等效于本文所描述的那些任何系统和方法都可以用在本发明的实施例的实践或测试中,但是现在描述优选的系统和方法。根据下面如附图中所示的本发明的示例性实施例的更特定的描述,本发明的前述以及其他目的、特征和优势将变得显而易见,其中,相同的参考符号通常表示本发明的示例性实施例的相同部件。
[0024]如下面所述的本发明的优选实施例涉及一种可以用于自动检测从人口统计调查中收集的个人的任何类别信息项中的错误的方法和系统。这种错误的自动检测可以在创建数据库的同时实时地进行或者在现有的数据库上基于所收集的人们的记录进行。具体地,本发明可以用于检测个人的性别和/或年龄信息项中的错误以用于通过分析个人的语音、图像和姓名来生成他们的唯一标识号。
[0025]在详细解释本发明的至少一个实施例之前,应当理解的是,本发明在其应用中不限于下面的说明书中给出或在附图中示出的组件的配置和构建的细节。
[0026]图100示出最终用于性别验证的以用于人口统计数据收集的系统架构。该系统100收集个人信息,如用于人名分析的姓名、地址、出生日期、性别和个人的生物特征(如声音、脸型、呼吸量、皮肤厚度、生化特性(例如,血液生化)、指纹、掌纹、视网膜识别、虹膜扫描等),以将该信息存储到构建该系统的暂时存储模块101中。该存储模块通过合适的网络模块(例如IP网络)与多个生物匹配模块进行通信。这些生物引擎能够处理所收集到的多模态生物数据。
[0027]本领域的这些技术人员应当了解,生物匹配引擎可以包括任何已知的技术以检测2D人脸、3D人脸、手的几何特征、单一指纹、十手指现场扫描、虹膜、手掌、全手、签名、耳朵、手指静脉、视网膜、DNA、声音等。
[0028]存储模块101中暂时收集的数据适合于被处理以用于人口统计数据的验证。可以在收集数据并且将该数据存储到存储模块中的时间处或一旦在模块中项由人们的记录制成,就开始验证的过程。在通信网络内与暂时存储模块101进行通信的生物匹配模块处理收集到的生物信息。类似地,还处理人口统计数据以用于进一步的验证,并且随后唯一标识被给到存储模块101内的维护信息存储介质中的那个记录。唯一标识指明个人记录,其中该个人记录包括人脸、指纹、虹膜、语音、人脸识别使能记录。因此,该系统收集多个数据输入,该多个数据输入包括模块102中的人口统计数据和模块103中的生物数据,其中该人口统计数据可以包括个人的姓名、性别、身高、体重、头发颜色、眼睛颜色等。
[0029]处理这种人口统计数据和生物数据的组合以在报告生成模块104中生成所组合的人口统计报告来验证人的性别和年龄的一致性连同与该人的互动性。该方法倾向于减少人口统计记录的收集和维护中的错误。一旦生成该报告,就在验证模块105中开始多模态数据验证过程以生成对于性别、年龄等异常的警报,同时将有效的且正确的数据存储到标识信息存储介质106中。由警报生成模块107执行错误警报生成过程。
[0030]从不同的设备(通常称为模态Ml、M2、M3、M4、M5、M6、M7、M8类的生物匹配模块或用于捕获图像或手势等的设备)获得的数据是最终被分析用于多模态解释的多模态融合。
[0031]性别验证可以基于组合下面的多个参数中的一些或全部:
[0032]a.分析背景颜色一可以要求男人或女人站在单独背景颜色的前面。例如针对女人而言为红色和针对男人而言为蓝色。接下来,可以通过使用模态中的任何一个(包括生成的任何值或分数的限定的一组属性)利用图像处理技术,以实行性别验证。
[0033]b.人脸图像特征分析一再一次,这可以使用来自相机的捕获到的照片作为模态来完成此分析。接下来,为了提高准确性,可以实行通常由地理上和习惯上共同继承而理解的将女人和种族识别相关联的方法。
[0034]c.语音分析一在该方法中,可以要求个人告诉他们的姓名和年龄以用于人名分析。针对其内容完成语音解释以生成可以用于检测性别的一组数据和/或相关联的值。
[0035]d.姓名分析一这涉及姓名的人名分析以获得性别的可能号码。
[0036]代替仅性别验证,可以执行通用数据验证方法,其将分析以下的一致性:
[0037]a.来自多个源的性别
[0038]b.年龄信息和面部以及语音特征
[0039]c.姓名和性别的一致性[0040]最终,一旦数据记录过程结束,该系统将以本地可识别的语言传送感谢通知,以作为指示验证结束的步骤。感谢的内容基于性别,从而任何不符可以由用户立即提出。这将用于社会礼貌以及总体验证的目的。
[0041]图2是示出根据本发明的优选实施例中的一个实施例的性别验证和检查数据一致性的过程流程图。如所讨论的,系统100收集来自不同模态101&102的多个数据输入,以生成存储在暂时的存储模块103中的多模态数据。不同的模态解释多模态数据,以在报告生成模块104处生成人口统计报告。在其它实施例中的一个实施例中,多模态解释集合中的每个多模态解释通常为单模态解释;即每一个多模态解释是一个模态的解释。然而,在其它实施例中的一个实施例中,可以由超过一个模态生成每个多模态解释。
[0042]由不同模态产生的多模态解释基本上不重叠并且本质上独立地以使它们为不模糊解释。在验证模块105中使用一个置信模糊分数来归属(attribute)这些解释,该置信模糊分数具有与其相关联的值。分析并且进一步解释这些模糊分数以做出来自多个输入的性别和年龄的一致性的决定并且基于这些输入的正确性进行判定。该置信或模糊分数在检索正确性别相关的信息时使能。在置信分数低于阈值分数值的情况中,再构造不同的模块以为收集到的性别标识信息提供更多相关标准参数,来确定个人的性别。因此,使用这种模糊分数并且从不同模态提取相关信息来调用性别特征。
[0043]为了验证所输入的数据的正确性并且避免在所产生的的响应中的任何歧义,以本地可识别的语言进行一般的问候,在听到该问候之后,将基于个人的表达以自然的方式允许数据的验证。如果报告错误,则通过由模块107生成警报通知该错误同时将正确项永久地存储到信息存储介质106中。
[0044]虽然参照示例性实施例已经描述了本发明,但是应当理解的是,本发明不限于所公开的示例性实施例。下面的权利要求的范围将给出最广泛的解释,从而包括所有这些修改和等同结构以及功能。
【权利要求】
1.一种用于涉及自动检测信息存储介质中的性别类别项中的错误的性别验证的信息处理方法,其中,所述方法基于多模态数据分析技术,并且在以下处理器实现的步骤中捕获并且解释性别标识信息: 通过利用生物匹配模块从个人接收基于生物的性别信息并且从多个模态接收其它性别标识信息以用于生成多模态数据; 通过在所捕获的多模态数据上使用生物匹配模块和人名分析技术来分析所接收的性别标识信息,以用于向所述个人分派可能的性别; 借助于计算机实现的验证报告生成模块来向分析出的性别标识信息分派置信模糊分数,所述置信模糊分数具有与其相关联的值; 以可识别的语言基于个人的表达来验证标识信息的正确性;并且 当出现错误时,经由警报生成模块发送由所述验证模块报告的任何这种错误,以用于改正标识信息。
2.根据权利要求1所述的用于性别验证的信息处理方法,其中,所述性别标识信息包括所述个人的姓名和生物信息。
3.根据权利要求1所述的用于性别验证的信息处理方法,其中,所述生物信息包括一个或多个参数,所述一个或多个参数包括声音、脸型、呼吸量、皮肤厚度、生化特性(例如,血液生化)、指纹、掌纹、视网膜识别、虹膜扫描等。
4.根据权利要求1所述的用于性别验证的信息处理方法,其中,所述其它性别标识信息包括姓名的人名分析。
5.根据权利要求1所述的用于性别验证的信息处理方法,其中,在生物分析和人名分析之后从男性、女性和中性中选择可能的性别。
6.根据权利要求1所述的用于性别验证的信息处理方法,其中,分派概率性的或模糊分数以通过向每个标识信息分派阈值资格分数来评估且估计性别标识的正确性。
7.根据权利要求1所述的用于性别验证的信息处理方法,其中,所述方法被配置为在创建所述信息存储介质的同时实时地实现或者在现有的信息存储介质上实现。
8.一种用于涉及基于多模态数据分析技术来自动检测信息存储介质中的性别类别项中的错误的性别验证的信息处理系统,其中,所述系统包括: 生物匹配模块,所述生物匹配模块适于向捕获到的生物信息分派可能的性别以用于生成标识信息; 暂时存储模块,所述暂时存储模块能够与生物匹配模块进行通信以用于存储收集到的生物标识信息以及其他相关的标识信息; 报告生成模块,所述报告生成模块用于为每个捕获到的生物标识信息以及其他标识信息生成模糊分数; 验证模块,所述验证模块验证与所述性别信息相关联的类别信息项中的一致性;以及 信息存储介质,所述信息存储介质适于存储验证的且正确的信息以用于向个人分派唯—标识。
9.根据权利要求8所述的用于自动检测错误的信息处理系统,还包括警报生成模块,所述警报生成模块用于报告信息性别项中的错误。
【文档编号】G06F11/00GK103443772SQ201280012869
【公开日】2013年12月11日 申请日期:2012年4月12日 优先权日:2011年4月13日
【发明者】阿尼鲁达·辛哈, 普拉蒂普·米斯拉, 斯内哈西斯·班纳吉, 阿尔潘·帕尔 申请人:塔塔咨询服务有限公司