声纹认证系统和声纹认证程序的制作方法

文档序号：6433905阅读：314来源：国知局

专利名称：声纹认证系统和声纹认证程序的制作方法
技术领域：
本发明涉及一种使用声纹的认证系统和声纹认证程序，更具体而言，涉及一种防止伪装授权用户的非授权用户非法使用的声纹认证系统和声纹认证程序。
背景技术：
当用户访问系统时，通常已经执行了使用密码识别授权用户的个人认证。
在这类使用密码的个人认证中，为了防止窃取密码的非法访问，曾提出这样一种认证系统，在其中预先准备多个密码，并使用从所述多个密码中选出的一个密码来进行认证(参见日本已公开的专利公报2001-209614)。
这种认证系统是包含多个终端和连接装置的认证系统，其中所述多个终端都连接于该连接装置，其中连接装置和多个终端分别具有多个密码，通过随时间经过改变这些密码来选择用于认证的密码，并且只有当连接装置一方产生的密码与终端一方产生的密码相符时才允许终端之间的通信。
此外，像在上述专利文件的情况下，在通过对照认证一方具有的密码和受验一方具有的密码来执行个人认证的过程中，但一直都存在这样一个缺陷，即必须预先准备多个密码并把这些密码记录在执行个人认证的连接装置一方以及请求个人认证的终端一方上。此外，为了选择将在这些密码的多个当中使用的密码，同样存在这样一个缺陷，即必须提供在连接装置一方和终端一方双方上选择相等密码的密码控制器。
在另一方面，同样也存在已知的认证系统，该认证系统根据声纹认证来执行个人认证，所述声纹认证是使用由授权用户本人的声纹形成的声音密码来执行的。
使用声音密码的认证系统能够根据声纹本征来向用户认证该用户是否是其本人，借此用户能够容易地执行个人认证。

发明内容
然而，就使用声音密码的声纹认证而论，存在这样的缺陷，即当有邪恶动机的第三方通过进行记录等非法地获得特定的声音密码时，执行非法认证。
在此，也许可以考虑这样一种方法，该方法使用多个声音密码来防止因窃取密码而造成的非法访问。然而，注册大量的声音密码需要相当长的时间，同时在改变用于增强安全性的声音密码时，必须每次进行改变时重新记录大量的声音密码。
照此，为了使用多个声音密码来维护安全，存在这样一个缺陷，即必须重复需很长时间的注册和声音密码的改变。
因此，本发明的一个目的是克服上述缺陷并且易于利用声纹认证来执行声音密码的改变。
(1)根据本发明的第一方面，提供了一种声纹认证系统，包括录音装置，用于记录构成密码的数和/或字母的单元素的声纹数据以及为每个注册者链接各个单元素的链接元素的声纹数据；密码形成装置，用于利用各个元素来形成随机密码；发音数据形成装置，用于利用声纹数据来形成通过使由密码形成装置形成的密码有声化而获得的发音数据；和密码判断装置，用于根据因判断请求人按密码的声音进行输入而获得的发音数据与由发音数据形成装置形成的发音数据之间的对照来判断判断请求人是否是注册者。
此外，本发明提供了以下内容。
(2)具有上述结构(1)的声纹认证系统的特征还在于所述链接元素是表示符号的数和/或元素的数位的元素。
(3)具有上述结构(1)的声纹认证系统的特征还在于所述录音装置记录与给每个注册者固有设置的ID相关联的声纹数据，而密码形成装置根据ID的识别来开始密码的形成。
(4)具有上述结构(1)的声纹认证系统的特征还在于所述声纹认证系统包括形成需要输入密码的声音的问题并且要求判断请求人对所形成的问题输入密码的声音的密码请求装置。
(5)具有上述结构(1)的声纹认证系统的特征还在于由录音装置记录的声纹数据包括基于从注册者那里获得的每个相同元素的多个声音的输入的预定认证范围。
(6)具有上述结构(1)的声纹认证系统的特征还在于所述密码形成装置从构成数和/或字母的各个单元素中选择任意数目的单元素，其中任意数至少为两个或多个，并且通过按任意顺序排列所选的单元素来形成密码。
(7)具有上述结构(1)的声纹认证系统的特征还在于发音数据形成装置从录音装置中取出与由密码形成装置形成的密码包含的各个单元素相对应的声纹数据，依照密码的单元素的排列顺序来排列声纹数据，并且在各个单元素之间插入链接元素，由此形成密码的发音数据。
(8)具有上述结构(1)的声纹认证系统的特征还在于所述发音数据形成装置从录音装置中取出与由密码形成装置形成的密码包含的各个单元素相对应的声纹数据，依照密码的单元素的排列顺序来排列声纹数据，并且在各个单元素之间插入链接元素，由此形成密码的发音数据，并且所述密码判断装置通过分析判断请求人输入的声音来采样形成密码的各个元素的发音数据，并且将采样出的发音数据与由发音数据形成装置为每个元素形成的发音数据进行比较。
(9)具有上述结构(1)的声纹认证系统的特征还在于所述发音数据形成装置从录音装置中取出与由密码形成装置形成的密码包含的各个单元素相对应的声纹数据，依照密码的单元素的排列顺序来排列声纹数据，并且在各个单元素之间插入链接元素，由此形成密码的发音数据，并且所述密码判断装置通过分析判断请求人输入的声音来采样形成密码的各个元素的发音数据，并且根据连续密码的话音电平和/或各个元素之间的时间间隔，来比较采样出的发音数据和由发音数据形成装置形成的发音数据。
(10)具有上述结构(1)的声纹认证系统的特征还在于所述密码形成装置通过在形成密码的语句中的预定位置上并入数和/或字母的单元素来形成密码。
(11)具有上述结构(1)的声纹认证系统的特征还在于所述发音数据形成装置从录音装置中采样出与由密码形成装置形成的密码包含的各个元素相对应的声纹数据，以及在排列了形成密码的语句中的各个元素的位置上排列采样出的声纹数据。
(12)具有上述结构(1)的声纹认证系统的特征还在于所述发音数据形成装置从录音装置中采样出与由密码形成装置形成的密码包含的各个元素相对应的声纹数据，以及在排列了形成密码的语句中的各个元素的位置上排列采样出的声纹数据，并且所述密码判断装置通过分析判断请求人输入的声音来采样形成密码的语句的发音数据，并且将采样出的语句的发音数据与由发音数据形成装置形成的语句的发音数据进行比较。
(13)具有上述结构(1)的声纹认证系统的特征还在于所述声纹认证系统通过分析判断请求人输入的声音和/或各个元素之间的时间间隔来采样形成密码的语句中所包含的各个元素的发音数据，并且所述密码判断装置为形成密码的每个元素，比较采样出的发音数据和/或元素之间的时间间隔和由发音数据形成装置形成的发音数据和/或各个元素之间的时间间隔。
(14)具有上述结构(1)的声纹认证系统的特征还在于所述录音装置除记录各个元素之外还记录形成密码的语句中所包含的分句的元素，并且所述发音数据形成装置从录音装置中采样出由密码形成装置形成的密码中所包含的各个元素的声纹数据，并且在排列了语句中的各个元素的位置上排列各个声纹数据，由此形成密码的发音数据。
(15)根据本发明的第二方面，还提供了一种存储在计算机中的声纹认证程序，所述声纹认证程序允许下列装置执行它们各自的功能，所述装置包括录音装置，用于记录构成密码的数和/或字母的单元素的声纹数据以及为每个注册者链接各个单元素的链接元素；密码形成装置，用于利用各个元素来形成随机密码；发音数据形成装置，用于利用声纹数据来形成通过使由密码形成装置形成的密码有声化而获得的发音数据；和密码判断装置，用于根据因判断请求人按密码的声音进行输入而获得的发音数据与由发音数据形成装置形成的发音数据之间的对照来判断判断请求人是否是注册者。
根据本发明的声纹认证系统和声纹认证程序，可以利用构成密码的各个元素的声纹数据来形成任意设置密码的发音数据，因此不必再次为每个已形成的密码记录发音数据，借此就可以易于应付密码的改变。

图1是用于解释适用于本发明的声纹认证系统的第一至第三实施例的构成示例的视图；图2是用于解释本发明的声纹认证系统的第一实施例的流程图；图3是用于解释本发明的声纹认证系统的声纹数据的示例的视图；
图4是用于解释本发明的声纹认证系统的第一实施例的操作示例的视图；图5A是用于解释本发明的声纹认证系统的第一实施例的发音数据的操作示例的视图；图5B是用于解释本发明的声纹认证系统的第一实施例的发音数据的比较操作示例的视图；图6是用于解释本发明的声纹认证系统的第二和第三实施例的流程图；图7A是用于解释本发明的声纹认证系统的第二和第三实施例的发音数据的比较操作示例的视图；图7B是用于解释本发明的声纹认证系统的第二和第三实施例的发音数据的比较操作示例的视图；和图8是用于解释本发明的声纹认证系统的第二和第三实施例的发音数据的比较操作示例的视图。
具体实施例方式
根据本发明的声纹认证系统的特征在于代替注册通过发音出密码而获得的声音密码，注册构成密码的各个元素的声纹数据。由于这种结构，认证一方能够形成密码的发音数据，所述密码是利用已注册的声纹数据而任意形成的。认证一方能够通过将形成的发音数据与认证请求人发音出的密码的发音数据进行比较来执行个人认证。
根据本发明的声纹认证系统，尽管注册了构成密码的各个元素的声纹数据，但是声音密码的注册本身是没有必要的。因此，这对相对于任意设置的密码，执行为每个密码发出声音和注册声音密码这样的麻烦的操作不再是必须的。
根据本实施例的声纹认证系统包括录音装置，用于记录构成密码的数和/或字母的单元素的声纹数据以及为每个注册者链接各个单元素的链接元素的声纹数据；密码装置，用于利用各个元素来形成随机密码；发音数据形成装置，用于声纹数据来形成通过使由密码形成装置形成的密码有声化而获得的发音数据；和密码判断装置，用于根据因由判断请求人按密码声音进行输入而获得的发音数据与由发音数据形成装置形成的发音数据之间的对照来判断判断请求人是否是登记者。
在此，除诸如数和字母之类的单元素之外，构成密码的元素还包括连接这些单元素的链接元素。作为这些链接元素，例如可以命名表示诸如百、千等这类数的数位的元素，这些数位链接了数的各元素。此外，作为其它的链接元素，可以使用诸如<-(短横)>、<.(句点，圆点)>、<，(逗号)>之类的符号。
密码形成装置通过以随机方式组合构成密码的各个元素来形成密码。假如密码包括预先准备的各个元素，那么就能够任意地设置字母的数目和密码的内容。
此外，声纹数据是注册者根据构成密码的每个元素所发出的数据。
录音装置是用于记录每个注册者的声纹数据并能通过记录与为每个注册者本征地设置的ID相关联声纹数据来建立声纹数据与注册者的关联性的装置。
录音装置获得从注册者输入的相对于相同元素的多个声音，并且形成声纹数据并根据多个已获得的声音输入来记录所述声纹数据。例如，将具有多个声音输入的声纹数据的扩展部分记录为认证范围。
发音数据形成装置通过链接与构成密码的各个元素相对应的声纹数据来形成密码的发音数据。例如，假设密码为<A-1234>，那么这个密码的元素就是<A>、<->、<1>、<2>、<34>、<千>和<百>。发音数据形成装置通过链接分别对应于这些各个元素的声纹数据″a″、″短横″、″一″、″二″、″三十四″、″千″、″百″来形成″a短横一千二百三十四″的发音数据。在下文中，声纹数据和发音数据都用″″的形式来表示。
发音数据形成装置通过链接与各个元素相对应的声纹数据来形成密码的发音数据，因此不必为每个密码注册发音数据。
密码形成装置开始通过识别请求认证输入的判断请求人的ID来形成随机密码。
密码请求装置形成一个问题，该问题要求输入密码形成装置形成的上述密码的声音，并且还向判断请求人请求变为所形成的问题的答案的声音密码。在此，例如当把地址设置成密码时，形成了诸如″你的地址是什么？″之类的问题，以使判断请求人通过发出声音来输入地址以作为密码，由此请求判断请求人通过发出声音来输入应答。在下文中，密码请求装置以话音形式形成的问题就以丷形式来表示。
在本发明的声纹认证系统中，分别相对于密码和声纹认证的模式来考虑多个实施例。第一实施例的密码是不包括语句的密码，其中使用整个密码的发音数据来执行认证。第二和第三实施例的密码是由语句构成的密码。此外，第二实施例涉及这样一种模式，即在该模式下通过从语句密码的发音数据中采样预定元素来执行认证，而第三实施例涉及这样一种模式，即在该模式下使用语句密码的整个发音数据来执行认证。
在第一实施例中，密码形成装置选择由数和/或字母构成的单元素的至少两个或多个任意数目，并且按任意顺序排列所选的单元素，由此来形成密码。
发音数据形成装置从录音装置中取出与密码形成装置所形成的密码包含的各个单元素相对应的声纹数据，依照密码的单元素的排列顺序来排列按这种方式取出的发音数据，并将链接元素插入到各个单元素中，因此来形成密码的发音数据。
在由密码判断装置执行的第一判断方法中，对通过分析判断请求人输入的声音而形成声音密码的各个元素的发音数据进行采样，并且顺序地为形成密码的各个元素比较采样出发音数据和由发音数据形成装置形成的发音数据。根据第一判断方法，由于为每个单元执行比较，因而简便了比较处理，借此能够缩短比较时间。
此外，在由密码判断装置执行的第二判断方法中，对通过分析判断请求人输入的声音而形成声音密码的各个元素的发音数据进行采样，并且根据串行密码的话音电平和/或各个元素之间的时间间隔，来比较采样出的发音数据和由发音数据形成装置形成的发音数据。根据第二判断方法，由于能够比较在发音出密码时的声调和在时间推移时的声调，因此能够增强认证准确度。
在第二实施例和第三实施例中，密码形成装置通过在形成密码的语句当中、在预定位置上并入数和/或字母的单元素来形成密码。
在第二实施例中，发音数据形成装置对与从声音记录装置中提供的由密码形成装置形成的密码包含的各个元素相对应的声纹数据进行采样，并且在排列语句中的各个元素的位置上排列采样出的声纹数据，由此来形成密码的发音数据。
此外，密码判断装置通过对包含在语句中的各个元素的发音数据进行采样，并通过将采样出的发音数据和/或各个元素的时间间隔与发音数据形成装置为构成密码的每个元素形成的发音数据和/或语句中各个元素的时间间隔进行比较来执行密码的判断，其中所述语句通过分析判断请求人输入的声音和/或各个元素的时间间隔而形成声音密码。
在第三实施例中，录音装置除记录各个元素之外还记录形成密码的语句中所含的句子的元素，发音数据形成装置从录音装置中采样出对由密码形成装置形成的密码中所含的各个元素的声纹数据，并且从录音装置中采样出由密码形成装置形成的语句中所包含的各个元素的各个声纹数据，并且通过在排列语句中各个元素的位置上排列各个相应的声纹数据来形成密码中的发音数据。
此外，密码判断装置通过分析判断请求人输入的声音来对形成密码的语句的发音数据进行采样，并通过将采样出的语句的发音数据与发音数据形成装置形成的语句的发音数据进行比较来执行密码的判断。
此外，这个实施例包括控制上述语音认证系统的控制装置，并且根据本实施例，在控制装置的存储器中，存储了用于允许下列装置执行它们各自功能的声纹认证程序，所述装置包括录音装置，用于记录构成密码的数和/或字母的单元素的声纹数据以及链接每个注册者的各个单元素的链接元素的声纹数据；密码形成装置，用于利用各个元素来形成随机密码；发音数据形成装置，用于形成通过使由密码形成装置利用声纹数据形成的密码有声化而获得的发音数据；和密码判断装置，用于根据因判断请求人按密码的声音进行输入获得的发音数据与由发音数据形成装置形成的发音数据之间的对照来判断判断请求人是否是注册者以执行其中的功能。
在下文中，结合附图详细说明本发明的实施例。
在此，虽然这些实施例是相对于把英语用作为语言的情况下加以说明的，但是本发明不限于这种情况，并且在适当修改的情况下能够适当地对应于各种语言来加以实施。例如，在用于判断密码的单元素的方法中，除用在下文所描述的实施例中的因素之外，还可以取决于应用本发明的语言而使用诸如重音、音节等之类的各种其它因素。
在下文中，利用图1来解释适用于本发明的声纹认证系统的第一至第三实施例的构成示例，利用图2来解释本发明的声纹认证系统的第一实施例的流程图，利用图3来解释本发明的声纹认证系统的声纹数据的示例，利用图4来解释本发明的声纹认证系统的第一实施例的操作示例，利用图5A和图5B来解释本发明的声纹认证系统的第一实施例的发音数据的比较操作示例，利用图6来解释本发明的声纹认证系统的第二和第三实施例的流程图，并且利用图7A、图7B和图8来解释本发明的声纹认证系统的第二和第三实施例的发音数据的比较操作示例。
首先，利用图1来解释适用于本发明的第一至第三实施例的结构。
在图1中，声纹认证系统1包括声音注册装置3，其记录诸如数字或字母之类的单元素以及链接构成每个注册者的密码的所有这些单元素的链接元素的声纹数据；密码形成装置7，其利用各个元素来形成随机密码；发音数据形成装置8，其通过声音注册装置3来形成由密码形成装置7利用录音装置4中记录的声纹数据而形成的密码的发音数据；和密码判断装置12，其通过将通过请求判断的人进行的密码的声音输入而获得的发音数据与由上述发音数据装置8形成的发音数据来判断请求判断的人是否是注册者。
密码是由诸如数或字母之类的单元素以及链接这些单元素及符号的符号和链接元素构成的。这些链接元素例如是由连接诸如表示数的数位的百、千之类的数值链接元素构成的。
通过连续地排列由多个数构成的单元素，来形成具有若干数位的密码。在此，在根据具有上述数位的密码形成发音数据时，使用表示诸如百、千之类的数的数位的元素。在此，作为构成密码的链接元素，可以使用诸如<-(短横)>、<.(句点，圆点)>、<，(逗号)>之类的符号。
声音注册装置3让注册者根据密码的各个元素发出声音，并且为每个注册者存储通过发音而获得的各个元素的声纹数据。在形成发音数据时，将声纹数据用作为构成元素。声音注册能够通过利用声音注册装置3把借助于I/O装置2输入的声音转换成发音数据并通过在声音注册装置4中将所述发音数据记录成声纹数据来执行。
声音注册装置3能够通过经把声纹数据与ID相关联以记录声纹数据来获得声纹数据与注册者之间的关系，其中所述ID是以关联的方式分配给每个注册者的。
此外，声纹认证系统1包括用户ID识别装置5和用户ID记录装置6，并且能够在执行声纹认证之前或者与执行声纹认证同时使用ID来判断个人认证。用户ID识别装置5能够通过将经由I/O装置2输入的ID与用户本人预先注册且记录在用户ID记录装置6中的ID进行比较来执行个人认证。ID的识别能够增强与声纹认证相结合的个人认证的安全性，并且与此同时扮演了用于开始声纹认证中使用的发音数据的形成的开始信号角色。
声音注册装置3能够在录音装置4为每个元素记录一个声纹数据，并且同时能够相对于每个元素将具有某一幅宽的声纹数据记录到录音装置4中。也就是说，由注册者的说话获得的声纹数据与注册者的物理状态或环境条件相对应，由此声纹数据并不总是固定的。因此，需要注册者多次发出声音，并通过对按这样说话而获得的声纹数据求平均数来获得平均值，或者通过把用某一幅宽表示的多个声纹数据的分布范围记录成声纹数据。在利用声纹认证来执行个人认证的时候，声纹数据的分布范围变成声纹数据的可容许范围。
在此，在记录声纹数据的平均值时，在个人认证中，通过把从平均值起按预定可容许幅宽移动的范围也设置为可容许范围，就可以执行发音数据的比较。能够任意地设置上述预定的可容许幅宽，其中通过设置窄的可容许幅宽，能够提高个人认证的准确度，而通过设置宽的可容许幅宽，能够提高个人认证的容许度。
密码形成装置7通过按任意方式或按随机方式组合构成这些密码的各个元素来形成密码。只要密码包括预先准备好的诸如字母、数、符号等之类的各个元素，就能够任意地设置字母的数目和密码的内容。
第一实施例的密码形成装置7从由数和/或字母构成的单元素当中选择单元素的至少两个或多个任意数，并按任意顺序排列所选的单元素，由此形成密码。
密码形成装置7通过使用(例如)用户ID识别装置5来核对和识别ID来开始形成密码，其中所述ID需要认证的判断请求人利用已注册的ID来进行输入。
声纹认证系统1通过发出声音来让判断请求人输入由密码形成装置7形成的密码，并根据密码的发音数据是否与在声纹认证系统1一方上准备的发音数据相符来执行个人认证的判断。
然后，声纹认证系统1请求判断请求人经由密码请求装置9发出已形成的密码。也就是说，密码请求装置9形成一个问题以便让判断请求人通过发出声音来输入密码形成装置7所形成的密码，将以这种方式形成的问题经由I/O装置2发送给判断请求人，并且请求判断请求人通过发出声音来输入密码以作为对这个问题的回答。
例如，当把地址设置为密码时，形成诸如″你的地址是什么？″之类的问题以使判断请求人通过发出声音来将地址作为密码输入，由此通过发出声音来请求应答输入。此外，除了上述地址之外，密码也可能是按任意方式的名字、出生日期、当天的日期等等。在这种情况下，相应的问题就可以是″请问尊姓大名？″、″你何时出生的？″、″今天是本月的几号？″等等。密码请求装置9记录用于准备问题以应答这些密码的程序。
在上面提到的示例中，与由密码形成装置7形成的密码相对应的问题是由密码请求装置9形成的。然而，作为一种相反的模式，所述问题可以由密码请求装置9一方形成，并且可以根据用户信息来形成与这个问题相对应的密码。在这种模式下，用户信息是记录在记录装置(图中未示出)中的，并且密码形成装置7参考用户信息来形成密码。
声纹数据是注册者相对于构成密码的各个元素而发出的数据。发音数据形成装置8通过链接与构成密码的各个元素相对应的声纹数据来形成密码的发音数据。
第一实施例的发音数据形成装置8从录音装置4取出与由密码形成装置7形成的密码中所含的各个元素相对应的声纹数据。对于按这种方式取出的声纹数据而言，依照密码的各个单元素的排列顺序来排列各个单元素的声纹数据，并且在各个单元素之间插入链接元素的声纹数据，由此形成密码的发音数据。
例如，假设密码为<A-1234>，这个密码的元素就是<A>、<->、<1>、<2>、<34>、<千>和<百>。发音数据形成装置8通过链接分别对应于这些各个元素的声纹数据″a″、″短横″、″一″、″二″、″三十四″、″千″、″百″，来形成″a短横一千二百三十四″的发音数据。
在形成发音数据时，在读取一系列数的过程中，必须把数位部分的读取考虑在内，由此发音数据形成装置8包括判断各个数的数位并选择与所述数位元素相对应的链接元素的声纹数据并且链接各个单元素的声纹数据的发音数据形成程序。
在此，声纹认证系统具备控制上述各个装置的控制装置(在图中未示出)，所述控制装置控制包括上述发音数据形成装置8。也就是说，控制装置存储允许录音装置4、密码形成装置7和密码判断装置12执行其各自功能的声纹认证程序。根据这个声纹认证程序来执行语音认证。
此外，在这个实施例中，由于通过链接声纹数据而获得的发音数据和由判断请求人输入的发音数据彼此相符，因此没有出现问题。然而，可能会出现这样一种情况即使当只链接与各个元素相对应的声纹数据来形成发音数据时，发音数据也与判断请求人发出的发音数据不同。在这种情况下，为了顺利地执行认证，可以给发音数据形成装置8提供这样的程序，该程序在发出包括数位的数时获取(例如)谐音，以便形成基本上相当于判断请求人实际发出的阅读声的发音数据。
发音数据形成装置8通过链接与各个元素相对应的声纹数据来形成密码的发音数据，借此发音数据形成装置8不必注册每个密码的发音数据。
判断请求人发出请求判断请求人响应于发送给该判断请求人的问题而发出的密码，并且将该密码发送到声纹认证系统1。将判断请求人发出的声音及其发音数据输入到声纹认证系统1，可以通过在声纹认证系统1与客户终端20之间连接网络30来执行。除上述结构之外，还可以采用这样的结构，其中判断请求人发出的声音及其发音数据都被直接输入到声纹认证系统1。
当声纹认证系统1经由网络30与客户终端20相连时，本发明适用于这样的结构，其中声纹认证系统1是由网络上形成的服务器构成的，并且只有已经由声纹认证系统1清除了个人认证的访问点才能被连接到目标访问点上。此外，当客户终端20直接与声纹认证系统1相连接时，声纹认证系统适用于这样的结构，其中用于监视到管理区域中的入侵的机制是由声纹认证系统1构成的，并且只有已经由声纹认证系统1实施清除个人认证的人才允许进入管理区域内。
声纹认证系统1通过密码接收装置10经由I/O装置2来接收判断请求人所发出的声音以作为发音数据。声音分析装置11对密码接收装置10所接收的发音数据执行声音分析，并且获得具有适合于与由发音数据形成装置8形成的发音数据进行比较的信号形式的发音数据。
密码判断装置12将声音分析装置11采样出的发音数据与由发音数据形成装置8形成的发音数据进行比较。在第一实施例中，除为形成密码的每个元素执行发音数据的比较的方法之外，还可以根据连续密码的话音电平或各个元素中间的时间间隔来比较采样出的发音数据和由发音数据形成装置8形成的发音数据。
将判断的结果从密码判断装置12发送到识别结果输出装置13。识别结果输出装置13能够经由I/O装置2将识别结果发送到客户终端20，同时能够将该识别结果发送到网络上的其它服务器。此外，还可以显示显示设备(在图中未示出)上输出的识别结果。
接下来，利用图2中所示的流程图来解释根据本发明的声纹认证系统1的第一实施例的处理示例。
首先，由注册者执行声音注册。在这个声音注册中，让注册者发出构成密码的各个元素，并且利用声音注册装置3来在录音装置4中记录这些各个元素的声纹数据(步骤S1)。
在请求个人认证的判断时，判断请求人输入用户ID(步骤S2)，并且用户ID识别装置5将所输入的用户ID与预先在用户ID记录装置6中注册过的用户ID进行比较，以便根据用户ID来进行识别(步骤S3)。
当识别ID时(步骤S4)，在接收到这个步骤的判断结果时，密码形成装置7就开始形成密码。可以任意地确定将要形成的密码的字母的内容及数目。例如，在声纹认证系统1一方上，可以从预先注册的多个候选者中选择密码的内容，或者可以在每个时刻任意设置密码的内容(步骤S5)。
密码请求装置9形成希望由密码形成装置7形成的密码作为其应答的问题内容，并且通过发出声音来向判断请求人请求输入答案(步骤S6)。密码接收装置10从判断请求人那里接收声音信号，并且声音分析装置11对声音信号分析并形成发音数据(步骤S7)。
在此，在密码接收装置10中，对从某一时刻起传送问题经过的时间进行计数，并且当在预定时间内未接收到密码时，就执行无响应的处理。刚一接收到无响应这一结果，识别结果输出装置13就输出未执行个人认证。此外，当在步骤S4中的ID识别也变为不成功的时，识别结果输出装置13就输出未执行个人认证。在另一方面，密码形成装置7利用已注册的声纹数据来对密码的发音数据进行采样(步骤S8)。
密码判断装置12将通过由声音分析装置11执行声音分析而获得的发音数据与由发音数据形成装置8形成的发音数据进行比较(步骤S9)。当通过比较判定两个发音数据彼此相符时(步骤S10)，就假定密码彼此相符(步骤S11)。在另一方面，当通过比较判定两个发音数据彼此不相符时(步骤S10)，就假定密码彼此不相符(步骤S12)。然后，输出认证的结果(步骤S13)。
接下来，结合图4来解释第一实施例的声纹认证系统1的第一实施例的工作示例。在此，利用图3示出了在第一实施例的工作示例中使用的声纹数据的一个示例。在图3中，将数的声纹数据、序数的声纹数据、数的数位的声纹数据、月份的声纹数据、字母的声纹数据、符号的声纹数据和分句的声纹数据提供为声纹数据。
在此，分句的声纹数据是分句元素的声纹数据，所述分句元素用来形成语句中的发音数据，并且例如命名[今天是]、[现在是]等等。通过分句元素的声纹数据与数或字母的声纹数据组合或链接起来，例如就可以形成与语句(比如[今天是1月1日]、[现在是十点十二分]等等)中的密码相对应的发音数据。在这里所解释的第一实施例中，解释其中未使用分句的声纹数据的示例。在下文中，句中的密码以[]形式来表示。
图4示出了通过比较每个元素的声音来执行发音数据的判断的第一种方法和通过比较连续声音来执行发音数据的判断的第二种方法。在此，图4示出了这样的情况，其中在比较各个元素的声音的过程中，由密码形成装置7来形成密码<4156>，并且授权用户对该密码<4156>作出响应。在另一方面，图4还示出了这样的情况，其中在比较连续声音的过程中，由密码形成装置7来形成密码<AB-12>，并且非授权用户对密码<AB-12>作出响应。
在第一种方法中，当由密码形成装置7形成密码<4156>时，发音数据形成装置8读出对应于密码元素<4>、<1>、<56>的声纹数据″四″、″一″、″五十六″以及声纹数据表示数的数位的″千″、″百″，并且形成″四千一百五十六″的发音数据。
在此，在形成发音数据时，也可以通过把谐音考虑在内来形成发音数据。
在另一方面，声音分析装置11从授权用户输入的声音信号中采样出发音数据″四千一百五十六″。
密码判断装置12通过比较所有发音数据″四千一百五十六″的各个元素″四″、″千″、″一″、″百″、″五十六″来执行密码的判断。在此，当两个发音数据的各个元素彼此相符时，就判定密码彼此相符。在此，密码的判断可以把构成密码的所有元素的相符性采用作为相符条件，或是各个元素的相符率满足作为相符条件的预定值的情形。
在第二种方法中，当由密码形成装置7形成密码<AB-12>时，发音数据形成装置8读出与密码<AB-12>的元素<A>、<B>、<->、<12>相对应的声纹数据″a″、″b″、″短横″、″十二″，并且形成发音数据″ab短横十二″。
在此，在形成发音数据时，还可以通过把谐音考虑在内来形成发音数据。
在另一方面，声音分析装置11从由非授权用户输入的声音信号中采样出发音数据″ab短横十二″。在此，用斜体字来标明非授权用户的发音数据。
密码判断装置12通过比较发音数据″ab短横十二″和作为连续声音的″ab短横十二″的来执行密码的判断，并且当两个发音数据彼此不相符时，判定密码彼此不相符。
图5A和图5B示出了在第二种方法中使用连续声音的示例的比较。能够通过比较声音的声调随时间的变化来执行连续声音的比较。
图5A示出了对于密码<1234>而言、使用注册者的声纹数据来随时间改变发音数据的声调。在图中，虚线表示多个时间的声纹数据的平均值，而阴影线部分表示相符判断的可容许范围。
在另一方面，图5B示出了当非授权用户输入密码<1234>时，对于密码<1234>而言、发音数据随时间的声调变化。在图中，虚线表示非授权用户的发音数据，并且通过判断发音数据是否落入阴影线部分内来判断密码。
在此，密码的判断可以采用这样的情况，其中所有的发音数据都落入作为相符条件的可容许范围内，或者可以采用这样的情况下，其中发音数据落入可容许范围内的比率满足作为相符条件的预定值。
接下来，结合图6中所示的流程图来解释本发明的声纹认证系统的第二和第三实施例的处理示例。在第二和第三实施例中使用的密码是由语句构成的密码。在第二实施例中，通过从语句密码的发音数据中采样出预定元素来执行认证。在第三实施例中，利用整个语句密码的发音数据来执行认证。
图6中所示的流程图基本上等同于图2中所示的流程图，只是对于步骤S27到步骤S29而言与图2中所示的流程图有所不同。在此，仅仅解释步骤S27到S29，而省略对其它步骤中的处理的解释。
密码请求装置9形成希望把密码形成装置7所形成的密码作为其应答的问题内容，并且通过发出声音来向判断请求人请求输入应答(步骤S26)。密码接收装置10从判断请求人那里接收声音信号，并且声音分析装置11分析该声音信号并从语句中采样出发音数据(步骤S27)。
发音数据形成装置8获得与由密码形成装置7形成的密码相对应的声纹数据，并且形成发音数据(步骤S28)。
在此，在密码接收装置10中，对从传送问题的时刻起经过的时间进行计数，并且当在预定时间内没有接收到密码时，执行不响应的处理。刚一接收到无响应的结果，识别结果输出装置13就输出未执行个人认证。此外，同样，当在步骤S24中ID的识别变为不成功的时，识别结果输出装置13输出未执行个人认证。
密码判断装置12将通过由声音分析装置11执行的声音分析而获得的语句的发音数据与由发音数据形成装置8形成的语句的发音数据进行比较(步骤S29)。
接下来，结合图7A和图7B来解释根据本发明的声纹认证系统的第二和第三实施例的工作方式的示例，其中图7A示出了第二实施例的工作方式的示例，而图7B示出了第三实施例的工作方式的示例。
第二实施例示出了这样一种模式，其中相对于密码语句中的一些元素作出比较。
在图7A中，从多个密码语句的示例中选择任意一个语句。语句密码的示例是在这样一种模式下形成的，即提供了其中并入字母和数的空白部分。判断请求人能够任意地响应或填充空白部分的一些空白处。在这个实施例中，例如，示出了语句密码的示例[今天是 ]、[现在是 ]。判断请求人通过经发出声音填充语句密码的空白处来对所选的语句密码作出响应。
发音数据形成装置8从多个语句密码的示例中选择任意的语句，并且读出被用作将要并入到所选语句密码的示例的空白处中的数和字母的声纹数据(在这个实施例中是[今天是 ])，以便形成发音数据。
在这个实施例中，仅仅利用被用作将要并入到空白处中的数和字母的声纹数据来形成发音数据。在图7A中，这些声纹数据用1、*2来表示。
在这个实施例中，例如可以在1、*2中并入任何任意的元素，比如像″4月″、″1日″之类的。
在另一方面，仅仅采样出与将要并入到由判断请求人输入的密码的发音数据中的数和字母相对应的发音数据，并且将其与由发音数据形成装置8形成的发音数据进行比较。
图8示出了日期为4月1日的情形。第二实施例对应于图8中所示的密码判断A。当对于语句密码示例[今天是 ]来说该数据为4月1日时，密码变为[今天是4月1日]。在第二实施例中，从″今天是4月1日″中采样出与元素″4月″和″1日″相对应的″4月″和″1日″的发音数据，其中所述″今天是4月1日″是[今天是4月1日]的发音数据，尔后执行比较。
第三实施例是相对于密码语句的所有元素执行比较的一种模式。
在图7B中，按照和图7A一样的方法，从多个密码语句的示例中选择任意的语句。发音数据形成装置8从多个语句密码的示例中选择任意的语句，并且读出构成所选语句密码(在此，[今天是 ])的每个分句的元素的″今天是″的声纹数据以及被用作将要并入到语句密码示例的空白处中的数和字母声纹数据，以便利用发音数据来形成″今天是*1和*2″。
在另一方面，根据判断请求人输入的密码的发音数据，仅仅从语句的发音数据中采样出与语句″今天是*1，*2″相对应的发音数据，并且将其与发音数据形成装置8所形成的语句进行比较。
第三实施例相当于图8中的密码判断B。当对于语句密码[今天是 ]的示例而言该数据是4月1日时，密码变为[今天是4月1日]。在第三实施例中，比较整个语句″今天是4月1日″，它是[今天是4月1日]的发音数据。
本发明的声纹认证系统适用于防止网络上的终端进行非法访问，同时适用于防止入侵到诸如建筑物、工厂等等之类的特定区域中。
权利要求
1.一种声纹认证系统，包括录音装置，用于记录构成密码的数和/或字母的单元素的声纹数据以及为每个注册者链接各个单元素的链接元素的声纹数据；密码形成装置，用于利用各个元素来形成随机密码；发音数据形成装置，用于利用声纹数据来形成通过使由密码形成装置形成的密码有声化而获得的发音数据；和密码判断装置，用于根据因判断请求人按密码的声音进行输入而获得的发音数据与由发音数据形成装置形成的发音数据之间的对照来判断判断请求人是否是注册者。
2.根据权利要求1所述的声纹认证系统，其中所述链接元素是表示符号的数和/或元素的数位的元素。
3.根据权利要求1所述的声纹认证系统，其中所述录音装置记录与给每个注册者固有设置的ID相关联的声纹数据，而密码形成装置根据ID的识别来开始密码的形成。
4.根据权利要求1所述的声纹认证系统，其中所述声纹认证系统包括密码请求装置，该密码请求装置形成一个问题，该问题要求输入该密码的语音并且要求判断请求人输入对所形成的问题的密码的语音。
5.根据权利要求1所述的声纹认证系统，其中由录音装置记录的声纹数据包括基于从注册者那里获得的每个相同元素的多个声音的输入的预定认证范围。
6.根据权利要求1所述的声纹认证系统，其中所述密码形成装置从构成数和/或字母的各个单元素中选择任意数目的单元素，其中任意数至少为两个或多个，并且通过按任意顺序排列所选的单元素来形成密码。
7.根据权利要求1所述的声纹认证系统，其中发音数据形成装置从录音装置中取出与由密码形成装置形成的密码包含的各个单元素相对应的声纹数据，依照密码的单元素的排列顺序来排列声纹数据，并且在各个单元素之间插入链接元素，由此形成密码的发音数据。
8.根据权利要求1所述的声纹认证系统，其中所述发音数据形成装置从录音装置中取出与由密码形成装置形成的密码包含的各个单元素相对应的声纹数据，依照密码的单元素的排列顺序来排列声纹数据，并且在各个单元素之间插入链接元素，由此形成密码的发音数据，并且所述密码判断装置通过分析判断请求人输入的声音来采样形成密码的各个元素的发音数据，并且将采样出的发音数据与由发音数据形成装置为每个元素形成的发音数据进行比较。
9.根据权利要求1所述的声纹认证系统，其中所述发音数据形成装置从录音装置中取出与由密码形成装置形成的密码包含的各个单元素相对应的声纹数据，依照密码的单元素的排列顺序来排列声纹数据，并且在各个单元素之间插入链接元素，由此形成密码的发音数据，并且所述密码判断装置通过分析判断请求人输入的声音来采样形成密码的各个元素的发音数据，并且根据连续密码的话音电平和/或各个元素之间的时间间隔，来比较采样出的发音数据和由发音数据形成装置形成的发音数据。
10.根据权利要求1所述的声纹认证系统，其中所述密码形成装置通过在形成密码的语句中的预定位置上并入数和/或字母的单元素来形成密码。
11.根据权利要求1所述的声纹认证系统，其中所述话音形成装置通过下列步骤来形成密码的发音数据，即通过从录音装置中采样出与由密码形成装置形成的密码包含的各个元素相对应的声纹数据，以及通过在形成密码的语句中排列了各个元素的位置上排列采样出的声纹数据。
12.根据权利要求1所述的声纹认证系统，其中所述发音数据装置来通过下列步骤形成密码的发音数据，即通过从录音装置中采样出与由密码形成装置形成的密码包含的各个元素相对应的声纹数据，以及通过在形成密码的语句中排列了各个元素的位置上排列采样出的声纹数据，并且所述密码判断装置通过分析判断请求人输入的声音来采样形成密码的语句的发音数据，并且将采样出的语句的发音数据与由发音数据形成装置形成的语句的发音数据进行比较。
13.根据权利要求1所述的声纹认证系统，其中所述声纹认证系统通过分析判断请求人输入的声音和/或各个元素之间的时间间隔来采样形成密码的语句中所包含的各个元素的发音数据，并且所述密码判断装置为形成密码的每个元素，比较采样出的发音数据和/或元素之间的时间间隔和由发音数据形成装置形成的发音数据和/或各个元素之间的时间间隔。
14.根据权利要求1所述的声纹认证系统，其中所述录音装置除记录各个元素之外还记录形成密码的语句中所包含的分句的元素，并且所述发音数据形成装置从录音装置中采样出由密码形成装置形成的密码中所包含的各个元素的声纹数据，并且在排列了语句中的各个元素的位置上排列各个声纹数据，由此形成密码的发音数据。
15.一种声纹认证程序产品，包括下列步骤记录构成密码的数和/或字母的单元素的声纹数据以及为每个注册者链接各个单元素的链接元素；利用各个元素来形成随机密码；利用声纹数据来形成通过使由密码形成装置形成的密码有声化而获得的发音数据；和根据因判断请求人按密码的声音进行输入而获得的发音数据与由发音数据形成装置形成的发音数据之间的对照来判断判断请求人是否是注册者。
全文摘要
本发明便于声纹认证中声音密码的改变。一种声纹认证系统包括录音装置，用于记录构成密码的数和/或字母的单元素的声纹数据以及为每个注册者链接各个单元素的链接元素的声纹数据；密码形成装置，用于利用各个元素来形成随机密码；发音数据形成装置，用于利用声纹数据来形成通过使由密码形成装置形成的密码有声化而获得的发音数据；和密码判断装置，用于根据因判断请求人按密码的声音进行输入而获得的发音数据与由发音数据形成装置形成的发音数据之间的对照来判断判断请求人是否是注册者。代替注册通过发音密码而获得的声音密码本身，注册构成密码的各个元素的声纹数据。
文档编号G06F1/00GK1610294SQ200410086190
公开日2005年4月27日申请日期2004年10月22日优先权日2003年10月24日
发明者富士本淳申请人:阿鲁策株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：富士本淳
技术所有人：阿鲁策株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。