一种登陆方法和装置与流程

文档序号：20057821发布日期：2020-03-06 07:38阅读：195来源：国知局

本发明涉及计算机技术领域，尤其涉及一种登陆方法和装置。

背景技术：

目前安卓(android)端的登录都是依靠账号密码和验签联合认证进行内容认证，确定是否是用户本人及是否是使用官方版本的应用(app)进行认证。该登陆方式可以在本地进行登录缓存，不用用户每次都进行登录验证，登录状态等信息在第一次登录成功后会以加密串的方式存储在客户端本地一些比较隐蔽的位置。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

若获取到存储在本地的加密串，并反编译得到加密算法，即可轻松获取账号密码，对于用户来说是十分不安全的。

技术实现要素：

有鉴于此，本发明实施例提供一种登陆方法和装置，能够解决在本地静态缓存加密串对用户的数据安全造成影响的问题。

为实现上述目的，根据本发明实施例的一个方面，提供了一种登陆方法，包括：利用机器学习，将用户的原始语音转换成若干个倒谱向量；其中，倒谱向量是每帧原始语音的特征向量；根据所述倒谱向量生成该用户的声纹模型；将所述声纹模型与历史声纹模型进行匹配，若匹配成功，则允许该用户登陆。

可选地，所述机器学习包括tensorflow；利用机器学习，将用户的原始语音转换成若干个倒谱向量之前，所述方法还包括通过以下方式对tensorflow进行移植量化：在tensorflow中选择需要的开放式可插拔规范，并将其编译成动态链接库；裁剪所述动态链接库的源码，设定tensorflow规则；根据tensorflow规则，编译裁剪后的源码，生成所需要的模型；在tensorflow的目录下运行权重命令，对所述模型进行权重压缩，以得到移植量化后的tensorflow。

可选地，将用户的原始语音转换成若干个倒谱向量，包括：对所述原始语音进行预加重、分帧和加窗处理，得到短时分析窗；采用离散傅氏变换的快速算法对所述短时分析窗中的语音进行处理，所述短时分析窗对应的频谱；利用梅尔滤波器组，根据所述频谱得到梅尔频谱；对所述梅尔频谱进行倒谱分析，得到倒谱向量。

可选地，将所述声纹模型与历史声纹模型进行匹配，若匹配成功，则允许该用户登陆，包括：从本地数据库中获取历史声纹模型；采用边缘计算进行所述声纹模型与本地数据库中的历史声纹模型的匹配，若匹配成功，则允许该用户本地登陆，并展示缓存在本地的登陆状态；判断是否处于联网模式，若处于联网模式：从云端数据库中获取历史声纹模型；将所述声纹模型与云端数据库中的历史声纹模型的匹配，若匹配成功，则该用户登陆成功，并更新登陆状态。

为实现上述目的，根据本发明实施例的一个方面，提供了一种登陆装置，包括：语音转换模块、声纹生成模块和校验模块；所述语音转换模块，用于：利用机器学习，将用户的原始语音转换成若干个倒谱向量；其中，倒谱向量是每帧原始语音的特征向量；所述声纹生成模块，用于：根据所述倒谱向量生成该用户的声纹模型；所述校验模块，用于：将所述声纹模型与历史声纹模型进行匹配，若匹配成功，则允许该用户登陆。

可选地，所述机器学习包括tensorflow；所述装置还包括移植量化模块；所述移植量化模块，用于：通过以下方式对tensorflow进行移植量化：在tensorflow中选择需要的开放式可插拔规范，并将其编译成动态链接库；裁剪所述动态链接库的源码，设定tensorflow规则；根据tensorflow规则，编译裁剪后的源码，生成所需要的模型；在tensorflow的目录下运行权重命令，对所述模型进行权重压缩，以得到移植量化后的tensorflow。

可选地，所述语音转换模块，还用于：对所述原始语音进行预加重、分帧和加窗处理，得到短时分析窗；采用离散傅氏变换的快速算法对所述短时分析窗中的语音进行处理，所述短时分析窗对应的频谱；利用梅尔滤波器组，根据所述频谱得到梅尔频谱；对所述梅尔频谱进行倒谱分析，得到倒谱向量。

可选地，所述校验模块，还用于：从本地数据库中获取历史声纹模型；采用边缘计算进行所述声纹模型与本地数据库中的历史声纹模型的匹配，若匹配成功，则允许该用户本地登陆，并展示缓存在本地的登陆状态；判断是否处于联网模式，若处于联网模式：从云端数据库中获取历史声纹模型；将所述声纹模型与云端数据库中的历史声纹模型的匹配，若匹配成功，则该用户登陆成功，并更新登陆状态。

为实现上述目的，根据本发明实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例提供的登陆方法。

为实现上述目的，根据本发明实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如本发明实施例提供的登陆方法。

上述发明中的一个实施例具有如下优点或有益效果：因为采用机器学习的语音训练的技术手段，在手机端实现了将语音转换成梅尔频率倒谱向量，生成动态密码即声纹模型；克服了解决本地静态缓存的加密串对用户的信息安全造成影响的技术问题，进而可以有效的提高用户信息的安全性，最大限度的防止由静态分析导致的信息安全问题的发生。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的登陆方法的基本流程的示意图；

图2是根据本发明实施例的登陆方法的优选流程的示意图；

图3是根据本发明实施例的登陆装置的基本模块的示意图；

图4是本发明实施例可以应用于其中的示例性系统架构图；

图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的登陆方法的基本流程的示意图，如图1所示，本发明实施例提供了一种登陆方法，包括：

步骤s101.利用机器学习，将用户的原始语音转换成若干个倒谱向量；其中，倒谱向量是每帧原始语音的特征向量；

步骤s102.根据所述倒谱向量生成该用户的声纹模型；

步骤s103.将所述声纹模型与历史声纹模型进行匹配，若匹配成功，则允许该用户登陆。

步骤s101也可以是利用tensorflow中的librosa库，将用户的原始语音转换成若干个倒谱向量。tensorflow是基于机器学习系统distbelief研发的第二代人工智能学习系统，是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。librosa库是一种用于音频特征提取的工具包，其可以实现梅尔频率倒谱系数，梅尔频率倒谱系数是一种方法，最终得到的是一系列的倒谱向量，每个向量就是每帧的mfcc特征向量。本发明实施例因为采用tensorflow语音训练的技术手段，在手机端实现了将语音转换成梅尔频率倒谱向量，生成动态密码即声纹模型；克服了解决本地静态缓存的加密串对用户的信息安全造成影响的技术问题，进而可以有效的提高用户信息的安全性，最大限度的防止由静态分析导致的信息安全问题的发生。

本发明实施例中，所述方法还包括通过以下方式对tensorflow进行移植量化：在tensorflow中选择需要的开放式可插拔规范(ops,openpluggablespecification)，并将其编译成动态链接库(.so文件)；将所述动态链接库写入tensorflow的协议缓冲区文件，在协议缓冲区中裁剪所述动态链接库的源码，并设定tensorflow规则；根据tensorflow规则，编译裁剪后的源码，生成所需要的模型；在tensorflow的目录下运行权重命令，对所述模型进行权重压缩，以得到移植量化后的tensorflow。tensorflow库的内存占用比较大，而android端的手机目前常见的内存大小不足以支持tensorflow所构建出的ops，即在android平台及所展现出来的.so文件。为此，将tensorflow移植到android端需要做的是量化操作，根据需要选择ops，并将它们编译成适合安卓安装包(apk)的.so文件。

本发明实施例中，将用户的原始语音转换成若干个倒谱向量，包括：对所述原始语音进行预加重、分帧和加窗处理，得到短时分析窗；采用离散傅氏变换的快速算法fft(fastfouriertransformation)对所述短时分析窗中的语音进行处理，所述短时分析窗对应的频谱；利用梅尔滤波器组，根据所述频谱得到梅尔频谱；对所述梅尔频谱进行倒谱分析，得到倒谱向量。预加重：语音信号的预加重，目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。分帧：将语音信号分为一些较短片段来进行处理，通常使用加窗的方式来实现。加窗：语音信号的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的。将原始语音转换成倒谱向量可以提高边缘计算的准确率，从而声纹模型匹配的准确率。

本发明实施例中，将所述声纹模型与历史声纹模型进行匹配，若匹配成功，则允许该用户登陆，包括：从本地数据库中获取历史声纹模型；采用边缘计算进行所述声纹模型与本地数据库中的历史声纹模型的匹配，若匹配成功，则允许该用户本地登陆，并展示缓存在本地的登陆状态；判断是否处于联网模式，若处于联网模式：从云端数据库中获取历史声纹模型；将所述声纹模型与云端数据库中的历史声纹模型的匹配，若匹配成功，则该用户登陆成功，并更新登陆状态。本发明实施例实现了用户登陆的预加载，加载速度较快，用户先在本地进行登陆可以减少等待登陆的时间，提升用户体验。

本发明使用tensorflow处理音频录入，使用边缘计算在非联网模式进行密码动态计算(匹配的是用户的声纹模型，不是用户语音的具体内容，例如用户a无论说什么，生成的用户a的声纹模型是不变的)，消除本地缓存静态加密串对数据安全造成的影响。对于音频系统来说，原始的语音波被转换成梅尔频率倒谱系数(mfcc)来模拟人耳感知声音的方式。tensorflow有一个音频op(tensorflowaudioop，tensorflow中用于处理音频的库)，可以执行该特征提取。在账户及密码处理过程中，我们不需要接入语言模型，使用字符级的认证即可(语言模型需要对内容进行训练特征提取等。我们这里对语音中的关键字进行提取即可，只是为了验证密码即声纹模型)，所以在手机端接入tensorflow时减小tensorflow对内存的占用，可以提高准确率。

图2是根据本发明实施例的登陆方法的优选流程的示意图。如图2所示：tensorflow库通过量化移植到android手机，模型压缩语音输入，转换成梅尔频率倒谱系数(mfcc)，数据预处理，产生密码进行客户端本地校验，进行登录态预加载；联网则利用云端进行匹配。

tensorflow库量化

将tensorflow移植到android端需要做的是量化操作，需要想清楚wavenet(一个基于学习型的文本到语音引擎)中需要的全部ops，并将它们编译成适合安卓apk的.so文件。做了量化内存占用还是十分的大，这里就需要裁剪一部分的ops，在android段不需要的深度学习等模块进行裁剪。可以使用如下命令查询：

grep"op:"path/to/graph.txt|sort|uniq|sed-e's/^.+"(.+)".？$/\1/g'

列出需要的ops进行.so文件的输出。

tensorflow中包含的有量化工具，可以使用权重来减小.so文件的大小，分为以下几个步骤：

1.将.so文件写入协议缓冲区文件；

2.从源码进行安装和配置；

3.在tensorflow目录下运行权重命令进行权重压缩。

权重为“3”时，预训练声音识别模型会减小3倍左右的大小。

语音转换

梅尔频率倒谱系数(mfcc)分为以下四步：

1)先对语音进行预加重、分帧和加窗；

2)对每一个短时分析窗，通过fft得到对应的频谱；

3)将上面的频谱通过mel滤波器组得到mel频谱；

4)在梅尔(mel)频谱上面进行倒谱分析，获得mel频率倒谱系数mfcc，这个mfcc就是这帧语音的特征。

语音就可以通过一系列的倒谱向量来描述了，每个向量就是每帧的mfcc特征向量。这样就可以通过这些倒谱向量对语音分类器进行训练和识别了。

数据预处理

根据获取到的梅尔频率倒谱向量，可以利用tensorflow中有预处理声音的模型librosa库进行预处理得到声纹模型。利用该声纹模型和识别对比的语音记录(即历史声纹模型)，进行匹配校验。

用户在语音登录的过程中，通过声音训练进行声音模型存储，由边缘计算的特性由语音进行内容的判断，判断是否是用户本人，若是则本地登陆并进行登录状态的展示。在联网的模式下，获取云端数据进行联网判断，更新登陆状态。

图3是根据本发明实施例的登陆装置的基本模块的示意图；本发明实施例提供了一种登陆装置300，包括：语音转换模块301、声纹生成模块302和校验模块303；所述语音转换模块301，用于：利用机器学习，将用户的原始语音转换成若干个倒谱向量；其中，倒谱向量是每帧原始语音的特征向量；所述声纹生成模块302，用于：根据所述倒谱向量生成该用户的声纹模型；所述校验模块303，用于：将所述声纹模型与历史声纹模型进行匹配，若匹配成功，则允许该用户登陆。本发明实施例因为采用机器学习的语音训练的技术手段，在手机端实现了将语音转换成梅尔频率倒谱向量，生成动态密码即声纹模型；克服了解决本地静态缓存的加密串对用户的信息安全造成影响的技术问题，进而可以有效的提高用户信息的安全性，最大限度的防止由静态分析导致的信息安全问题的发生。

本发明实施例中，所述机器学习包括tensorflow；所述装置还包括移植量化模块；所述移植量化模块，用于：通过以下方式对tensorflow进行移植量化：在tensorflow中选择需要的开放式可插拔规范，并将其编译成动态链接库；将所述动态链接库写入tensorflow的协议缓冲区文件，在协议缓冲区中裁剪所述动态链接库的源码，并设定tensorflow规则；根据tensorflow规则，编译裁剪后的源码，生成所需要的模型；在tensorflow的目录下运行权重命令，对所述模型进行权重压缩，以得到移植量化后的tensorflow。tensorflow库的移植，重点在于内存占用的优化和对库的量化对匹配准确率的影响，减小占用的内存可以提高准确率。

本发明实施例中，所述语音转换模块301，还用于：对所述原始语音进行预加重、分帧和加窗处理，得到短时分析窗；采用离散傅氏变换的快速算法对所述短时分析窗中的语音进行处理，所述短时分析窗对应的频谱；利用梅尔滤波器组，根据所述频谱得到梅尔频谱；对所述梅尔频谱进行倒谱分析，得到倒谱向量。将原始语音转换成倒谱向量可以提高边缘计算的准确率，从而声纹模型匹配的准确率。

本发明实施例中，所述校验模块303，还用于：从本地数据库中获取历史声纹模型；采用边缘计算进行所述声纹模型与本地数据库中的历史声纹模型的匹配，若匹配成功，则允许该用户本地登陆，并展示缓存在本地的登陆状态；判断是否处于联网模式，若处于联网模式：从云端数据库中获取历史声纹模型；将所述声纹模型与云端数据库中的历史声纹模型的匹配，若匹配成功，则该用户登陆成功，并更新登陆状态。本发明实施例实现了用户登陆的预加载，加载速度较快，用户先在本地进行登陆可以减少等待登陆的时间，提升用户体验。

图4示出了可以应用本发明实施例的登陆方法或登陆装置的示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果反馈给终端设备。

需要说明的是，本发明实施例所提供的登陆方法一般由服务器405执行，相应地，登陆装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

根据本发明的实施例，本发明还提供了一种电子设备和一种计算机可读介质。

本发明实施例的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例提供的登陆方法。

本发明实施例的计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如本发明实施例提供的登陆方法。

下面参考图5，其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(cpu)501，其可以根据存储在只读存储器(rom)502中的程序或者从存储部分508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram503中，还存储有系统500操作所需的各种程序和数据。cpu501、rom502以及ram503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。

以下部件连接至i/o接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至i/o接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(cpu)501执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括：语音转换模块、声纹生成模块和校验模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，语音转换模块还可以被描述为“将用户的原始语音转换成若干个倒谱向量的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：步骤s101.利用机器学习，将用户的原始语音转换成若干个倒谱向量；其中，倒谱向量是每帧原始语音的特征向量；步骤s102.根据所述倒谱向量生成该用户的声纹模型；步骤s103.将所述声纹模型与历史声纹模型进行匹配，若匹配成功，则允许该用户登陆。

本发明实施例因为采用语音训练的技术手段，在手机端实现了将语音转换成梅尔频率倒谱向量，生成动态密码即声纹模型；克服了解决本地静态缓存的加密串对用户的信息安全造成影响的技术问题，进而可以有效的提高用户信息的安全性，最大限度的防止由静态分析导致的信息安全问题的发生。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李俊涛
技术所有人：北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
我是此专利的发明人