通讯加密方法、系统及计算机可读存储介质与流程

文档序号:17846528发布日期:2019-06-11 21:47阅读:169来源:国知局

本发明涉及通讯技术领域,尤其涉及一种通讯加密方法、系统及计算机可读存储介质。



背景技术:

保密通信是指采取了保密措施的通信。目前的保密措施除采用暗号、隐语、密码等保密措施外,主要采用信道保密和信息保密。其中,信道保密是采用使窃密者不易截收到信息的通信信道,如采用专用的线路、瞬间通信和无线电扩频通信等;信息保密是对传输的信息用约定的代码密码等方法加以隐蔽再传送出去。

随着电子技术的发展,已采用保密机进行保密。其特点是对传输的信息在发送端进行变换加密处理,接收端按相反过程还原信息,使窃密者即使收到信号,也不明信号所代表的内容。

然而,目前的保密方式单一,保密性不强。



技术实现要素:

本发明提出了一种通讯加密方法、系统及计算机可读存储介质,旨在提高通讯信息的保密效果。

为实现上述目的,本发明提供一种通讯加密方法,所述方法应用于通讯加密系统,所述通讯加密系统包括:语音识别系统和语音合成系统,所述通讯加密方法包括以下步骤:

发送端获取普通话语音信号,通过所述发送端的语音识别系统识别所述普通话语音信号并转换成标准文本,然后由所述发送端的语音合成系统将标准文本转换成方言波形输出;

接收端获取所述发送端输出的方言语音信号,通过所述接收端的语音识别系统识别所述方言语音信号并转换为标准文本,然后由所述接收端的语音合成系统将标准文本转换成普通话波形输出。

其中,语音识别系统识别语音信号的步骤包括:

所述语音识别系统通过前端对语音信号进行声学特征提取,得到所述语音信号的语音帧向量矩阵;

所述语音识别系统通过后端的解码器,并结合声学模型、词典和/或语言模型,对所述语音帧向量矩阵进行解码,识别得到语音识别结果。

其中,所述对所述语音帧向量矩阵进行解码,识别得到语音识别结果的步骤包括:

将所述语音帧向量矩中的帧识别成状态;

将所述状态组合成音素;

将所述音素组合成单词,得到语音识别结果。

其中,所述语音识别系统识别语音信号的步骤之前还包括:

对语音信号进行静音切除处理。

其中,语音合成系统将标准文本转换成方言波形或普通话波形输出的步骤包括:

所述语音合成系统对输入的标准文本进行文本分析得到音素级别上下文相关语言学特征;

基于所述音素级别上下文相关语言学特征,根据时长模型预测结果扩展到帧级别特征,作为声学模型的输入;

将声学模型输出的声学特征参数送入声码器,由所述声码器输出语音波形,所述语音波形至少包括方言波形或普通话波形。

其中,所述语音合成系统将标准文本转换成方言波形或普通话波形输出的步骤之前还包括:

基于lstm的统计参数并结合cbhg网络建模,或者通过生成式对抗网络建模,得到声学模型。

其中,所述语音合成系统将标准文本转换成方言波形或普通话波形输出的步骤之前还包括:

通过多发音人、多语种混合建模,得到声学模型。

其中,所述通过所述发送端的语音识别系统识别所述普通话语音信号并转换成标准文本的步骤之前还包括:

通过调制与载波以及软件加密技术,对所述普通话语音信号进行一次常规加密。

本发明实施例还提出一种通讯加密系统,所述通讯加密系统包括:语音识别系统、语音合成系统、存储器、处理器,以及存储在所述存储器上的通讯加密程序,所述通讯加密程序被所述处理器调用时执行如上所述的通讯加密方法的步骤。

本发明实施例还提出一种存储介质,所述存储介质上存储有通讯加密程序,所述通讯加密程序被处理器调用时执行如上所述的通讯加密方法的步骤。

本发明的有益效果是:

发送端获取普通话语音信号,通过所述发送端的语音识别系统识别所述普通话语音信号并转换成标准文本,然后由所述发送端的语音合成系统将标准文本转换成方言波形输出;接收端获取所述发送端输出的方言语音信号,通过所述接收端的语音识别系统识别所述方言语音信号并转换为标准文本,然后由所述接收端的语音合成系统将标准文本转换成普通话波形输出。由此,通过采用方言加密的保密通讯方式,替代传统的(方言)保密话务员的工作,提高了通讯信息的保密效果。此外,还可以提供多重加密的方式,来确保通信的安全可靠。另外,还可以在系统中使用不同语种的语言特征集合作为模型的输入特征,并可以加入语种标记和说话人标记,用来区分不同的语种和说话人,从而可以由普通话随机转换成各种不同的方言,以增加保密特性。

附图说明

图1是本发明通讯加密方法实施例的流程示意图;

图2是本发明中语音识别系统的流程示意图;

图3是一个波形的示例;

图4是帧与帧交叠示意图;

图5是观察序列示意图;

图6是帧、状态、音素示意图;

图7是某帧在状态s3上的条件概率示意图;

图8是建模单元示意图;

图9是状态绑定形式示意图;

图10是声学模型概率示意图;

图11是cd-dnn-hmm的架构表示示意图;

图12是本发明中语音合成系统流程示意图;

图13是本发明中基于lstm的统计参数建模示意图;

图14是本发明中cbhg网络结构示意图;

图15是本发明中gan的结构示意图;

图16是本发明中多发音人、多语种混合建模示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1所示,本发明实施例提出一种通讯加密方法,所述方法应用于通讯加密系统,所述通讯加密系统包括:语音识别系统和语音合成系统,所述通讯加密方法包括以下步骤:

步骤s1,发送端获取普通话语音信号,通过所述发送端的语音识别系统识别所述普通话语音信号并转换成标准文本,然后由所述发送端的语音合成系统将标准文本转换成方言波形输出;

步骤s2,接收端获取所述发送端输出的方言语音信号,通过所述接收端的语音识别系统识别所述方言语音信号并转换为标准文本,然后由所述接收端的语音合成系统将标准文本转换成普通话波形输出。

其中,语音识别系统识别语音信号的步骤包括:

所述语音识别系统通过前端对语音信号进行声学特征提取,得到所述语音信号的语音帧向量矩阵;

所述语音识别系统通过后端的解码器,并结合声学模型、词典和/或语言模型,对所述语音帧向量矩阵进行解码,识别得到语音识别结果。

其中,所述对所述语音帧向量矩阵进行解码,识别得到语音识别结果的步骤包括:

将所述语音帧向量矩中的帧识别成状态;

将所述状态组合成音素;

将所述音素组合成单词,得到语音识别结果。

此外,所述语音识别系统识别语音信号的步骤之前还可以对语音信号进行静音切除处理。

其中,语音合成系统将标准文本转换成方言波形或普通话波形输出的步骤包括:

所述语音合成系统对输入的标准文本进行文本分析得到音素级别上下文相关语言学特征;

基于所述音素级别上下文相关语言学特征,根据时长模型预测结果扩展到帧级别特征,作为声学模型的输入;

将声学模型输出的声学特征参数送入声码器,由所述声码器输出语音波形,所述语音波形至少包括方言波形或普通话波形。

其中,所述语音合成系统将标准文本转换成方言波形或普通话波形输出的步骤之前还包括:

基于lstm的统计参数并结合cbhg网络建模,或者通过生成式对抗网络建模,得到声学模型。

或者,通过多发音人、多语种混合建模,得到声学模型。

此外,还可以提供多重加密的方式,来确保通信的安全可靠。另外,还可以在系统中使用不同语种的语言特征集合作为模型的输入特征,并可以加入语种标记和说话人标记,用来区分不同的语种和说话人,从而可以由普通话随机转换成各种不同的方言,以增加保密特性。

以下对本发明实施例方案进行详细阐述:

本发明提供多重加密的方式,来确保通信的安全可靠。首先是调制与载波以及软件加密技术,对信号进行一次常规加密,里面的加密算法可以确保通信高等级防止泄密与破译;此外,还增加一种采用方言加密的保密通讯方式,以替代传统的(方言)保密话务员的工作。

如图2所示,图2为本发明中语音识别系统的流程示意图。

所述语音识别系统通过前端对语音信号进行声学特征提取,得到所述语音信号的语音帧向量矩阵;

所述语音识别系统通过后端的解码器,并结合声学模型、词典和/或语言模型,对所述语音帧向量矩阵进行解码,识别得到语音识别结果。

其中,识别得到语音识别结果包括:

将所述语音帧向量矩中的帧识别成状态;

将所述状态组合成音素;

将所述音素组合成单词,得到语音识别结果。

本发明涉及的声学模型、词典和/或语言模型解释如下:

声学模型(acousticmodel):用于识别语音向量;可用gmm或dnn等方法来识别向量,用dtw或hmm或ctc来对齐(alignment)识别结果的输出(单词从何时开始,何时结束);

词典(dictionary):多数模型并不是以单词,而是以音素为识别单位。当识别出pl这三个音素时,利用字典,就可以判断出所说的词是apple。

语言模型(languagemodel):当中国人在听外国人说错误的中文时依然能够识别内容是因为,中国人有关于语法的知识,可以调整声学模型所识别出的不合逻辑的词语,这就是语言模型的作用。

首先,声音实际上是一种波。比如windowspcm文件就是非压缩的纯波形文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。如图3所示,图3是一个波形的示例。

在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为vad,需要用到信号处理的一些技术。要对声音进行分析,需要对声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧。分帧操作使用移动窗函数来实现。帧与帧之间一般是有交叠的,如图4所示。

图4中,每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。此称为以帧长25ms、帧移10ms分帧。分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取mfcc特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。至此,声音就成了一个12行(假设声学特征是12维)、n列的一个矩阵,称之为观察序列,这里n为总帧数。观察序列如下图5所示,图5中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。

语音识别的工作流程为:把帧识别成状态--把状态组合成音素--音素组合成单词。

音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。

状态:状态为比音素更细致的语音单位。通常把一个音素划分成3个状态。

如图6所示,图6中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。只要知道每帧语音对应哪个状态了,就能得出语音识别的结果。每帧音素对应的状态由某帧对应的状态的最大概率来决定,如图7所示,这帧在状态s3上的条件概率最大,得出这帧属于状态s3。

概率由“声学模型”读取,里面存了巨大数量的语音数据,通过这些参数,就可以知道帧和状态对应的概率。

使用隐马尔可夫模型(hiddenmarkovmodel,hmm)构建一个状态网络,从状态网络中寻找与声音最匹配的路径。根据实际任务的需求,合理选择网络大小和结构。搭建状态网络,是由单词级网络展开成音素网络,再展开成状态网络。

语音识别过程是在状态网络中搜索一条最佳路径,语音对应这条路径的概率最大,这称之为“解码”。路径搜索的算法是一种动态规划剪枝的算法,称之为viterbi算法,用于寻找全局最优路径。用训练好的模型组合起来就可以通过判断新的语音向量,来识别语音了。

1、语音识别的基本架构

w*=argmaxwp(w|y)(1)

≈argmaxwp(y|w)p(w)(3)

上式中w表示文字序列,y表示语音输入。公式1表示语音识别的目标是在给定语音输入的情况下,找到可能性最大的文字序列。根据baye’rule,可以得到公式2,其中分母表示出现这条语音的概率,它相比于求解的文字序列没有参数关系,可以在求解时忽略,进而得到公式3。公式3中第一部分(p(y|w))表示给定一个文字序列出现这条音频的概率(acousticmodel(am)),它就是语音识别中的声学模型;第二部分(p(w))表示出现这个文字序列的概率(languagemodel(lm)),它就是语音识别中的语言模型。

2、声学模型(acousticmodel,am)

声学模型可以理解为是对发声的建模,它能够把语音输入转换成声学表示的输出,更准确的说是给出语音属于某个声学符号的概率。

在英文中这个声学符号可以是音节(syllable)或者更小的颗粒度音素(phoneme);在中文中这个声学符号可以是声韵母或者是颗粒度同英文一样小的音素。那么公式3中的声学模型就可以表示为下面的公式4的形式:

其中q表示发音单位的序列。从公式中可以看到,声学模型最终转换成了一个语音到发音序列的模型和一个发音序列到输出文字序列的字典。这里的发音序列通常是音素,到此为止声学模型是从语音到音素状态的一个描述。为了对不同上下文的音素加以区分,通常使用上下文相关的“三音子”作为建模单元。可以用图8表示:

其中字典部分表示为如下公式5,其意义是把每个文字拆分成若干发音符号的序列。

公式4中的声学部分可以继续分解为如下公式6:

θ=θ0,…,θt+1isastatesequence(6)

公式6表示声学建模的颗粒度可以继续分解为更小的状态(state)。通常一个三音子对应有3个状态(静音通常是5个状态),那么声学建模的总数就是3*q3+5这么多。为了压缩建模单元数量,状态绑定的技术被大量使用,它使得发音类似的状态用一个模型表表示,从而减少了参数量。状态绑定的技术可以使用专家手工编撰的规则,也可以使用数据驱动的方式。具体绑定形式如下图所示:

基于上面的推到,声学模型是一个描述语音和状态之间转换的模型。

此时,引入hmm假设:状态隐变量,语音是观测值,状态之间的跳转符合马尔科夫假设。那么声学模型可以继续表示为如下公式:

其中a表示转移概率,b表示发射概率。用图来表示的话,可以如图10所示的结构:

如图10中所示,观测概率通常用gmm或是dnn来描述。这就是cd-gmm-hmm架构和cd-dnn-hmm架构的语音识别声学模型。cd-dnn-hmm的架构表示如图11所示。

如图12所示,语音合成系统包含文本分析、时长模型、声学模型、声码器等模块。对于一句输入文本,首先经过文本分析得到音素级别上下文相关语言学特征;然后根据时长模型预测结果扩展到帧级别特征,作为声学模型的输入;最后把声学模型输出的声学特征参数送入声码器,输出语音波形。这里采用lstm做声学和时长建模,并且使用延迟输出和跳帧输出的策略,在提升建模效果的同时可以有效降低运算量。引入tacotron系统中的cbhg网络对lstm层的输出做后处理,以保证声学特征参数的平滑性。此外,还采用生成式对抗网络,来得到更加自然的合成语音。

基于lstm的统计参数建模

长短时记忆(longshorttermmemory,lstm)网络具有强大的序列建模能力,而bi-directionallstm由于能够充分考虑序列的上下文信息而得到广泛应用。在语音合成任务中,考虑到流式处理的需要,这里采用单向lstm网络。为了更好地对输入特征进行抽象,在lstm层之前加了两层全连接网络。

为了使单向lstm网络也能够观测到未来的输入信息,这里采用了延迟输出策略。具体做法是在得到若干帧后的输入信息之后,才开始给出第一帧的输出。另外,为降低计算量,采用了跳帧输出策略。对于连续的n帧,只需要提供最后一帧的输入,即可得到全部n帧的输出序列,从而有效降低了计算量。lstm模型不像blstm那样可以输出平滑的特征参数,而采用rnn代替全连接作为输出层,可以得到更加平滑的特征参数输出,如图13所示。

cbhg网络

采用rnn作为输出层,可以生成平滑的谱参数,但是基频参数还是有比较明显的不平滑问题。为了解决这个问题,这里引入了tacotron系统中用到的cbhg(1-dconvolutionbank+highwaynetwork+bidirectionalgru)网络。cbhg网络结构如图14所示,由一维卷积滤波器组,加上highway网络和一个双向gru网络组成。cbhg是一种非常强大的网络,常被用来提取序列的表征。在lstm网络后面加上cbhg网络,可以有效改善输出特征参数不平滑的问题,并进一步提升模型预测精度。

生成式对抗网络

生成式对抗网络(generativeadversarialnetwork,gan)作为一种强大的生成式模型,已经成功地被应用到图像生成和其他一些领域。gan的结构如图15所示,由一个生成器g和一个鉴别器d组成。其中g作为参数合成系统中的声学模型,目标是生成逼近自然语音的特征参数;而d的作用是评估g输出的声学特征与真实的声学特征的相似度,并通过梯度的方式传递给g,从而调整生成网络使得输出的声学特征更加逼近自然语音。采用gan的网络结构,可以有效缓解参数合成带来的声学特征参数过平滑问题,从而使合成语音更加真实自然。传统gan的生成器以随机噪声作为输入,这里输入的是语言学信息。而g的损失函数在传统损失函数基础上,还加入了输出声学特征和真实声学特征的均方误差。在训练阶段分别对g和d进行交叉训练,即在每次迭代先固定d的参数,对g进行训练;然后再固定g的参数,对d进行训练。

多发音人、多语种混合建模

传统的语音合成系统,对于每一个语种的每个发音人都要单独训练一个模型。考虑到lstm强大的建模能力,这里完全可以用一个模型来对多个语种和多个说话人建模。为了简单起见,这里在系统中使用不同语种的语言特征集合作为模型的输入特征,另外还加入了语种标记和说话人标记,用来区分不同的语种和说话人。可以由普通话随机转换成各种不同的方言,以增加保密特性,如图16所示。

此外,本发明实施例还提出一种通讯加密系统,所述通讯加密系统包括:语音识别系统、语音合成系统、存储器、处理器,以及存储在所述存储器上的通讯加密程序,所述通讯加密程序被所述处理器调用时执行如上所述的通讯加密方法的步骤。

此外,本发明实施例还提出一种存储介质,所述存储介质上存储有通讯加密程序,所述通讯加密程序被处理器调用时执行如上所述的通讯加密方法的步骤。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1