音色特征提取模型的训练和音频合成的方法及装置与流程

文档序号:33635733发布日期:2023-03-29 00:30阅读:309来源:国知局
音色特征提取模型的训练和音频合成的方法及装置与流程

1.本技术涉及计算机技术领域,特别涉及一种音色特征提取模型的训练和音频合成的方法及装置。


背景技术:

2.近几年,人工智能被应用在tts(text to speech,语音合成)技术中,tts技术是根据输入文本,生成出对应的语音音频,在语音助手、聊天机器人、有声书、虚拟人等场景有广泛的应用。在tts技术中,一般需要合成特定音色的音频。因此,音色特征提取模型是必要的。
3.一般地,在对音色特征提取模型进行训练之前,需要录制不同人物的样本音频。在录制音频时,每个人物会被分配一个id(identity document,身份标识号码)。音色特征提取模型训练过程如下:首先,获取id,将id输入到待训练的音色特征提取模型中得到音色特征,同时获取目标文本的文本发音特征;然后,将提取出的音色特征与文本发音特征输入到待训练的音频合成模型中得到预测音频;最后,以最小化预测音频的与该id对应的样本音频(样本音频是使用该id对应的音色朗读目标文本得到的音频)的差异为训练目的,对音色特征提取模型进行训练。
4.上述训练过程使用的训练样本是某几种指定音色的样本音频,相同音色的样本音频对应的id相同,训练得到的音色特征提取模型仅能输出这些指定音色的音色特征,当需要新增一种指定音色的时候,需要分配一个新的id,使用新增的音色的样本音频和新的id,对音色特征提取模型再次进行训练,然后音色特征提取模型才能在输入该id的时候输出该音色对应的音色特征,这样会导致音色特征提取的效率受到影响。


技术实现要素:

5.本技术实施例提供了一种音色特征提取模型的训练和音频合成的方法及装置,能够解决音色特征提取的效率低的问题。技术方案如下:
6.第一方面,提供了一种音色特征提取模型的训练方法,所述方法包括:
7.获取第一人物的第一样本音频、所述第一人物的第二样本音频和第二人物的第三样本音频;
8.根据待训练的音色特征提取模型对所述第一样本音频提取第一音色特征,根据所述待训练的音色特征提取模型对所述第二样本音频提取第二音色特征,根据所述待训练的音色特征提取模型对所述第三样本音频提取第三音色特征;
9.以最小化所述第一音色特征与所述第二音色特征的差异、且最大化所述第一音色特征与所述第三音色特征的差异为训练目的,对所述待训练的音色特征提取模型进行训练;若满足训练结束条件,则将满足训练结束条件的音色特征提取模型确定为目标音色特征提取模型。
10.在一种可能的实现方式中,所述以最小化所述第一音色特征与所述第二音色特征
的差异、且最大化所述第一音色特征与所述第三音色特征的差异为训练目的,对所述待训练的音色特征提取模型进行训练,包括:
11.以最小化所述第一音色特征与所述第二音色特征的差异、并最大化所述第一音色特征与所述第三音色特征的差异、并最大化所述第二音色特征与所述第三音色特征的差异为训练目的,对所述待训练的音色特征提取模型进行训练。
12.在一种可能的实现方式中,所述第一音色特征为第一音色特征向量,第二音色特征为第二音色特征向量,第三音色特征为第三音色特征向量;
13.所述以最小化所述第一音色特征与所述第二音色特征的差异、且最大化所述第一音色特征与所述第三音色特征的差异、并最大化所述第二音色特征与所述第三音色特征的差异为训练目的,对所述待训练的音色特征提取模型进行训练,包括:
14.确定所述第一音色特征向量与所述第二音色特征向量之间的第一向量角,确定所述第一音色特征向量与所述第三音色特征向量之间的第二向量角,确定所述第二音色特征向量与所述第三音色特征向量之间的第三向量角;
15.根据所述第一向量角、所述第二向量角和所述第三向量角,确定第一损失值,其中,所述第一损失值与所述第一向量角正相关、与所述第二向量角负相关并与所述第三向量角负相关;
16.根据所述第一损失值对所述待训练的音色特征提取模型进行训练。
17.在一种可能的实现方式中,所述根据所述第一向量角、所述第二向量角和所述第三向量角,确定第一损失值,包括:
18.确定所述第一向量角的第一余弦值、所述第二向量角的第二余弦值、第三向量角的第三余弦值;
19.根据所述第一余弦值、所述第二余弦值和所述第三余弦值,确定第一损失值,其中,所述第一损失值与所述第一余弦值负相关、与所述第二余弦值正相关并与所述第三余弦值正相关。
20.在一种可能的实现方式中,所述根据所述第一余弦值、所述第二余弦值和所述第三余弦值,确定第一损失值,包括:
21.根据所述第一余弦值和所述第二余弦值,确定第一子损失值,根据所述第二余弦值,确定第二子损失值,根据所述第三余弦值,确定第三子损失值,根据所述第一余弦值,确定第四子损失值,其中,所述第一子损失值与所述第一余弦值负相关并与所述第二余弦值正相关,所述第子二损失值与所述第二余弦值正相关,所述第三子损失值与所述第三余弦值正相关,所述第四子损失值与所述第一余弦值负相关;
22.根据所述第一子损失值、所述第二子损失值、所述第三子损失值和所述第四子损失值,确定第一损失值。
23.在一种可能的实现方式中,所述根据所述第一余弦值和所述第二余弦值,确定第一子损失值;根据所述第二余弦值,确定第二子损失值;根据所述第三余弦值,确定第三子损失值;根据所述第一余弦值,确定第四子损失值,包括:
24.根据公式确定第一子损失值l1;
25.根据公式l2=cos(ya,yn),确定第二子损失值l2;
26.根据公式l3=cos(y
p
,yn),确定第三子损失值l3;
27.根据公式l4=-cos(ya,y
p
),确定第四子损失值l4;
28.其中,ya为第一音色特征向量,y
p
为第二音色特征向量,yn为第三音色特征向量,cos(ya,y
p
)为第一余弦值,cos(ya,yn)为第二余弦值,cos(y
p
,yn)为第三余弦值。
29.在一种可能的实现方式中,所述根据所述第一子损失值、所述第二子损失值、所述第三子损失值和所述第四子损失值,确定第一损失值,包括:
30.根据第一权重、第二权重、第三权重和第四权重,确定所述第一子损失值、所述第二子损失值、所述第三子损失值和所述第四子损失值的加权平均值,得到第一损失值。
31.在一种可能的实现方式中,所述第一样本音频和所述第三样本音频是对应相同文本的朗读音频,所述第一样本音频和所述第二样本音频是对应不同文本的朗读音频。
32.在一种可能的实现方式中,所述若满足训练结束条件,则将满足训练结束条件的音色特征提取模型确定为目标音色特征提取模型之前,所述方法还包括:
33.确定样本文本对应的音素序列,将所述音素序列输入待训练的编码器,得到所述样本文本对应的文本发音特征;并将所述文本发音特征和所述第一音色特征输入待训练的音频合成模型,得到预测音频;
34.根据所述预测音频和所述第一样本音频,确定第二损失值;并根据所述第二损失值,对所述待训练的编码器和所述待训练的音频合成模型,进行训练;
35.所述以最小化所述第一音色特征与所述第二音色特征的差异、且最大化所述第一音色特征与所述第三音色特征的差异为训练目的,对所述待训练的音色特征提取模型进行训练,包括:以最小化所述第一音色特征与所述第二音色特征的差异、且最大化所述第一音色特征与所述第三音色特征的差异为训练目的,并根据所述第二损失值,对所述待训练的音色特征提取模型进行训练;
36.若满足训练结束条件,则所述方法还包括:
37.将满足训练结束条件的编码器确定为目标编码器,将满足训练结束条件的音频合成模型确定为目标音频合成模型。
38.在一种可能的实现方式中,所述将所述文本发音特征和所述第一音色特征输入待训练的音频合成模型,得到预测音频之后,所述方法还包括:
39.获取所述第一人物的第四样本音频和所述第二人物的第五样本音频;
40.根据待训练的音色特征提取模型对所述预测音频提取第四音色特征,根据所述待训练的音色特征提取模型对所述第四样本音频提取第五音色特征,根据所述待训练的音色特征提取模型对所述第五样本音频提取第六音色特征;
41.所述根据所述第二损失值对所述待训练的编码器和所述待训练的音频合成模型,进行训练,包括:以最小化所述第四音色特征与所述第五音色特征的差异、且最大化所述第四音色特征与所述第六音色特征的差异为训练目的,并根据所述第二损失值,对所述待训练的编码器和所述待训练的音频合成模型,进行训练;
42.所述以最小化所述第一音色特征与所述第二音色特征的差异、且最大化所述第一音色特征与所述第三音色特征的差异为训练目的,并根据所述第二损失值,对所述待训练的音色特征提取模型进行训练,包括:以最小化所述第一音色特征与所述第二音色特征的差异、最大化所述第一音色特征与所述第三音色特征的差异、最小化所述第四音色特征与
所述第五音色特征的差异、且最大化所述第四音色特征与所述第六音色特征的差异为训练目的,并根据所述第二损失值,对所述待训练的音色特征提取模型进行训练。
43.第二方面,提供了一种音色合成的方法,所述方法包括:
44.根据如第一方面所述的目标音色特征提取模型对目标音频提取音色特征;
45.确定目标文本对应的目标音素序列,将所述目标音素序列输入目标编码器,得到所述目标文本对应的目标文本发音特征;
46.将所述目标文本发音特征和所述目标音频的所述音色特征输入目标音频合成模型,得到合成音频。
47.第三方面,提供了一种音色特征提取模型的训练装置,所述装置包括:
48.获取模块,用于获取第一人物的第一样本音频、所述第一人物的第二样本音频和第二人物的第三样本音频;
49.提取模块,用于根据待训练的音色特征提取模型对所述第一样本音频提取第一音色特征,根据所述待训练的音色特征提取模型对所述第二样本音频提取第二音色特征,根据所述待训练的音色特征提取模型对所述第三样本音频提取第三音色特征;
50.训练模块,用于以最小化所述第一音色特征与所述第二音色特征的差异、且最大化所述第一音色特征与所述第三音色特征的差异为训练目的,对所述待训练的音色特征提取模型进行训练;若满足训练结束条件,则将满足训练结束条件的音色特征提取模型确定为目标音色特征提取模型。
51.在一种可能的实现方式中,所述训练模块,用于:
52.以最小化所述第一音色特征与所述第二音色特征的差异、并最大化所述第一音色特征与所述第三音色特征的差异、并最大化所述第二音色特征与所述第三音色特征的差异为训练目的,对所述待训练的音色特征提取模型进行训练。
53.在一种可能的实现方式中,所述第一音色特征为第一音色特征向量,第二音色特征为第二音色特征向量,第三音色特征为第三音色特征向量;
54.所述训练模块,用于:
55.确定所述第一音色特征向量与所述第二音色特征向量之间的第一向量角,确定所述第一音色特征向量与所述第三音色特征向量之间的第二向量角,确定所述第二音色特征向量与所述第三音色特征向量之间的第三向量角;
56.根据所述第一向量角、所述第二向量角和所述第三向量角,确定第一损失值,其中,所述第一损失值与所述第一向量角正相关、与所述第二向量角负相关并与所述第三向量角负相关;
57.根据所述第一损失值对所述待训练的音色特征提取模型进行训练。
58.在一种可能的实现方式中,所述训练模块,用于:
59.确定所述第一向量角的第一余弦值、所述第二向量角的第二余弦值、第三向量角的第三余弦值;
60.根据所述第一余弦值、所述第二余弦值和所述第三余弦值,确定第一损失值,其中,所述第一损失值与所述第一余弦值负相关、与所述第二余弦值正相关并与所述第三余弦值正相关。
61.在一种可能的实现方式中,所述训练模块,用于:
62.根据所述第一余弦值和所述第二余弦值,确定第一子损失值,根据所述第二余弦值,确定第二子损失值,根据所述第三余弦值,确定第三子损失值,根据所述第一余弦值,确定第四子损失值,其中,所述第一子损失值与所述第一余弦值负相关并与所述第二余弦值正相关,所述第子二损失值与所述第二余弦值正相关,所述第三子损失值与所述第三余弦值正相关,所述第四子损失值与所述第一余弦值负相关;
63.根据所述第一子损失值、所述第二子损失值、所述第三子损失值和所述第四子损失值,确定第一损失值。
64.在一种可能的实现方式中,所述训练模块,用于:
65.根据公式确定第一子损失值l1;
66.根据公式l2=cos(ya,yn),确定第二子损失值l2;
67.根据公式l3=cos(y
p
,yn),确定第三子损失值l3;
68.根据公式l4=-cos(ya,y
p
),确定第四子损失值l4;
69.其中,ya为第一音色特征向量,y
p
为第二音色特征向量,yn为第三音色特征向量,cos(ya,y
p
)为第一余弦值,cos(ya,yn)为第二余弦值,cos(y
p
,yn)为第三余弦值。
70.在一种可能的实现方式中,所述训练模块,用于:
71.根据第一权重、第二权重、第三权重和第四权重,确定所述第一子损失值、所述第二子损失值、所述第三子损失值和所述第四子损失值的加权平均值,得到第一损失值。
72.在一种可能的实现方式中,所述第一样本音频和所述第三样本音频是对应相同文本的朗读音频,所述第一样本音频和所述第二样本音频是对应不同文本的朗读音频。
73.在一种可能的实现方式中,所述装置还包括合成模块;
74.所述合成模块,用于确定样本文本对应的音素序列,将所述音素序列输入待训练的编码器,得到所述样本文本对应的文本发音特征;将所述文本发音特征和所述第一音色特征输入待训练的音频合成模型,得到预测音频;
75.所述训练模块,还用于根据所述预测音频和所述第一样本音频,确定第二损失值;并根据所述第二损失值,对所述待训练的编码器和所述待训练的音频合成模型,进行训练;以最小化所述第一音色特征与所述第二音色特征的差异、且最大化所述第一音色特征与所述第三音色特征的差异为训练目的,并根据所述第二损失值,对所述待训练的音色特征提取模型进行训练;若满足训练结束条件,则将满足训练结束条件的编码器确定为目标编码器,将满足训练结束条件的音频合成模型确定为目标音频合成模型。
76.在一种可能的实现方式中,所述获取模块,还用于获取所述第一人物的第四样本音频和所述第二人物的第五样本音频;
77.所述提取模块,还用于根据待训练的音色特征提取模型对所述预测音频提取第四音色特征,根据所述待训练的音色特征提取模型对所述第四样本音频提取第五音色特征,根据所述待训练的音色特征提取模型对所述第五样本音频提取第六音色特征;
78.所述训练模块,还用于以最小化所述第四音色特征与所述第五音色特征的差异、并最大化所述第四音色特征与所述第六音色特征的差异为训练目的,并根据所述第二损失值,对所述待训练的编码器和所述待训练的音频合成模型,进行训练;以最小化所述第一音色特征与所述第二音色特征的差异、最大化所述第一音色特征与所述第三音色特征的差
异、最小化所述第四音色特征与所述第五音色特征的差异、且最大化所述第四音色特征与所述第六音色特征的差异为训练目的,并根据所述第二损失值,对所述待训练的音色特征提取模型进行训练。
79.第四方面,提供了一种音色提取的装置,所述装置包括:
80.提取模块,用于对目标音频提取音色特征;
81.确定模块,用于确定目标文本对应的目标音素序列,将所述目标音素序列输入目标编码器,得到所述目标文本对应的目标文本发音特征;
82.合成模块,用于将所述目标文本发音特征和所述目标音频的所述音色特征输入目标音频合成模型,得到合成音频。
83.第五方面,提供了一种计算机设备,计算机设备包括存储器和处理器,存储器用于存储计算机指令;处理器执行存储器存储的计算机指令,以使计算机设备执行第一方面及其可能的实现方式的方法。
84.第六方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序代码,当计算机程序代码被计算机设备执行时,计算机设备执行第一方面及其可能的实现方式的方法。
85.第七方面,提供了一种计算机程序产品,计算机程序产品包括计算机程序代码,在计算机程序代码被计算机设备执行时,计算机设备执行第一方面及其可能的实现方式的方法。
86.本技术的实施例提供的技术方案可以包括以下有益效果:
87.通过本技术实施例提供的方法,需要获取第一人物的第一样本音频和第二样本音频以及第二人物的第三样本音频,并通过音色特征提取模型对这三个样本音频分别提取音色特征,提取出的音频特征分别是第一音色特征、第二音色特征、第三音色特征。该音色特征提取模型以最小化第一音色特征与第二音色特征的差异、且最大化第一音色特征与第三音色特征的差异为训练目的,对待训练的音色特征提取模型进行训练。在达到训练结束的条件后,就可以将满足训练结束条件的音色特征提取模型确定为目标音色特征提取模型。这样,经过这种方法训练得到的目标音色特征提取模型,在对任意音色的音频提取音色特征时,都无需对模型进行额外的训练,可以直接将具有该音色的音频输入音色特征提取模型,便可以得到音色特征,从而可以提高音色特征提取的效率。
附图说明
88.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
89.图1是本技术实施例提供的一种音色特征提取模型训练方法的流程示意图;
90.图2是本技术实施例提供的一种计算第一损失值的流程示意图;
91.图3是本技术实施例提供的一种音色特征提取模型的训练方法流程示意图;
92.图4是本技术实施例提供的一种计算第二损失值的方法的流程示意图;
93.图5是本技术实施例提供的一种音色特征提取模型训练方法的流程示意图;
94.图6是本技术实施例提供的一种计算第三损失值的方法的流程示意图;
95.图7是本技术实施例提供的一种音色特征提取模型使用方法的流程示意图;
96.图8是本技术实施例提供的一种音色特征提取模型的训练装置结构示意图;
97.图9是本技术实施例提供的一种音色合成的装置的结构示意图;
98.图10是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
99.本技术实施例提供了一种音色特征提取模型的训练方法,该音色特征提取模型用于将一段文本转为特定音色的音频的过程中,应用于具有语音合成功能的应用程序。
100.该方法可以由计算机设备来实现,计算机设备可以是终端或服务器。终端可以是手机、平板电脑、笔记本计算机、台式计算机等。终端中可以安装有具有语音合成功能的应用程序。服务器可以是具有语音合成功能的应用程序的后台服务器,服务器可以是单独的一台服务器,也可以是多台设备组成的设备组。
101.从硬件组成上来看,计算机设备的结构可以包括处理器和存储器。
102.处理器可以是cpu(central processing unit,中央处理器)或soc(system on chip,系统级芯片)等,处理器可以用于执行该方法涉及的各种指令等。
103.存储器可以包括各种易失性存储器或非易失性存储器,如ssd(solid state disk,固态硬盘)、dram(dynamic random access memory,动态随机存取存储器)内存等。存储器可以用于存储训练过程中的预存数据、中间数据和结果数据,例如,样本音频等。
104.除了处理器、存储器,终端还可以包括显示部件、通信部件、音频采集部件、音频输出部件等。
105.显示部件可以是独立的屏幕、或与终端机身一体的屏幕、投影仪等,屏幕可以为触控屏、也可以为非触控屏,显示部件用于显示系统界面、应用界面等,例如,录制音频的界面等。
106.通信部件可以是有线网络连接器、wifi(wireless fidelity,无线保真)模块、蓝牙模块、蜂巢网通信模块等。通信部件可以用于与其他设备进行数据传输,其他设备可以是服务器、也可以是其他终端等。
107.音频采集部件可以为麦克风,用于采集用户的语音。音频输出部件可以为音箱、耳机等,用于播放音频。
108.从硬件组成上来看,服务器的结构可以包括处理器和存储器。
109.处理器可以是cpu或soc等,处理器可以用于执行该方法涉及的各种指令等。
110.存储器可以包括各种易失性存储器或非易失性存储器,如ssd、dram内存等。存储器可以用于存储训练过程中的预存数据、中间数据和结果数据,例如,样本音频、音频特征、预测音频等。
111.下面,对本实施例中涉及的若干个名词进行介绍:
112.tts(text to speech,语音合成):根据输入文本,生成出对应的语音音频。
113.mfc(mel-frequency spectrum,梅尔倒频谱):以下简称梅尔谱。梅尔谱是一个可用来代表短期音讯的频谱。梅尔倒频谱系数是构成梅尔谱的系数,通常可以用于作为语音识别系统中的特征质观察。
114.音素:是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。例如,汉语音节啊(
ā
)只有一个音素,爱(
à
i)有两个音素,代(d
à
i)有三个音素等。
115.在语音合成助手中,当用户需要将一段文本合成对应的音频时,用户可以在文本框输入一段文字内容,在人物列表中点击人物头像,选择合成音频的音色是哪位人物的,最后点击合成按钮就可以得到对应音色的音频,合成的音频可以用于配音或音视频剪辑等。在智能导航中,当用户选择目的地位置后,终端获取到该操作后依据定位的位置和路线,实时生成路线提示文本,终端根据该提示文本和用户预先设置的音色实时生成导航音频。在电子书中,当用户需要将某个文本转为音频时,用户可以点击语音播放,终端获取到用户的操作时,将文本合成预先设置的音色的音频进行播放。
116.本技术实施例针对上述的应用场景,提供了一种音色特征提取模型的训练的方法,该方法的处理流程可以如图1所示,包括如下处理步骤:
117.101,获取第一人物的第一样本音频、第一人物的第二样本音频和第二人物的第三样本音频。
118.其中,样本音频可以是梅尔谱,也可以是频谱数据,还可以是时域音频数据,本技术实施例以梅尔谱为例进行说明。
119.在实施中,在对音色特征提取模型进行训练之前,需要录制不同人物的音频。然后,对录制好的音频分别进行短时傅里叶变换,得到频谱数据。再将频谱数据分别转换为梅尔谱作为样本音频。可以对样本音频进行分组,可以将三个样本音频分为一组,每组的三个样本音频包括两个相同人物的样本音频和一个不同人物的样本音频。例如,某一组三个样本音频包括张三的第一样本音频和第二样本音频,还包括李四的第三样本音频。
120.102,根据待训练的音色特征提取模型对第一样本音频提取第一音色特征,根据待训练的音色特征提取模型对第二样本音频提取第二音色特征,根据待训练的音色特征提取模型对第三样本音频提取第三音色特征。
121.其中,第一音色特征、第二音色特征和第三音色特征均可以为向量或矩阵等数学形式,本技术实施例以向量为例进行说明。
122.音色特征提取模型可以是机器学习模型。音色特征提取模型中使用的网络结构可以是ecapa-tdnn(emphasized channel attention propagation and aggregation in time delay neural network based speaker verification,基于时延神经网络中强调信道注意、传播和聚合的扬声器验证时延神经网络),这是一种主流的声纹模型。
123.在实施中,计算机设备可以将第一样本音频输入到待训练的音色特征提取模型中,则待训练的音色特征提取模型可以输出预测的第一音色特征。并可以将第二样本音频输入到待训练的音色特征提取模型中,则待训练的音色特征提取模型可以输出预测的第二音色特征。并可以将第三样本音频输入到待训练的音色特征提取模型中,则待训练的音色特征提取模型可以输出预测的第三音色特征。在音色特征提取模型还没有训练完成时,上述得到的各音色特征都仅仅是一个预测值,可能还不够准确,用于对音色特征提取模型进行训练。
124.103,以最小化第一音色特征与第二音色特征的第一差异、且最大化第一音色特征与第三音色特征的第二差异为训练目的,对待训练的音色特征提取模型进行训练。
125.因为第一样本音频和第二样本音频出自同一说话人,所以这两个样本音频的音色应该是相同的,因此,如果音色特征提取模型足够准确的话,第一音色特征与第二音色特征应该具有极小的差异。因为第一样本音频与第三样本音频出自不同说话人,所以这两个样本音频的音色应该是差异较大的,因此,如果音色特征提取模型足够准确的话,第一音色特征与第三音色特征应该具有较大的差异。所以以最小化第一音色特征与第二音色特征的第一差异、并最大化第一音色特征与第三音色特征的第二差异为训练目的,对待训练的音色特征提取模型进行训练,可以使音色特征提取模型能够提取更准确的音色特征。
126.另外,因为第二样本音频与第三样本音频也出自不同说话人,第二音色特征与第三音色特征应该具有较大的差异。所以,可选地,在对待训练的音色特征提取模型进行训练时,除了采用上述两个训练目的,还可以同时采用最大化第二音色特征与第三音色特征的差异的训练目的。
127.由于人们录制音频时的环境不同,不同类型的噪声等也可能被录制在音频中。或者,对于同一个人物,在不同情境下,录制的音频可能会因为人物情绪波动有所不同。噪声、情绪以及不同的说话内容等信息在从音频中提取梅尔谱的时候,可能会被包含在内,影响到后续过程中音色特征的提取。因此,在提取音色特征时,需要正样本(第二样本音频)做对比学习、负样本(第三样本音频)做对抗训练。
128.由于第一音频样本和第二音频样本是同一个人物说的不同内容的梅尔谱,在训练的过程中,如果第一音色特征和第二音色特征中携带了噪声、情绪等音色之外的信息,那么会导致第一音色特征和第二音色特征的差异增大。此时,以最小化第一音色特征与第二音色特征的第一差异为训练目的进行训练,可以使音色特征中携带的噪声、情绪等信息越来越少。
129.在训练过程中,上述的差异可以通过计算损失值得到。计算第一损失值的流程图可以如图2所示,具体处理方式可以是:
130.步骤一,确定第一音色特征向量与第二音色特征向量之间的第一向量角,确定第一音色特征向量与第三音色特征向量之间的第二向量角,确定第二音色特征向量与第三音色特征向量的第三向量角。
131.在实施中,音色特征是以向量来表示的,不同的音色特征之间的差异可以通过向量之间的夹角来表示。当两个向量的夹角极小时,表明两个向量代表的音色特征的差异较小。当两个向量的夹角较大时,表明两个向量代表的音色特征差异较大。
132.步骤二,根据第一向量角、第二向量角和第三向量角,确定第一损失值。
133.其中,第一损失值与第一向量角负相关、与第二向量角负相关并与第三向量角负相关。
134.以下给出步骤二的两种具体处理方式:
135.方式一,可以选择三角函数作为构建损失函数的基础函数,本技术实施例以余弦函数为例进行说明,相应的,步骤二的具体处理方式可以是:
136.确定第一向量角的第一余弦值、第二向量角的第二余弦值、第三向量角的第三余弦值。根据第一余弦值和第二余弦值,确定第一子损失值;根据第二余弦值,确定第二子损失值;根据第三余弦值,确定第三子损失值;根据第一余弦值,确定第四子损失值。根据第一子损失值、第二子损失值、第三子损失值和第四子损失值,确定第一损失值。
137.其中,第一子损失值与第一余弦值负相关并与第二余弦值正相关,第子二损失值与第二余弦值正相关,第三子损失值与第三余弦值正相关,第四子损失值与第一余弦值负相关。
138.为了更清楚地表示,下面给出了第一子损失值、第二子损失值、第三子损失值、第四子损失值对应的函数表达式,如下:
[0139][0140]
l2=cos(ya,yn)
[0141]
l3=cos(y
p
,yn)
[0142]
l4=-cos(ya,y
p
)
[0143]
其中,ya为第一音色特征向量,y
p
为第二音色特征向量,yn为第三音色特征向量,cos(ya,y
p
)为第一余弦值,cos(ya,yn)为第二余弦值,cos(y
p
,yn)为第三余弦值。上述函数分别是对比学习损失函数(l1)、对抗训练中的判别器损失函数(l2和l3)、合成器损失函数(l4)。
[0144]
四个子损失值,除了采用上述的函数表达式,还可以采用其他的函数表达式,下面给出了另外一种函数表达式:
[0145][0146]
l2=cos2(ya,yn)
[0147]
l3=cos3(y
p
,yn)
[0148]
l4=log cos(ya,y
p
)
[0149]
其中,k和b为常数。
[0150]
在确定各子损失值之后,可以对第一子损失值、第二子损失值、第三子损失值和第四子损失值计算加权平均值,作为第一损失值。其中,第一子损失值、第二子损失值、第三子损失值的权重值可以稍大一些,第四子损失值可以稍小一些。例如,第一损失值l=0.3l1+0.3l2+0.3l3+0.1l4。
[0151]
方式二,也可以选择线性函数作为损失函数的基础函数,例如:
[0152][0153][0154][0155]
其中,α1是第一向量角,α1是第二向量角,α3是第三向量角;μ1是第一子损失值,μ2是第二子损失值,μ3是第三子损失值。在确定各个子损失值之后,对各个子损失值进行加权平均得到第一损失值。
[0156]
步骤三,根据第一损失值对待训练的音色特征提取模型进行训练。
[0157]
104,若满足训练结束条件,则将满足训练结束条件的音色特征提取模型确定为目标音色特征提取模型。
[0158]
若不满足训练结束条件,则可以再获取一组样本音频,重复执行上述流程的处理。
[0159]
训练结束条件可以有很多种选择,以下给出几种:
[0160]
条件一,达到指定的训练次数。条件二,损失值小于指定数值。条件三,损失值不再有缩小的趋势。条件四,使用音色特征提取模型提取的特征进行音频合成的实验,合成的音频与提取音色特征所使用的音频进行对比,匹配度达到指定数值,或连续多次实验的匹配度达到指定数值。
[0161]
对于上述步骤101中的各样本音频,可选地,为了提高音色特征提取模型提取音色特征的准确性,各样本音频可以满足以下条件:第一样本音频和第三样本音频是对应相同文本的朗读音频,第一样本音频和第二样本音频是对应不同文本的朗读音频。
[0162]
第一样本音频和第三样本音频的音色特征的差异较大,而文本信息的差异较小。第一样本音频和第二样本音频的音色特征的差异较小,而文本信息的差异较大。以最小化第一音色特征与第二音色特征的第一差异、并最大化第一音色特征与第三音色特征的第二差异为训练目的进行训练,可以使音色特征中携带的文本信息越来越少,从而可以提高音色特征提取模型提取音色特征的准确性。
[0163]
音色特征提取模型除了可以单独进行训练外,还可以和音频合成模型结合在一起进行训练,相应的训练方法的处理流程如图3所示,包括如下处理步骤:
[0164]
301,确定样本文本对应的音素序列,将音素序列输入待训练的编码器,得到样本文本对应的文本发音特征。
[0165]
其中,样本文本可以和第一音频样本对应的说话内容一致,也可以不一致。文本发音特征也可称作音素向量或文本编码。编码器是机器学习模型,具体可以采用线性回归模型、逻辑回归模型、神经网络模型等。
[0166]
在实施中,在进行语音合成时,需要输入文本内容,并确定出文本内容对应的音素序列。例如,“今天”对应的音素序列为“j、i、n、t、i、a、n”。将音素序列输入编码器后,编码器可以输出该音素序列对应的音素向量,也即样本文本对应的文本发音特征。
[0167]
302,将文本发音特征和第一音色特征输入待训练的音频合成模型,得到预测音频。
[0168]
其中,第一音色特征是上述流程中对第一样本音频进行音色特征提取得到的。预测音频可以是梅尔谱,还可以是时域音频数据。
[0169]
303,根据预测音频和第一样本音频,确定第二损失值。
[0170]
计算第二损失值的流程图可以如图4所示。
[0171]
其中,第二损失值可以是预测音频和第一样本音频的差值。
[0172]
304,以最小化第一音色特征与第二音色特征的差异、且最大化第一音色特征与第三音色特征的差异为训练目的,并根据第二损失值,对待训练的音色特征提取模型进行训练(该处理可以认为对步骤103的细化);根据第二损失值,对待训练的编码器和待训练的音频合成模型,进行训练。
[0173]
其中,第二音色特征是上述流程中对第二样本音频进行音色特征提取得到的,第三音色特征上述流程中对第三样本音频进行音色特征提取得到的。
[0174]
在实施中,预测音频与第一样本音频的差异越小,则预测音频的准确性越高。因为,预测音频的准确性是受待训练的音色特征提取模型、待训练的编码器和待训练的音频
合成模型这三个模型共同影响的。所以,可以根据第二损失值,以最小化预测音频和第一样本音频的差异为目的,对待训练的编码器和待训练的音频合成模型,进行训练。并且,除了以最小化第一音色特征与第二音色特征的差异、且最大化第一音色特征与第三音色特征的差异为目的,对待训练的音色特征提取模型进行调参之外,还需要根据第二损失值对待训练的音色特征提取模型再次进行调参。在步骤304中,可以认为对待训练的音色特征提取模型进行了两次调参,对待训练的编码器和待训练的音频合成模型分别进行了一次调参。
[0175]
305,若满足训练结束条件,则除了进行步骤104的处理,还可以将满足训练结束条件的编码器确定为目标编码器,将满足训练结束条件的音频合成模型确定为目标音频合成模型。
[0176]
若不满足训练结束条件,则可以再获取一组样本音频,重复执行上述流程的处理。
[0177]
训练结束条件可以有很多种选择,以下给出几种:
[0178]
条件一,达到指定的训练次数。条件二,损失值小于指定数值。条件三,损失值不再有缩小的趋势。条件四,使用编码器提取文本发音特征,并使用音色特征提取模型提取的特征进行音频合成的实验,合成的音频与提取音色特征所使用的音频进行对比,匹配度达到指定数值,或连续多次实验的匹配度达到指定数值。
[0179]
音色特征提取模型也可以作为音色监督模型使用。在音频合成模型输出预测音频之后,在将满足训练结束条件的音色特征提取模型确定为目标音色特征提取模型,将满足训练结束条件的编码器确定为目标编码器,将满足训练结束条件的音频合成模型确定为目标音频合成模型之前,可以将该预测音频与其他样本音频再次输入音色特征提取模型中,进行训练,相应的训练方法流程可以如图5所示,包括如下处理步骤:
[0180]
501,获取第一人物的第四样本音频和第二人物的第五样本音频。
[0181]
其中,第四样本音频和第五样本音频可以是梅尔谱,也可以是频谱数据,还可以是时域音频数据。
[0182]
步骤501的具体处理与步骤101类似,可以参见步骤101的相关说明内容,此处不再赘述。
[0183]
502,根据待训练的音色特征提取模型对预测音频提取第四音色特征,根据待训练的音色特征提取模型对第四样本音频提取第五音色特征,根据待训练的音色特征提取模型对第五样本音频提取第六音色特征。
[0184]
其中,第四音色特征、第五音色特征、第六音色特征均可以为向量或矩阵等数学形式。待训练的音色特征提取模型可以是未经过步骤103训练的模型,也可以是经过步骤103训练后的模型。
[0185]
步骤502的具体处理与步骤102类似,可以参见步骤102的相关说明内容,此处不再赘述。
[0186]
503,以最小化第四音色特征与第五音色特征的差异、且最大化第四音色特征与第六音色特征的差异为训练目的,并根据第二损失值,对待训练的编码器和待训练的音频合成模型,进行训练;以最小化第一音色特征与第二音色特征的差异、最大化第一音色特征与第三音色特征的差异、最小化第四音色特征与第五音色特征的差异、且最大化第四音色特征与第六音色特征的差异为训练目的,并根据第二损失值,对待训练的音色特征提取模型进行训练。(该步骤可以认为对步骤304的细化)
[0187]
其中,第一音色特征是上述流程中对第一样本音频进行音色特征提取得到的,第二音色特征是上述流程中对第二样本音频进行音色特征提取得到的,第三音色特征上述流程中对第三样本音频进行音色特征提取得到的。
[0188]
首先,可以分为三部分确定各模型的参数调整值。
[0189]
第一部分,根据第一损失值(即以最小化第一音色特征与第二音色特征的差异、最大化第一音色特征与第三音色特征的差异为目的),确定待训练的音色特征提取模型的参数调整值。
[0190]
第二部分,根据第二损失值,确定待训练的音色特征提取模型、待训练的编码器和待训练的音频合成模型的参数调整值。
[0191]
第三部分,计算第三损失值,根据第三损失值(即以最小化第四音色特征与第五音色特征的差异、且最大化第四音色特征与第六音色特征的差异为训练目的),确定待训练的音色特征提取模型、待训练的编码器和待训练的音频合成模型的参数调整值。
[0192]
然后,根据确定出的所有参数调整值,对待训练的音色特征提取模型、待训练的编码器和待训练的音频合成模型进行调参。
[0193]
在步骤503中,可以认为对待训练的音色特征提取模型进行了三次调参,对待训练的编码器和待训练的音频合成模型分别进行了两次调参。
[0194]
其中,第一损失值和第二损失值在上述过程已经给出。
[0195]
计算第三损失值的具体处理方式可以是:
[0196]
步骤一,确定第四音色特征与第五音色特征的第四向量角,确定第四音色特征与第六音色特征的第五向量角,确定第五音色特征与第六音色特征的第六向量角。
[0197]
步骤二,根据第四向量角、第五向量角和第六向量角,确定第三损失值。
[0198]
第三损失值的计算与第一损失值的计算方法类似,可以参见步骤103的相关说明内容,此处不再赘述。
[0199]
计算第三损失值的流程图可以如图6所示。
[0200]
在音色特征提取模型、音频合成模型、编码器等完成训练之后,音色特征提取模型可以单独进行使用,可以是服务器获取大量不同人物的音频,分别对每个人物的音频提取音色特征,提取出的音色特征可以保存在服务器或终端的音色库中,在合成音频时可以直接调用音色特征。例如,在智能导航中,用户可以在音色库中选择某个音色,在之后的导航中,智能导航就可以将实时生成的提示文本合成为选定音色的导航音频。音色特征提取模型也可以和音频合成模型、编码器同时使用,这种使用方式通常是需要添加一个新人物的音色特征的情况,例如,在相关的应用程序中,用户可以输入一段文字内容并上传一段音频,终端获取到该音频和内容后,通过音色特征提取模型提取音色特征,并通过编码器提取文本发音特征,再通过音频合成模型合成特定音色和特定文本内容的音频,并且提取出的音色特征可以保存在音色库中。
[0201]
本技术实施例针对上述的应用场景,提供了一种音频合成的方法,该方法的处理流程可以如图7所示,包括如下处理步骤:
[0202]
701,使用目标音色特征提取模型对目标音频提取音色特征。
[0203]
702,确定目标文本对应的目标音素序列,将目标音素序列输入目标编码器,得到目标文本对应的目标文本发音特征。
[0204]
703,将目标文本发音特征和目标音频的音色特征输入目标音频合成模型,得到合成音频。
[0205]
其中,目标音频可以是用户选择的想要使用其中音色的音频。合成音频是合成的具有目标音频的音色的对目标文本的朗读音频。
[0206]
在实施中,当用户需要合成一段具有目标音频对应的音色特征的目标文本的朗读音频时,可以在语音合成助手类的应用程序对应的界面输入目标文本和目标音频,该应用程序确定目标文本对应的目标因素序列,通过目标编码器对目标因素序列提取目标文本发音特征,目标音色特征提取模型对目标音频提取音色特征,通过目标音频合成模型对目标文本发音特征和目标音频的音色特征进行合成,可以得到合成音频。
[0207]
通过本技术实施例提供的方法,需要获取第一人物的第一样本音频和第二样本音频以及第二人物的第三样本音频,并通过音色特征提取模型对这三个样本音频分别提取音色特征,提取出的音频特征分别是第一音色特征、第二音色特征、第三音色特征。该音色特征提取模型以最小化第一音色特征与第二音色特征的差异、且最大化第一音色特征与第三音色特征的差异为训练目的,对待训练的音色特征提取模型进行训练。在达到训练结束的条件后,就可以将满足训练结束条件的音色特征提取模型确定为目标音色特征提取模型。这样,经过这种方法训练得到的目标音色特征提取模型,在对任意的音频提取音色特征时,都无需对模型进行额外的训练,可以直接将具有该音色的音频输入音色特征提取模型,便可以得到音色特征,从而,可以提高音色特征提取的效率。
[0208]
另外,最大化第一音色特征与第三音色特征的差异,可以让音色特征提取模型所提取的音色特征中个体特征的比例得到很好的提升,音色特征中集体特征的比例能够被很好的抑制,这样音色特征能够更好的反应不同人物声音的不同特点。
[0209]
基于相同的技术构思,本技术实施例还提供了一种音色特征提取模型的训练装置,该装置可应用于上述实施例中的终端或服务器,如图8所示,该装置包括:
[0210]
获取模块810,用于获取第一人物的第一样本音频、第一人物的第二样本音频和第二人物的第三样本音频;
[0211]
提取模块820,用于根据待训练的音色特征提取模型对第一样本音频提取第一音色特征,根据待训练的音色特征提取模型对第二样本音频提取第二音色特征,根据待训练的音色特征提取模型对第三样本音频提取第三音色特征;
[0212]
训练模块830,用于以最小化第一音色特征与第二音色特征的差异、且最大化第一音色特征与第三音色特征的差异为训练目的,对待训练的音色特征提取模型进行训练;若满足训练结束条件,则将满足训练结束条件的音色特征提取模型确定为目标音色特征提取模型。
[0213]
在一种可能的实现方式中,训练模块830,用于:
[0214]
以最小化第一音色特征与第二音色特征的差异、并最大化第一音色特征与第三音色特征的差异、并最大化第二音色特征与第三音色特征的差异为训练目的,对待训练的音色特征提取模型进行训练。
[0215]
在一种可能的实现方式中,第一音色特征为第一音色特征向量,第二音色特征为第二音色特征向量,第三音色特征为第三音色特征向量;
[0216]
训练模块830,用于:
[0217]
确定第一音色特征向量与第二音色特征向量之间的第一向量角,确定第一音色特征向量与第三音色特征向量之间的第二向量角,确定第二音色特征向量与第三音色特征向量之间的第三向量角;
[0218]
根据第一向量角、第二向量角和第三向量角,确定第一损失值,其中,第一损失值与第一向量角正相关、与第二向量角负相关并与第三向量角负相关;
[0219]
根据第一损失值对待训练的音色特征提取模型进行训练。
[0220]
在一种可能的实现方式中,训练模块830,用于:
[0221]
确定第一向量角的第一余弦值、第二向量角的第二余弦值、第三向量角的第三余弦值;
[0222]
根据第一余弦值、第二余弦值和第三余弦值,确定第一损失值,其中,第一损失值与第一余弦值负相关、与第二余弦值正相关并与第三余弦值正相关。
[0223]
在一种可能的实现方式中,训练模块830,用于:
[0224]
根据第一余弦值和第二余弦值,确定第一子损失值,根据第二余弦值,确定第二子损失值,根据第三余弦值,确定第三子损失值,根据第一余弦值,确定第四子损失值,其中,第一子损失值与第一余弦值负相关并与第二余弦值正相关,第子二损失值与第二余弦值正相关,第三子损失值与第三余弦值正相关,第四子损失值与第一余弦值负相关;
[0225]
根据第一子损失值、第二子损失值、第三子损失值和第四子损失值,确定第一损失值。
[0226]
根据公式确定第一子损失值l1;
[0227]
根据公式l2=cos(ya,yn),确定第二子损失值l2;
[0228]
根据公式l3=cos(y
p
,yn),确定第三子损失值l3;
[0229]
根据公式l4=-cos(ya,y
p
),确定第四子损失值l4;
[0230]
其中,ya为第一音色特征向量,y
p
为第二音色特征向量,yn为第三音色特征向量,cos(ya,y
p
)为第一余弦值,cos(ya,yn)为第二余弦值,cos(y
p
,yn)为第三余弦值。
[0231]
在一种可能的实现方式中,调参模块830,用于:
[0232]
根据第一权重、第二权重、第三权重和第四权重,确定第一子损失值、第二子损失值、第三子损失值和第四子损失值的加权平均值,得到第一损失值。
[0233]
在一种可能的实现方式中,第一样本音频和第三样本音频是对应相同文本的朗读音频,第一样本音频和第二样本音频是对应不同文本的朗读音频。
[0234]
在一种可能的实现方式中,装置还包括合成模块;
[0235]
合成模块,用于确定样本文本对应的音素序列,将音素序列输入待训练的编码器,得到样本文本对应的文本发音特征;将文本发音特征和第一音色特征输入待训练的音频合成模型,得到预测音频;
[0236]
训练模块830,还用于根据预测音频和第一样本音频,确定第二损失值;并根据第二损失值,对待训练的编码器和待训练的音频合成模型,进行训练;以最小化第一音色特征与第二音色特征的差异、且最大化第一音色特征与第三音色特征的差异为训练目的,并根据第二损失值,对待训练的音色特征提取模型进行训练;若满足训练结束条件,则将满足训练结束条件的编码器确定为目标编码器,将满足训练结束条件的音频合成模型确定为目标
音频合成模型。
[0237]
在一种可能的实现方式中,获取模块810,还用于获取第一人物的第四样本音频和第二人物的第五样本音频;
[0238]
提取模块820,还用于根据待训练的音色特征提取模型对预测音频提取第四音色特征,根据待训练的音色特征提取模型对第四样本音频提取第五音色特征,根据待训练的音色特征提取模型对第五样本音频提取第六音色特征;
[0239]
训练模块830,还用于以最小化第四音色特征与第五音色特征的差异、且最大化第四音色特征与第六音色特征的差异为训练目的,并根据第二损失值,对待训练的编码器和待训练的音频合成模型,进行训练;以最小化第一音色特征与第二音色特征的差异、最大化第一音色特征与第三音色特征的差异、最小化第四音色特征与第五音色特征的差异、且最大化第四音色特征与第六音色特征的差异为训练目的,并根据第二损失值,对待训练的音色特征提取模型进行训练。
[0240]
基于相同的技术构思,本技术实施例提供了一种音频合成的装置,该装置可应用于上述实施例中的终端或服务器,如图9所示,该装置包括:
[0241]
提取模块910,用于对目标音频提取音色特征;
[0242]
确定模块920,用于确定目标文本对应的目标音素序列,将目标音素序列输入目标编码器,得到目标文本对应的目标文本发音特征;
[0243]
合成模块930,用于将目标文本发音特征和目标音频的音色特征输入目标音频合成模型,得到合成音频。
[0244]
通过本技术实施例提供的装置,需要获取第一人物的第一样本音频和第二样本音频以及第二人物的第三样本音频,并通过音色特征提取模型对这三个样本音频分别提取音色特征,提取出的音频特征分别是第一音色特征、第二音色特征、第三音色特征。该音色特征提取模型以最小化第一音色特征与第二音色特征的差异、且最大化第一音色特征与第三音色特征的差异为训练目的,对待训练的音色特征提取模型进行训练。在达到训练结束的条件后,就可以将满足训练结束条件的音色特征提取模型确定为目标音色特征提取模型。这样,经过这种方法训练得到的目标音色特征提取模型,在对任意音色的音频提取音色特征时,都无需对模型进行额外的训练,可以直接将具有该音色的音频输入音色特征提取模型,便可以得到音色特征,从而,可以提高音色特征提取的效率。
[0245]
需要说明的是:上述实施例提供的音色特征提取模型的训练装置在提取音色特征时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音色特征提取模型的训练装置与音色特征提取模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0246]
图10示出了本技术实施例提供的电子设备1000的结构框图。该电子设备可以是上述实施例中的计算机设备。该电子设备1000可以是便携式移动终端,比如:智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1000还可能被称为用户设备、
便携式终端、膝上型终端、台式终端等其他名称。
[0247]
通常,电子设备1000包括有:处理器1001和存储器1002。
[0248]
处理器1001可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1001可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001可以集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0249]
存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1001所执行以实现本技术实施例提供的方法。
[0250]
在一些实施例中,电子设备1000还可选包括有:外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备包括:射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。
[0251]
外围设备接口1003可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中,处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上;在一些其他实施例中,处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
[0252]
射频电路1004用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1004包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路1004还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
[0253]
显示屏1005用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时,显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处
理器1001进行处理。此时,显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1005可以为一个,设置在电子设备1000的前面板;在另一些实施例中,显示屏1005可以为至少两个,分别设置在电子设备1000的不同表面或呈折叠设计;在另一些实施例中,显示屏1005可以是柔性显示屏,设置在电子设备1000的弯曲表面上或折叠面上。甚至,显示屏1005还可以设置成非矩形的不规则图形,也即异形屏。显示屏1005可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
[0254]
摄像头组件1006用于采集图像或视频。可选地,摄像头组件1006包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
[0255]
音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1007还可以包括耳机插孔。
[0256]
定位组件1008用于定位电子设备1000的当前地理位置,以实现导航或lbs(location based service,基于位置的服务)。定位组件1008可以是基于gps(global positioning system,全球定位系统)、北斗系统或伽利略系统的定位组件。
[0257]
电源1009用于为电子设备1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
[0258]
在一些实施例中,电子设备1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于:加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。
[0259]
加速度传感器1011可以检测以电子设备1000建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号,控制显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。
[0260]
陀螺仪传感器1012可以检测电子设备1000的机体方向及转动角度,陀螺仪传感器
1012可以与加速度传感器1011协同采集用户对电子设备1000的3d动作。处理器1001根据陀螺仪传感器1012采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0261]
压力传感器1013可以设置在电子设备1000的侧边框和/或显示屏1005的下层。当压力传感器1013设置在电子设备1000的侧边框时,可以检测用户对电子设备1000的握持信号,由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在显示屏1005的下层时,由处理器1001根据用户对显示屏1005的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0262]
指纹传感器1014用于采集用户的指纹,由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份,或者,由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1001授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置在电子设备1000的正面、背面或侧面。当电子设备1000上设置有物理按键或厂商logo时,指纹传感器1014可以与物理按键或厂商logo集成在一起。
[0263]
光学传感器1015用于采集环境光强度。在一个实施例中,处理器1001可以根据光学传感器1015采集的环境光强度,控制显示屏1005的显示亮度。具体地,当环境光强度较高时,调高显示屏1005的显示亮度;当环境光强度较低时,调低显示屏1005的显示亮度。在另一个实施例中,处理器1001还可以根据光学传感器1015采集的环境光强度,动态调整摄像头组件1006的拍摄参数。
[0264]
接近传感器1016,也称距离传感器,通常设置在电子设备1000的前面板。接近传感器1016用于采集用户与电子设备1000的正面之间的距离。在一个实施例中,当接近传感器1016检测到用户与电子设备1000的正面之间的距离逐渐变小时,由处理器1001控制显示屏1005从亮屏状态切换为息屏状态;当接近传感器1016检测到用户与电子设备1000的正面之间的距离逐渐变大时,由处理器1001控制显示屏1005从息屏状态切换为亮屏状态。
[0265]
本领域技术人员可以理解,图10中示出的结构并不构成对电子设备1000的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0266]
在本技术实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述实施例中执行互动操作的方法。该计算机可读存储介质可以是非暂态的。例如,计算机可读存储介质可以是rom(read-only memory,只读存储器)、ram(random access memory,随机存取存储器)、cd-rom、磁带、软盘和光数据存储设备等。
[0267]
需要说明的是,本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号(包括但不限于用户终端与其他设备之间传输的信号等),均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0268]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0269]
以上仅为本技术的较佳实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1