语音消息处理方法、装置及电子设备与流程

文档序号：31708146发布日期：2022-10-01 12:55阅读：64来源：国知局

1.本技术属于计算机技术领域，具体涉及一种语音消息处理方法、装置及电子设备。

背景技术：

2.随着科技的不断提升，人们使用电子设备的频率也越来越高，人们联系时经常会使用到一些应用程序中的语音消息功能，语音消息带来极大便捷的同时，其还具有生动且带有较强的用户特色，在传播中信息损失较小等特点。
3.但在使用过程中，用户在发送多条时长较长的语音消息时，若录制时中间出错，就需要反复录制新的消息，存在语音消息发送时长较长，从语音消息中获取有效信息效率低的问题。

技术实现要素：

4.本技术实施例提供一种语音消息处理方法、装置及电子设备，能够解决现有技术中发送语音消息时，若录制中间出错需要反复录制新的消息，存在语音消息发送时长较长，从语音消息中获取有效信息效率低的问题。
5.第一方面，本技术实施例提供了一种语音消息处理方法，所述方法包括：
6.获取待处理语音消息以及所述待处理语音消息对应的目标修正程度；
7.根据所述目标修正程度确定相似程度阈值；
8.通过语音修正模型，确定所述待处理语音消息与关键语音消息之间的相似程度，基于所述相似程度和所述相似程度阈值，对所述关键语音消息进行个性化语音修正，获得目标语音消息；所述关键语音消息与所述待处理语音消息相对应；
9.其中，所述语音修正模型是利用目标对象的样本语音训练得到的；所述目标对象为所述待处理语音消息对应的消息录制对象；所述目标语音消息具有所述待处理语音消息的语音特性以及所述目标对象的声纹特性。
10.第二方面，本技术实施例提供了一种语音消息处理装置，所述装置包括：
11.获取模块，用于获取待处理语音消息以及所述待处理语音消息对应的目标修正程度；
12.确定模块，用于根据所述目标修正程度确定相似程度阈值；
13.修正模块，用于通过语音修正模型，确定所述待处理语音消息与关键语音消息之间的相似程度，基于所述相似程度和所述相似程度阈值，对所述关键语音消息进行个性化语音修正，获得目标语音消息；所述关键语音消息与所述待处理语音消息相对应；
14.其中，所述语音修正模型是利用目标对象的样本语音训练得到的；所述目标对象为所述待处理语音消息对应的消息录制对象；所述目标语音消息具有所述待处理语音消息的语音特性以及所述目标对象的声纹特性。
15.第三方面，本技术实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理
器执行时实现如第一方面所述的方法的步骤。
16.第四方面，本技术实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
17.第五方面，本技术实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。
18.在本技术实施例中，首先获取待处理语音消息以及待处理语音消息对应的目标修正程度，然后根据目标修正程度确定相似程度阈值，最后通过利用目标对象的样本语音训练得到的语音修正模型，确定待处理语音消息与关键语音消息之间的相似程度，基于相似程度和相似程度阈值，对关键语音消息进行个性化语音修正，获得目标语音消息。本技术实施例通过获取的目标修正程度确定出相似程度阈值，利用语音修正模型对关键语音消息进行个性化语音修正，可以得到具有待处理语音消息的语音特性以及目标对象的声纹特性的目标语音消息，可以避免用户在录制语音消息出错时重复录制，提高获取语音信息的效率，同时还可以使得最终得到的目标语音消息与用户录制语音消息时的语气、语调、语速等信息均相同，使得最终得到的语音消息更像消息录制本人说的话，提升语音消息处理的准确性。
附图说明
19.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
20.图1是本技术的一个实施例提供的一种语音消息处理方法的流程图；
21.图2是本技术的一个实施例提供的一种获取待处理语音消息的示意图；
22.图3是本技术的一个实施例提供的一种选择目标修正程度的示意图；
23.图4是本技术的一个实施例提供的另一种选择目标修正程度的示意图；
24.图5是本技术的一个实施例提供的语音修正模型的结构示意图；
25.图6是本技术的一个实施例提供的语音网络的结构示意图；
26.图7是本技术的一个实施例提供的语音修正模型训练时的输入和输出的简单结构示意图；
27.图8是本技术的一个实施例提供的语音消息处理方法的整体流程示意图；
28.图9是本技术的一个实施例提供的一种语音消息处理装置的结构示意图；
29.图10是本技术的一个实施例提供的一种电子设备的结构示意图；
30.图11是本技术的一个实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
31.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本技术保护的范围。
32.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互
换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
33.在一些实施例中，用户在发送时长较长的语音消息时，可能会在录制的中间出现一些错误，导致需要用户反复录制才能生成待发送的语音消息，这就使得用户发送语音消息花费的时间较长，但其中的有效信息较少，这就导致从这些语音消息中获取信息的效率较低。为了解决上述问题，本技术实施例提出了一种语音消息处理方法、装置及电子设备，在用户发送语音消息的场景中，用户在录制错误时，可以继续录制，无需重新录制，在录制结束后，利用本技术提供的语音消息处理方法，将录制的至少一条语音消息转化成目标语音消息，该目标语音消息具有消息录制用户的声纹特性，并且该目标语音消息具有与录制的至少一条语音消息相同的语音特性，例如用户录制的至少一条语音消息是开心的语气，得到的目标语音消息也是开心的语气，最后将该目标语音消息显示到会话界面中，使得用户得到的是内容简洁、具有消息录制对象声纹特性、与至少一条语音消息相同语音特性的语音消息，减少用户花费的时间，提高语音信息获取的效率。
34.下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的一种语音消息处理方法、装置及电子设备进行详细地说明。
35.如图1所示，为本技术实施例提供的一种语音消息处理方法的流程示意图。该语音消息处理方法可以包括s101至s103所示的内容。
36.在s101中，获取待处理语音消息以及待处理语音消息对应的目标修正程度。
37.其中，待处理语音消息是消息录制对象录制的语音消息，待处理语音消息包括至少一条语音消息。若是待处理语音消息包括多条语音消息，获取待处理语音消息的方式可以是逐条选择；也可以是通过滑动选择多条语音消息，可以通过滑动选中录制的多条语音消息，具体地本技术实施例中不做限定，根据实际应用确定。通过上述方式可以获取待处理语音消息，然后用户可以通过向左滑动进入语音消息处理界面，将选中的语音消息转换成目标语音消息，具体地如图2所示。
38.值得说明的是，目标修正程度可以是用户自己选择的，如图3所示，在进入语音消息处理界面后，用户可以通过界面上的语音修正控件手动选择目标修正程度，具体地，可以上下滑动语音修正控件，向上滑动代表用户需要修正较少，滑到顶部代表只需要纠错，无需精简文本；向下滑动，代表用户需要修正较多，精简文本，输出概要。也可以是系统根据会话场景等自动确认的，此时用户可以点击界面上的自动按钮，如图4所示，系统即可根据会话场景等自动确认目标修正程度。
39.其中，目标修正程度的取值可以是0到1之间的任意值，0代表精简程度较大，输出一个概要即可，1代表无需精简，只需纠错即可。
40.在s102中，根据目标修正程度确定相似程度阈值。
41.值得说明的是，目标修正程度可以通过ω＝a*s
thd
+b*s
type
确定，其中，ω为目标修正程度，a和b是根据需要设定的归一化权值系数，s
thd
为相似程度阈值，s
type
为文本的内容精简程度，取值为0到1，与ω的取值对应。
42.例如，ω＝0时，s
type
＝0；ω＝(0,0.3]时，s
type
＝0.3；ω＝(0.3,0.6]时，s
type
＝0.6；ω＝(0.6,0.9]时，s
type
＝0.9；ω＝(0.9,1]时，s
type
＝1。
43.而s
thd
可由公式计算得到。
44.其中，相似程度阈值的数值越大，表明最终的目标语音消息越接近录制语音的用户自己重新表述的语音消息。
45.在s103中，通过语音修正模型，确定待处理语音消息与关键语音消息之间的相似程度，基于相似程度和相似程度阈值，对关键语音消息进行个性化语音修正，获得目标语音消息；关键语音消息与待处理语音消息相对应。
46.其中，语音修正模型是利用目标对象的样本语音训练得到的；目标对象为待处理语音消息的消息录制对象；目标语音消息具有待处理语音消息的语音特性以及目标对象的声纹特性。
47.关键语音消息指的是待处理语音消息经过语音编辑处理后得到的语音消息，该语音消息可以将待处理语音消息中的错误内容纠正，在语音消息较多(如语音消息时长较长、语音消息条数较多)时可以提取其中的关键内容，也即得到精简的语音消息，具体的在后续实施例中详细描述，本实施例中不再赘述。
48.值得说明的是，目标对象的样本语音指的是该目标用户的本地语音，也即目标对象录制的历史语音消息，其中，目标用户的本地语音可以存储在本地数据库中，在使用时可以直接调用。语音特性可以是语气、语调、语速、音量中的至少一项。
49.其中，语音个性化修正指的是将关键语音消息修正成具有待处理语音消息的语音特性以及目标对象的声纹特性的目标语音消息，使得用户最终得到的目标语音消息是与待处理语音消息语气、语调、声纹等都相似的语音消息，可以避免用户在录制语音消息出错时重复录制，提高获取语音信息的效率，同时还可以使得最终得到的目标语音消息与用户录制语音消息时的语气、语调、语速等信息均相同，使得最终得到的语音消息更像消息录制本人说的话。
50.在本技术实施例中，首先获取待处理语音消息以及待处理语音消息对应的目标修正程度，然后根据目标修正程度确定相似程度阈值，最后通过利用目标对象的样本语音训练得到的语音修正模型，确定待处理语音消息与关键语音消息之间的相似程度，基于相似程度和相似程度阈值，对关键语音消息进行个性化语音修正，获得目标语音消息。本技术实施例通过获取的目标修正程度确定出相似程度阈值，利用语音修正模型对关键语音消息进行个性化语音修正，可以得到具有待处理语音消息的语音特性以及目标对象的声纹特性的目标语音消息，可以避免用户在录制语音消息出错时重复录制，提高获取语音信息的效率，同时还可以使得最终得到的目标语音消息与用户录制语音消息时的语气、语调、语速等信息均相同，使得最终得到的语音消息更像消息录制本人说的话，提升语音消息处理的准确性。
51.在本技术的一个可能的实施方式中，关键语音消息的获取步骤包括：通过语音转换模型，将待处理语音消息转换为消息文本；通过文本提取模型，从消息文本中提取关键内容，得到关键文本；通过文本转换模型，将关键文本转换为关键语音消息。
52.在本技术实施例中，语音转换模型为将语音消息转换为文字的模型，可以将待处理语音消息转换为消息文本，以便后续更快速的提取其中的关键内容。文本提取模型用于将语音消息时长较长或语音消息条数较多的待处理语音消息进行精简处理，提取待处理语
音消息中的关键内容，以减少接收语音消息方听取待处理语音消息花费的时间，提升用户获取待处理语音消息中内容的效率。文本转换模型为将文字转换为语音消息的模型，可以将上述提取的关键文本转换为关键语音消息，方便接收语音消息方从中获取有效内容以及消息录制对象的情绪信息。
53.其中，文本提取模型可以为bertsum模型，也可以为其他模型，只需可以提取出消息文本中的关键内容即可，本技术实施例不做具体限定。
54.可选地，通过文本提取模型，从消息文本中提取关键内容，得到关键文本之前，该语音消息处理方法还可以包括：根据目标修正程度确定内容精简程度。
55.由上述实施例可知，内容精简程度与目标修正程度相对应，在确定出目标修正程度后，可以确定出内容精简程度。
56.其中，内容精简程度可以取值为0、0.3、0.6、0.9、1；该内容精简程度可以作用到文本提取模型中，当内容精简程度为1时，可以不使用文本提取模型，文本提取模型的输出等于输入，此时仅需对文本内容进行纠错即可，不需要进行精简，尽量与原始的语音消息保持一致；当内容精简程度为0时，利用文本提取模型对文本进行最大程度的精简，得到关键文本。可以通过内容精简程度确定用户需要得到的目标语音消息的精简程度。
57.相应的，通过文本提取模型，从消息文本中提取关键内容，得到关键文本可以包括：通过与内容精简程度相匹配的文本提取模型，从消息文本中提取关键内容，得到关键文本。
58.也就是说，每个内容精简程度均有一个与之相匹配的文本提取模型，根据该文本提取模型，可以从消息文本中提取出用户需要的关键内容，得到关键文本。
59.可选地，通过文本提取模型，从消息文本中提取关键内容，得到关键文本之间，该语音消息处理方法还可以包括：通过文本纠错模型，对消息文本进行纠错处理。
60.由于待处理语音消息中可能存在错误的发音或是口误等，此时可以利用文本纠错模型对转换的文本进行纠错处理，纠正文字中的错误。其中文本纠错模型可以采用现有的模型结构，例如传统自然语音纠错模型，如汉语语言模型(n-gram)，无需重新构建模型结构，可以节约资源。
61.相应的，通过文本提取模型，从消息文本中提取关键内容，得到关键文本，可以包括：通过文本提取模型，从纠错处理后的消息文本中提取关键内容，得到关键文本。
62.本技术实施例中，在对文本信息进行纠错处理后，利用文本提取模型，从纠错后的消息文本中提取关键内容，可以使得得到的关键文本更加准确，更加准确地表达出信息发送对象原本想要表达的意思。
63.上述实施例中的语音转换模型和文本转换模型，都可以根据目标对象对应的文本语音映射关系进行转换，使得转换后的文本和语音更加具有信息录制对象的个人特色，解决语音转文字时口音、表述个性化的问题，以及使得文字转语音更加通常、生动，详见下述实施例。
64.在本技术的一个可能的实施方式中，通过语音转换模型，将待处理语音消息转换为消息文本，可以包括：通过语音转换模型，基于目标对象对应的文本语音映射关系，将待处理语音消息转换为消息文本。
65.其中，文本语音映射关系是利用目标对象的样本语音对初始语音修正模型进行微
调训练获得的。文本语音映射关系包括文字与至少一个语音片段之间的映射关系，至少一个语音片段具有目标对象的声纹特性，每个语音片段的语音特性不同。
66.值得说明的是，初始语音修正模型是利用通用的样本语音，对待训练的语音修正模型进行训练得到的，其中，通用的样本语音可以是从网络上或者是数据库中获取的公共语音，待训练的语音修正模型可以利用现有模型的模型结构，例如联合任务学习训练模型，无需重新构建模型结构，可以节约资源。
67.本技术实施例中，利用目标对象的样本语音对初始语音修正模型进行微调训练，可以得到一个更加具有目标对象特色的语音修正模型，根据该具有目标对象特色的语音修正模型得到的文本语音映射关系也更具有目标对象的特色。通过目标对象对应的文本语音映射关系，可以快速对待处理语音消息进行切割处理，训练出多个语音候选片段，再确定出多个语音候选片段对应的文字片段权重，进而对应出相应的文字。
68.在本技术的一个可能的实施方式中，通过文本转换模型，将关键文本转换成关键语音消息，可以包括：通过文本转换模型，基于目标对象对应的文本语音映射关系，将关键文本转换为关键语音消息。
69.其中，文本语音映射关系是利用目标对象的样本语音对初始语音修正模型进行微调训练获得的。文本语音映射关系包括文字与至少一个语音片段之间的映射关系，至少一个语音片段具有目标对象的声纹特性，每个语音片段的语音特性不同。
70.其中，初始语音修正模型的训练与上述实施例相同，微调训练的过程也相同，本实施例中不再赘述。
71.本技术实施例中，利用目标对象的样本语音对初始语音修正模型进行微调训练，可以得到一个更加具有目标对象特色的语音修正模型，根据该具有目标对象特色的语音修正模型得到的文本语音映射关系也更具有目标对象的特色。通过目标对象对应的文本语音映射关系，可以快速准确地生成编辑后的语音。
72.上述实施例中的文本语音映射关系是利用目标对象的样本语音对语音修正模型进行微调训练的过程中获取的，是指一个文字与多个语音频段的映射关系，文本语音映射关系表x
u,i,j
→yu,i,j
可以如下所示：
[0073][0074]
其中，i为语音维度，j为文本维度，ω
i,j
为用户u的语音片段i对应的文本j的筛选权重。
[0075]
在本技术的一个可能的实施方式中，文本语音映射关系的获取步骤可以包括：从目标对象的样本语音中获取多个语音片段，通过语音修正模型的文本网络，获取每个语音片段对应的文字，根据每个语音片段，以及每个语音片段对应的文字，确定文本语音映射关系。
[0076]
也就是说，可以通过目标对象的样本语音，获取其中的多个语音片段，输入至语音
修正模型的文本网络中，得到每个语音片段对应的文字，根据每个语音片段，以及每个语音片段对应的文字，可以确定出文字与多个语音片段的映射关系，即文本语音映射关系。
[0077]
在本技术的一个可能的实施方式中，通过语音修正模型，确定所述待处理语音消息与关键语音消息之间的相似程度，可以包括：通过语音修正模型的语音网络，获取关键语音消息的语音特征，以及待处理语音消息的语音特征；通过语音修正模型的文本网络，基于关键语音消息的语音特征，获取关键语音消息的文本语音组合特征，并基于待处理语音消息的语音特征，获取待处理语音消息的文本语音组合特征；通过语音修正模型的相似度评估网络，基于关键语音消息的文本语音组合特征，以及待处理语音消息的文本语音组合特征，确定关键语音消息与待处理语音消息之间的相似程度。
[0078]
其中，语音修正模型包括三个网络，即语音网络、文本网络和相似度评估网络。语音网络的作用是将输入的语音消息划分成多个语音片段隐向量，输出语音特征向量，该语音特征向量可以表达输入语音消息的语音特性，例如语气、语调、语速、音量等，也就是说可以通过语音网络对输入的语音消息在语气、语调、语速、音量等方面进行重构，得出该语音消息的多个语音片段在各种语音特性上的一个权重，然后根据权重对语音消息进行重构。将重构的语音消息输入至文本网络，通过文本网络将重构的语音消息转换成包括文字特性和语音特性的文本语音组合特征，也即通过文本网络得到的文本既具有文字层面的特征，又具有语音方面的特征，然后将两个输入语音消息经过语音网络和文本网络得到的文本语音组合特征输入至相似度评估网络中，确定两个输入语音消息的相似程度。
[0079]
本技术实施例，通过语音修正模型的三个网络对关键语音消息与待处理语音消息分别进行处理，然后确定出相似程度，其中，语音网络可以更准确的确定出输入的语音消息的语气、语调、语速、音量等语音特性，以使得语音消息在经过文本网络后，可以使得转换的文本具有文字层面的特征和语音方面的特性，使得转换出的文本更加准确，以便在相似度评估网络中进行评估时，使得评估的结果更加准确。
[0080]
如图5所示，为语音修正模型的结构示意图，根据图5可知，语音修正模型包括三部分，即语音网络、文本网络和相似度评估网络。语音消息输入至语音修正模型中，经过语音修正模型的语音网络划分成多个语音片段隐向量，如图6所示，该语音特征向量可以表达输入语音消息的语音特性，例如语气、语调、语速、音量等，也就是说可以通过语音网络对输入的语音消息在语气、语调、语速、音量等方面进行重构，得出该语音消息的多个语音片段在各种语音特性上的一个权重，然后根据权重对语音消息进行重构。这与现有技术中直接将语音消息转换为文本不同，本技术中在语音消息在经过文本网络后，可以使得转换的文本具有文字层面的特征和语音方面的特性，使得转换出的文本更加准确。然后将重构的语音消息输入至文本网络，通过文本网络将重构的语音消息转换成包括文字特性和语音特性的文本语音组合特征，也即通过文本网络得到的文本既具有文字层面的特征，又具有语音方面的特征，这与现有技术中仅仅将文本消息转换成语音消息不同，本技术中转换出的是具有原始语音特性的语音消息。最后可以将两个输入语音消息经过语音网络和文本网络得到的文本语音组合特征输入至相似度评估网络中，确定两个输入语音消息的相似程度。
[0081]
在本技术的一个可能的实施方式中，基于相似程度和相似程度阈值，对关键语音消息进行个性化语音修正，获得目标语音消息，可以包括：在相似程度小于相似程度阈值的情况下，将相似程度传递至语音转换模型和文本转换模型中的至少一个，以使语音转换模
型和文本转换模型中的至少一个调整各自的输出结果，直至关键语音消息与待处理语音消息之间的相似程度大于或等于相似程度阈值，获得目标语音消息。
[0082]
其中，相似程度阈值的数值越大，表明最终的目标语音消息越接近录制语音的用户自己重新表述的语音消息。
[0083]
也就是说，本技术实施例中用到了pid控制(proportional-integral-derivative control，比例积分微分控制)原理，pid控制原理是根据给定值和实际输出值构成控制偏差，将偏差按比例、积分和微分通过线性组合构成控制量，对被控对象进行控制。本技术中给定值是指相似程度阈值，实际输出值是指相似程度，偏差是指相似程度与相似程度阈值之间的差值，被控对象是指语音修正模型和/或文本转换模型，通过相似程度与相似程度阈值之间的差值来修正语音转换的文字以及语音权重分布，使得语音修正模型转换的文本更加准确，文本转换模型转换出的语音与原始语音的语音特色更加相似。
[0084]
本技术实施例中的pid控制原理主要是用于模型在使用过程中主动根据相似程度和相似程度阈值之间的差值，实时反馈给语音转换模型和文本转换模型，语音转换模型和文本转换模型根据该差值修正语音转换的文字以及语音权重分布，使得语音修正模型转换的文本更加准确，文本转换模型转换出的语音与原始语音的语音特色更加相似。
[0085]
根据上述文本语音映射关系可知一个语音片段对应的文字的筛选权重不同，在语音转文本或文本转语音时会存在权重分配有误的情况，因此存在输出输入语音误差，在后续计算出相似程度不满足相似程度阈值时，将误差值反馈至语音转换模块和文本转换模型中的至少一个，通过调整语音转换模块和/或和文本转换模型的输出结果来调整最终的相似程度，以获取目标语音消息。
[0086]
在本技术的一个可能的实施方式中，获取待处理语音消息以及待处理语音消息对应的目标修正程度，可以包括：响应于用户对会话界面中的语音消息的第一输入，确定待处理语音消息；响应于用户对会话界面中的语音修正控件的第二输入，确定待处理语音消息对应的目标修正程度。
[0087]
其中，第一输入可以是逐条选择输入，也可以是滑动选择输入，具体地本技术实施例中不做限定，根据实际应用确定。第二输入可以是上下滑动输入，也可以是点击输入，具体地本技术实施例中不做限定，根据实际应用确定。
[0088]
具体地，通过滑动选择多条语音消息，可以通过滑动选中录制的多条语音消息，如图2所示。在进入语音消息处理界面后，用户可以通过界面上的语音修正控件手动选择目标修正程度，具体地，可以上下滑动语音修正控件，向上滑动代表用户需要修正较少，滑到顶部代表只需要纠错，无需精简文本；向下滑动，代表用户需要修正较多，精简文本，输出概要。也可以是系统根据会话场景等自动确认的，此时用户可以点击界面上的自动按钮，如图4所示，系统即可根据会话场景等自动确认目标修正程度。
[0089]
在本技术的一个可能的实施方式中，语音修正模型的训练步骤可以包括：利用通用的样本语音，对待训练的语音修正模型进行预训练；利用目标对象的样本语音，对预训练后的语音修正模型进行微调训练，直至训练结束时，获得语音修正模型。
[0090]
其中，通用的样本语音是指公共语音，而非某个特定人或是某个特定群体的语音，通用的样本语音可以是从网络上获取的，也可以是从语音数据库中获取的。目标对象的样本语音是指目标对象的语音，可以是待处理语音之前目标对象录制的语音消息，或是用户
授权的设备本地的语音数据库中目标对象的语音消息。待训练的语音修正模型可以利用现有模型的模型结构，例如联合任务学习训练模型，无需重新构建模型结构，可以节约资源。
[0091]
在本技术实施例中，语音修正模型是先利用通用的样本语音，也即公共语音对待训练的语音修正模型进行预训练，得到一个通用的语音修正模型，然后利用目标对象的样本语音对上述通用模型进行微调训练，可以得到具有目标对象特色的语音修正模型，使得利用该模型确定待处理语音消息与关键语音消息的相似程度，并对关键语音消息进行语音修正时，修正后的语音消息更具有目标对象的特色，与目标对象自身重新表达的更相似。
[0092]
可选地，利用通用的样本语音，对待训练的语音修正模型进行预训练，可以包括：通过待训练的语音修正模型的语音网络，获取通用的样本语音中的至少两个样本语音消息的语音特征，其中，任意两个样本语音消息之间均具有预设相似程度；通过待训练的语音修正模型的文本网络，基于至少两个样本语音消息的语音特征，获取每个样本语音消息的文本语音组合特征；通过待训练的语音修正模型的相似度评估网络，基于任意两个样本语音消息的文本语音组合特征，确定任意两个样本语音消息之间的相似程度；基于任意两个样本语音消息之间的相似程度与任意两个样本语音消息之间的预设相似程度之间的差异，训练语音网络和文本网络，直至任意两个样本语音消息之间的相似程度大于或等于预设相似程度，获得预训练后的语音修正模型。
[0093]
其中，语音修正模型包括三个网络，即语音网络、文本网络和相似度评估网络。语音网络的作用是将输入的语音消息划分成多个语音片段隐向量，输出语音特征向量，该语音特征向量可以表达输入语音消息的语音特性，例如语气、语调、语速、音量等，也就是说可以通过语音网络对输入的语音消息在语气、语调、语速、音量等方面进行重构，得出该语音消息的多个语音片段在各种语音特性上的一个权重，然后根据权重对语音消息进行重构。将重构的语音消息输入至文本网络，通过文本网络将重构的语音消息转换成包括文字特性和语音特性的文本语音组合特征，也即通过文本网络得到的文本既具有文字层面的特征，又具有语音方面的特征，然后将两个输入语音消息经过语音网络和文本网络得到的文本语音组合特征输入至相似度评估网络中，确定两个输入语音消息的相似程度。
[0094]
本技术实施例中，将任意两个具有预设相似程度的样本语音经过上述语音网络和文本网络后，分别得到各自的文本语音组合特征，再将任意两个文本语音组合特征输入至相似度评估网络确定出这两个样本语音的相似程度，若是确定出的任意两个样本语音消息的相似程度大于或等于该任意两个样本语音消息的预设相似程度，则说明语音修正模型已经训练好，否则继续训练语音网络和文本网络，直至满足上述条件。通过上述训练过程，可以训练得到通用的语音修正模型，使得经过该语音修正模型修正的精简语音消息与原始语音消息更加接近。
[0095]
在对待训练的语音修正模型进行预训练，得到通用的语音修正模型之后，还可以利用目标对象的样本语音，对该通用的语音修正模型进行微调训练，得到符合目标对象语音特性的语音修正模型，具体的，微调训练的过程可以包括：通过训练后的语音修正模型的语音网络，获取目标对象的样本语音中的至少两个样本语音消息的语音特征，其中，任意两个样本语音消息之间均具有预设相似程度；通过训练后的语音修正模型的文本网络，基于至少两个样本语音消息的语音特性，获取每个样本语音消息的文本语音组合特征；通过训练后的语音修正模型的相似度评估网络，基于任意两个样本语音消息的文本语音组合特
征，确定任意两个样本语音消息之间的相似程度；基于任意两个样本语音消息之间的相似程度与任意两个样本语音消息之间的预设相似程度之间的差异，训练语音网络和文本网络，直至任意两个样本语音消息之间的相似程度大于或等于预设相似程度，获得训练好的语音修正模型。
[0096]
其中，训练后的语音修正模型的语音网络、文本网络和相似度评估网络的具体介绍在上述实施例中已经详细描述，本实施例不再赘述。
[0097]
本技术实施例，将目标对象任意两个具有预设相似程度的样本语音经过上述语音网络和文本网络后，分别得到各自的文本语音组合特征，再将任意两个文本语音组合特征输入至相似度评估网络确定出这两个样本语音的相似程度，若是确定出的任意两个样本语音消息的相似程度大于或等于预设相似程度，则说明语音修正模型已经训练好，否则继续训练语音网络和文本网络，直至满足上述条件。通过上述训练过程，可以训练得到具有目标对象特色的语音修正模型，使得经过该语音修正模型修正后的目标语音消息与待处理语音消息更加接近。
[0098]
如图7所示，为语音修正模型训练时的输入和输出的简单结构示意图。图中输入的是通用的样本语音和目标对象的样本语音，在模型训练的过程中可以得到两个语音消息之间的相似程度和语音片段隐向量、文本语音映射关系、相似程度阈值等，具体地在上述实施例中已经详细描述，本实施例中不再赘述。
[0099]
如图8所示，为本技术的语音消息处理方法的整体流程示意图。具体地，在获取到待处理语音消息时，经过语音转换模型、文本纠错模型、文本提取模型和文本转换模型后得到关键语音消息，再将待处理语音消息和关键语音消息输入至语音修正模型中，可以得到目标语音消息。在这个过程中，语音修正模型可以根据待处理语音消息和关键语音消息的相似程度，实时将相似程度与相似程度阈值的差值反馈至语音转换模型和文本转换模型中，以使得语音转换模型和文本转换模型根据该差值修正语音转换的文字以及语音权重分布，使得语音修正模型转换的文本更加准确，文本转换模型转换出的语音与原始语音的语音特色更加相似。具体地，在上述各个实施例中已经详细描述，本实施例不再赘述。
[0100]
需要说明的是，本技术实施例提供的语音消息处理方法，执行主体可以为语音消息处理装置，或者该语音消息处理装置中的用于执行语音消息处理方法的控制模块。本技术实施例中以语音消息处理装置执行语音消息处理方法为例，说明本技术实施例提供的语音消息处理装置。
[0101]
如图9所示，为本技术实施例提供的一种语音消息处理装置的示意图。该语音消息处理装置可以包括：获取模块901、确定模块902和修正模块903。
[0102]
其中，获取模块901，用于获取待处理语音消息以及待处理语音消息对应的目标修正程度；确定模块902，用于根据目标修正程度确定相似程度阈值；修正模块903，用于通过语音修正模型，确定待处理语音消息与关键语音消息之间的相似程度，基于相似程度和相似程度阈值，对关键语音消息进行个性化语音修正，获得目标语音消息；关键语音消息与待处理语音消息相对应；其中，语音修正模型是利用目标对象的样本语音训练得到的；目标对象为待处理语音消息对应的消息录制对象；目标语音消息具有待处理语音消息的语音特性以及目标对象的声纹特性。
[0103]
在本技术实施例中，首先获取模块901获取待处理语音消息以及待处理语音消息
对应的目标修正程度，然后确定模块902根据目标修正程度确定相似程度阈值，最后修正模块903通过利用目标对象的样本语音训练得到的语音修正模型，确定待处理语音消息与关键语音消息之间的相似程度，基于相似程度和相似程度阈值，对关键语音消息进行个性化语音修正，获得目标语音消息。本技术实施例通过获取的目标修正程度确定出相似程度阈值，利用语音修正模型对关键语音消息进行个性化语音修正，可以得到具有待处理语音消息的语音特性以及目标对象的声纹特性的目标语音消息，可以避免用户在录制语音消息出错时重复录制，提高获取语音信息的效率，同时还可以使得最终得到的目标语音消息与用户录制语音消息时的语气、语调、语速等信息均相同，使得最终得到的语音消息更像消息录制本人说的话，提升语音消息处理的准确性。
[0104]
可选地，确定模块902，可以用于：通过语音转换模型，将待处理语音消息转换为消息文本；通过文本提取模型，从消息文本中提取关键内容，得到关键文本；通过文本转换模型，将关键文本转换为关键语音消息。
[0105]
可选地，确定模块902，可以用于：根据目标修正程度确定内容精简程度；通过与内容精简程度相匹配的文本提取模型，从消息文本中提取关键内容，得到关键文本。
[0106]
可选地，修正模块903，可以用于：通过语音修正模型的语音网络，获取关键语音消息的语音特征，以及待处理语音消息的语音特征；通过语音修正模型的文本网络，基于关键语音消息的语音特征，获取关键语音消息的文本语音组合特征，并基于待处理语音消息的语音特征，获取待处理语音消息的文本语音组合特征；通过语音修正模型的相似度评估网络，基于关键语音消息的文本语音组合特征，以及待处理语音消息的文本语音组合特征，确定关键语音消息与待处理语音消息之间的相似程度。
[0107]
可选地，修正模块903，可以用于：在相似程度小于相似程度阈值的情况下，将相似程度传递至语音转换模型和文本转换模型中的至少一个，以使语音转换模型和文本转换模型中的至少一个调整各自的输出结果，直至关键语音消息与待处理语音消息之间的相似程度大于或等于相似程度阈值，获得目标语音消息。
[0108]
可选地，获取模块901，可以用于：响应于用户对会话界面中的语音消息的第一输入，确定待处理语音消息；响应于用户对会话界面中的语音修正控件的第二输入，确定待处理语音消息对应的目标修正程度。
[0109]
可选地，修正模块903，可以用于：利用通用的样本语音，对待训练的语音修正模型进行预训练；利用目标对象的样本语音，对预训练后的语音修正模型进行微调训练，直至训练结束时，获得语音修正模型。
[0110]
本技术实施例中的语音消息处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本或者个人数字助理(personal digital assistant，pda)等，非移动电子设备可以为服务器、网络附属存储器(network attached storage，nas)、个人计算机(personal computer，pc)、电视机(television，tv)、柜员机或者自助机等，本技术实施例不作具体限定。
[0111]
本技术实施例中的语音消息处理装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本技术
实施例不作具体限定。
[0112]
本技术实施例提供的语音消息处理装置能够实现图1-图8所示的方法实施例实现的各个过程，为避免重复，这里不再赘述。
[0113]
可选地，如图10所示，本技术实施例还提供一种电子设备1000，包括处理器1001，存储器1002，存储在存储器1002上并可在所述处理器1001上运行的程序或指令，该程序或指令被处理器1001执行时实现上述语音消息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0114]
需要说明的是，本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
[0115]
图11为实现本技术实施例的一种电子设备的硬件结构示意图。
[0116]
该电子设备1100包括但不限于：射频单元1101、网络模块1102、音频输出单元1103、输入单元1104、传感器1105、显示单元1106、用户输入单元1107、接口单元1108、存储器1109、以及处理器1110等部件。
[0117]
本领域技术人员可以理解，电子设备1100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图11中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。
[0118]
其中，处理器1110，用于获取待处理语音消息以及待处理语音消息对应的目标修正程度；根据目标修正程度确定相似程度阈值；通过语音修正模型，确定待处理语音消息与关键语音消息之间的相似程度，基于相似程度和相似程度阈值，对关键语音消息进行个性化语音修正，获得目标语音消息；关键语音消息与待处理语音消息相对应；其中，语音修正模型是利用目标对象的样本语音训练得到的；目标对象为待处理语音消息对应的消息录制对象；目标语音消息具有待处理语音消息的语音特性以及目标对象的声纹特性。
[0119]
在本技术实施例中，首先获取待处理语音消息以及待处理语音消息对应的目标修正程度，然后根据目标修正程度确定相似程度阈值，最后通过利用目标对象的样本语音训练得到的语音修正模型，确定待处理语音消息与关键语音消息之间的相似程度，基于相似程度和相似程度阈值，对关键语音消息进行个性化语音修正，获得目标语音消息。本技术实施例通过获取的目标修正程度确定出相似程度阈值，利用语音修正模型对关键语音消息进行个性化语音修正，可以得到具有待处理语音消息的语音特性以及目标对象的声纹特性的目标语音消息，可以避免用户在录制语音消息出错时重复录制，提高获取语音信息的效率，同时还可以使得最终得到的目标语音消息与用户录制语音消息时的语气、语调、语速等信息均相同，使得最终得到的语音消息更像消息录制本人说的话，提升语音消息处理的准确性。
[0120]
应理解的是，本技术实施例中，输入单元1104可以包括图形处理器(graphics processing unit，gpu)11041和麦克风11042，图形处理器11041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1106可包括显示面板11061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板11061。用户输入单元1107包括触控面板11071以及其他输入设备11072。触控面板
11071，也称为触摸屏。触控面板11071可包括触摸检测装置和触摸控制器两个部分。其他输入设备11072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器1109可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器1110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1110中。
[0121]
本技术实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述语音消息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0122]
其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等。
[0123]
本技术实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述语音消息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0124]
应理解，本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0125]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。
[0126]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
[0127]
上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：雷夏飞
技术所有人：维沃移动通信有限公司
我是此专利的发明人

上一篇：一种LED铝基板及其成型加工系统的制作方法
上一篇：一种深基坑支护装置及其支护方法与流程