本发明涉及文本生成数字人,具体是指一种文本生成数字人语音及面部动画的方法。
背景技术:
1、随着虚拟现实(vr)、增强现实(ar)和人工智能(ai)的快速发展,数字人技术逐渐成为了人机交互领域的重要研究方向。数字人是指通过计算机生成的虚拟人物,可以表现出类似于真实人类的外貌、动作和交互能力。数字人技术的应用广泛,包括虚拟助手、虚拟角色、游戏角色等,为用户提供更加沉浸式和个性化的交互体验。然而,在实现逼真的数字人交互体验方面仍存在一些挑战。特别是在语音合成和面部动画方面,现有技术存在以下问题:
2、语音合成问题:传统的语音合成技术在合成数字人的语音时,往往缺乏自然度和流畅度,听起来比较机械和人工。这种语音合成方式不足以提供与真实人类语音相媲美的质量。
3、面部动画问题:现有的面部动画技术在准确性和表现力方面还有改进空间。传统的方法往往通过简单的运动规则或手工编辑来生成面部动画,导致与语音的精确匹配困难,无法呈现出自然的面部表情。
4、通过对现有的技术进行调研之后发现,其缺点为现有的语音合成方法往往无法生成足够自然和流畅的数字人语音。语音合成结果听起来机械化、人工化,缺乏与真实人类语音相媲美的质量。有的面部动画生成方法在实现与语音的准确匹配方面存在挑战。传统的规则和手工编辑方法无法实现精确的面部动画,导致面部表情与语音之间存在不匹配或不自然的情况。
技术实现思路
1、本发明要解决的技术问题是克服上述缺陷,提供一种文本生成数字人语音及面部动画的方法。
2、为解决上述技术问题,本发明提供的技术方案为:一种文本生成数字人语音及面部动画的方法,包括以下步骤:
3、s1、收集文本材料和待说话者音频,收集待说话者音频的目的是捕捉待合成语音的发音特征和个体差异,通过收集大量不同的待说话者音频,可以捕捉不同人的发音习惯、音调、语速、语调等个体特征,这些音频样本用于训练语音合成模型,使其能够模拟不同说话者的声音和语音特点,通过同时使用文本和待说话者音频,语音合成模型可以学习将输入文本转化为自然流畅的语音输出,并根据待说话者音频的特征个性化合成语音,这样可以提供更具个性和自然度的语音合成结果,使语音合成系统在模仿不同说话者和适应不同语境时更加准确和逼真;
4、s2、文本预处理,具体包含以下步骤:
5、(1)删除乱码和无法识别文字,对于包含乱码或无法识别文字的文本,可以使用过滤操作将其删除或替换为合适的字符,可以确保文本的一致性和可读性;
6、(2)分词,将文本按照词或子词的单位进行切分,使用空格或标点符号作为分隔符,将文本分割成单词或子词的序列,分词可以提取出语义上有意义的单位,为后续的文本处理任务提供输入;
7、(3)标点符号处理,标点符号可以提供语义和结构信息,选择保留标点符号,以在情感分析任务中使用;
8、(4)大小写转换,将文本中的字母统一转换为大写或小写形式,以消除大小写对于如文本分类的影响;
9、(5)停用词去除;
10、s3、文本情感分析,具体包含以下步骤:
11、(1)数据向量化,将文本转换为向量表示,以便于输入卷积神经网络模型,使用词嵌入模型将每个单词表示为向量,并将其转换为one-hot编码,由于文本长度可能不同,可以进行标准化处理,例如将所有文本填充或截断为相同的长度,可以在序列末尾添加特殊的填充符号来实现填充;
12、(2)构建卷积神经网络模型,选择python适当的卷积神经网络,根据任务的要求和数据集的特点,选配置模型的层数、神经元数量等超参数,设置模型的损失函数:交叉熵损失、优化器:adam、sgd和评估指标:准确率、精确率、召回率;
13、(3)分类,根据需求我们将文本划分为积极情感、中性情感和消极情感,使用训练好的模型对新的文本进行情感分类预测,将新文本进行预处理步骤,将其转换为向量表示,并输入到训练好的模型中进行预测;
14、s4、构建声学模型,具体包含以下步骤:
15、(1)数据准备;
16、(2)文本编码器,建一个文本编码器模块,将上文已经向量化的文本转换为潜在语义空间的表示,使用卷积神经网络模型对单词或字符嵌入进行序列编码,在序列编码的基础上,进一步对编码的序列进行上下文编码,通过将多个序列编码的隐藏状态进行聚合或者通过注意力机制来实现,上下文编码有助于捕捉更全局和语义丰富的文本表示,后续将上下文编码后的文本表示映射到潜在语义空间,形成潜在语义表示,使用全连接层来实现,潜在语义空间的维度通常较低,以便减少表示的维度,并捕捉主要的语义信息,文本编码器的前馈网络由两层卷积组成,文本编码器中前馈网络采用的卷积为等长卷积;
17、(3)时长预测器,通过隐变量而非频谱串联起来语音合成中的声学模型和声码器,在隐变量上进行随机建模并利用随机时长预测器,提高了合成语音的多样性,输入同样的文本,能够合成不同声调和韵律的语音;
18、(4)变分自动编码器,在声学模型中引入变分自动编码器的结构,以实现潜在空间的连续性和随机采样,自动编码器包括一个编码器网络和一个解码器网络,通过最大化观测数据的似然性和最小化潜在空间的kl散度来进行训练;
19、(5)对抗训练,提高声学模型的生成能力和自然度,引入对抗训练机制,构建一个鉴别器网络,用于区分生成的声学特征和真实的声学特征,通过最小化鉴别器的损失函数来训练声学模型,使其生成更逼真的声学特征;
20、s5、使用声学模型的解码器,使用hifiganv1的生成器,主要是多组转置卷积,每组转置卷积后跟多感受野融合模块,所谓的多感受野融合模块主要是等大一维卷积组成的残差模块;
21、s6、数字人面部动画生成,使用人脸关键点追踪算法,实时将上述生成的音频数据转换为驱动数字人面部blendshape的权重数据,具体包含以下步骤:
22、(1)人语分析层,提取随时间变化的语音特征序列,它随后将驱动发音,首先使用一个固定功能的自相关分析函数提取信息,再用5个卷积层来提炼信息,经过训练,这一层的网络可提取人声中的短时特征:音素、语调、重音和特定的音素;
23、(2)情绪网络,由5个卷积层组成,分析特征的时间演化,并最终输出一个抽象特征向量,描述在音频窗口中心的面部姿态,这一层接收情绪状态作为输入,消除不同表情和说话风格间的歧义,情绪状态被表示为一个e-维向量,我们将其直接连接到连接网络中每一层的输出,使随后的层能够相应地改变它们的行为,将卷积组织成两个不同的阶段,以避免过拟合;
24、(3)修改关键点位,对面部动画数据进行关键点进行追踪,这些关键点是面部的特定位置,如眼睛、嘴巴、眉毛等,生成最终的116个blendshapes,输出网络被实现为一对全连接层,它们对数据执行简单的线性转换,将第二层初始化为150个预先计算的pca组件,这些组件共同解释了训练数据中看到的99.9%的方差;
25、s7、数字人语音和动画同步,通过将语音合成模块和嘴部动画生成模块相互连接和协调,实现了语音和嘴部动画的实时同步,当用户输入文本时,语音合成模块会生成相应的语音信号,并将其传递给嘴部动画生成模块,嘴部动画生成模块根据语音信号的声音特征和语音表达,实时生成相应的嘴部动画序列,并将其与语音同时呈现,从而实现了数字人语音和嘴部动画的同步表达;
26、s8、呈现效果,将同步调节后的语音和面部动画进行渲染和合成,生成最终的数字人语音及面部动画。
27、作为改进,所述文本中可能包含一些噪声、错误的字符、乱码或特殊字符,可能干扰后续的文本处理任务,通过文本预处理,可以清洗文本,去除这些无效的信息,提高数据的质量和一致性。
28、作为改进,所述文本情感分析,根据处理后的文本内容,识别和理解其中的情感倾向,以便在合成的语音中传达适当的情感色彩,通过识别文本中的情感倾向,可以调整语音合成系统的参数和模型,使生成的语音在语调、语速、音量等方面更好地表达对应的情感,通过根据用户输入的文本内容分析情感,语音合成系统可以生成相应的情感回应,提供更加情感化和个性化的交互体验。
29、作为改进,所述构建声学模型使用带有变分自动编码器的声学模型,将文本的语义向量作为输入,并生成一个声学特征表示,自动编码器的编码器将语义向量映射到一个潜在空间中的高斯分布,并通过随机采样得到潜在编码,然后,自动编码器的解码器将潜在编码映射回声学特征表示,将发音规则输入预先训练好的语音编码器,语音编码器会根据发音规则生成语音信号的特征表示。
30、作为改进,所述停用词是在文本中频繁出现但通常不携带太多语义信息的常见词汇,如介词、连词和代词等,去除停用词可以减少特征维度,提高模型效果和计算效率。
31、作为改进,所述数据准备用于训练的文本和语音数据集,数据集包含文本和对应的语音样本,用于建立文本到语音的映射关系,此时的文本为经过一系列处理后已经分类好的文本,同理需要将语音也区分为积极、中性和消极三种语音语速,这部分的语音分类为人工分类。
32、本发明与现有技术相比的优点在于:1、本发明能够将文字转化为语音,并通过数字人面部驱动技术实现面部表情和嘴唇运动的同步。这种多模态交互体验可以为用户提供更丰富、更直观的交流方式,增强沟通效果和用户参与度。
33、2、本发明通过数字人面部驱动技术,本发明可以根据用户输入的文字内容和语气,生成相应的面部表情和嘴唇运动。这使得用户可以自定义数字人的外观和表现方式,使其更符合个人喜好和需求。
34、3、数字人面部表情能够传达情感和意图,提供更加细腻和准确的情感表达。当能够根据输入的文字内容表现出适当的面部表情时,用户能够更好地理解和感受到数字人的回应,增强沟通的情感共鸣。
35、4、本发明通过将文字生成语音和数字人面部驱动技术相结合,本发明可以实现更真实、逼真的人机交互体验。用户可以同时听到语音输出并观察数字人的面部表情,增加交互的真实感和身临其境的感觉,提升用户满意度和参与度。
36、5、文字生成语音及数字人面部驱动方法可以应用于各种领域,如虚拟助手、虚拟人物、游戏和娱乐等。它可以用于增强现实和虚拟现实交互,提供更自然、互动性更强的人机界面。