本发明涉及数据处理,尤其涉及一种护工数字人生成方法及系统。
背景技术:
1、随着人口老龄化趋势的增加,越来越多的老年人需要长期护理和医疗服务,人口老龄化意味着更多的老年人需要护理服务,但年轻工作人员的数量相对较少,难以满足市场需求。老年人护工短缺问题对社会和家庭都产生了重要影响,它增加了家庭的负担,也使一些老年人难以获得他们所需的护理服务,可能导致更多的健康问题和住院治疗。
2、目前,随着科技进步,为了应对护工短缺问题,出现了护工数字人,但是现有的护工数字人往往只能为待护理老人提供无情绪回答,不具有人格特征,导致数字人与老年人出现沟通障碍,这与老年人需要具有情绪交流的特质不符,而且,真实护工由于专业知识的匮乏往往也不能准确的回答待护理老人的医学咨询。
技术实现思路
1、为了解决现有技术存在护工数字人往往只能为待护理老人提供无情绪回答,不具有人格特征,导致数字人与老年人出现沟通障碍,这与老年人需要具有情绪交流的特质不符,而且,真实护工由于专业知识的匮乏往往也不能准确的回答待护理老人的医学咨询的技术问题,本发明提供了一种护工数字人生成方法及系统。
2、本发明提供的技术方案如下:
3、一方面,提供了一种护工数字人生成方法,该方法由护工数字人生成设备实现,该方法包括:
4、s1:获取护工专业知识和老年人兴趣知识,构建知识库。
5、s2:结合基于transformer的双向编码器表示bert模型和图神经网络构建应答模型,利用知识库训练应答模型。
6、s3:收集训练后的应答模型的输出结果,结合图神经网络和句法树对输出结果进行情绪分类,得到多个情绪类型。
7、s4:录制待模拟护工关于多个情绪类型的视频样本,从视频样本中提取不同情绪类型的视频帧和音频流。
8、s5:接收护理对象的语音请求,使用语音合成工具将语音请求提取为文字请求,并将文字请求输入至训练后的应答模型,通过训练后的应答模型得到目标输出结果。
9、s6:解析目标输出结果的目标情绪类型。
10、s7:构建具有多层长短期记忆网络lstm的双模编解码网络,根据目标情绪类型将相应情绪类型的视频帧和音频流进行融合,得到具有音频特征和视频特征的护工数字人。
11、s8:通过护工数字人对目标输出结果进行播报。
12、可选地,s1具体包括:
13、s101:通过护理协会和老年人福利组织分别获取护工专业知识和老年人兴趣知识。
14、s102:根据护工专业知识和老年人兴趣知识的布局结构,拆解问题内容和相应的答案内容。
15、s103:根据问题内容和相应的答案内容构建知识库。
16、可选地,s3具体包括:
17、s301:收集训练后的应答模型的输出结果,构建输出结果中表示词句关系趋势的有向图。
18、s302:对有向图进行基于图神经网络的特征聚合。
19、s303:通过训练后的应答模型的软激活层计算特征聚合后的特征输出属于不同情感类型的概率值。
20、s304:输出最大的概率值对应的情感类型。
21、可选地,s301中的构建输出结果中表示词句关系趋势的有向图具体包括:
22、s3011:对输出结果进行文本预处理,获取句子集:
23、
24、其中,表示输出结果有个句子,表示在第个句子中有个单词。
25、s3012:将第个句子输入至bert层,提取相应的词向量。
26、s3013:基于词向量构建词向量矩阵:
27、
28、其中,,表示实数域,,表示向量维度,即bert层的最后隐藏层状态。
29、s3014:将方面词中具有个单词的方面词向量的均值作为方面词向量,其中,方面词为每个句子中包括多个单词的子句子:
30、
31、其中,表示第个单词的词向量。
32、s3015:利用双仿射句法分析器将输出结果对应的原始句子转换为依存句法树形式,计算原始句子中的方面词,基于方面词向量将原始句子的各个单词均与方面词进行连接,构造以依存关系为边,单词为节点,方面词为根的词向量关系图。
33、s3016:计算单词与所属方面词的语义距离:
34、
35、其中,表示方面词中单词数量,表示方面词所属句子中的上下文词和方面词的最小距离,表示单词和单词的相对距离,表示距离阈值。
36、s3017: 计算词向量关系图中所有语义距离,得到距离矩阵:
37、
38、s3018:结合词向量矩阵和距离矩阵,构建得到表示词句关系趋势的有向图。
39、可选地,s302具体包括:
40、s3021:利用图神经网络对有向图进行特征聚合:
41、
42、
43、其中,表示利用图神经网络的第层进行聚合得到的特征输出, 表示可学习的特征转移矩阵,分别表示转移前后的特征向量维度, 表示自连接后的距离矩阵,表示对应维度的单位矩阵,表示非线性激活函数,表示自连接后的距离矩阵的对称归一化形式,表示自连接后的距离矩阵对应的度矩阵,表示马尔科夫链中的转移概率矩阵。
44、可选地,s303具体包括:
45、s3031:将聚合得到的特征输出输入至软激活层,以交叉熵损失函数作为目标函数,计算第个句子中第个方面词属于第类情绪类型的概率值:
46、
47、
48、其中,表示方面词经过图神经网络层聚合得到的特征输出,表示软激活层,表示软激活层的网络参数,表示特征向量维度,表示情绪类型数量,表示偏置向量,表示第个方面词所属类别标签的独热向量,分别表示句子总数和方面词总数。
49、可选地,s4具体包括:
50、s401:通过摄像机录制待模拟护工关于多个情绪类型的视频样本,为每个视频样本和相应声音样本标记情绪类型,其中,视频样本包括待模拟护工的整个面部视频。
51、s402:通过视频剪辑工具将视频样本分割成单独的视频帧。
52、s403:使用dlib工具提取视频帧中关于待模拟护工的面部五官特征。
53、s404:通过动画技术将面部五官特征进行合成,得到不同情绪类型的视频帧。
54、s405:对视频样本进行音频分离,并对分离后的音频进行采样,提取不同情绪类型下的声音频率、音量和音调。
55、s406:使用语音合成工具对声音频率、音量和音调进行合成,得到不同情绪类型的音频流。
56、可选地,s7中的双模编解码网络包括由多层lstm网络层和自注意力机制层的解码模块以及多个自注意力编码层组成的音频编码模块和视频编码模块,音频编码模块和视频编码模块均与解码模块连接,解码模块用于接收音频编码模块和视频编码模块的输出数据。
57、可选地,s7具体包括:
58、s701:通过多模态特征融合网络对视频帧和音频流进行解析,获取联合特征:
59、
60、
61、
62、其中,分别表示自注意力机制的查询向量、键向量和值向量,表示键向量的维度参数,符号“joint”表示自注意力机制中的融合操作,符号“cat”表示自注意力机制中的连接操作,表示软激活层的激活函数。
63、s702:通过解码模块对联合特征进行解码,得到护工数字人:
64、
65、其中,表示护工数字人的解码输出结果,表示由自注意力机制解码器提供的概率参数,表示由lstm网络层提供的概率参数,表示时刻的解码输出结果,表示超参数,符号“”表示拼接。
66、另一方面,本发明提供的一种护工数字人生成系统,包括处理器和用于存储处理器可执行指令的存储器;所述处理器被配置为调用所述存储器存储的指令,用于执行第一方面中的护工数字人生成方法。
67、本发明实施例提供的技术方案带来的有益效果至少包括:
68、在本发明中,通过构建具有bert模型和图神经网络应答模型,并对其进行基于专业知识和业余知识的训练,bert可以捕获单词和句子之间的复杂关系,以更准确地理解用户的情感表达,使其具有多层次语义理解和上下文感知能力,提供更智能和精确的自然语言处理能力。之后结合图神经网络解析输出结果的具体情绪分类,即正面情感、中性情感和负面情感,句法树提供了文本中单词之间的依存关系信息,图神经网络可以在多个层次上抽取特征,允许模型逐渐理解文本的全局结构和局部特征,更准确地捕捉文本中的情感信号。之后提取待模拟护工的视频样本中不同情绪类型的视频帧和音频流,通过构建具有多层lstm的双模编码网络对视频帧和音频流进行融合,实现字符级融合,提升融合准确性,最后根据应答模型的输出结果,建立具有情绪的护工数字人,在表情和音频上更加接近待模拟护工,使得建立的护工数字人更加逼真,能够有效声动的回答待护理老人的各种问题,提升待护理人员的满意度,提供更优秀的人机对话体验。