1.本技术涉及人工智能技术领域,尤其涉及一种用于虚拟交互的语言生成方法、装置、设备及存储介质。
背景技术:2.随着科技的发展,虚拟现实技术得到越来越广泛的应用。其中,基于虚拟现实技术的元宇宙是与现实世界映射与交互的虚拟世界,具备新型社会体系的数字生活空间。元宇宙本质上是对现实世界的虚拟化、数字化过程,需要对内容生产、经济系统、用户体验以及实体世界内容等进行大量改造。
3.目前,用户仅可以通过视觉交互的方式进行元宇宙的虚拟交互,交互方式单一。
技术实现要素:4.本技术提供一种用于虚拟交互的语言生成方法、装置、设备及存储介质,以丰富虚拟交互的方式。
5.第一方面,本技术提供一种用于虚拟交互的语言生成方法,包括:
6.响应于构建待生成语言的词汇的指令,获取构建好的目标词汇;
7.响应于对待生成语言的词法和句法的第一选择指令,得到目标词法和目标句法;
8.基于目标词汇、目标词法和目标句法进行增强处理,获得目标文本;
9.响应于对待生成语言的应用场景的第二选择指令,将目标文本输入至应用场景对应的语言生成模型,通过语言生成模型在目标文本中添加场景信息,得到目标文本在应用场景中的目标应用语言。
10.可以看出,在本技术实施例中,通过语言生成模型来得到不同应用场景对应的目标应用语言,以用于虚拟交互,因此,能够丰富虚拟交互的方式;其中,在获取输入至语言生成模型的目标文本时,所用到的目标词汇、目标词法和目标句法是响应于用户的自主选择指令获得的,且进行了增强处理,因此,能够生成具有个性化的虚拟交互的语言,实现符合用户需求的虚拟交互语言的个性化定制。
11.第二方面,本技术提供一种语言生成模型的训练方法,包括:
12.获取训练样本,训练样本包括至少一种应用场景对应的通用场景数据样本和标签场景数据样本;
13.将通用场景数据样本输入至语言生成模型,进行编码和解码处理,得到目标场景数据;
14.根据目标场景数据和标签场景数据样本的相似度,确定损失函数值;
15.根据损失函数值,调整语言生成模型的参数,得到训练好的语言生成模型,语言生成模型用于生成应用场景对应的进行虚拟交互的语言。
16.可以看出,在本技术实施例中,将应用场景对应的通用场景数据样本作为语言生成模型的输入,将语言生成模型输出的目标场景数据与标签场景数据样本进行比对,确定
损失函数值,进而基于损失函数值得到训练好的语言生成模型,因此,能够获得应用场景对应的进行虚拟交互的语言生成模型,该语言生成模型能够较好地用于虚拟交互的语言的生成。
17.第三方面,本技术提供一种用于虚拟交互的语言生成装置,包括:
18.获取模块,用于响应于构建待生成语言的词汇的指令,获取构建好的目标词汇;
19.得到模块,用于响应于对待生成语言的词法和句法的第一选择指令,得到目标词法和目标句法;
20.第一处理模块,用于基于目标词汇、目标词法和目标句法进行增强处理,获得目标文本;
21.第二处理模块,用于响应于对待生成语言的应用场景的第二选择指令,将目标文本输入至应用场景对应的语言生成模型,通过语言生成模型在目标文本中添加场景信息,得到目标文本在应用场景中的目标应用语言。
22.第四方面,本技术提供一种语言生成模型的训练装置,包括:
23.获取模块,用于获取训练样本,训练样本包括至少一种应用场景对应的通用场景数据样本和标签场景数据样本;
24.第一处理模块,用于将通用场景数据样本输入至语言生成模型,进行编码和解码处理,得到目标场景数据;
25.确定模块,用于根据目标场景数据和标签场景数据样本的相似度,确定损失函数值;
26.第二处理模块,用于根据损失函数值,调整语言生成模型的参数,得到训练好的语言生成模型,语言生成模型用于生成应用场景对应的进行虚拟交互的语言。
27.第五方面,本技术提供一种电子设备,包括:处理器,以及与处理器通信连接的存储器;
28.存储器存储计算机执行指令;
29.处理器执行存储器存储的计算机执行指令,以实现如本技术第一方面或第二方面所描述的方法。
30.第六方面,本技术提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被处理器执行时,实现如本技术第一方面或第二方面所描述的方法。
31.第七方面,本技术提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如本技术第一方面或第二方面所描述的方法。
附图说明
32.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
33.图1为本技术一实施例提供的应用场景示意图;
34.图2为本技术一实施例提供的用于虚拟交互的语言生成方法的流程图;
35.图3为本技术一实施例提供的第七声的调值的示意图;
36.图4为本技术一实施例提供的与动物有关的元概念的示意图;
37.图5为本技术另一实施例提供的用于虚拟交互的语言生成方法的流程图;
38.图6为本技术一实施例提供的语言生成模型的训练方法的流程图;
39.图7为本技术一实施例提供的用于虚拟交互的语言生成装置的结构示意图;
40.图8为本技术一实施例提供的语言生成模型的训练装置的结构示意图;
41.图9为本技术一实施例提供的电子设备的结构示意图。
具体实施方式
42.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
43.本技术的技术方案中,所涉及的金融数据或用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
44.首先,对本技术涉及的部分技术术语进行解释说明:
45.自然语言处理(natural language processing,nlp),是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
46.深层双向语言表征模型(bidirectional encoder representation from transformers,bert),是一个预训练的语言表征模型;它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的掩盖语言模型(masked language model,mlm),以致能生成深度的双向语言表征。
47.词向量模型(word2vec):是一群用来产生词向量的相关模型;这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本;网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的;训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
48.语言模型困惑度(perplexity,ppl),用来衡量一个语言模型在未见过的字符串s上的表现;对于一个长度为n的字符串s,语言模型给出概率p(s),对应的困惑度为2^{-(1/n)log2 p(s)};其中字符串长度单位可以是字符也可以是单词(words)。
49.世界语(esperanto),是由波兰籍犹太人眼科医生拉扎鲁
·
路德维克
·
柴门霍夫博士在印欧语系的基础上于1887年7月26日发明创立的一种人造语言。他期待这门语言能够为不同语言人群的交流提供便利,能够帮助人们跨越语言、肤色、种族、地域等界限,用同一个身份——世界公民来平等、友好地相处,而并不打算用取代任何民族语。
50.音素,是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素;音素分为元音与辅音两大类。
51.国际音素表(international phonetic alphabet,ipa),是一套用来标音的系统,以拉丁字母为基础,由国际语音学学会设计来作为口语声音的标准化标示方法;分为严式
音标和宽式音标,其中,严式音标,即采用音素标音;宽式标音,是在严式标音的基础上,整理出一种语音的音位系统,然后按音位来标记语音,也就是只记音位,不记音位变体及其它非本质的伴随现象,因此,宽式标音又称为“音位标音”;在现代汉语中,舌面低元音比如包括[ε]、[a]、[a]和[
ɑ
],用宽式标音只用/a/就可以了。
[0052]
音系,即语音系统,每种语言均有独立的音系。
[0053]
目前,nlp研究在自然语言理解(nlu,natural language understanding)领域旨在分析、理解已有的自然语言,在自然语言生成(nlg,natural language generation)领域旨在生成自然语言。
[0054]
世界语是以印欧语系为基础创造出来的国际辅助语,又称国际普通话,是国际科技文化交流的工具,也是学习其他外语的桥梁和钥匙,但是,世界语并未得到广泛使用。
[0055]
相关技术中,提供了一种数码世界语,数码世界语的字母是由0、1、2、3、4、5、6、7、8、9共十个阿拉伯数字组成,这十个阿拉伯数字的中文读音为相应字母的发音,由上述一个或多个字母的组合构成一个语句,每一语句表示一句话、或一个完整的意思。但是,上述数码世界语仅限于世界语的构建方式,构建的是一种基于目前语言的,表述概念有限的世界语,未综合考虑世界语语音、语义以及语法的构建,且未与目前的元宇宙结合,未实现世界语的个性定制。
[0056]
相关技术中,提供了一种虚拟现实的元宇宙系统,其包括开发者系统和用户系统;用户系统将正常视野按所选取的场景形成显示内容呈现给用户。通过开发者系统提供大量开发者可参与建设的通用场景和特定场景,用户系统将虚拟现实结合起来,使得用户身临其境地利用现实世界的正常视野,参与到场景所形成的显示内容所构建的融入于现实世界的虚拟化呈现中,能够将游戏融入现实又不影响自己正常生活,而且用户能够正常认知周边世界,所以不会影响他人的正常生活;可以实现元宇宙进入现实生活;无论是开发者还是用户,都可以海量地参与到虚拟现实的元宇宙系统,而且当用户对通用场景或特定场景作出改变时,他们又成为了开发者,由此可以实现推进元宇宙快速应用。但是,上述元宇宙系统中,用户仅可以通过视觉交互的方式进行元宇宙的虚拟交互,交互方式单一。
[0057]
基于上述问题,本技术提供一种用于虚拟交互的语言生成方法、装置、设备及存储介质,通过打通人类自然语言、编程语言以及动物语言的界限,构建一种通用于人与机器、动物的共同语,让其成为元宇宙中的通用语言,即元宇宙中的世界语,以用于元宇宙中的虚拟交互,从而能够丰富元宇宙中虚拟交互的方式;且通过让用户自主选择音素和元概念,对音节与元概念建立对应关系,能够生成具有个性化的元宇宙语言,实现了符合用户需求的元宇宙语言的个性化定制。
[0058]
以下,首先对本技术提供的方案的应用场景进行示例说明。
[0059]
图1为本技术一实施例提供的应用场景示意图。如图1所示,本应用场景中,用户通过所佩戴的外接式虚拟现实(virtual reality,vr)头显设备103在元宇宙中进行虚拟交互。其中,摄像头104可以采集用户的肢体动作,传输给客户端101,进而传输给服务器102以对用户的肢体动作进行相应的响应处理;用户可以在客户端101中显示的元宇宙系统中进行要生成的元宇宙中世界语的相关操作,服务器102从客户端101获取用户对要生成的元宇宙中世界语的相关操作对应的信息;服务器102根据该信息生成用户自定制的世界语,并将用户自定制的世界语发送给客户端101,客户端101显示用户自定制的世界语;用户在使用
自定制的世界语时,可以通过外接式vr头显设备103接收自定制的世界语对应的语音,以在元宇宙中进行虚拟交互。其中,服务器102根据该信息生成用户自定制的世界语的具体实现过程可以参见下述各实施例的方案。
[0060]
需要说明的是,图1仅是本技术实施例提供的一种应用场景的示意图,本技术实施例不对图1中包括的设备进行限定,也不对图1中设备之间的位置关系进行限定。例如,在图1所示的应用场景中,还可以包括数据存储设备,该数据存储设备相对客户端101或者服务器102可以是外部存储器,也可以是集成在客户端101或者服务器102中的内部存储器。
[0061]
接下来,通过具体实施例介绍用于虚拟交互的语言生成方法。
[0062]
图2为本技术一实施例提供的用于虚拟交互的语言生成方法的流程图。本技术实施例的方法可以应用于电子设备中,该电子设备可以是服务器或服务器集群等。如图2所示,本技术实施例的方法包括:
[0063]
s201、响应于构建待生成语言的词汇的指令,获取构建好的目标词汇。
[0064]
本技术实施例中,构建待生成语言的词汇的指令比如是用户向执行本方法实施例的电子设备输入的。该步骤中,响应于用户构建待生成语言的词汇的指令,可以获取构建好的目标词汇。
[0065]
可选的,响应于构建待生成语言的词汇的指令,获取构建好的目标词汇之前,本技术实施例的方法还可以包括:响应于从预设音素库中选择音素的指令,得到目标音素;响应于根据目标音素确立音节的指令,获取目标音节;响应于从预设元概念库中选择元概念的指令,得到目标元概念,元概念用于表征对人类所感知的事物的共同本质特点进行抽象获得的信息;响应于构建待生成语言的词汇的指令,获取构建好的目标词汇,可以包括:响应于构建待生成语言的词汇的指令,根据目标音节和目标元概念的对应关系,获取目标词汇。
[0066]
示例性地,预设音素库中的音素比如可以通过以下两种方式获得:(1)根据目前的语言学书籍,可以获得人类可以发出的所有音以及其发音方式(比如舌位、唇形、是否送气或声带是否振动);(2)人工录制,通过改变人的发音部位(比如舌位或唇形)与发音方式(比如是否送气或声带是否振动),生成不同的音,记录发音部位与方法,并保存其发音视频。
[0067]
示例性地,用户进入元宇宙系统,元宇宙系统初始化完成,用户在元宇宙系统中进入如表1所示的预设音素库,预设音素库中存储有人类可以发出的所有音及其国际音标(即音素音标)、发音方法和部位以及发音视频对应的音频链接。用户可以选择构建自己的元宇宙需要用到的所有音素,比如用户可以选择辅音音素。相应地,执行本方法实施例的电子设备响应于用户从预设音素库中选择音素的指令,得到目标音素。
[0068]
表1预设音素库
[0069]
序号音素音标发音方法和部位音频链接0[p]双唇音,塞音,不送气0.mp41[p
‘
]双唇音,塞音,送气1.mp4
……………………
[0070]
可选的,用户也可以自创目前语言中不存在的音素,比如将仅自己可以发出的音作为备选音素,存储至预设音素库中。
[0071]
可选的,可以根据用户在元宇宙系统中输入的构建自己的元宇宙需要用到的所有音素的数量,自动随机生成目标音素。
[0072]
在获得了目标音素后,用户可以根据目标音素,自主确立音节结构,即确定是否使用声调以及声调种类,确定自己的元宇宙需要用到的所有音节。相应地,执行本方法实施例的电子设备响应于用户根据目标音素确立音节的指令,获取目标音节。其中,对于声调种类,比如汉语普通话中,声调种类包括四种,即阴平(一声)、阳平(二声)、上声(三声)和去声(四声)。示例性地,假设一个音节只由声母和声调构成,声母由辅音充当,辅音一共选择有5个,比如为[p]、[p
‘
]、[m]、[n]和[l];声调有8个,每个声调有对应的调值,比如第一声的调值为55、第七声的调值为16。图3为本技术一实施例提供的第七声的调值的示意图,如图3所示,调值分析采用六度(即1、2、3、4、5和6)标记法,从1至6,声调的调值逐渐升高,第七声的调值为16。
[0073]
元概念是人类在认识过程中,从感性认识上升到理性认识,把所感知的事物的共同本质特点抽象出来,加以概括,是自我认知意识的一种表达,形成概念式思维惯性。在人类所认知的思维体系中最基本的构筑单位。预设元概念库比如是通过以下方式获得的:语言学专家自省梳理的方式,通过对目前真实世界、编程世界以及动物视角的世界中存在的概念进行分类和分层,构建有层级的元概念知识体系,比如:“动物”这一元概念下有“哺乳动物”,“哺乳动物”这一元概念下有“猫科动物”等。该元概念知识体系中包含目前真实世界、编程世界以及动物视角的世界中的所有元概念。基于预设元概念库,比如用户可以选择与动物、植物、书籍、人称、人名、动作有关的概念。示例性地,图4为本技术一实施例提供的与动物有关的元概念的示意图,如图4所示,“动物”这一元概念下有两个元概念,即能制造工具并使用工具进行劳动的高等动物和不能制造工具并使用工具进行劳动的动物。可以理解,能制造工具并使用工具进行劳动的高等动物这一元概念下还可以有其他元概念,以及不能制造工具并使用工具进行劳动的动物这一元概念下也可以有其他元概念。
[0074]
可选的,用户也可以自创目前语言中不存在的概念作为元概念,存储至预设元概念库中。
[0075]
在获得了目标音节和目标元概念后,用户可以根据目标音节和目标元概念,自主构建目标音节与目标元概念的对应关系。相应地,执行本方法实施例的电子设备响应于构建待生成语言的词汇的指令,根据目标音节和目标元概念的对应关系,得到目标词汇。示例性地,表2为本技术一实施例提供的音节和元概念的对应关系表,通过表2,可以得到对应的词汇比如为羊、牛和猫。可以理解,音节和元概念的对应关系可以是一对一的关系,或者,可以是多对一的关系,或者,可以是一对多的关系。
[0076]
表2
[0077]
序号元概念音节0咩咩叫的动物mm11哞哞叫的动物n72喵喵叫的动物mm1
………………
[0078]
s202、响应于对待生成语言的词法和句法的第一选择指令,得到目标词法和目标句法。
[0079]
示例性地,比如可以通过语法库来存储待生成语言的词法和句法,即通过语法库中的词法库存储待生成语言的词法,通过语法库中的句法库存储待生成语言的句法。用户
可以自主选择待生成语言所需要用到的词法和句法。相应地,执行本方法实施例的电子设备响应于对待生成语言的词法和句法的第一选择指令,得到目标词法和目标句法。具体地,目标词法比如为“x完”,目标句法比如为“我给yz”。可以理解,通过目标词法,能够获得符合目标词法的更多的词汇,通过目标句法,能够获得符合目标句法的更多的句子。
[0080]
s203、基于目标词汇、目标词法和目标句法进行增强处理,获得目标文本。
[0081]
该步骤中,在获得了目标词汇、目标词法和目标句法后,可以基于目标词汇、目标词法和目标句法进行增强处理,获得目标文本。示例性地,基于目标词汇,比如可以采用预设文本增强技术对目标词法完成扩展(即进行文本增强处理),生成用户指定的目标词法下更多的词汇;可以采用预设文本增强技术对目标句法完成扩展,生成用户指定的目标词法下更多的句子。对于具体如何基于目标词汇、目标词法和目标句法进行增强处理,获得目标文本,可参考后续实施例,此处不再赘述。
[0082]
s204、响应于对待生成语言的应用场景的第二选择指令,将目标文本输入至应用场景对应的语言生成模型,通过语言生成模型在目标文本中添加场景信息,得到目标文本在应用场景中的目标应用语言。
[0083]
该步骤中,语言生成模型是预先训练好的,对于具体如何获得训练好的语言生成模型,可参考后续实施例,此处不再赘述。一示例中,用户可以选择待生成语言的一种应用场景,执行本方法实施例的电子设备响应于用户对该应用场景的第二选择指令,将目标文本输入至该应用场景对应的语言生成模型,通过语言生成模型在目标文本中添加场景信息,得到目标文本在应用场景中的目标应用语言。另一示例中,用户可以同时选择待生成语言的多种应用场景,执行本方法实施例的电子设备响应于用户对多种应用场景的第二选择指令,将目标文本输入至多种应用场景分别对应的语言生成模型,得到目标文本在多种应用场景中的目标应用语言,即完成了用户自定制的世界语的构建。
[0084]
在完成用户自定制的世界语的构建后,即形成了用户元宇宙中不同应用场景的交际库,每个交际库中存放有表达不同意图的句子,意图与句子之间建立有映射关系。例如,意图为:本人离开意图,相应的句子为:我想离开。用户可以为自己的元宇宙创造多个不同角色的成员,用户可以将自定制的世界语初始化到每个成员的大脑中,以便于元宇宙中的每个成员都按照用户自定制的世界语进行虚拟交互。
[0085]
本技术实施例提供的用于虚拟交互的语言生成方法,通过响应于用户的自主选择指令来获得目标词汇、目标词法和目标句法;基于目标词汇,对目标词法和目标句法进行文本增强处理,获得目标文本;将目标文本作为语言生成模型的输入,通过语言生成模型来得到不同应用场景对应的目标应用语言,以用于虚拟交互,因此,能够丰富虚拟交互的方式;且能够生成具有个性化的虚拟交互的语言,实现符合用户需求的虚拟交互语言的个性化定制。
[0086]
图5为本技术另一实施例提供的用于虚拟交互的语言生成方法的流程图。在上述实施例的基础上,本技术实施例对用于虚拟交互的语言生成方法进行进一步说明。如图5所示,本技术实施例的方法可以包括:
[0087]
s501、响应于构建待生成语言的词汇的指令,获取构建好的目标词汇。
[0088]
该步骤的具体描述可以参见图2所示实施例中s201的相关描述,此处不再赘述。
[0089]
s502、响应于对词法发达类型或句法发达类型的第三选择指令,得到目标发达类
型。
[0090]
其中,词法发达类型用于表征用户可选择的词法数量多于句法数量,句法发达类型用于表征用户可选择的词法数量少于句法数量。
[0091]
可以理解,词法发达或是句法发达是相对的,一种语言中需要表述的语义是一定的,语言一般情况下会选择:词法发达&句法简单(比如英语),或者,句法发达&词法简单(比如汉语)这两种方式来表示所有想要表达的语义。如果词法和句法都发达,则会造成表述的赘余、语言学习的负担。比如汉语中表示完成,可以使用句法:动词后加“了”;英语中表示完成,可以使用词法:在动词后加“ed”。该步骤中,词法发达类型意味着在用于表述一些语义时,更多的使用词法,也不排除会用到句法,句法可以有变化;句法发达类型词意味着在用于表述一些语义时,更多的使用句法,也不排除词法会有变化。示例性地,响应于用户对元宇宙中词法发达类型的第三选择指令,可以得到目标发达类型为词法发达类型;响应于用户对元宇宙中句法发达类型的第三选择指令,可以得到目标发达类型为句法发达类型。
[0092]
本技术实施例中,图2中s202步骤可以进一步包括如下的s503和s504两个步骤:
[0093]
s503、若目标发达类型为词法发达类型,则响应于对词法发达类型对应的词法的第四选择指令,得到目标词法;响应于对待生成语言的句法的第一选择指令,得到目标句法。
[0094]
该步骤,若目标发达类型为词法发达类型,则表示用户可选择的词法数量多于句法数量。响应于用户对词法发达类型对应的词法的第四选择指令,可以得到目标词法。响应于用户对待生成语言的句法的第一选择指令,可以得到目标句法。可以理解,目标词法的数量多于目标句法的数量。
[0095]
s504、若目标发达类型为句法发达类型,则响应于对句法发达类型对应的句法的第五选择指令,得到目标句法;响应于对待生成语言的词法的第一选择指令,得到目标词法。
[0096]
该步骤,若目标发达类型为词法发达类型,则表示用户可选择的词法数量少于句法数量。响应于用户对句法发达类型对应的句法的第五选择指令,可以得到目标句法;响应于用户对待生成语言的词法的第一选择指令,可以得到目标词法。可以理解,目标词法的数量少于目标句法的数量。
[0097]
本技术实施例中,图2中s203步骤可以进一步包括如下的s505至s507三个步骤:
[0098]
s505、基于目标词汇对应的词向量表和目标词法,通过语言表征模型进行增强处理,获得增强处理后的词汇。
[0099]
该步骤中,词向量表是词与其词向量的映射表,在得到了目标词汇后,比如可以通过语言表征模型bert得到目标词汇对应的词向量表。示例性地,目标词法比如为“x完”,目标词法对应的词法样例比如为写完、吃完,通过bert可以得到词法样例中“写”的词向量,比如用e1表示;通过bert可以得到词法样例中“吃”的词向量,比如用e2表示。查询目标词汇对应的词向量表,通过bert计算与e1、e2的距离和小于预设距离阈值的前n个(即top-n)词向量,假设n为2,则可以得到与e1、e2的距离和小于预设距离阈值的前2个词向量,分别用e3和e4表示。在目标词汇对应的词向量表中找到e3和e4分别对应的词,比如为画、喝,则可以获得文本增强处理后的词汇即为:画完、喝完。
[0100]
s506、根据增强处理后的词汇,对词向量表进行更新,获得更新后的词向量表。
[0101]
该步骤中,在获得了文本增强处理后的词汇,可以根据文本增强处理后的词汇,对词向量表进行更新,获得更新后的词向量表。
[0102]
s507、基于更新后的词向量表和目标句法,通过语言表征模型进行增强处理,获得目标文本。
[0103]
该步骤中,更新后的词向量表中包含目标句法需要用到的词。示例性地,目标句法比如为“我给yz”,目标句法对应的句法样例比如为我给他书、我给他苹果、我给你书、我给你苹果。通过bert可以得到句法样例中“书”的词向量,比如用e5表示,通过bert可以得到句法样例中“苹果”的词向量,比如用e6表示,e5和e6对应目标句法中的z;通过bert可以得到句法样例中“你”的词向量,比如用e7表示,通过bert可以得到句法样例中“他”的词向量,比如用e8表示,e7和e8对应目标句法中的y。对于目标句法中的z,可以通过以下方式进行文本增强处理:查询更新后的词向量表,通过bert计算与e5、e6的距离和小于预设距离阈值的top-m个词向量,假设m=1,则可以得到与e1、e2的距离和小于预设距离阈值的1个词向量,比如用e7表示。在更新后的词向量表中找到e7对应的词,比如为梨,因此,可以得到目标文本比如为:我给他梨。对于目标句法中的y,可以通过以下方式进行文本增强处理:查询更新后的词向量表,通过bert计算与e7、e8的距离和小于预设距离阈值的top-k个词向量,假设k=1,则可以得到与e7、e8的距离和小于预设距离阈值的1个词向量,比如用e9表示。在更新后的词向量表中找到e9对应的词,比如为小明,因此,可以得到目标文本比如为:我给小明书。
[0104]
s508、获取目标文本中通用场景对应的文本。
[0105]
可以理解,通用场景的数据较多,扩展更有意义。示例性地,可以通过人工方式区来获得目标文本中通用场景对应的文本,或者,可以通过预设分类模型来获得目标文本中通用场景对应的文本。
[0106]
本技术实施例中,图2中s204步骤可以进一步包括如下的s509步骤:
[0107]
s509、响应于对待生成语言的应用场景的第二选择指令,将通用场景对应的文本输入至应用场景对应的语言生成模型,通过语言生成模型在通用场景对应的文本中添加场景信息,得到通用场景对应的文本在应用场景中的目标应用语言。
[0108]
该步骤中,参考s204步骤的相关描述,在获得了目标文本中通用场景对应的文本后,可以响应于对待生成语言的应用场景的第二选择指令,将通用场景对应的文本输入至应用场景对应的语言生成模型,通过语言生成模型在通用场景对应的文本中添加场景信息,得到通用场景对应的文本在应用场景中的目标应用语言,即完成了用户自定制的世界语的构建。
[0109]
本技术实施例提供的用于虚拟交互的语言生成方法,根据用户选择的词法发达类型或句法发达类型来得到目标词法和目标句法,能够准确地表述语言;通过语言表征模型对目标词法进行文本增强处理,能够更好地获得对目标词法和目标句法扩展后的目标文本;通过语言生成模型来得到元宇宙中不同应用场景对应的目标应用语言,即元宇宙中的世界语,以用于元宇宙中的虚拟交互,因此,能够丰富元宇宙中虚拟交互的方式;且目标词汇、目标词法、目标句法以及词法发达类型或句法发达类型是响应于用户的自主选择指令获得的,因此,能够生成具有个性化的虚拟交互的语言,实现符合用户需求的虚拟交互语言的个性化定制。
[0110]
在上述实施例的基础上,图6为本技术一实施例提供的语言生成模型的训练方法的流程图,该语言生成模型的训练方法是基于目前的多语言的文本转换生成模型(multilingual text-to-text transfer transformer 5,mt5)进行微调训练的方法。如图6所示,本技术实施例的方法可以包括:
[0111]
s601、获取训练样本,训练样本包括至少一种应用场景对应的通用场景数据样本和标签场景数据样本。
[0112]
可以理解,对于不同的应用场景,训练样本中包含与应用场景对应的通用场景数据样本和标签场景数据样本。通用场景数据样本用于作为mt5模型的输入,标签场景数据样本用于作为mt5模型的输出的参考,以通过mt5模型获得某一具体应用场景的交际语言。
[0113]
s602、将通用场景数据样本输入至语言生成模型,进行编码和解码处理,得到目标场景数据。
[0114]
该步骤中,示例性地,语言生成模型比如为mt5预训练模型(即mt5-base),通过语言生成模型对通用场景数据样本进行编码和解码处理,可以得到目标场景数据。
[0115]
s603、根据目标场景数据和标签场景数据样本的相似度,确定损失函数值。
[0116]
该步骤中,在获得了语言生成模型输出的目标场景数据后,可以根据目标场景数据和标签场景数据样本的相似度,确定损失函数值,以将该损失函数值用于语言生成模型的迭代微调训练。
[0117]
s604、根据损失函数值,调整语言生成模型的参数,得到训练好的语言生成模型。
[0118]
其中,语言生成模型用于生成应用场景对应的进行虚拟交互的语言。
[0119]
该步骤中,语言生成模型的参数比如可以包括句子的最大长度、分词后词元(token)的最大长度、热身步数、每个设备训练的批量数、学习率以及训练轮数等。在获得了损失函数值后,可以根据损失函数值,调整语言生成模型的参数,在损失函数值趋于稳定时,停止迭代微调训练,得到训练好的语言生成模型。
[0120]
本技术实施例提供的语言生成模型的训练方法,基于目前的mt5模型进行微调训练,得到应用场景对应的进行虚拟交互的语言生成模型,因此,获得的语言生成模型能够较好地用于虚拟交互的语言的生成。
[0121]
下述为本技术装置实施例,可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节,请参照本技术方法实施例。
[0122]
图7为本技术一实施例提供的用于虚拟交互的语言生成装置的结构示意图,如图7所示,本技术实施例的用于虚拟交互的语言生成装置700包括:获取模块701、得到模块702、第一处理模块703和第二处理模块704。其中:
[0123]
获取模块701,用于响应于构建待生成语言的词汇的指令,获取构建好的目标词汇。
[0124]
得到模块702,用于响应于对待生成语言的词法和句法的第一选择指令,得到目标词法和目标句法。
[0125]
第一处理模块703,用于基于目标词汇、目标词法和目标句法进行增强处理,获得目标文本。
[0126]
第二处理模块704,用于响应于对待生成语言的应用场景的第二选择指令,将目标文本输入至应用场景对应的语言生成模型,通过语言生成模型在目标文本中添加场景信
息,得到目标文本在应用场景中的目标应用语言。
[0127]
在一些实施例中,第一处理模块703可以具体用于:基于目标词汇对应的词向量表和目标词法,通过语言表征模型进行增强处理,获得增强处理后的词汇;根据增强处理后的词汇,对词向量表进行更新,获得更新后的词向量表;基于更新后的词向量表和目标句法,通过语言表征模型进行增强处理,获得目标文本。
[0128]
可选的,获取模块701还可以用于:响应于从预设音素库中选择音素的指令,得到目标音素;响应于根据目标音素确立音节的指令,获取目标音节;响应于从预设元概念库中选择元概念的指令,得到目标元概念,元概念用于表征对人类所感知的事物的共同本质特点进行抽象获得的信息;获取模块701可以具体用于:响应于构建待生成语言的词汇的指令,根据目标音节和目标元概念的对应关系,获取目标词汇。
[0129]
可选的,得到模块702还可以用于:响应于对词法发达类型或句法发达类型的第三选择指令,得到目标发达类型,词法发达类型用于表征用户可选择的词法数量多于句法数量,句法发达类型用于表征用户可选择的词法数量少于句法数量;得到模块702可以具体用于:若目标发达类型为词法发达类型,则响应于对词法发达类型对应的词法的第四选择指令,得到目标词法;响应于对待生成语言的句法的第一选择指令,得到目标句法;若目标发达类型为句法发达类型,则响应于对句法发达类型对应的句法的第五选择指令,得到目标句法;响应于对待生成语言的词法的第一选择指令,得到目标词法。
[0130]
在一些实施例中,第二处理模块704还可以用于:获取目标文本中通用场景对应的文本;第二处理模块704可以具体用于:响应于对待生成语言的应用场景的第二选择指令,将通用场景对应的文本输入至应用场景对应的语言生成模型,通过语言生成模型在通用场景对应的文本中添加场景信息,得到通用场景对应的文本在应用场景中的目标应用语言。
[0131]
本技术实施例的装置,可以用于执行上述任一方法实施例中用于虚拟交互的语言生成方法的方案,其实现原理和技术效果类似,此处不再赘述。
[0132]
图8为本技术一实施例提供的语言生成模型的训练装置的结构示意图,如图8所示,本技术实施例的语言生成模型的训练装置800包括:获取模块801、第一处理模块802、确定模块803和第二处理模块804。其中:
[0133]
获取模块801,用于获取训练样本,训练样本包括至少一种应用场景对应的通用场景数据样本和标签场景数据样本。
[0134]
第一处理模块802,用于将通用场景数据样本输入至语言生成模型,进行编码和解码处理,得到目标场景数据。
[0135]
确定模块803,用于根据目标场景数据和标签场景数据样本的相似度,确定损失函数值。
[0136]
第二处理模块804,用于根据损失函数值,调整语言生成模型的参数,得到训练好的语言生成模型,语言生成模型用于生成应用场景对应的进行虚拟交互的语言。
[0137]
本技术实施例的装置,可以用于执行上述任一方法实施例中语言生成模型的训练方法的方案,其实现原理和技术效果类似,此处不再赘述。
[0138]
图9为本技术一实施例提供的电子设备的结构示意图。示例性地,电子设备可以被提供为一服务器或计算机。参照图9,电子设备900包括处理组件901,其进一步包括一个或多个处理器,以及由存储器902所代表的存储器资源,用于存储可由处理组件901的执行的
指令,例如应用程序。存储器902中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件901被配置为执行指令,以执行上述任一方法实施例。
[0139]
电子设备900还可以包括一个电源组件903被配置为执行电子设备900的电源管理,一个有线或无线网络接口904被配置为将电子设备900连接到网络,和一个输入输出(i/o)接口905。电子设备900可以操作基于存储在存储器902的操作系统,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm或类似。
[0140]
本技术还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上用于虚拟交互的语言生成方法的方案以及语言生成模型的训练方法的方案。
[0141]
本技术还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上的用于虚拟交互的语言生成方法的方案以及语言生成模型的训练方法的方案。
[0142]
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0143]
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(application specific integrated circuits,asic)中。当然,处理器和可读存储介质也可以作为分立组件存在于用于虚拟交互的语言生成装置或语言生成模型的训练装置中。
[0144]
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0145]
最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。