文本生成方法、装置和计算设备与流程

文档序号：38756028发布日期：2024-07-24 23:00阅读：17来源：国知局

本技术涉及人工智能，更具体地，涉及一种基于多种模态的输入数据来生成文本的方法、装置和计算设备。

背景技术：

1、大语言模型(llm)是指使用巨大规模的文本数据训练并基于深度学习得到的大型自然语言处理模型，可以理解语言文本的含义或生成自然语言文本。随着chatgpt等在各领域展现出非凡能力，多模态大语言模型(mllm)近来也成为了研究的热点。多模态大语言模型是一种结合了多种不同类型(不同模态)的输入数据的模型，不同类型的输入可以例如文本、图像、音频等。多模态大语言模型利用强大的大语言模型(llm)作为“大脑”，可以执行各种多模态任务。多模态大语言模型的目标是学习从不同类型的多个输入数据中提取有用信息，并将其融合到一个统一的表示中。例如，一个多模态大语言模型可以同时使用图像和文本输入，输出该图像的文本描述信息。

2、因此，如何更高效地以及更准确地将大语言模型用于基于多种模态的输入数据的文本生成是目前本领域的一种研究重点。

技术实现思路

1、在本技术的一方面，提供了一种用于生成文本的方法。方法包括：获取多种模态的输入数据；利用与所述多种模态的输入数据各自对应的多个编码器将所述输入数据生成融合特征表示；利用解码器基于所述融合特征表示而生成与所述多种模态的输入数据相关联的输出文本，其中，所述解码器包括多个解码层块以及包括在每个解码层块中的混合交叉注意力机制模块，其中，每个解码层块中的所述混合交叉注意力机制模块包括交叉注意力模块、用于所述交叉注意力模块的多个转换参数组模块以及选择模块，所述选择模块用于基于所述融合特征表示而选择所述多个转换参数组模块中的一个或多个转换参数组模块，以用于生成由所述交叉注意力模块使用的转换参数组。

2、根据本技术的实施例，其中，利用解码器基于所述融合特征表示而生成与所述多种模态的输入数据相关联的输出文本，包括：针对每个解码层块，基于所述融合特征表示利用所述解码层块中的所述混合交叉注意力机制模块包括的每个转换参数组模块中的转换参数组，确定多个键-值组合；基于所述融合特征表示利用所述选择模块从所述多个键-值组合中确定用于所述解码层块中的所述交叉注意力模块的键-值组合；以及基于所确定的键-值组合利用所述交叉注意力模块生成所述解码层块的输出表示，用于生成下一个解码层块的输入信息或者用于生成所述输出文本。

3、根据本技术的实施例，其中，所述融合特征表示包括所述输入数据经词元化后得到的多个词元对应的特征表示，其中，所述多个键-值组合中的每个键-值组合包括与所述多个词元相关联的信息，其中，确定用于所述解码层块中的交叉注意力模块的键-值组合，包括：利用所述选择模块并基于所述融合特征表示，针对所述输入数据经词元化后得到的每个词元确定所述词元对应的转换参数组模块；利用所述选择模块并基于每个词元对应的转换参数组模块，从所述多个键-值组合中确定每个词元对应的键-值组合；以及从每个词元对应的键-值组合中确定与所述词元相关联的信息，其中，所确定的与每个词元相关联的信息构成所述交叉注意力模块的针对所述融合特征表示的所述键-值组合。

4、根据本技术的实施例，其中，每个键-值组合包括键矩阵k和值矩阵v，其中，确定多个键-值组合，包括：利用所述解码层块中的每个转换参数组模块中的转换参数组对所述融合特征表示进行线性变换，以确定每个转换参数组模块对应的键矩阵k和值矩阵q。

5、根据本技术的实施例，所述方法还包括：对所述解码层块的输入信息进行线性变换，以确定用于所述解码层块中的所述交叉注意力模块的查询矩阵q，其中所述解码层块的输入信息包括前一解码层块的输出信息或者用户指令的编码嵌入信息。

6、根据本技术的实施例，所述方法还包括：对所述多个编码器和所述解码器进行训练，其中在训练过程中调整所述多个编码器和每个解码层块中的混合交叉注意力机制模块中的模型参数，其中，每个解码层块中的除混合交叉注意力机制模块中的模型参数之外的模型参数是预训练的而无需在所述训练过程中进行调整。

7、根据本技术的实施例，其中，所述解码器的输入信息包括用户指令，作为文本生成操作的启动指令。

8、根据本技术的实施例，所述方法还包括：将所述输入数据中的每个模态的输入数据进行词元化，并且将其转换为与对应的编码器相同维度的隐空间矩阵，作为所述对应的编码器的输入，其中，所述多个编码器分别对输入的相应隐空间矩阵进行编码处理，得到多个编码输出矩阵，将所述多个编码输出矩阵进行合并得到所述融合特征表示。

9、根据本技术的实施例，其中，所述多个编码器中的每个编码器的架构采用基于transformer的大语言模型中的编码器架构，并且所述解码器的架构在所述基于transformer的大语言模型中的解码器架构上加入所述混合交叉注意力机制模块。

10、根据本技术的实施例，其中，所述多个编码器中的每个编码器的隐空间维度小于所述解码器的隐空间维度。

11、根据本技术的另一方面，提供了一种用于生成文本的装置，包括：数据获取单元，用于获取多种模态的输入数据；编码单元，用于利用与所述多种模态的输入数据各自对应的多个编码器将所述输入数据生成融合特征表示；以及解码单元，用于利用解码器基于所述融合特征表示而生成与所述多种模态的输入数据相关联的输出文本，其中，所述解码器包括多个解码层块以及包括在每个解码层块中的混合交叉注意力机制模块，其中，每个解码层块中的所述混合交叉注意力机制模块包括交叉注意力模块、用于所述交叉注意力模块的多个转换参数组模块以及选择模块，所述选择模块用于基于所述融合特征表示而选择所述多个转换参数组模块中的一个或多个转换参数组模块，以用于生成由所述交叉注意力模块使用的转换参数组。

12、根据本技术的另一方面，提供了一种计算设备，包括：一个或多个处理器；以及一个或多个存储器，其上存储由计算机程序或计算机指令，所述计算机程序或计算机指令在由所述一个或多个处理器执行时，实现如上所述的方法。

13、根据本技术的另一方面，提供了一种计算机可读存储介质，其上存储由计算机程序或计算机指令，所述计算机程序或计算机指令在由所述一个或多个处理器执行时，实现如上所述的方法。

14、根据本技术的另一方面，提供了一种计算机程序产品，其上包括计算机程序或计算机指令，所述计算机程序或计算机指令在由所述一个或多个处理器执行时，实现如上所述的方法。

15、根据本技术的实施例，通过利用多个不同的编码器处理不同模态的输入数据，每种模态都有专属的编码器，因此能灵活适配多模态的不同应用场景；此外，在已有的解码器结构中引入混合交叉注意力机制，将编码器的隐空间信息直接混合到大语言模型的每一层的注意力模块中，并且可以针对不同的词元选择不同的转换参数组模块(例如，kv权重矩阵)，对于多种模态的输入数据的理解能力更强。另外，由于编码器的隐空间维度(de)小于解码器的隐空间维度(dd)时，使用编码器+解码器结构相比于纯解码器结构(如图2)可以更高效地对长序列输入进行压缩。另外，对于训练复杂度，由于只需针对不同的多种模态的输入数据分别训练各个模态专属的编码器和多模态大语言模型中的解码器的混合交叉注意力机制模块，而无需对多模态大语言模型整体进行微调，训练成本比从零训练传统编码器+解码器模型较低。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名
技术所有人：上海壁仞科技股份有限公司
我是此专利的发明人

上一篇：一种轴承加工用轴承圈清理装置的制作方法
上一篇：一种灵芝子实体多糖提取用的粉碎装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。