标题生成方法、模型训练方法及装置与流程

文档序号：30373845发布日期：2022-06-11 01:23阅读：135来源：国知局

1.本技术涉及计算机技术领域，特别涉及一种标题生成方法、模型训练方法及装置。

背景技术：

2.随着互联网技术的飞速发展，互联网上每天都产生大量的多媒体内容。面对繁多的多媒体内容，用户可根据标题来选择浏览的多媒体内容。
3.相关技术中，内容创作者在发布多媒体内容的时候，会在相关的内容发布页面中为将要发布的多媒体内容填写相应的内容标题。
4.相关技术中，多媒体内容的标题依赖人工填写，标题生成效率与标题准确度较低。

技术实现要素：

5.本技术实施例提供了一种标题生成方法、模型训练方法及装置，能够提升多媒体对象的标题生成效率与标题准确度。
6.根据本技术实施例的一个方面，提供了一种标题生成方法，所述方法包括：
7.获取目标多媒体对象，所述目标多媒体对象包括目标模态对应的媒体信息和文本模态对应的文本信息，所述目标模态是指与所述文本模态不同的至少一种信息模态；
8.确定所述媒体信息对应的目标特征信息，以及所述文本信息对应的文本特征信息；
9.基于跨模态信息处理模型，对所述目标特征信息与所述文本特征信息进行跨模态语义分析处理，输出所述目标多媒体对象对应的标题文本；
10.其中，所述跨模态信息处理模型是以多媒体样本对象在所述目标模态与所述文本模态对应的特征信息为样本数据进行训练得到的机器学习模型。
11.根据本技术实施例的一个方面，提供了一种模型训练方法，所述方法包括：
12.获取第一多媒体样本对象，所述第一多媒体样本对象包括目标模态对应的第一媒体信息和文本模态对应的文本信息，所述目标模态是指与所述文本模态不同的至少一种信息模态；
13.确定所述第一媒体信息对应的目标特征信息，以及所述文本信息对应的文本特征信息；
14.获取待训练的跨模态信息处理模型；
15.基于所述目标特征信息与所述文本特征信息，对所述待训练的跨模态信息处理模型进行模型训练，输出所述第一多媒体样本对象对应的标题文本；
16.基于所述标题文本与所述文本信息，确定第一模型损失信息，所述第一模型损失信息用于表征所述标题文本与所述第一多媒体样本对象之间的语义匹配程度；
17.在所述第一模型损失信息符合第一损失条件的情况下，得到训练好的跨模态信息处理模型。
18.根据本技术实施例的一个方面，提供了一种标题生成装置，所述装置包括：
19.对象获取模块，用于获取目标多媒体对象，所述目标多媒体对象包括目标模态对应的媒体信息和文本模态对应的文本信息，所述目标模态是指与所述文本模态不同的至少一种信息模态；
20.特征确定模块，用于确定所述媒体信息对应的目标特征信息，以及所述文本信息对应的文本特征信息；
21.标题输出模块，用于基于跨模态信息处理模型，对所述目标特征信息与所述文本特征信息进行跨模态语义分析处理，输出所述目标多媒体对象对应的标题文本；
22.其中，所述跨模态信息处理模型是以多媒体样本对象在所述目标模态与所述文本模态对应的特征信息为样本数据进行训练得到的机器学习模型。
23.根据本技术实施例的一个方面，提供了一种模型训练装置，所述装置包括：
24.样本对象获取模块，用于获取第一多媒体样本对象，所述第一多媒体样本对象包括目标模态对应的第一媒体信息和文本模态对应的文本信息，所述目标模态是指与所述文本模态不同的至少一种信息模态；
25.特征确定模块，用于确定所述第一媒体信息对应的目标特征信息，以及所述文本信息对应的文本特征信息；
26.模型获取模块，用于获取待训练的跨模态信息处理模型；
27.标题输出模块，用于基于所述目标特征信息与所述文本特征信息，对所述待训练的跨模态信息处理模型进行模型训练，输出所述第一多媒体样本对象对应的标题文本；
28.损失信息确定模块，用于基于所述标题文本与所述文本信息，确定第一模型损失信息，所述第一模型损失信息用于表征所述标题文本与所述第一多媒体样本对象之间的语义匹配程度；
29.模型确定模块，用于在所述第一模型损失信息符合第一损失条件的情况下，得到训练好的跨模态信息处理模型。
30.根据本技术实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述标题生成方法，或者上述模型训练方法。
31.根据本技术实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述标题生成方法，或者上述模型训练方法。
32.根据本技术实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行以实现上述标题生成方法，或者上述模型训练方法。
33.本技术实施例提供的技术方案可以带来如下有益效果：
34.基于多媒体样本对象在目标模态与文本模态对应的特征信息训练跨模态信息处理模型，使得训练后的跨模态信息处理模型能够进行跨模态语义分析处理。对于需要生成标题文本的目标多媒体对象，可分别确定该多媒体对象中目标模态的媒体信息对应的特征
信息，以及该多媒体对象中的文本信息对应的特征信息，再基于上述跨模态信息处理模型对上述目标模态和文本模态对应的特征信息进行跨模态语义分析处理，自动输出目标多媒体对象的标题文本，提升了标题生成效率与标题准确度。
附图说明
35.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
36.图1是本技术一个实施例提供的应用程序运行环境的示意图；
37.图2是本技术一个实施例提供的标题生成方法的流程图一；
38.图3是本技术一个实施例提供的标题生成方法的流程图二；
39.图4示例性示出了一种跨模态信息处理模型的模型结构示意图；
40.图5是本技术一个实施例提供的标题生成方法的流程图三；
41.图6是本技术一个实施例提供的标题生成方法的流程图四；
42.图7(a)示例性示出了一种视频封面的示意图一；
43.图7(b)示例性示出了一种视频封面的示意图二；
44.图8是本技术一个实施例提供的标题生成方法的流程图五；
45.图9是本技术一个实施例提供的标题生成方法的流程图六；
46.图10(a)示例性示出了一种视频的示意图一；
47.图10(b)示例性示出了一种视频的示意图二；
48.图11是本技术一个实施例提供的标题生成方法的流程图七；
49.图12是本技术一个实施例提供的模型训练方法的流程图一；
50.图13是本技术一个实施例提供的模型训练方法的流程图二；
51.图14是本技术一个实施例提供的模型训练方法的流程图三；
52.图15是本技术一个实施例提供的模型训练方法的流程图四；
53.图16是本技术一个实施例提供的标题生成装置的框图；
54.图17是本技术一个实施例提供的标题生成装置的框图；
55.图18是本技术一个实施例提供的计算机设备的结构框图。
具体实施方式
56.本技术实施例提供的标题生成方法涉及人工智能技术，下面对此进行简要说明，以便于本领域技术人员理解。
57.人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
58.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层
面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
59.计算机视觉技术(computer vision，cv)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
60.语音技术(speech technology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。
61.自然语言处理(nature language processing，nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
62.机器学习(machine learning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
63.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
64.请参考图1，其示出了本技术一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括：终端10和服务器20。
65.终端10包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、飞行器等电子设备。终端10中可以安装应用程序的客户端。
66.在本技术实施例中，上述应用程序可以是任何能够提供信息流内容服务的应用程序。典型地，该应用程序为视频类应用程序。当然，除了视频类应用程序之外，其它类型的应用程序中也可以提供信息流内容服务。例如，新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(virtual reality，vr)类应用程序、增强现实(augmented reality，ar)类应用程序等，本技术实施例对此不作限定。在一些实施例中，上述信息流内容服务涵盖综艺、影视、新闻、财经、体育、娱
乐、游戏等诸多垂直内容。可选地，上述信息流内容服务包括文章、图片、小视频、短视频、直播、专题、栏目等众多形式的多媒体对象。
67.服务器20用于为终端10中的应用程序的客户端提供后台服务。例如，服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，服务器20同时为多个终端10中的应用程序提供后台服务。
68.可选地，终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。
69.在介绍本技术提供的方法实施例之前，先对本技术方法实施例中可能涉及的应用场景、相关术语或者名词进行简要介绍，以便于本技术领域技术人员理解。
70.transformer(转换模型)是基于自注意力的模型结构，其包含编码器和解码器。
71.ocr(optical character recognition，光学字符识别)是指电子设备通过字符识别方法将形状翻译成计算机文字的过程。
72.unilm(unified language model，统一语言模型)的模型参数在语言模型任务目标之间共享(即双向语言模型任务、单向语言模型任务和序列到序列语言模型任务)。可选地，通过不同的自注意力掩膜信息(self-attention masks)来控制每个语料单元对上下文的访问。
73.vunilm(videounified language model，跨模态统一语言模型)是支持跨模态语义分析处理的统一语言模型，支持输入非文本模态的特征数据，比如视频特征数据。本技术实施例中的跨模态信息处理模型可以是vunilm。
74.bert(bidirectional encoder representation from transformers，基于转换模型的双向编码表征模型)是一个预训练的语言表征模型，能生成深度的双向语言表征。
75.gpt(gererate pre-training model，生成式的预训练模型)，利用上文预测下一个单词，本技术实施例中的跨模态信息处理模型可以是vunilm。。
76.clip(contrastive language-image pretraining，语言图像对比预训练模型)，是一个在各种(图像、文本)对上训练的神经网络。可以用自然语言指示给定图像来预测最相关的文本片段。
77.cls(标识符名称)是transformer这一类的模型里的一个特殊的标识符，起源于bert模型内的起始标识符。
78.请参考图2，其示出了本技术一个实施例提供的标题生成方法的流程图一。该方法可应用于计算机设备中，所述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图1所示的应用程序运行环境中的终端10或服务器20。该方法可以包括以下几个步骤(210～230)。
79.步骤210，获取目标多媒体对象。
80.可选地，上述目标多媒体对象为具有至少两种模态的媒体信息的多媒体对象，包括但不限于视频对象、音频对象、图文对象等。上述目标多媒体对象包括无标题的多媒体对象、有标题的多媒体对象。可选地，上述目标多媒体对象对应的标题长度大于标题长度上限
阈值或小于标题长度下限阈值。
81.可选地，目标多媒体对象包括目标模态对应的媒体信息和文本模态对应的文本信息，目标模态是指与文本模态不同的至少一种信息模态。在一些可能的场景中，上述目标模态包括但不限于视觉模态、音频模态等。
82.在示例性实施例中，文本信息包括至少一个文本语料单元。可选地，上述文本信息包括目标多媒体对象对应的内容文本信息、标题文本信息。相应的，文本信息包括内容文本信息中的文本语料单元，以及标题文本信息中的文本语料单元。上述文本语料单元是一个字或词。
83.可选地，内容文本信息包括视频文本信息、音频文本信息等。上述视频文本信息包括视频对应的识别文本信息、字幕文本信息、旁白文本信息、转录文本信息等。上述识别文本信息是指对视频中的视频帧进行文本识别得到的文本信息。上述转录文本信息对视频中的音频进行语音识别得到的文本信息。上述音频文本信息包括音频对应的转录文本信息、旁白文本信息等。本技术实施例对文本信息不作限定。
84.在示例性实施例中，媒体信息包括目标多媒体对象对应的至少一个图像。在一些应用场景中，上述目标多媒体对象包括至少一个图像。比如，若目标多媒体对象为视频，上述至少一个图像可以是视频中的视频帧。又比如，若目标多媒体对象为图文对象，上述至少一个图像可以是图文对象中的图像，或者图文对象所包括视频的视频帧。
85.在一种可能的实施方式中，上述目标多媒体对象为目标视频。对目标视频进行抽帧处理，得到上述至少一个图像。可选地，抽帧处理对应的抽帧频率为1fps(frames per second，每秒传输帧数)。
86.可选地，媒体信息还可以包括目标多媒体对象对应的至少一个音频帧。
87.在一种可能的实施方式中，上述目标多媒体对象包括目标视频。上述方法还包括如下步骤：获取目标视频中的前n个视频帧，n为大于0的整数；对前n个视频帧进行文本识别处理，得到识别文本信息。其中，上述文本信息包括该识别文本信息。可选地，n等于1；相应的，前n个视频帧为目标视频的首个视频帧，上述识别文本信息包括该首个视频帧对应的识别文本。可选地，上述至少一个文本语料单元可以包括上述识别文本信息中的文本语料单元。
88.步骤220，确定媒体信息对应的目标特征信息，以及文本信息对应的文本特征信息。
89.在上述文本信息包括至少一个文本语料单元的情况下，文本特征信息包括至少一个文本语料单元对应的文本特征序列。上述文本特征序列可以包括至少一个文本语料单元各自对应的词嵌入向量。
90.在媒体信息包括目标多媒体对象对应的至少一个图像的情况下，目标特征信息包括至少一个图像对应的视觉特征序列。上述视觉特征序列可以包括至少一个图像各自对应的视觉特征向量。
91.相应的，如图3所示，上述步骤220的实施过程可以包括如下步骤(221～224)，图3示出了本技术一个实施例提供的标题生成方法的流程图二。
92.步骤221，对至少一个图像进行视觉特征提取处理，得到至少一个图像对应的视觉特征向量。
93.在一种可能的实施方式中，对上述至少一个图像进行跨模态的特征提取处理，得到上述视觉特征向量，该视觉特征向量可用于表征至少一个图像在文本模态上的特征信息。可选地，将至少一个图像输入上述clip模型，输出上述至少一个图像各自对应的视觉特征向量。可选地，将至少一个图像输入efficientnet(效率网络)模型，输出上述至少一个图像各自对应的视觉特征向量。
94.在另一种可能的实施方式中，对上述至少一个图像进行图像特征提取处理，得到上述视觉特征向量，该视觉特征向量可用于表征至少一个图像对应的图像特征信息。
95.步骤222，基于视觉特征向量，得到目标特征信息。
96.在示例性实施例中，基于视觉特征向量，得到视觉特征序列，目标特征信息包括视觉特征序列。视觉特征序列用于表征目标多媒体对象在视频模态上的特征信息。
97.在一种可能的实施方式中，将上述至少一个图像各自对应的视觉特征向量按序进行排列，得到上述视觉特征序列。
98.在另一种可能的实施方式中，确定视觉特征向量对应的位置特征向量、段落特征向量。上述位置特征向量用于表征视觉特征向量在上述视觉特征序列中对应的位置信息，上述段落特征向量用于表征上述视觉特征序列输入跨模态信息处理模型的文本段位置信息。将上述视觉特征向量与其对应的位置特征向量、段落特征向量进行融合处理，得到融合后的视觉特征向量，进而得到上述视觉特征序列。
99.需要说明的是，上述目标特征信息中还可以包括目标模态中除上述视觉模态之外的其他模态的特征信息。比如，上述目标特征信息中还可以包括音频模态的特征信息，例如音频特征序列。可选地，对目标多媒体对象对应的至少一个音频帧进行音频特征提取处理，得到至少一个音频帧对应的音频特征向量，再将至少一个音频帧各自对应的音频特征向量按序排列，得到上述音频特征序列。或者，对上述至少一个音频帧进行跨模态的特征提取处理，得到至少一个音频帧对应的音频特征向量，该音频特征向量可用于表征音频帧在文本模态上对应的特征信息。又或者，确定音频特征向量对应的位置特征向量、段落特征向量。上述位置特征向量用于表征音频特征向量在上述音频特征序列中对应的位置信息，上述段落特征向量用于表征上述音频特征序列输入跨模态信息处理模型的文本段位置信息。将上述音频特征向量与其对应的位置特征向量、段落特征向量进行融合处理，得到融合后的音频特征向量，进而得到上述音频特征序列。
100.步骤223，对至少一个文本语料单元进行词嵌入处理，得到至少一个文本语料单元对应的词嵌入向量。
101.可选地，对文本信息中的每个文本语料单元分别进行词嵌入处理，得到每个文本语料单元对应的词嵌入向量。本技术实施例对词嵌入处理的方式不作限定。
102.步骤224，基于词嵌入向量，得到文本特征信息。
103.可选地，基于词嵌入向量，得到文本特征序列。文本特征信息包括文本特征序列。
104.在一种可能的实施方式中，将各个文本语料单元对应的词嵌入向量按序排列，得到上述文本特征序列。
105.在另一种可能的实施方式中，确定词嵌入向量对应的位置特征向量、段落特征向量。上述位置特征向量用于表征词嵌入向量在上述文本特征序列中对应的位置信息，上述段落特征向量用于表征上述文本特征序列输入跨模态信息处理模型的文本段位置信息。将
上述词嵌入向量与其对应的位置特征向量、段落特征向量进行融合处理，得到融合后的词嵌入向量，进而得到上述文本特征序列。
106.步骤230，基于跨模态信息处理模型，对目标特征信息与文本特征信息进行跨模态语义分析处理，输出目标多媒体对象对应的标题文本。
107.其中，跨模态信息处理模型是以多媒体样本对象在目标模态与文本模态对应的特征信息为样本数据进行训练得到的机器学习模型。
108.在一种可能的实施方式中，上述跨模态信息处理模型为跨模态的统一语言模型，支持输入文本模态对应文本特征信息以及目标模态对应的目标特征信息。
109.可选地，上述跨模态的统一语言模型对应于至少两种自注意力掩膜信息。自注意力掩膜信息用于表征语境信息选取方向。上述跨模态的统一语言模型是模型参数共享的语言模型。上述跨模态的统一语言模型对应的整套模型参数可与上述至少两种自注意力掩膜信息分别对应，执行不同的跨模态信息处理任务。
110.上述至少两种自注意力掩膜信息包括第一自注意力掩膜信息和第二自注意力掩膜信息。
111.可选地，上述第一自注意力掩膜信息用于表征语境信息选取方向为复合方向。上述复合方向是指上下文方向与上文方向的复合。上下文方向用于指示模型根据当前语料单元对应的上下文信息提取当前语料单元的语义特征数据，其语境选取方向是双向的。上文方向指示模型根据当前语料单元对应的上文信息提取当前语料单元的语义特征数据，其语境选取方向是单向的。模型可根据当前语料单元对应位置区间确定其语境选取方向是上下文方向还是上文方向。
112.在一种可能的实施方式中，上述目标特征信息和上述文本特征信息中的特征语料单元对应第一位置区间，标题文本中的文本单元对应第二位置区间。若当前语料单元对应的位置区间为第一位置区间，即当前语料单元为目标特征信息和上述文本特征信息中的特征语料单元，则根据当前语料单元对应的上下文信息(上述第一位置区间内的特征语料单元对应的语义特征数据)确定当前语料单元对应的语义特征数据。若当前语料单元对应的位置区间为第二位置区间，即当前语料单元为标题文本的文本语料单元，则根据当前语料单元对应的上文信息(上述第一位置区间内的特征语料单元以及已经预测出的文本语料单元对应的语义特征数据)确定当前语料单元对应的语义特征数据，从而输出上述当前语料单元对应的字或词。
113.上述第二自注意力掩膜信息用于表征语境信息选取方向为上下文方向。
114.对于上述跨模态信息处理模型的训练过程可见下述模型训练方法实施例的介绍，这里暂不详细说明。
115.在一个示例中，如图4所示，其示例性示出了一种跨模态信息处理模型的模型结构示意图。图4中，段落1(s1)与段落2(s2)输入至跨模态信息处理模型40。其中，段落1是某一多媒体对象对应的至少一个图像对应的视觉特征向量构成的特征向量序列，段落2是该多媒体对象的标题信息(“我爱祖国”)中各个文本语料单元(“cls”“我”“爱”“祖”“国”)对应的词嵌入向量构成的特征向量序列。在模型训练时会输入特征向量序列中的部分或全部特征向量，以使模型学习跨模态的语义信息并进行跨模态的语义特征对齐。跨模态信息处理模型40可根据预设规则确定不同的自注意力掩膜信息。比如预训练过程中，选择第二自注意
力矩阵41(表征第二自注意力掩膜信息)对段落1与段落2进行双向的跨模态语义分析处理，分别得到至少一个图像对应的视觉特征隐向量和标题信息对应的文本特征隐向量，从而确定视觉特征隐向量与文本特征隐向量之间的余弦距离并确定其损失信息，在损失信息小于预先设定的某一损失阈值的情况下，完成对跨模态信息处理模型的预训练。又比如，正式训练过程中，将段落1与段落2中的部分文本语料单元输入跨模态信息处理模型40，跨模态信息处理模型40可选择第一自注意力矩阵42(表征第一自注意力掩膜信息)，对输入的特征进行复合方向的跨模态语义分析处理，例如输入的部分文本语料单元为“cls”、“我”、“爱”，跨模态信息处理模型40在提取段落1中各个视觉特征向量对应的语义特征信息过程中，可在段落1中进行双向语义分析处理，得到各个视觉特征向量对应的语义特征信息；而跨模态信息处理模型40在提取段落2中各个词嵌入向量对应的语义特征信息过程中，仅基于当前语料单元的上文信息进行前向的语义分析处理，得到“cls”、“我”、“爱”对应的语义特征信息，进而基于上述已经预测语义特征信息预测“爱”之后的字，在将预测的出的字对应的语义特征信息与“祖”、“国”对应的语义特征信息进行比较，确定损失信息，在损失信息小于预先设定的又一损失阈值的情况下，完成对跨模态信息处理模型的正式训练。
116.在示例性实施例中，如图3所示，上述步骤230的实施过程可以包括如下步骤(231～234)。
117.步骤231，将目标特征信息与文本特征信息输入跨模态信息处理模型。
118.可选地，目标特征信息包括至少一个第一特征语料单元，文本特征信息包括至少一个第二特征语料单元。上述第一特征语料单元是指目标模态对应的特征语料单元。上述第二特征语料单元是指文本模态对应的特征语料单元。
119.可选地，上述至少一个第一特征语料单元包括上述至少一个图像对应的视觉特征向量，或融合后的视觉特征向量，每个视觉特征向量可作为单独的特征语料单元。
120.可选地，上述至少一个第一特征语料单元还包括上述至少一个音频帧对应的音频特征向量，或融合后的音频特征向量，每个音频特征向量可作为单独的特征语料单元。
121.可选地，上述至少一个第二特征语料单元包括上述至少一个文本语料单元对应的词嵌入向量，或融合后的词嵌入向量，每个词嵌入向量可作为单独的特征语料单元。
122.相应的，将上述至少一个第一特征语料单元以及至少一个第二特征语料单元输入上述跨模态信息处理模型。
123.步骤232，确定跨模态信息处理模型对应的第一自注意力掩膜信息。
124.第一自注意力掩膜信息用于表征跨模态信息处理模型对应的语境信息选取方向为复合方向。
125.可选地，确定跨模态信息处理模型对应的第一自注意力矩阵，上述第一自注意力矩阵用于表征上述第一自注意力掩膜信息。
126.步骤233，基于第一自注意力掩膜信息，将至少一个第一特征语料单元以及至少一个第二特征语料单元，确定为至少一个第一特征语料单元或至少一个第二特征语料单元对应的语境语料单元。
127.在一种可能的实施方式中，上述目标特征信息中第一特征语料单元和上述文本特征信息中的第二特征语料单元对应的位置区间为第一位置区间，标题文本中的文本单元对应的位置区间为第二位置区间。上述第一自注意力掩膜信息用于指示第一位置区间的特征
语料单元对应的语境信息选取方向为上下文方向，以及指示第二位置区间内的文本单元对应的语境信息选取方向为上文方向。
128.对于上述每个第一特征语料单元或每个第二特征语料单元，均位于第一位置区间，则说明每个第一特征语料单元或每个第二特征语料单元对应的语境语料单元包括第一位置区间内的特征语料单元，第一位置区间内的特征语料单元即为上述至少一个第一特征语料单元以及至少一个第二特征语料单元。
129.步骤234，基于跨模态信息处理模型，对语境语料单元进行跨模态语义分析处理，输出标题文本。
130.在示例性实施例中，如图5所示，上述步骤234的实施过程可以包括如下步骤(2341～2345)，图5示出了本技术一个实施例提供的标题生成方法的流程图三。
131.步骤2341，基于跨模态信息处理模型，对语境语料单元进行跨模态语义分析处理，得到至少一个第一特征语料单元对应的第一语义特征数据，以及至少一个第二特征语料单元对应的第二语义特征数据。
132.在跨模态信息处理模型遍历每个特征语料单元的过程中，会判断当前语料单元的位置区间。若当前语料单元对应的位置区间为第一位置区间，即当前语料单元为目标特征信息和上述文本特征信息中的特征语料单元，则确定当前语料单元对应的上下文信息，上述上下文信息包括第一位置区间内的特征语料单元对应的语义特征数据，即上述语境语料单元的语义特征数据；之后根据上述语境语料单元的语义特征数据，确定当前语料单元对应的语义特征数据。
133.在跨模态信息处理模型遍历每个特征语料单元之后，即可得到上述至少一个第一特征语料单元对应的第一语义特征数据，以及上述至少一个第二特征语料单元对应的第二语义特征数据。
134.步骤2342，基于第一语义特征数据与第二语义特征数据，确定标题文本中第1个文本单元对应的语义特征数据。
135.在跨模态信息处理模型遍历每个特征语料单元之后，跨模态信息处理模型会根据当前已经提取到的语义特征数据，预测标题文本中的每个文本单元。
136.在跨模态信息处理模型预测标题文本的过程中，会判断当前文本单元的位置区间，由于当前文本单元对应的位置区间为第二位置区间，则根据上述第一自注意力掩膜信息的指示，获取当前文本单元对应的上文信息。若是第1个文本单元，上述上文信息包括上述各个特征语料单元对应的语义特征数据，即上述第一语义特征数据和第二语义特征数据，从而根据上述语义特征数据确定第1个文本单元对应的语义特征数据。
137.步骤2343，根据第一自注意力掩膜信息，将第一语义特征数据、第二语义特征数据以及第i个文本单元之前的文本单元对应的语义特征数据，确定为第i个文本单元对应的语境信息。
138.i为大于1的整数。
139.步骤2344，基于语境信息，确定第i个文本单元对应的语义特征数据。
140.若不是第1个文本单元，上述上文信息(即语境信息)包括上述各个特征语料单元对应的语义特征数据以及第i个文本单元之前的文本单元对应的语义特征数据，从而根据上述第一语义特征数据、第二语义特征数据以及第i个文本单元之前的文本单元对应的语
义特征数据，确定第i个文本单元对应的语义特征数据。
141.步骤2345，根据各个文本单元对应的语义特征数据，输出标题文本。
142.在一种可能的实施方式中，将上述各个文本单元对应的语义特征数据输入全连接层以及归一化(softmax)层，输出各个文本单元在目标词典上的概率分布信息，进而可以根据上述概率分布信息确定各个文本单元对应的字或词，基于上述各个文本单元对应的字或词，即可生成上述标题文本并输出。
143.综上所述，本技术实施例提供的技术方案，基于多媒体样本对象在目标模态与文本模态对应的特征信息训练跨模态信息处理模型，使得训练后的跨模态信息处理模型能够进行跨模态语义分析处理。对于需要生成标题文本的目标多媒体对象，可分别确定该多媒体对象中目标模态的媒体信息对应的特征信息，以及该多媒体对象中的文本信息对应的特征信息，再基于上述跨模态信息处理模型对上述目标模态和文本模态对应的特征信息进行跨模态语义分析处理，自动输出目标多媒体对象的标题文本，提升了标题生成效率与标题准确度。
144.请参考图6，其示出了本技术一个实施例提供的标题生成方法的流程图四。该方法可应用于计算机设备中，所述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图1所示的应用程序运行环境中的终端10或服务器20。该方法可以包括以下几个步骤(601～606)。
145.步骤601，获取目标多媒体对象。
146.目标多媒体对象包括目标模态对应的媒体信息和文本模态对应的文本信息，目标模态是指与文本模态不同的至少一种信息模态。
147.可选地，本实施例中的目标多媒体对象可以是无标题的多媒体对象。例如，无标题的视频。
148.在示例性实施例中，文本信息包括至少一个文本语料单元，媒体信息包括目标多媒体对象对应的至少一个图像。可选地，上述文本信息包括目标多媒体对象对应的内容文本信息，上述至少一个文本语料单元是上述内容文本信息中的文本语料单元。
149.可选地，内容文本信息包括视频文本信息、音频文本信息等。上述视频文本信息包括视频对应的识别文本信息、字幕文本信息、旁白文本信息、转录文本信息等。上述识别文本信息是指对视频中的视频帧进行文本识别得到的文本信息。上述转录文本信息对视频中的音频进行语音识别得到的文本信息。上述音频文本信息包括音频对应的转录文本信息、旁白文本信息等。本技术实施例对文本信息不作限定。
150.步骤602，对至少一个图像进行视觉特征提取处理，得到至少一个图像对应的视觉特征向量。
151.在一种可能的实施方式中，对上述至少一个图像进行跨模态的特征提取处理，得到上述视觉特征向量，该视觉特征向量可用于表征至少一个图像在文本模态上的特征信息。可选地，将至少一个图像输入上述clip模型，输出上述至少一个图像各自对应的视觉特征向量。
152.在另一种可能的实施方式中，对上述至少一个图像进行图像特征提取处理，得到上述视觉特征向量，该视觉特征向量可用于表征至少一个图像对应的图像特征信息。
153.步骤603，基于视觉特征向量，得到视觉特征序列。
154.目标特征信息包括至少一个图像对应的视觉特征序列。
155.在一种可能的实施方式中，将上述至少一个图像各自对应的视觉特征向量按序进行排列，得到上述视觉特征序列。
156.在另一种可能的实施方式中，确定视觉特征向量对应的位置特征向量、段落特征向量。上述位置特征向量用于表征视觉特征向量在上述视觉特征序列中对应的位置信息，上述段落特征向量用于表征上述视觉特征序列输入跨模态信息处理模型的文本段位置信息。将上述视觉特征向量与其对应的位置特征向量、段落特征向量进行融合处理，得到融合后的视觉特征向量，进而得到上述视觉特征序列。
157.步骤604，对至少一个文本语料单元进行词嵌入处理，得到至少一个文本语料单元对应的词嵌入向量。
158.可选地，对文本信息中的每个文本语料单元分别进行词嵌入处理，得到每个文本语料单元对应的词嵌入向量。本技术实施例对词嵌入处理的方式不作限定。
159.步骤605，基于词嵌入向量，得到文本特征序列。
160.文本特征信息包括至少一个文本语料单元对应的文本特征序列。
161.在一种可能的实施方式中，将各个文本语料单元对应的词嵌入向量按序排列，得到上述文本特征序列。
162.在另一种可能的实施方式中，确定词嵌入向量对应的位置特征向量、段落特征向量。上述位置特征向量用于表征词嵌入向量在上述文本特征序列中对应的位置信息，上述段落特征向量用于表征上述文本特征序列输入跨模态信息处理模型的文本段位置信息。将上述词嵌入向量与其对应的位置特征向量、段落特征向量进行融合处理，得到融合后的词嵌入向量，进而得到上述文本特征序列。
163.步骤606，基于跨模态信息处理模型，对视觉特征序列与文本特征序列进行跨模态语义分析处理，输出标题文本。
164.在一个示例中，如图7(a)、图7(b)所示，图7(a)示例性示出了一种视频封面的示意图一，图7(b)示例性示出了一种视频封面的示意图二。本技术实施例提供的跨模态信息处理模型可根据图7(a)中所示的视频封面71对应的识别文本信息的文本特征信息以及该视频的视觉特征信息，输出标题文本“人员a，这个女人真的太美了！”。本技术实施例提供的跨模态信息处理模型可根据图7(b)中所示的视频封面72所在视频对应的视频文本信息的文本特征信息以及该视频的视觉特征信息，输出标题文本“今天的舞蹈是不是很好看呢？”。
165.综上所述，本技术实施例提供的技术方案，对于需要生成标题文本的目标多媒体对象，可分别确定该多媒体对象中目标模态的媒体信息对应的特征信息，以及该多媒体对象中的文本信息对应的特征信息，再基于上述跨模态信息处理模型对上述目标模态和文本模态对应的特征信息进行跨模态语义分析处理，自动输出目标多媒体对象的标题文本，提升了标题生成效率与标题准确度。
166.请参考图8，其示出了本技术一个实施例提供的标题生成方法的流程图五。该方法可应用于计算机设备中，所述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图1所示的应用程序运行环境中的终端10或服务器20。该方法可以包括以下几个步骤(810～830)。
167.步骤810，获取目标多媒体对象。
168.目标多媒体对象包括目标模态对应的媒体信息和文本模态对应的文本信息，目标模态是指与文本模态不同的至少一种信息模态。
169.可选地，本实施例中的目标多媒体对象对应的标题长度大于标题长度上限阈值或小于标题长度下限阈值。
170.在示例性实施例中，文本信息包括目标多媒体对象对应的原始标题信息。
171.在示例性实施例中，媒体信息包括目标多媒体对象对应的至少一个图像。
172.步骤820，确定至少一个图像对应的视觉特征序列，以及原始标题信息对应的原始标题特征序列。
173.在上述文本信息包括目标多媒体对象对应的原始标题信息的情况下，文本特征信息包括原始标题信息对应的原始标题特征序列。
174.在媒体信息包括目标多媒体对象对应的至少一个图像的情况下，目标特征信息包括至少一个图像对应的视觉特征序列。
175.对于上述视觉特征序列的确定过程可以有多种实现方式，具体可以参见上文实施例中的确定过程。
176.在一种可能的实施方式中，对原始标题信息中的文本语料单元进行词嵌入处理，得到原始标题信息中的文本语料单元对应的词嵌入向量。
177.可选地，将原始标题信息中各个文本语料单元对应的词嵌入向量按序排列，得到上述原始标题特征序列。
178.可选地，确定原始标题信息中各个文本语料单元对应的位置特征向量、段落特征向量。上述位置特征向量用于表征词嵌入向量在上述原始标题特征序列中对应的位置信息，上述段落特征向量用于表征上述原始标题特征序列输入跨模态信息处理模型的文本段位置信息。将上述词嵌入向量与其对应的位置特征向量、段落特征向量进行融合处理，得到融合后的词嵌入向量，进而得到上述原始标题特征序列。
179.在示例性实施例中，目标多媒体对象包括目标视频，文本信息还包括目标视频对应的视频文本信息，文本特征信息还包括视频文本信息对应的视频文本特征序列。相应的，如图9所示，上述步骤820可由下述步骤821替换实施，图9示出了本技术一个实施例提供的标题生成方法的流程图六。
180.步骤821，确定至少一个图像对应的视觉特征序列，视频文本信息对应的视频文本特征序列以及原始标题信息对应的原始标题特征序列。
181.对于上述视觉特征序列和原始标题特征序列的确定过程可以多种，可参考上文说明。
182.在一种可能的实施方式中，对视频文本信息中的文本语料单元进行词嵌入处理，得到视频文本信息中的文本语料单元对应的词嵌入向量。
183.可选地，将视频文本信息中各个文本语料单元对应的词嵌入向量按序排列，得到上述视频文本特征序列。
184.可选地，确定视频文本信息中各个文本语料单元对应的位置特征向量、段落特征向量。上述位置特征向量用于表征词嵌入向量在上述视频文本特征序列中对应的位置信息，上述段落特征向量用于表征上述视频文本特征序列输入跨模态信息处理模型的文本段位置信息。将上述词嵌入向量与其对应的位置特征向量、段落特征向量进行融合处理，得到
融合后的词嵌入向量，进而得到上述视频文本特征序列。
185.步骤830，基于跨模态信息处理模型，对视觉特征序列与原始标题特征序列进行跨模态语义分析处理，输出标题文本。
186.上述视觉特征序列中的视觉特征向量为上文实施例中提及的第一特征语料单元，上述原始标题特征序列中的词嵌入向量为上文实施例中提及的第二特征语料单元，上述跨模态信息处理模型进行跨模态语义分析处理的过程在上文实施例中已经进行过说明，这里不再赘述。
187.在上述目标特征信息包括视觉特征序列，上述文本特征信息包括视频文本特征序列与原始标题特征序列的情况下，如图9所示，上述步骤830的实施过程包括如下步骤831。
188.步骤831，基于跨模态信息处理模型，对视觉特征序列、视频文本特征序列与原始标题特征序列进行跨模态语义分析处理，输出目标视频对应的视频标题文本。
189.上述视觉特征序列中的视觉特征向量为上文实施例中提及的第一特征语料单元，上述视频文本特征序列和原始标题特征序列中的词嵌入向量为上文实施例中提及的第二特征语料单元，上述跨模态信息处理模型进行跨模态语义分析处理的过程在上文实施例中已经进行过说明，这里不再赘述。
190.在一个示例中，如图10(a)、图10(b)所示，图10(a)示例性示出了一种视频的示意图一，图10(b)示例性示出了一种视频的示意图二。图10(a)所示的视频101的原始标题为“球队f一波攻势打停球队b后，球星c在场边怒吼+拍板凳，激情鼓励队友”，经过本技术实施例提供的跨模态信息处理模型改写后的标题文本为“球星c激情鼓励队友”。图10(b)所示的视频102的原始标题为“开车遇到事故”，经过本技术实施例提供的跨模态信息处理模型改写后的标题文本为“开车时遇到事故，你会怎么办”。
191.综上所述，本技术实施例提供的技术方案，对于需要改写标题文本的目标多媒体对象，可分别确定该多媒体对象中目标模态的媒体信息对应的特征信息，以及该多媒体对象中的文本信息对应的特征信息，再基于上述跨模态信息处理模型对上述目标模态和文本模态对应的特征信息进行跨模态语义分析处理，自动输出目标多媒体对象的标题文本，提升了标题改写效率与标题准确度。
192.请参考图11，其示出了本技术一个实施例提供的标题生成方法的流程图七。该方法可应用于计算机设备中，所述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图1所示的应用程序运行环境中的终端10或服务器20。该方法可以包括以下几个步骤(1110～1150)。
193.步骤1110，获取目标多媒体对象。
194.目标多媒体对象包括目标模态对应的媒体信息和文本模态对应的文本信息，目标模态是指与文本模态不同的至少一种信息模态。
195.步骤1120，确定媒体信息对应的目标特征信息，以及文本信息对应的文本特征信息。
196.步骤1130，获取标题长度阈值。
197.上述标题长度阈值用于表征标题文本的长度范围上限。可选地，上述标题长度阈值可以是系统预先设定，也可以是用户自行设定的。本技术实施例对上述标题长度阈值的设定方式与取值范围不作限定。
198.步骤1140，确定标题长度阈值对应的标题长度特征信息。
199.可选地，根据上述标题长度阈值，确定标题长度特征向量。
200.步骤1150，基于跨模态信息处理模型，对标题长度特征信息、目标特征信息与文本特征信息进行跨模态语义分析处理，输出标题文本。
201.所述标题文本的长度小于等于所述标题长度阈值。
202.在示例性实施例中，上述目标特征信息包括视觉特征序列，上述文本特征信息包括文本特征序列，文本特征序列包括内容文本特征序列、识别文本特征序列、原始标题特征序列、视频文本特征序列中至少一种。
203.可选地，将上述标题长度特征向量与视觉特征序列中的视觉特征向量进行融合，或者与视觉特征序列中融合后的视觉特征向量进行二次融合，得到视觉特征融合向量，上述视觉特征融合向量可作为上述第一特征语料单元；将上述标题长度特征向量与文本特征序列中的词嵌入向量进行融合，或者与文本特征序列中融合后的词嵌入向量进行二次融合，得到词嵌入融合向量，上述词嵌入融合向量可作为上述第二特征语料单元。
204.对于上述跨模态信息处理模型进行跨模态语义分析处理的过程在上文实施例中已经进行过说明，这里不再赘述。
205.综上所述，本技术实施例提供的技术方案，通过获取标题长度阈值，将标题长度阈值对应的长度特征信息与目标多媒体对象在目标模态和文本信息对应的特征信息进行融合，再基于上述跨模态信息处理模型对上述融合后的目标模态和文本模态对应的特征信息进行跨模态语义分析处理，可自动输出长度在标题长度阈值范围内的标题文本，提升了标题生成效率与标题准确度。
206.请参考图12，其示出了本技术一个实施例提供的模型训练方法的流程图一。该方法可应用于计算机设备中，所述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图1所示的应用程序运行环境中的终端10或服务器20。该方法可以包括以下几个步骤(1210～1260)。
207.步骤1210，获取第一多媒体样本对象。
208.可选地，上述第一多媒体样本对象为具有至少两种模态的媒体信息的多媒体对象，包括但不限于视频对象、音频对象、图文对象等。上述第一多媒体样本对象包括无标题的多媒体对象、有标题的多媒体对象。可选地，上述第一多媒体样本对象对应的标题长度大于标题长度上限阈值或小于标题长度下限阈值。
209.可选地，第一多媒体样本对象包括目标模态对应的第一媒体信息和文本模态对应的文本信息，目标模态是指与文本模态不同的至少一种信息模态。在一些可能的场景中，上述目标模态包括但不限于视觉模态、音频模态等。
210.在示例性实施例中，上述文本信息包括至少一个文本语料单元。可选地，上述文本信息包括第一多媒体样本对象对应的内容文本信息、标题文本信息。相应的，文本信息包括内容文本信息中的文本语料单元，以及标题文本信息中的文本语料单元。上述文本语料单元是一个字或词。
211.可选地，内容文本信息包括视频文本信息、音频文本信息等。上述视频文本信息包括视频对应的识别文本信息、字幕文本信息、旁白文本信息、转录文本信息等。上述识别文本信息是指对视频中的视频帧进行文本识别得到的文本信息。上述转录文本信息对视频中
的音频进行语音识别得到的文本信息。上述音频文本信息包括音频对应的转录文本信息、旁白文本信息等。本技术实施例对文本信息不作限定。
212.在示例性实施例中，媒体信息包括第一多媒体样本对象对应的至少一个图像。在一些应用场景中，上述第一多媒体样本对象包括至少一个图像。比如，若第一多媒体样本对象为视频，上述至少一个图像可以是视频中的视频帧。又比如，若第一多媒体样本对象为图文对象，上述至少一个图像可以是图文对象中的图像，或者图文对象所包括视频的视频帧。
213.在一种可能的实施方式中，上述第一多媒体样本对象为目标样本视频。对目标样本视频进行抽帧处理，得到上述至少一个图像。可选地，抽帧处理对应的抽帧频率为1fps(frames per second，每秒传输帧数)。
214.可选地，第一媒体信息还可以包括第一多媒体样本对象对应的至少一个音频帧。
215.步骤1220，确定第一媒体信息对应的目标特征信息，以及文本信息对应的文本特征信息。
216.在示例性实施例中，确定第一媒体信息对应的目标特征信息的过程如下：
217.对至少一个图像进行视觉特征提取处理，得到至少一个图像对应的视觉特征向量。在一种可能的实施方式中，对上述至少一个图像进行跨模态的特征提取处理，得到上述视觉特征向量，该视觉特征向量可用于表征至少一个图像在文本模态上的特征信息。可选地，将至少一个图像输入上述clip模型，输出上述至少一个图像各自对应的视觉特征向量。
218.在另一种可能的实施方式中，对上述至少一个图像进行图像特征提取处理，得到上述视觉特征向量，该视觉特征向量可用于表征至少一个图像对应的图像特征信息。
219.基于视觉特征向量，得到目标特征信息。在示例性实施例中，基于视觉特征向量，得到视觉特征序列，目标特征信息包括视觉特征序列。视觉特征序列用于表征目标多媒体对象在视频模态上的特征信息。
220.在一种可能的实施方式中，将上述至少一个图像各自对应的视觉特征向量按序进行排列，得到上述视觉特征序列。
221.在另一种可能的实施方式中，确定视觉特征向量对应的位置特征向量、段落特征向量。上述位置特征向量用于表征视觉特征向量在上述视觉特征序列中对应的位置信息，上述段落特征向量用于表征上述视觉特征序列输入跨模态信息处理模型的文本段位置信息。将上述视觉特征向量与其对应的位置特征向量、段落特征向量进行融合处理，得到融合后的视觉特征向量，进而得到上述视觉特征序列。
222.需要说明的是，上述目标特征信息中还可以包括目标模态中除上述视觉模态之外的其他模态的特征信息。比如，上述目标特征信息中还可以包括音频模态的特征信息，例如音频特征序列。可选地，对第一多媒体样本对象对应的至少一个音频帧进行音频特征提取处理，得到至少一个音频帧对应的音频特征向量，再将至少一个音频帧各自对应的音频特征向量按序排列，得到上述音频特征序列。或者，对上述至少一个音频帧进行跨模态的特征提取处理，得到至少一个音频帧对应的音频特征向量，该音频特征向量可用于表征音频帧在文本模态上对应的特征信息。又或者，确定音频特征向量对应的位置特征向量、段落特征向量。上述位置特征向量用于表征音频特征向量在上述音频特征序列中对应的位置信息，上述段落特征向量用于表征上述音频特征序列输入跨模态信息处理模型的文本段位置信息。将上述音频特征向量与其对应的位置特征向量、段落特征向量进行融合处理，得到融合
后的音频特征向量，进而得到上述音频特征序列。
223.在示例性实施例中，确定文本信息对应的文本特征信息的过程如下：
224.对至少一个文本语料单元进行词嵌入处理，得到至少一个文本语料单元对应的词嵌入向量。可选地，对文本信息中的每个文本语料单元分别进行词嵌入处理，得到每个文本语料单元对应的词嵌入向量。本技术实施例对词嵌入处理的方式不作限定。
225.基于词嵌入向量，得到文本特征信息。可选地，基于词嵌入向量，得到文本特征序列。文本特征信息包括文本特征序列。
226.在一种可能的实施方式中，将各个文本语料单元对应的词嵌入向量按序排列，得到上述文本特征序列。
227.在另一种可能的实施方式中，确定词嵌入向量对应的位置特征向量、段落特征向量。上述位置特征向量用于表征词嵌入向量在上述文本特征序列中对应的位置信息，上述段落特征向量用于表征上述文本特征序列输入跨模态信息处理模型的文本段位置信息。将上述词嵌入向量与其对应的位置特征向量、段落特征向量进行融合处理，得到融合后的词嵌入向量，进而得到上述文本特征序列。
228.步骤1230，获取待训练的跨模态信息处理模型。
229.在示例性实施例中，上述待训练的跨模态信息处理模型是经过预训练的机器学习模型。相应的，如图13所示，上述步骤1230的实施过程可以包括如下步骤(1231～1236)，图13示出了本技术一个实施例提供的模型训练方法的流程图二。
230.步骤1231，获取第二多媒体样本对象。
231.可选地，第二多媒体样本对象包括目标模态对应的第二媒体信息和文本模态对应的标题信息。
232.可选地，上述第二媒体信息包括第二多媒体样本对象对应的至少一个图像。
233.步骤1232，确定第二媒体信息对应的媒体特征信息，以及标题信息对应的标题特征信息。
234.在一种可能的实施方式中，对至少一个图像进行视觉特征提取处理，得到至少一个图像对应的视觉特征向量。基于视觉特征向量，得到媒体特征信息。
235.可选地，对上述至少一个图像进行跨模态的特征提取处理，得到上述视觉特征向量，该视觉特征向量可用于表征至少一个图像在文本模态上的特征信息。可选地，将至少一个图像输入上述clip模型，输出上述至少一个图像各自对应的视觉特征向量。
236.可选地，对上述至少一个图像进行图像特征提取处理，得到上述视觉特征向量，该视觉特征向量可用于表征至少一个图像对应的图像特征信息。
237.在示例性实施例中，基于视觉特征向量，得到视觉特征序列，媒体特征信息包括视觉特征序列。视觉特征序列用于表征第二多媒体样本对象在视觉模态上的特征信息。
238.可选地，将上述至少一个图像各自对应的视觉特征向量按序进行排列，得到上述视觉特征序列。
239.可选地，确定视觉特征向量对应的位置特征向量、段落特征向量。上述位置特征向量用于表征视觉特征向量在上述视觉特征序列中对应的位置信息，上述段落特征向量用于表征上述视觉特征序列输入跨模态信息处理模型的文本段位置信息。将上述视觉特征向量与其对应的位置特征向量、段落特征向量进行融合处理，得到融合后的视觉特征向量，进而
得到上述视觉特征序列。
240.步骤1233，获取初始的跨模态信息处理模型以及第二自注意力掩膜信息。
241.第二自注意力掩膜信息用于表征初始的跨模态信息处理模型对应的语境信息选取方向为上下文方向。
242.步骤1234，基于第二自注意力掩膜信息、媒体特征信息以及标题特征信息，对初始的跨模态信息处理模型进行预训练，输出媒体特征信息对应的媒体语义特征信息，以及标题特征信息对应的标题语义特征信息。
243.在上述第二自注意力掩膜信息的指示下，确定上述跨模态信息处理模型对应的语境信息选取方向为上下文方向。
244.在语境信息选取方向为上下文方向的情况下，将媒体特征信息以及标题特征信息确定为媒体特征信息或标题特征信息中每个特征语料单元对应的语境信息。
245.基于上述语境信息，确定每个特征语料单元对应的隐向量，最后得到媒体特征信息中每个视觉特征向量对应的视觉特征隐向量，以及标题特征信息中每个词嵌入向量对应的文本特征隐向量。可选地，上述标题特征信息中的词嵌入向量包括起始位置标识对应的词嵌入向量。
246.可选地，基于媒体特征信息中每个视觉特征向量对应的视觉特征隐向量，确定目标视觉特征隐向量。可选地，对每个视觉特征向量对应的视觉特征隐向量进行平均处理，得到上述目标视觉特征隐向量。上述目标视觉特征隐向量可通过如下公式(1)确定。
[0247][0248]
其中，h
vi
表示第i个视觉特征隐向量，n为视觉特征隐向量的总数，hv为上述目标视觉特征隐向量。
[0249]
可选地，将上述标题特征信息中起始位置标识对应的词嵌入向量对应的文本特征隐向量确定为目标文本特征隐向量。
[0250]
可选地，上述媒体语义特征信息包括上述目标视觉特征隐向量，上述标题语义特征信息包括上述目标文本特征隐向量。
[0251]
步骤1235，基于媒体语义特征信息与标题语义特征信息，确定第二模型损失信息。
[0252]
第二模型损失信息用于表征媒体语义特征信息与标题语义特征信息之间的语义对齐程度。
[0253]
在一种可能的实施方式中，确定上述目标视觉特征隐向量与目标文本特征隐向量之间的余弦相似度，基于上述余弦相似度确定对称交叉熵，上述对称交叉熵用于表征上述第二模型损失信息。
[0254]
可选地，对称交叉熵可通过如下公式(2)确定。
[0255][0256]
其中，l表征对称交叉熵，b表示训练批大小，表示第i个样本对应的目标视觉特征隐向量，表示第i个样本对应的目标文本特征隐向量，表示第j个样本对应的目标文本特征隐向量，ω表示样本集。
[0257]
在另一种可能的实施方式中，将上述起始位置标识对应的语义特征数据输入全连接层以及归一化层，得到概率分布数据，根据上述概率分布数据进行二分类，得到分类结果。上述分类结果用于表征媒体语义特征信息与标题语义特征信息之间的语义对齐程度。由于上述第二注意力掩膜信息指示语境信息选取方向为上下文方向，因此上述起始位置标识对应的语义特征数据可用于表征上述媒体语义特征信息与标题语义特征信息，上述分类结果包括对齐标识和非对齐标识，根据上述对齐标识和非对齐标识各自对应的数量，也可以确定上述第二模型损失信息。
[0258]
可选地，上述第二模型损失信息还可以通过如下公式(3)确定。
[0259][0260]
其中，上述l表征第二模型损失信息；b表示训练批大小；yi表征第i个样本对对应的样本标签，样本标签用于指示样本对中的目标特征信息与文本特征信息是否属于同一多媒体对象，若样本标签为0，则说明样本对中的目标特征信息与文本特征信息不属于同一多媒体对象，若样本标签为1，则说明样本对中的目标特征信息与文本特征信息属于同一多媒体对象；p
i0
为表征第i个样本对中目标特征信息与文本特征信息对齐的概率分布数据；p
i1
为表征第i个样本对中目标特征信息与文本特征信息不对齐的概率分布数据。
[0261]
在一些可能的应用场景中，判断视觉特征和文本特征是否对齐的任务大多用于视频检索方向，用于视频检索的模型基本为双流模型，用于文本生成的模型为单模态的单流模型。上述双流模型是具有两种数据处理通路的模型，两种数据处理通路分别处理视觉特征和文本特征。本技术实施例提供的vunilm是单流模型，但其对应的单个数据处理通路可处理至少两种模态的特征数据流，可进行跨模态的文本生成任务。可选地，本技术实施例中将判断视觉特征和文本特征是否对齐的任务用于vunilm模型的预训练阶段。预训练阶段以视觉特征向量和词嵌入向量为输入，预训练目标是使得两者经模型处理后对应的语义特征信息在在同一特征空间对齐，这样能够使得模型学习到跨模态的语义知识，有效提升了vunilm模型跨模态语义分析的处理的准确性，减少了后续正式训练的数据处理量，并且预训练后的模型能同时适用于标题生成任务和标题改写任务，提升了模型利用效率。
[0262]
步骤1236，在第二模型损失信息符合第二损失条件的情况下，得到待训练的跨模态信息处理模型。
[0263]
在上述对称交叉熵小于等于第二阈值的情况(表示第二模型损失信息符合第二损失条件)下，得到待训练的跨模态信息处理模型。
[0264]
步骤1240，基于目标特征信息与文本特征信息，对待训练的跨模态信息处理模型进行模型训练，输出第一多媒体样本对象对应的标题文本。
[0265]
在示例性实施例中，文本信息包括第一多媒体样本对象对应的内容文本信息和预设标题信息，文本特征信息包括内容文本信息对应的内容文本特征序列，以及预设标题信息对应的预设标题特征序列，媒体信息包括第一多媒体样本对象对应的至少一个图像，目标特征信息包括至少一个图像对应的视觉特征序列；相应的，如图13所示，上述步骤1240的实施过程可以包括如下步骤1241。
[0266]
步骤1241，基于视觉特征序列、内容文本特征序列以及预设标题特征序列，对待训练的跨模态信息处理模型进行模型训练，输出标题文本。
[0267]
在示例性实施例中，文本信息包括第一多媒体样本对象对应的原始标题信息以及改写标题信息，文本特征信息包括原始标题信息对应的原始标题特征序列，以及改写标题信息对应的改写标题特征序列，媒体信息包括第一多媒体样本对象对应的至少一个图像，目标特征信息包括至少一个图像对应的视觉特征序列；相应的，如图14所示，上述步骤1240的实施过程可以包括如下步骤124a，图14示出了本技术一个实施例提供的模型训练方法的流程图三。
[0268]
步骤124a，基于视觉特征序列、原始标题特征序列以及改写标题特征序列，对待训练的跨模态信息处理模型进行模型训练，输出标题文本。
[0269]
步骤1250，基于标题文本与文本信息，确定第一模型损失信息。
[0270]
第一模型损失信息用于表征标题文本与第一多媒体样本对象之间的语义匹配程度。
[0271]
在一种可能的实施方式中，确定上述标题文本对应的第一概率分布信息，以及上述文本信息对应的第二概率分布信息，
[0272]
基于上述第一概率分布信息与第二概率分布信息，确定交叉熵，上述交叉熵用于表征上述第一模型损失信息。
[0273]
可选地，上述交叉熵可通过如下公式(4)确定。
[0274][0275]
其中，n表示预测文本的长度，v表示词典，fi表示标题文本中第i个字对应的概率分布向量，fk表示词典中第k个字对应的概率分布向量。
[0276]
相应的，上述步骤1241之后，上述步骤1250的实施过程可以包括如下步骤1251。
[0277]
步骤1251，基于标题文本与预设标题信息，确定第一模型损失信息。
[0278]
相应的，上述步骤124a之后，上述步骤1250的实施过程可以包括如下步骤125a。
[0279]
步骤125a，基于标题文本与改写标题信息，确定第一模型损失信息。
[0280]
步骤1260，在第一模型损失信息符合第一损失条件的情况下，得到训练好的跨模态信息处理模型。
[0281]
可选地，上述交叉熵小于等于第二阈值(表征第一模型损失信息符合第一损失条件)的情况下，得到训练好的跨模态信息处理模型。
[0282]
本技术实施例中使用bleu(bilingual evaluation understudy，双语评价替补)和准确率两个指标对模型效果进行测试，其中bleu可由机器计算出，上述准确率可由标注员给出，这里标注员在审核结果时并没有完全以原始标题作为真实值，因为一个视频想要表达的主题不止一个。结果如下表1和表2所示，从表1和表2中可以看出：预训练的引入提升了bleu以及准确率。
[0283]
表1标题生成效果指标
[0284][0285]
表2标题改写效果指标
[0286][0287]
其中，vunilm为上述跨模态信息处理模型。
[0288]
综上所述，本技术实施例提供的技术方案，基于多媒体样本对象在目标模态与文本模态对应的特征信息对跨模态信息处理模型进行预训练，以使跨模态信息处理模型能够将不同模态的特征信息进行对齐，从而再基于多媒体样本对象在目标模态与文本模态对应的特征信息对跨模态信息处理模型进行正式训练，使得训练后的跨模态信息处理模型能够进行跨模态语义分析处理，实现标题生成或标题改写，提升了模型准确性。对于需要生成或改写标题文本的目标多媒体对象，可分别确定该多媒体对象中目标模态的媒体信息对应的特征信息，以及该多媒体对象中的文本信息对应的特征信息，再基于上述训练好的跨模态信息处理模型即可对上述目标模态和文本模态对应的特征信息进行跨模态语义分析处理，自动输出目标多媒体对象的标题文本，提升了标题生成效率与标题准确度。
[0289]
请参考图15，其示出了本技术一个实施例提供的模型训练方法的流程图四。该方法可应用于计算机设备中，所述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图1所示的应用程序运行环境中的终端10或服务器20。该方法可以包括以下几个步骤(1510～1570)。
[0290]
步骤1510，获取第一多媒体样本对象。
[0291]
第一多媒体样本对象包括目标模态对应的第一媒体信息和文本模态对应的文本信息，目标模态是指与文本模态不同的至少一种信息模态。
[0292]
步骤1520，确定第一媒体信息对应的目标特征信息，以及文本信息对应的文本特征信息。
[0293]
在一种可能的实施方式中，上述文本信息包括原始标题文本。
[0294]
在另一种可能的实施方式中，上述文本信息包括改写标题文本。
[0295]
步骤1530，确定文本信息对应的标题长度特征信息。
[0296]
在一种可能的实施方式中，确定原始标题文本对应的至少一个标题长度特征向量，上述至少一个标题长度特征向量对应的标题长度大于等于上述原始标题文本对应的标题长度。
[0297]
在另一种可能的实施方式中，确定改写标题文本对应的至少一个标题长度特征向量，上述至少一个标题长度特征向量对应的标题长度大于等于上述改写标题文本对应的标题长度。
[0298]
步骤1540，获取待训练的跨模态信息处理模型。
[0299]
步骤1550，基于标题长度特征信息、目标特征信息以及文本特征信息，对待训练的跨模态信息处理模型进行模型训练，输出标题文本。
[0300]
在示例性实施例中，上述目标特征信息包括视觉特征序列，上述文本特征信息包括文本特征序列，文本特征序列包括内容文本特征序列、预设标题特征序列、原始标题特征序列以及改写标题特征序列中至少一种。
[0301]
可选地，将每个标题长度特征向量分别与视觉特征序列中的视觉特征向量进行融
合，或者与视觉特征序列中融合后的视觉特征向量进行二次融合，得到视觉特征融合向量，上述视觉特征融合向量可作为上述第一特征语料单元；将每个标题长度特征向量与文本特征序列中的词嵌入向量进行融合，或者与文本特征序列中融合后的词嵌入向量进行二次融合，得到词嵌入融合向量，上述词嵌入融合向量可作为上述第二特征语料单元。即可丰富样本，并且多个标题长度向量融合至上述视觉特征序列和文本特征序列中，可以使得模型能够学习到标题长度的范围信息，确定该标题是多少字以内的标题，最终确保输出的标题长度小于等于标题长度阈值。
[0302]
步骤1560，基于标题文本与文本信息，确定第一模型损失信息。
[0303]
第一模型损失信息用于表征标题文本与第一多媒体样本对象之间的语义匹配程度。
[0304]
步骤1570，在第一模型损失信息符合第一损失条件，且标题文本小于等于标题长度特征信息对应的标题长度阈值的情况下，得到训练好的跨模态信息处理模型。
[0305]
综上所述，本技术实施例提供的技术方案，通过将构建不同的标题长度特征信息，并将标题长度特征信息引入至模型训练的过程中，使得训练出的跨模态信息处理模型能够控制输出的标题文本的长度在设定范围内，提升了标题生成质量。
[0306]
下述为本技术装置实施例，可用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节，请参照本技术方法实施例。
[0307]
请参考图16，其示出了本技术一个实施例提供的标题生成装置的框图。该装置具有实现上述标题生成方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置1600可以包括：对象获取模块1610、特征确定模块1620、标题输出模块1630。
[0308]
对象获取模块1610，用于获取目标多媒体对象，所述目标多媒体对象包括目标模态对应的媒体信息和文本模态对应的文本信息，所述目标模态是指与所述文本模态不同的至少一种信息模态。
[0309]
特征确定模块1620，用于确定所述媒体信息对应的目标特征信息，以及所述文本信息对应的文本特征信息。
[0310]
标题输出模块1630，用于基于所述跨模态信息处理模型，对所述目标特征信息与所述文本特征信息进行跨模态语义分析处理，输出所述目标多媒体对象对应的标题文本。
[0311]
其中，所述跨模态信息处理模型是以多媒体样本对象在所述目标模态与所述文本模态对应的特征信息为样本数据进行训练得到的机器学习模型。
[0312]
在示例性实施例中，所述文本信息包括至少一个文本语料单元，所述文本特征信息包括所述至少一个文本语料单元对应的文本特征序列，所述媒体信息包括所述目标多媒体对象对应的至少一个图像，所述目标特征信息包括所述至少一个图像对应的视觉特征序列；
[0313]
所述标题输出模块1630，还用于：
[0314]
基于所述跨模态信息处理模型，对所述视觉特征序列与所述文本特征序列进行跨模态语义分析处理，输出所述标题文本。
[0315]
在示例性实施例中，所述文本信息包括所述目标多媒体对象对应的原始标题信息，所述文本特征信息包括所述原始标题信息对应的原始标题特征序列，所述媒体信息包
括所述目标多媒体对象对应的至少一个图像，所述目标特征信息包括所述至少一个图像对应的视觉特征序列；
[0316]
所述标题输出模块1630，还用于：
[0317]
基于所述跨模态信息处理模型，对所述视觉特征序列与所述原始标题特征序列进行跨模态语义分析处理，输出所述标题文本。
[0318]
在示例性实施例中，所述目标多媒体对象包括目标视频，所述文本信息还包括所述目标视频对应的视频文本信息，所述文本特征信息还包括所述视频文本信息对应的视频文本特征序列；
[0319]
所述标题输出模块1630，具体用于：
[0320]
基于所述跨模态信息处理模型，对所述视觉特征序列、所述视频文本特征序列与所述原始标题特征序列进行跨模态语义分析处理，输出所述目标视频对应的视频标题文本。
[0321]
在示例性实施例中，所述标题输出模块1630，包括：特征信息输入单元、掩膜信息确定单元、语境语料确定单元、标题文本输出单元。
[0322]
特征信息输入单元，用于将所述目标特征信息与所述文本特征信息输入所述跨模态信息处理模型，所述目标特征信息包括至少一个第一特征语料单元，所述文本特征信息包括至少一个第二特征语料单元。
[0323]
掩膜信息确定单元，用于确定所述跨模态信息处理模型对应的第一自注意力掩膜信息，所述第一自注意力掩膜信息用于表征所述跨模态信息处理模型对应的语境信息选取方向为复合方向。
[0324]
语境语料确定单元，用于基于所述第一自注意力掩膜信息，将所述至少一个第一特征语料单元以及所述至少一个第二特征语料单元，确定为所述至少一个第一特征语料单元或所述至少一个第二特征语料单元对应的语境语料单元。
[0325]
标题文本输出单元，用于基于所述跨模态信息处理模型，对所述语境语料单元进行跨模态语义分析处理，输出所述标题文本。
[0326]
在示例性实施例中，所述标题文本输出单元，包括：语义特征数据确定子单元、语境信息确定子单元、标题文本输出子单元。
[0327]
语义特征数据确定子单元，用于基于所述跨模态信息处理模型，对所述语境语料单元进行跨模态语义分析处理，得到所述至少一个第一特征语料单元对应的第一语义特征数据，以及所述至少一个第二特征语料单元对应的第二语义特征数据。
[0328]
所述语义特征数据确定子单元，还用于基于所述第一语义特征数据与所述第二语义特征数据，确定所述标题文本中第1个文本单元对应的语义特征数据。
[0329]
语境信息确定子单元，用于根据所述第一自注意力掩膜信息，将所述第一语义特征数据、所述第二语义特征数据以及第i个文本单元之前的文本单元对应的语义特征数据，确定为所述第i个文本单元对应的语境信息，所述i为大于1的整数。
[0330]
所述语义特征数据确定子单元，还用于基于所述语境信息，确定所述第i个文本单元对应的语义特征数据。
[0331]
标题文本输出子单元，确定根据各个文本单元对应的语义特征数据，输出所述标题文本。
[0332]
在示例性实施例中，所述目标多媒体对象包括目标视频，所述装置1600还包括：视频帧获取模块、文本识别模块。
[0333]
视频帧获取模块，用于获取所述目标视频中的前n个视频帧，所述n为大于0的整数。
[0334]
文本识别模块，用于对所述前n个视频帧进行文本识别处理，得到识别文本信息，所述文本信息包括所述识别文本信息。
[0335]
在示例性实施例中，所述文本信息包括至少一个文本语料单元，所述媒体信息包括所述目标多媒体对象对应的至少一个图像，所述特征确定模块1620，包括：视觉特征确定单元、目标特征确定单元、词嵌入特征确定单元、文本特征确定单元。
[0336]
视觉特征确定单元，用于对所述至少一个图像进行视觉特征提取处理，得到所述至少一个图像对应的视觉特征向量。
[0337]
目标特征确定单元，用于基于所述视觉特征向量，得到所述目标特征信息；
[0338]
词嵌入特征确定单元，用于对所述至少一个文本语料单元进行词嵌入处理，得到所述至少一个文本语料单元对应的词嵌入向量。
[0339]
文本特征确定单元，用于基于所述词嵌入向量，得到所述文本特征信息。
[0340]
在示例性实施例中，所述装置1600还包括：标题长度获取模块、长度特征确定模块。
[0341]
标题长度获取模块，用于获取标题长度阈值。
[0342]
长度特征确定模块，用于确定所述标题长度阈值对应的标题长度特征信息。
[0343]
所述标题输出模块1630，还用于：
[0344]
基于所述跨模态信息处理模型，对所述标题长度特征信息、所述目标特征信息与所述文本特征信息进行跨模态语义分析处理，输出所述标题文本，所述标题文本的长度小于等于所述标题长度阈值。
[0345]
综上所述，本技术实施例提供的技术方案，基于多媒体样本对象在目标模态与文本模态对应的特征信息训练跨模态信息处理模型，使得训练后的跨模态信息处理模型能够进行跨模态语义分析处理。对于需要生成标题文本的目标多媒体对象，可分别确定该多媒体对象中目标模态的媒体信息对应的特征信息，以及该多媒体对象中的文本信息对应的特征信息，再基于上述跨模态信息处理模型对上述目标模态和文本模态对应的特征信息进行跨模态语义分析处理，自动输出目标多媒体对象的标题文本，提升了标题生成效率与标题准确度。
[0346]
请参考图17，其示出了本技术一个实施例提供的模型训练装置的框图。该装置具有实现上述模型训练方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置1700可以包括：样本对象获取模块1710、特征确定模块1720、模型获取模块1730、模型训练模块1740、损失信息确定模块1750、模型确定模块1760。
[0347]
样本对象获取模块1710，用于获取第一多媒体样本对象，所述第一多媒体样本对象包括目标模态对应的第一媒体信息和文本模态对应的文本信息，所述目标模态是指与所述文本模态不同的至少一种信息模态；
[0348]
特征确定模块1720，用于确定所述第一媒体信息对应的目标特征信息，以及所述
文本信息对应的文本特征信息；
[0349]
模型获取模块1730，用于获取待训练的跨模态信息处理模型；
[0350]
模型训练模块1740，用于基于所述目标特征信息与所述文本特征信息，对所述待训练的跨模态信息处理模型进行模型训练，输出所述第一多媒体样本对象对应的标题文本；
[0351]
损失信息确定模块1750，用于基于所述标题文本与所述文本信息，确定第一模型损失信息，所述第一模型损失信息用于表征所述标题文本与所述第一多媒体样本对象之间的语义匹配程度；
[0352]
模型确定模块1760，用于在所述第一模型损失信息符合第一损失条件的情况下，得到训练好的跨模态信息处理模型。
[0353]
在示例性实施例中，所述文本信息包括所述第一多媒体样本对象对应的内容文本信息和预设标题信息，所述文本特征信息包括所述内容文本信息对应的内容文本特征序列，以及所述预设标题信息对应的预设标题特征序列，所述媒体信息包括所述第一多媒体样本对象对应的至少一个图像，所述目标特征信息包括所述至少一个图像对应的视觉特征序列；
[0354]
所述模型训练模块1740，还用于：
[0355]
基于所述视觉特征序列、所述内容文本特征序列以及所述预设标题特征序列，对所述待训练的跨模态信息处理模型进行模型训练，输出所述标题文本；
[0356]
所述损失信息确定模块1750，还用于：
[0357]
基于所述标题文本与所述预设标题信息，确定所述第一模型损失信息。
[0358]
在示例性实施例中，所述文本信息包括所述第一多媒体样本对象对应的原始标题信息以及改写标题信息，所述文本特征信息包括所述原始标题信息对应的原始标题特征序列，以及所述改写标题信息对应的改写标题特征序列，所述媒体信息包括所述第一多媒体样本对象对应的至少一个图像，所述目标特征信息包括所述至少一个图像对应的视觉特征序列；
[0359]
所述模型训练模块1740，还用于：
[0360]
基于所述视觉特征序列、所述原始标题特征序列以及所述改写标题特征序列，对所述待训练的跨模态信息处理模型进行模型训练，输出所述标题文本；
[0361]
所述损失信息确定模块1750，还用于：
[0362]
基于所述标题文本与所述改写标题信息，确定所述第一模型损失信息。
[0363]
在示例性实施例中，所述模型获取模块1730，包括：样本对象获取单元、特征信息确定单元、掩膜信息获取单元、模型预训练单元、损失信息确定单元、模型确定单元。
[0364]
样本对象获取单元，用于获取第二多媒体样本对象，所述第二多媒体样本对象包括所述目标模态对应的第二媒体信息和所述文本模态对应的标题信息。
[0365]
特征信息确定单元，用于确定所述第二媒体信息对应的媒体特征信息，以及所述标题信息对应的标题特征信息。
[0366]
掩膜信息获取单元，用于获取初始的跨模态信息处理模型以及第二自注意力掩膜信息，所述第二自注意力掩膜信息用于表征所述初始的跨模态信息处理模型对应的语境信息选取方向为上下文方向。
[0367]
模型预训练单元，用于基于所述第二自注意力掩膜信息、所述媒体特征信息以及所述标题特征信息，对所述初始的跨模态信息处理模型进行预训练，输出所述媒体特征信息对应的媒体语义特征信息，以及所述标题特征信息对应的标题语义特征信息。
[0368]
损失信息确定单元，用于基于所述媒体语义特征信息与所述标题语义特征信息，确定第二模型损失信息，所述第二模型损失信息用于表征所述媒体语义特征信息与所述标题语义特征信息之间的语义对齐程度。
[0369]
模型确定单元，用于在所述第二模型损失信息符合第二损失条件的情况下，得到所述待训练的跨模态信息处理模型。
[0370]
在示例性实施例中，所述装置1700还包括：长度特征确定模块。
[0371]
长度特征确定模块，用于确定所述文本信息对应的标题长度特征信息。
[0372]
所述模型训练模块1740，还用于：
[0373]
基于所述标题长度特征信息、所述目标特征信息以及所述文本特征信息，对所述待训练的跨模态信息处理模型进行模型训练，输出所述标题文本。
[0374]
所述模型确定模块1760，还用于：
[0375]
在所述第一模型损失信息符合第一损失条件，且所述标题文本小于等于所述标题长度特征信息对应的标题长度阈值的情况下，得到所述训练好的跨模态信息处理模型。
[0376]
综上所述，本技术实施例提供的技术方案，基于多媒体样本对象在目标模态与文本模态对应的特征信息训练跨模态信息处理模型，使得训练后的跨模态信息处理模型能够进行跨模态语义分析处理。对于需要生成标题文本的目标多媒体对象，可分别确定该多媒体对象中目标模态的媒体信息对应的特征信息，以及该多媒体对象中的文本信息对应的特征信息，再基于上述跨模态信息处理模型对上述目标模态和文本模态对应的特征信息进行跨模态语义分析处理，自动输出目标多媒体对象的标题文本，提升了标题生成效率与标题准确度。
[0377]
需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
[0378]
请参考图18，其示出了本技术一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器，以用于执行上述标题生成方法，或者上述模型训练方法。具体来讲：
[0379]
计算机设备1800包括中央处理单元(central processing unit，cpu)1801、包括随机存取存储器(random access memory，ram)1802和只读存储器(read only memory，rom)1803的系统存储器1804，以及连接系统存储器1804和中央处理单元1801的系统总线1805。计算机设备1800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(i/o(input/output)系统)1806，和用于存储操作系统1813、应用程序1814和其他程序模块1815的大容量存储设备1807。
[0380]
基本输入/输出系统1806包括有用于显示信息的显示器1808和用于用户输入信息的诸如鼠标、键盘之类的输入设备1809。其中显示器1808和输入设备1809都通过连接到系统总线1805的输入输出控制器1810连接到中央处理单元1801。基本输入/输出系统1806还
可以包括输入输出控制器1810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1810还提供输出到显示屏、打印机或其他类型的输出设备。
[0381]
大容量存储设备1807通过连接到系统总线1805的大容量存储控制器(未示出)连接到中央处理单元1801。大容量存储设备1807及其相关联的计算机可读介质为计算机设备1800提供非易失性存储。也就是说，大容量存储设备1807可以包括诸如硬盘或者cd-rom(compact disc read-only memory，只读光盘)驱动器之类的计算机可读介质(未示出)。
[0382]
不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、eprom(erasable programmable read only memory，可擦除可编程只读存储器)、eeprom(electrically erasable programmable read only memory，电可擦可编程只读存储器)、闪存或其他固态存储其技术，cd-rom、dvd(digital video disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1804和大容量存储设备1807可以统称为存储器。
[0383]
根据本技术的各种实施例，计算机设备1800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1800可以通过连接在系统总线1805上的网络接口单元1811连接到网络1812，或者说，也可以使用网络接口单元1811来连接到其他类型的网络或远程计算机系统(未示出)。
[0384]
所述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述标题生成方法，或者上述模型训练方法。
[0385]
在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述标题生成方法，或者上述模型训练方法。
[0386]
可选地，该计算机可读存储介质可以包括：rom(read only memory，只读存储器)、ram(random access memory，随机存取记忆体)、ssd(solid state drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括reram(resistance random access memory,电阻式随机存取记忆体)和dram(dynamic random access memory，动态随机存取存储器)。
[0387]
在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述标题生成方法，或者上述模型训练方法。
[0388]
应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个
不同编号的步骤按照与图示相反的顺序执行，本技术实施例对此不作限定。
[0389]
另外，在本技术的具体实施方式中，涉及到用户信息等相关的数据，当本技术以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0390]
以上所述仅为本技术的示例性实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐鲁辉熊鹏飞陈宇
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：换热器、制冷循环系统、空调器的制作方法
上一篇：一种用于艾草加工用切割装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。