一种融合情感信息的多模态短视频标签推荐方法

文档序号:32164873发布日期:2022-11-12 04:01阅读:51来源:国知局
一种融合情感信息的多模态短视频标签推荐方法

1.本发明属于视频处理技术领域,更具体地,涉及一种融合情感信息的多模态短视频标签推荐方法。


背景技术:

2.由于多媒体技术和便携式移动设备的发展以及不同短视频平台的推动,短视频作为传统文字、图文媒体的延伸,逐渐成为大众传播用来获取信息和进行社交的新媒体形式。同时短视频时间跨度有限,可以被方便地拍摄并即时分享,使其广泛传播并且数量十分巨大。推荐系统一开始主要应用于商业领域,通过分析用户和商品间的联系推荐与用户相匹配的商品内容,随后推荐系统逐渐在社交媒体以及新闻平台中通过分析用户相关信息,如历史推文、评论以及文章等对用户感兴趣的内容进行推荐任务。推荐系统中的主体从广义上可以分为用户和物品,推荐任务的方式也可以大致分为一下几种,一种是通过相关算法匹配与用户相符的物品列表,即通过物品之间的相似度为用户进行推荐;一种是通过用户之间的相似度,使得同一物品可以被推荐到具有相同特性的用户组中;还有一种是通过用户本身的相关信息进行合理建模来匹配同样具有类似属性的物品列表,标签推荐的基本思想即来源于这一类方法。
3.标签在各个不同的领域中是具体信息和搜索引擎定位信息关键来源所需的重要内容。标签可以是单个单词、不加空格的短语或甚至任何以符号#为前缀的单词组合,实现对不同内容的推文信息进行管理和分类,并可以通过标签的超链接获取具有相似内容的文章以及其他用户分享的推文,标签服务可以使用户在搜索中受益,并浏览他们更加感兴趣的内容。近年来文本和图像的自动标签推荐已成为一项重要研究话题。
4.现有的短视频标签推荐模型中,包含情感因素的文本以及标签难以在多模态信息融合后被准确地预测出来,特别是在短视频领域,短视频包含的图像内容更加丰富,更加容易包含用户的情感信息,然而短视频标签推荐领域引入情感信息研究较少,通常只是与内容信息线性叠加,预测准确率不高。总的来说,利用现有技术所生成的短视频标签,其质量有待进一步提高。


技术实现要素:

5.针对现有技术的以上缺陷或改进需求,本发明提供了一种融合情感信息的多模态短视频标签推荐方法,其目的在于通过融合图像特征、音频特征以及文本特征能够充分利用短视频相关的多模态信息,有效提高所生成的视频标签的质量,由此解决现有的短视频标签质量差的技术问题。
6.为实现上述目的,按照本发明的一个方面,提供了一种融合情感信息的多模态短视频标签推荐方法,包括:
7.s1:构建短视频样本集,各短视频样本的标签包括对应的多个平台标签,且其属性包括对应的图像特征、音频特征以及文本特征;
8.s2:将所述短视频样本输入基于多头注意力机制和自编码器的初始多模态标签推荐模型,以使其对所述短视频样本的图像、音频、文本进行特征提取,得到内容特征和情感特征,并利用注意力网络进行融合得到多个候选视频标签;以期望视频标签为目标,以所述候选视频标签与所述期望视频标签的文字特征区别为损失,训练所述初始多模态标签推荐模型得到目标多模态标签推荐模型;
9.s3:将当前短视频输入所述目标多模态标签推荐模型以使其生成目标视频标签。
10.在其中一个实施例中,所述短视频样本集包括训练集、验证集和测试集;所述s2包括:
11.s21:将所述训练集输入所述初始多模态标签推荐模型;所述初始多模态标签推荐模型包括:内容特征提取模块、情感特征提取模块和标签预测模块融合;
12.s22:利用所述内容特征提取模块中的预训练模型对所述训练集的图像模态和音频模态进行特征提取,再提取文本特征,利用多模态transfomer模型对图像特征、音频特征和文本特征进行融合得到对应的内容特征;
13.s23:利用所述情感特征提取模块中的预训练模型对所述训练集的图像模态和音频模态进行特征提取,再提取文本特征,再利用多头注意力机制对图像特征、音频特征和文本特征进行融合得到对应的情感特征;
14.s24:利用所述标签预测模块融合所述训练集对应的内容特征、情感特征和标签文本特征得到短视频融合特征,并根据所述短视频融合特征生成若干个候选视频标签;计算各个所述候选视频标签和真实视频标签之间文字特征的误差,以便于通过不断迭代训练,缩小所述损失;
15.s25:利用所述验证集和所述测试集分别对训练过程中的初始多模态标签推荐模型进行验证和测试,将通过验证和测试的初始多模态标签推荐模型作为所述目标多模态标签推荐模型。
16.在其中一个实施例中,所述内容特征提取模块基于模态transfomer结构;所述情感特征提取模块基于跨模态的多头注意力结构;所述标签预测模块基于注意力网络。
17.在其中一个实施例中,所述内容特征提取模块包括依次连接的:编码器层、堆叠块层和融合层;所述编码器层用于对不同模态信息进行编码,所述堆叠块层用于进行带有注意力机制的模态表示;所述融合层用于对跨模态信息进行融合得到最终的内容特征表示;其中,所述堆叠块层中对每个模态都采用n个堆叠块实现带有注意力机制的特征表示,所述堆叠块包括多头注意力机制、跨注意力机制以及两个前馈神经网络。
18.在其中一个实施例中,所述情感特征提取模块通过多模态多头注意力框架mmfa将图像特征、音频特征以及文本特征进行模态间的特征融合,得到所述短视频样本对应的情感表示向量;
19.其中,mmfa中包括多头自注意力机制和多头共注意力机制。
20.在其中一个实施例中,所述s21之前,所述s2还包括:
21.通过完整性检查剔除无法正常播放的视频样本;过滤掉时长低于时长阈值、推文信息低于字数阈值和/或缺失音频通道的视频样本。
22.在其中一个实施例中,所述以使其对所述短视频样本的图像、音频、文本进行特征提取,得到内容特征和情感特征,包括:
23.按照预设时间间隔t将所述短视频样本的音频数据划分为音频分段,分别提取各音频分段的特征后,按时间顺序将其组合为音频特征;
24.按照预设视频帧数n从所述短视频样本的图像数据中抽取一帧图像,分别对各帧图像进行特征提取后,按时间顺序将其组合为图像特征;
25.利用所述短视频样本的推文信息以及原始标签信息构建词库,利用预训练语言模型将所述词库中的单词表示为向量并对其进行特征提取得到文字特征;其中,针对长度大于长度阈值的连接词,利用分词工具进行分词再通过所述预训练语言模型得到特征后,进行平均化得到上下文特征。
26.在其中一个实施例中,所述利用所述短视频样本的推文信息以及原始标签信息构建词库,包括:
27.统计所述短视频样本的所有推文信息以及原始标签信息,将其依次进行对齐、分词和统计词频;按照所述词频从高到低的顺序对各单词进行排序,取词频高于n次的单词构建所述词库,n为预设的比例参数。
28.在其中一个实施例中,所述利用所述短视频样本的推文信息以及原始标签信息构建词库,还包括:过滤所述推文信息以及原始标签信息中的非英文字符;对相同词根的英文单词进行词根还原;对于长度大于长度阈值的连接词进行分词,得到若干个单独单词。
29.按照本发明的另一方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
30.总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
31.(1)本发明通过融合图像特征、音频特征以及文本特征,能够充分利用视频相关的多模态信息,有效提高所生成的视频标签的质量。
32.(2)本发明所提供的初始多模态标签推荐模型,能够逐步地、阶梯式地进行特征融合,从而基于不同信息对于视频标签的影响权重,更有效地融合多模态信息,提高最终生成的视频标签质量。
33.(3)本发明通过在进行特征提取之前,对所收集的视频数据进行上述预处理操作,能够有效避免数据集中的数据存在错误与冗余,从而保证模型的训练效果,最终保证模型生成的视频标签具有较高的质量。
34.(4)本发明在进行多模态特征融合时,会考虑视频中的情感信息,通过多任务学习方法,在捕捉视频内容信息的同时也可捕捉视频情感新,有利于具有情感属性的标签预测,从而进一步优化生成视频标签的质量。
附图说明
35.图1为本发明一实施例提的融合情感信息的多模态短视频标签推荐方法的逻辑示意图;
36.图2为本发明一实施例提供的初始多模态标签推荐模型的内容特征提取模块的结构示意图;
37.图3为本发明一实施例提供的初始多模态标签推荐模型的内容特征提取模块中的堆叠块的结构示意图;
38.图4为本发明一实施例提供的初始多模态标签推荐模型的情感特征提取模块的结构示意图。
具体实施方式
39.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
40.如图1所示,本发明提供了融合了情感信息的多模态短视频标签推荐方法,模型训练阶段和标签预测阶段;
41.模型训练阶段包括:
42.(s1.1)收集视频数据及对应的标签数据;通过对比各个短视频平台的视频数量,标签质量,本实施例选择使用python网络爬虫从vine平台上收集数据;具体收集方法如下:需要对原vine数据集进行处理,取用户id-视频url、用户id-用户推文、用户id-推文标签的交集,同时对只包含视频或文本的数据进行过滤处理,以用户id的唯一性连接数据,使得最终数据集中包含的信息为视频url-文本,其中文本为包含具体标签的推文,同时清除了在整个数据集中出现次数小于10次的标签,减少标签视频出现的偶然性,以及一些下文将要说明的数据预处理方法对数据进行清洗。通过设置本地代理以及爬虫程序对视频下载地址中的二进制媒体文件进行抓取,最终得到40049个可用的短视频以及1935个不同的标签,同时数据集中大概86%的短视频都分布在6s左右,每个视频至少包含1个标签,最多包含21个标签,平均每个视频包含的标签数量为4.8个,推文平均包含的单词长度为9.73。
43.(s1.2)对收集的视频和对应的标签进行预处理;预处理操作具体包括:通过完整性检查剔除无法正常播放的视频;具体所使用的完整性检查工具为开源工具ffmpeg;过完整性检查剔除无法正常播放的视频;过滤掉时长较短、推文信息较短和/或缺失音频通道的视频数据;本实施例中,步骤(s1.2)还包括:
44.标签词库的构建方法包括:对模型训练阶段收集的所有视频进行分词后,统计单词词频;按照词频从高到低的顺序对单词排序后,取词频高于n次的词汇构建词库;其中,n为预设的比例参数。在构建词库时,还会过滤掉推文信息以及原始标签信息中的非英文字符;对相同词根的英文单词进行词根还原;对于较长的连接词通过分词工具进行分词得到若干个单独单词。
45.将视频数据分离为图像数据、音频数据,并对图像数据、音频数据以及对应的用户推文数据分别进行特征提取;以与短视频对应的若干个平台标签作为训练标签,以该短视频的图像特征、音频特征以及推文特征作为该视频的属性,形成一个样本,由所有的样本构成数据集,并将数据集划分为训练集、验证集和测试集。
46.(s2)模型训练阶段包括:
47.将视频数据分离为图像数据、音频数据,并对图像数据、音频数据以及对应的用户推文数据分别进行特征提取;以与短视频对应的若干个平台标签作为训练标签,以该短视频的图像特征、音频特征以及推文特征作为该视频的属性,形成一个样本,由所有的样本构成数据集,并将数据集划分为训练集、验证集和测试集;
48.基于多头注意力机制以及自编码器建立初始多模态标签推荐模型,初始多模态标签推荐模型用于对图像特征、音频特征、推文评论上下文特征通过不同的预训练模型别进行内容特征提取和情感特征提取后,通过内容特征提取模块以及情感特征提取模块一起实现多模态特征融合,并根据融合后的特征生成若干个与视频内容及用户推荐信息相关的视频标签;基于多任务学习方法使得内容特征提取模块和情感特诊融合模块进行多任务学习,即通过不同预训练模型发掘模态信息,情感特征提取模块与单任务学习相比,能够在提取短视频内容特征的同时,有效地融合短视频中的情感信息,并通过注意力网络融合不同任务的特征向量,同时避免噪声,提高初始多模态标签推荐模型性能。利用训练集、验证集和测试集分别对所建立的模型进行训练、验证和测试,从而得到目标多模态标签推荐模型。
49.进一步地,初始多模态标签推荐模型包括内容特征提取模块、情感特征提取模块以及标签预测模块;内容特征提取模块用于对短视频数据在图像以及音频模态上通过与视频内容信息有关的预训练模型进行特征提取,并通过多模态transfomer模型对图像、音频以及文本模态进行融合;情感特征提取模块用于对短视频数据在图像以及音频模态上通过与视频情感系信息有关的预训练模型进行特征提取,并通过多头注意力机制对图像、音频以及文本模态进行融合;标签预测模块用于融合内容特征提取模块输出的视频内容融合特征、情感特征提取模块输出的情感融合特征以及与视频有关的标签文本特征,得到短视频融合特征,并根据短视频融合特征生成若干个候选视频标签;标签预测模块还用于计算生成的视频标签和真实视频标签的文字特征之间的误差作为损失,以便于通过不断迭代训练,缩小该损失。
50.本发明基于上述初始多模态标签推荐模型结构,能够逐步地、阶梯式地进行特征融合,从而基于不同信息对于视频标签的影响权重,更有效地融合多模态信息,提高最终生成的标签质量。
51.步骤(s2)中,对内容特征提取模块和情感特征提取模块中的不同模态特征进行特征提取,包括:对于视觉特征,对内容特征提取模块使用ffmpeg开源流媒体工具进行分帧,采用vgg16-lstm对视频中视觉进行特征提取并捕捉图片帧在时间上的连续信息,采用慢融合方式得到1024维视觉特征表示向量;对于情感特征提取模块采用3d-cnn预训练模型获取512维的视觉特征表示;对于音频特征,对内容特征提取模块采用vggish提取音频特征的特征向量,将音频数据以一定频率进行重新采样,采样后的数据通过傅里叶变换得到其频谱图,最后通过滤波器得到音频文件的1024维声谱数据;对于情感特征提取模块采用librosa音谱处理库并输入到卷积神经网络中得到300维特征向量。对于文本特征,对内容特征提取模块以及hashtag词文本采用bert预训练语言模型进行特征提取得到768维的嵌入表示;对于情感特征提取模块采用预训练的英文语料glove模型,最终得到的文本向量大小为300维。
52.此外,本技术基于自编码器和自解码器建立弹幕评论自动生成模型,弹幕评论自动生成模型用于对图像特征、音频特征、弹幕评论上下文特征分别进行时间序列分析后,连同弹幕评论的文字特征一起实现多模态特征融合,并根据融合后的特征生成一条与视频内容及弹幕上下文相关的弹幕评论;弹幕评论自动生成模型,包括:内容特征提取模块,情感特征提取模块,标签预测模块;内容特征提取模块进行内容信息融合,包括:编码器层对不同模态信息进行编码、堆叠块层进行带有注意力机制的模态表示、融合层对跨模态信息进
行融合得到最终的视频内容特征表示。
53.如图2所示,其主要包含了三个部分,编码层对不同模态信息进行编码、堆叠块层进行带有注意力机制的模态表示、融合层对跨模态信息进行融合得到最终的视频内容特征表示。
54.其中堆叠块层中对每个模态都采用n个堆叠块,对模态信息实现带有注意力机制的特征表示,其中每个堆叠块结构如图3所示,主要由四个部分组成:包括多头注意力机制(multi-head attention)、跨注意力机制(cross attention)以及两个前馈神经网络(feadforward neural network,fnn)。
55.multi-head attention模块是transformer模型中的一个重要结构,在传统的自注意力机制的基础上,增加了更多的矩阵参数,使得q,k,v矩阵在与原始输入向量相乘后继续与多个矩阵进行乘法运算,矩阵的个数即代表多头注意力机制的头数,这样做的好处是可以将数据流分为不同的子空间,从而能够让模型对不同方面的信息加以关注;cross-attention实际上在原本的transformer模型中处在解码器的位置,在编码器模块生成了相应的k,v矩阵,结合解码器模块自身的q矩阵信息从而实现不同信息的融合,通过编码器和解码器的信息融合原本是用在机器翻译任务上,然而其也可以用于短视频中不同模态之间信息的融合,使得transformer模型能够更加统一并自然地结合不同模态信息;fnn的作用是为了将multi-head attention生成的多个子空间矩阵信息连接成为一个统一的矩阵,并与一个信息的参数矩阵相乘得到最终的单个模态信息融合矩阵。
56.在第t层的堆叠块中,同一个模态信息的输入来自于t-1层的输出信息。
[0057][0058][0059]
不同模态间的特征融合方法表示如下所示,其中c表示文本模态,v表示视觉模态,a表示视频模态,以视觉模态信息v在计算方式为例,经过跨注意力机制后通过多层感知机构建融合门,乘以相应的权重矩阵,分别对文本和音频信息进行模态间特征融合。
[0060][0061][0062][0063][0064]
随后将输入到前馈神经网络中得到第t个堆叠块的输出。以同样的方式可以得到t层中音频模态和文本模态的输出和
[0065][0066]
接下来将堆叠块的输出通过权重池化操作转化为特定长度的向量。
[0067]
[0068][0069]
以同样的方式得到三个模态注意力相关的特征表示后,在融合层中通过多层感知机构造出特征融合门并将不同模态信息以一定的权重相乘后相加得到堆叠块中的融合向量。
[0070]gv
=mlp(fc,fv,fa)#(10)
[0071][0072]
步骤(s2)中,情感特征提取模块进行情感信息融合,包括:
[0073]
相比于内容属性标签,具有情感属性标签更加容易被预测,通过不同模态的情感预训练模型提取特征表示后,模块整体架构如图4所示,通过多模态多头注意力框架mmfa(multi-modal multi-head attention)将视觉、音频以及文本特征进行模态间的特征融合得到短视频中的情感表示向量。
[0074]
多头注意力机制使得模型从不同的表示空间中考虑其间的关联性得到最终的表示信息,mmfa中包含了多头自注意力机制(multi-head self-attention)与多头共注意力机制(multi-head mutual-attention)。前者作用与内容特征提取mtt相同,通过更多的参数矩阵使得数据流分散到不同的子空间中,并且注意力权重矩阵信息来自同一模态,仅仅用于加强该模态的信息特征;后者注意力权重矩阵信息来自不同模态特征,方便对不同的模态信息进行融合,具体做法是两两融合不同模态间的信息,如视觉-文本、文本-音频、音频-视觉,本质上是在以transformer作为纯图像分类任务的基础上,在输入的线性层中,将原本只包含图片信息的线性转换单元变为包含两种模态信息的线性层,再将输入到注意机制后的两个模态信息进行线性叠加组成共注意力机制下的不同模态融合特征,最后将单一模态表示与共模态表示相结合,输入到softmax层中生成情感属性特征。
[0075]
其中对于多头注意力机制模块(multi-head self-attention),以视觉模态v为例,将传统多头注意力机制中的q,k,v矩阵通过单一模态信息的融合需要进行相应变化,将输入部分全都变为了视觉模态信息。
[0076][0077]
其中假设线性变化层数量为m,最终单模态的融合表示为公式(14)所示。
[0078][0079]
多头共注意力机制融合不同模态信息,本质上是两两进行特征融合,以视觉模态v和音频模态a为例,计算方法如公式(15)所示。
[0080][0081]
其中假设线性变化层数量为m,最终融合模态的融合表示为公式(16)所示。
[0082][0083]
模态信息经过自注意力机制与共注意力机制融合后得到的特征表示既包括了两两模态之间的信息融合,也包含了自身的模态信息。
[0084][0085]
标签预测阶段包括:
[0086]
对于一个给定的视频-标签对(xi,yi),假设最终得到内容特征向量情感特征向量以hashtag表示向量h。由于标签可以根据语义信息分为两类,其中一部分为具有情感属性的标签另一部分为包含内容属性的标签,语义上的分类决定了候选标签在情感特征和内容特征上会有不同的注意力权重,因此需要注意力机制对二者多模态特征进行融合,公式(18)(19)表示结合了原始标签信息后的情感属性以及内容属性。
[0087][0088][0089]
为了获取两者的注意力权重,公式(20)和公式(21)通过指数运算得到不同特征的权重分布,如下所示。
[0090][0091][0092]
输入到注意力网络后得到二者的融合比例最终的融合向量为为了评估给定的短视频和标签的相关性分数,将x
i,j
输入到多层感知机中,在多层感知机中短视频的表示向量以及标签嵌入可以通过非线性隐藏层学习二者之间的相关性,其中多层感知机的隐藏层如公式(22)表示。
[0093][0094]
该实例训练时将标签推荐当做作是一个二分类任务,其中如果预测的视频-标签对出现在数据集中则是正样本,否则给定的视频-标签对是负样本,并通过随机采样的方式选取视频的负样本标签,最终使用交叉熵作为损失函数。
[0095][0096]
按照本发明的另一个方面,一种融合了情感信息的多模态短视频标签推荐系统,
包括:计算机可读存储介质和处理器;计算机可读存储介质用于存储可执行程序;处理器用于读取计算机可读存储介质中存储的可执行程序,执行本发明提供的融合了情感信息的多模态短视频标签推荐方法。
[0097]
标签在各个不同的领域中是具体信息和搜索引擎定位信息关键来源所需的重要内容。标签可以是单个单词、不加空格的短语或甚至任何以符号#为前缀的单词组合,实现对不同内容的推文信息进行管理和分类,并可以通过标签的超链接获取具有相似内容的文章以及其他用户分享的推文,标签服务可以使用户在搜索中受益,并浏览他们更加感兴趣的内容。近年来文本和图像的自动标签推荐已成为一项重要研究话题。然而,却很少有用于初始多模态标签推荐模型,虽然有些已经提出的方法来为文本、图像或博客进行推荐任务,但它们不适用于短视频领域。因为这些模型是为各自的领域设计的,并且短视频的结构也不同于文字和图片。本发明解决了上述问题,可以更好地进行短视频标签推荐。
[0098]
本领域的技术人员容易理解,以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1