一种基于多模态数据的电影类型预测方法和系统

文档序号:35200999发布日期:2023-08-22 06:08阅读:81来源:国知局
一种基于多模态数据的电影类型预测方法和系统

本发明涉及电影类型分类,尤其是指一种基于多模态数据的电影类型预测方法和系统。


背景技术:

1、在过去的几十年里,电影产业得到了快速的发展,进而产生了大量的电影数据,电影的介绍数据包括电影梗概、海报和预告片等,是一种经典的多模态数据。近年来,电影类型分类(mgc)任务由于具有广泛的应用空间,逐渐得到研究者的重视,例如:在社交媒体上对用户类似视频进行组织、纠正错误标签的视频、为推荐系统检索某一类型的电影等。

2、电影数据包括电影梗概、海报、视频和音频。基于这些多模态数据,目前已经有工作为处理电影类型分类任务作出了巨大的努力。例如,现有技术利用预告片的视频和音频数据进行电影分类;现有技术还利用电影梗概和海报处理mgc任务。尽管这些工作已经取得了很好的表现,但它们对于多模态信息的融合仅采用拼接或加权融合等简单的融合策略,未能有效地捕获文本和视听数据之间的交互信息。除了文本和视听数据之外,电影的元数据(如导演和演员)也是处理mgc任务的重要数据,因为电影之间可以通过演职人员的合作而产生连接,例如,电影和其续集之间由于演职人员存在较大重叠,因而电影之间的连接关系较强,且电影和其续集具有同样的类型标签,但目前的研究工作都未考虑电影元数据(如导演和演员)与多模态数据的融合。

3、现有技术的缺点:(1)现存工作的多模态融合策略不能有效考虑多模态数据之间的交互;(2)目前没有工作考虑到电影元数据中的导演和演员信息来提高处理mgc任务的性能。


技术实现思路

1、为此,本发明所要解决的技术问题在于克服现有技术在电影类型分类任务中不能有效考虑多模态数据之间的交互,同时未考虑电影元数据(如导演和演员)与多模态信息的融合,导致电影类型分类效果不佳的问题。

2、为解决上述技术问题,本发明提供了一种基于多模态数据的电影类型预测方法,包括:

3、步骤s1:获取每部电影的文本、视频、海报和音频数据并对其分别进行嵌入,得到文本嵌入、视频嵌入、海报嵌入和音频嵌入;

4、步骤s2:将所述文本嵌入和视频嵌入进行拼接,并对拼接后的数据进行特征提取与融合,得到文本和视频特征;

5、同时对所述海报嵌入和音频嵌入分别进行特征提取,得到海报特征和音频特征;

6、步骤s3:基于电影元数据构建不同电影的多模态电影图,并使所述文本和视频特征、海报特征和音频特征对所述多模态电影图中的电影元数据进行学习,得到电影嵌入,其中,所述电影元数据包括导演、编剧和演员信息;

7、步骤s4:根据所述电影嵌入对不同电影类型进行分类。

8、在本发明的一个实施例中,所述步骤s2和步骤s3之间还包括:将每部电影的文本和视频特征、海报特征和音频特征进行融合,得到所有电影的多模态数据。

9、在本发明的一个实施例中,所述将每部电影的文本和视频特征、海报特征和音频特征进行融合,得到所有电影的多模态数据,方法包括:

10、将每部电影的文本和视频特征otv转换为与海报特征op和音频特征oa相同的维度空间h,得到多模态特征f,表示为:其中,经过维度空间转换的文本和视频特征;

11、将所述多模态特征f沿转换后的维度空间h进行连接以获得fi∈rm×h,其中,m表示模态数目;

12、通过第一线性矩阵wq获得查询矩阵qi=fiwq,通过第二线性矩阵wk获得关键矩阵ki=fiwk,通过第三线性矩阵wv获得值矩阵vi=fiwv;

13、根据所述查询矩阵qi和关键矩阵ki计算模态间注意矩阵pi,公式为:其中,softmax(·)表示注意力函数;t表示矩阵转置,pi∈rm×m,r表示向量空间,pi表示在第i部电影中三种模态互相之间的关注度;

14、根据所述模态间注意矩阵pi构和值矩阵vi构建注意力聚合,表示为pivi;

15、将所述注意力聚合pivi后的多模态特征f进行向量化,得到oi,并对多模态特征f添加残差连接,公式为:oi=vec(pivi+fi),其中,vec(·)表示将特征矩阵按行展开,oi∈r1×mh;

16、将所有电影的oi进行聚合,表示为:o={o1,o2,...,on},其中,o表示所有电影的多模态数据。

17、在本发明的一个实施例中,所述步骤s1中的文本嵌入、视频嵌入、海报嵌入和音频嵌入的公式分别为:

18、

19、

20、

21、

22、其中,bertembed(·)表示对文本数据进行嵌入采用的基于bert的嵌入模块,表示第i部电影的文本数据mt的文本嵌入,swinsmall(·)表示对视频数据或海报进行嵌入采用的swin transformer中的swinsmall层,表示第i个视频帧的视频嵌入,mp表示海报数据,表示第i部电影的海报嵌入,wav2vec2(·)表示对音频数据进行嵌入采用的wav2vec2层,表示第i部电影的音频嵌入。

23、在本发明的一个实施例中,所述步骤s2中对拼接后的数据进行特征提取与融合,得到文本和视频特征,包括:

24、通过transformer模块对拼接后的数据进行特征提取与融合,得到初始文本和视频特征oatt;

25、将初始文本和视频特征输入平均池化层,得到文本和视频特征otv,所述文本和视频特征为初始文本和视频特征oatt的表示向量,其中,otv=mp(oatt),mp表示平均池化操作。

26、在本发明的一个实施例中,所述步骤s2中通过多层感知机对所述海报嵌入和音频嵌入分别进行特征提取,得到海报特征和音频特征,公式为:

27、

28、

29、其中,op表示海报特征,ffn表示多层感知机,所述多层感知机包括依次连接的第一线性层、激活层和第二线性层,表示第i部电影的海报嵌入,oa表示音频特征,mp表示平均池化操作,表示第i部电影的音频嵌入。

30、在本发明的一个实施例中,所述步骤s3的方法包括:

31、基于电影元数据构建不同电影的多模态电影图,并获取所述多模态电影图的邻接矩阵,其中,若电影di和电影dj之间的电影元数据中导演、编剧或演员重叠个数超过预设阈值,则多模态电影图中电影di和电影dj之间存在边,对应邻接矩阵中电影di和电影dj的元素为1;否则多模态电影图中电影di和电影dj之间不存在边,对应邻接矩阵中电影di和电影dj的元素为0;

32、将所述多模态电影图的邻接矩阵和所有电影的多模态数据输入至两层图神经网络,所述两层图神经网络用于通过多模态电影图的邻接矩阵来更新所有电影的多模态数据,得到电影嵌入

33、在本发明的一个实施例中,将所述多模态电影图的邻接矩阵和所有电影的多模态数据输入至两层图神经网络,所述两层图神经网络用于通过多模态电影图的邻接矩阵来更新所有电影的多模态数据,得到电影嵌入公式为:

34、

35、

36、

37、其中,h(l+1)表示h(l)经过一层图神经网络后得到的电影嵌入,l∈{0,1},h(0)表示所有电影的多模态数据o,h(1)表示经过第一层图神经网络得到的结果,h(2)表示经过第二层图神经网络得到的电影嵌入σ(·)表示激活函数relu,a表示多模态电影图的邻接矩阵且aij=eij,eij表示电影di和电影dj之间的边,d表示电影数据集,w表示可学习的参数矩阵,in表示n阶单位矩阵,表示对邻接矩阵a的对角线加1,表示矩阵中的元素。

38、在本发明的一个实施例中,所述步骤s4中根据所述电影嵌入o~对不同电影类型进行分类,公式为:

39、

40、其中,表示中的第i部电影嵌入,sigmoid(·)表示激活函数,linear(·)表示线性层,是第i部电影的预测类型集,l表示电影的类型数,表示第i部电影属于类型j的概率。

41、为解决上述技术问题,本发明提供了一种基于多模态数据的电影类型预测系统,包括:

42、嵌入模块:用于获取每部电影的文本、视频、海报和音频数据并对其分别进行嵌入,得到文本嵌入、视频嵌入、海报嵌入和音频嵌入;

43、特征提取模块:用于将所述文本嵌入和视频嵌入进行拼接,并对拼接后的数据进行特征提取与融合,得到文本和视频特征;

44、同时用于对所述海报嵌入和音频嵌入分别进行特征提取,得到海报特征和音频特征;

45、构建与学习模块:用于基于电影元数据构建不同电影的多模态电影图,并使所述文本和视频特征、海报特征和音频特征对所述多模态电影图中的电影元数据进行学习,得到电影嵌入,其中,所述电影元数据包括导演、编剧和演员信息;

46、分类模块:用于根据所述电影嵌入对不同电影类型进行分类。

47、本发明的上述技术方案相比现有技术具有以下优点:

48、本发明设计了模态间注意力机制(模态间注意力层),通过模态间注意力机制能够学习多模态特征(包括文本和视频特征、海报特征、音频特征)中两两特征之间的相互作用;

49、本发明在构建多模态电影图中创造性地引入了电影元数据,多模态电影图中若两个电影存在连接关系,则表明这两个电影往往拥有相同的类型,通过学习多模态电影图的连接关系,可以聚合相同类型的电影进而提高电影类型分类任务(mgc)的表现;

50、本发明的电影类型预测方法可以应用在大型视频网站平台,根据用户的关键词检索(如爱情、故事、家庭、喜剧等),推荐给用户准确的电影。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1