一种数据处理方法、装置、设备以及可读存储介质与流程

文档序号:35917859发布日期:2023-11-03 21:02阅读:80来源:国知局
一种数据处理方法、装置、设备以及可读存储介质与流程

本技术涉及计算机,尤其涉及一种数据处理方法、装置、设备以及可读存储介质。


背景技术:

1、随着多媒体技术的快速发展,媒体数据(如图片、文本、视频、音频等等)得到海量生产,而随着海量媒体数据的生成,媒体数据的理解任务(如视频理解人物)就变得尤为重要,媒体数据的理解任务能够为媒体数据提供众多丰富且多样的媒体标签(如舞蹈标签、唱歌标签、竞赛标签、游戏标签等),通过媒体数据的媒体标签可以便于对媒体数据进行多种媒体处理,例如,可以便于对媒体数据进行媒体检索、分类、归档、进行媒体推荐、媒体二次编辑等处理。

2、在媒体检索任务中,通过媒体标签可以很便利地检索出相关的媒体片段,媒体数据的文本标签、标题信息等,媒体检索对于媒体推荐、媒体加工都有着非常重要的意义。而随着媒体检索需求越来越大,对媒体检索的能力要求也越来越高,例如,在输入一个模态类型为文本类型的媒体数据后,对于检索结果的需求不仅限于是模态类型为文本类型的媒体数据,还需求检索到模态类型为非文本类型(如视频类型、音频类型、图像类型等)的媒体数据。即,在媒体数据的检索业务中,基于多模态的检索性能要求越来越大。

3、然而,在相关技术中,对于媒体数据多模态的理解任务,会由一个统一的模型来进行理解推理,具体的,针对各个模态会提取每个模态的特征,之后,再将所有模态的特征多模态信息进行融合,最终可以得到多模态信息。但是,相关技术在进行模型的训练时,为了提升多模态信息的准确性,会剔除单模态的个性信息,并提取不同模态之间的共性信息,由此会严重影响模型对于单模态数据的理解准确性,从而严重影响单模态数据在后续任务(如检索任务)中的处理结果的准确性。


技术实现思路

1、本技术实施例提供一种数据处理方法、装置、设备以及可读存储介质,可以在模态表征业务中,提升模态表征模型的通用性,提升模态表征结果的准确性。

2、本技术实施例一方面提供了一种数据处理方法,包括:

3、获取训练任务组集合;训练任务组集合中包括训练任务组si,i为正整数;所述训练任务组si所属模态类型为单模态类型或跨模态类型;在所述训练任务组si所属模态类型为所述单模态类型时,所述训练任务组si包含一个样本媒体数据;在所述训练任务组si所属模态类型为所述跨模态类型时,所述训练任务组si包含至少两个不同模态类型的样本媒体数据;

4、在模态表征模型中对训练任务组si进行注意力交互处理,得到训练任务组si对应的注意力表征向量;

5、在模态表征模型所包含的单模态路由层与跨模态路由层中,确定与训练任务组si所属的模态类型相匹配的目标路由层,基于目标路由层对训练任务组si对应的注意力表征向量进行特征预测处理,得到训练任务组si对应的预测模态表征向量;

6、当确定出训练任务组集合中每个训练任务组分别对应的预测模态表征向量时,基于所属模态类型为单模态类型的训练任务组所对应的预测模态表征向量,对单模态路由层进行优化,基于所属模态类型为跨模态类型的训练任务组所对应的预测模态表征向量,对跨模态路由层进行优化;优化后的单模态路由层,用于对所属模态类型为单模态类型的任务组进行特征预测处理,优化后的跨模态路由层,用于对所属模态类型为跨模态类型的任务组进行特征预测处理。

7、本技术实施例一方面提供了一种数据处理装置,包括:

8、集合获取模块,用于获取训练任务组集合;训练任务组集合中包括训练任务组si,i为正整数;所述训练任务组si所属模态类型为单模态类型或跨模态类型;在所述训练任务组si所属模态类型为所述单模态类型时,所述训练任务组si包含一个样本媒体数据;在所述训练任务组si所属模态类型为所述跨模态类型时,所述训练任务组si包含至少两个不同模态类型的样本媒体数据;

9、注意力处理模块,用于在模态表征模型中对训练任务组si进行注意力交互处理,得到训练任务组si对应的注意力表征向量;

10、路由层确定模块,用于在模态表征模型所包含的单模态路由层与跨模态路由层中,确定与训练任务组si所属的模态类型相匹配的目标路由层;

11、预测模块,用于基于目标路由层对训练任务组si对应的注意力表征向量进行特征预测处理,得到训练任务组si对应的预测模态表征向量;

12、第一优化模块,用于当确定出训练任务组集合中每个训练任务组分别对应的预测模态表征向量时,基于所属模态类型为单模态类型的训练任务组所对应的预测模态表征向量,对单模态路由层进行优化;

13、第二优化模块,用于基于所属模态类型为跨模态类型的训练任务组所对应的预测模态表征向量,对跨模态路由层进行优化;优化后的单模态路由层,用于对所属模态类型为单模态类型的任务组进行特征预测处理,优化后的跨模态路由层,用于对所属模态类型为跨模态类型的任务组进行特征预测处理。

14、在一个实施例中,集合获取模块获取训练任务组集合的具体实现方式,包括:

15、获取n个样本媒体数据;n个媒体数据中的一个样本媒体数据所属的模态类型,为第一模态类型与第二模态类型中的任意一种;第一模态类型与第二模态类型不同;

16、基于n个样本媒体数据中,每个样本媒体数据分别所属的模态类型,对n个样本媒体数据进行任务组构建处理,得到训练任务组集合。

17、在一个实施例中,集合获取模块基于n个样本媒体数据中,每个样本媒体数据分别所属的模态类型,对n个样本媒体数据进行任务组构建处理,得到训练任务组集合的具体实现方式,包括:

18、将n个样本媒体数据的第一样本媒体数据,与用于表征第一模态类型的第一标识进行组合,得到所属模态类型为第一模态类型的第一训练任务组;第一样本媒体数据是指n个样本媒体数据中,所属模态类型为第一模态类型的样本媒体数据;

19、将n个样本媒体数据中的第二样本媒体数据,与用于表征第二模态类型的第二标识进行组合,得到所属模态类型为第二模态类型的第二训练任务组;第二样本媒体数据是指n个样本媒体数据中,所属模态类型为第二模态类型的样本媒体数据;

20、基于第一样本媒体数据与第二样本媒体数据分别对应的媒体来源渠道,对第一样本媒体数据与第二样本媒体数据进行跨模态组合处理,得到所属模态类型为跨模态类型的训练任务组;

21、将第一训练任务组与第二训练任务组,均确定为所属模态类型为单模态类型的训练任务组,将所属模态类型为所述跨模态类型的训练任务组,与所属模态类型为所述单模态类型的训练任务组所组成的集合,确定为训练任务组集合。

22、在一个实施例中,第一样本媒体数据与第二样本媒体数据的数量均为一个或多个;一个或多个第一样本媒体数据中包括第一样本媒体数据mj,j为正整数;所属模态类型为跨模态类型的训练任务组,包含第一样本媒体数据mj对应的训练任务组;

23、集合获取模块基于第一样本媒体数据与第二样本媒体数据分别对应的媒体来源渠道,对第一样本媒体数据与第二样本媒体数据进行跨模态组合处理,得到所属模态类型为跨模态类型的训练任务组的具体实现方式,包括:

24、将第一样本媒体数据mj对应的媒体来源渠道,确定为目标媒体来源渠道;

25、将一个或多个第二样本媒体数据中,媒体来源渠道为目标媒体来源渠道的第二样本媒体数据,确定为第一样本媒体数据mj对应的关联样本媒体数据;

26、将第一样本媒体数据、关联样本媒体数据、第一标识以及第二标识进行组合,得到第一样本媒体数据mj对应的训练任务组。

27、在一个实施例中,注意力处理模块在模态表征模型中对训练任务组si进行注意力交互处理,得到训练任务组si对应的注意力表征向量的具体实现方式,包括:

28、在模态表征模型中,通过特征提取网络层对训练任务组si所包含的样本媒体数据进行特征提取处理,得到训练任务组si对应的媒体特征;

29、通过模态表征模型中的多头自注意力网络层,对训练任务组si对应的媒体特征进行多头自注意力处理,得到训练任务组si对应的注意力表征向量。

30、在一个实施例中,模态表征模型中的多头自注意力网络层包括q个自注意力子网络层;q为正整数;q个自注意力子网络层包括自注意力子网络层vk,k为正整数;

31、注意力处理模块通过模态表征模型中的多头自注意力网络层,对训练任务组si对应的媒体特征进行多头自注意力处理,得到训练任务组si对应的注意力表征向量的具体实现方式,包括:

32、获取自注意力子网络层vk所包含的注意力参数矩阵,将自注意力子网络层vk所包含的注意力参数矩阵,与训练任务组si对应的媒体特征进行运算处理,得到注意力参数矩阵对应的线性变换矩阵;

33、通过自注意力子网络层vk中的全连接组件,对线性变换矩阵进行特征整合处理,得到自注意力子网络层vk对应的注意力表征子向量;

34、当确定出q个自注意力子网络层分别对应的注意力表征子向量时,将q个注意力表征子向量进行融合处理,得到训练任务组si对应的注意力表征向量。

35、在一个实施例中,单模态类型包含第一模态类型与第二模态类型;单模态路由层包括第一模态类型对应的第一模态子路由层,与第二模态类型对应的第二模态子路由层;

36、路由层确定模块在模态表征模型所包含的单模态路由层与跨模态路由层中,确定与训练任务组si所属的模态类型相匹配的目标路由层的具体实现方式,包括:

37、若训练任务组si所属的模态类型为跨模态类型,则将模态表征模型中所包含的跨模态路由层,确定为与训练任务组si所属的模态类型相匹配的目标路由层;

38、若训练任务组si所属的模态类型为第一模态类型,则将第一模态类型对应的第一模态子路由层,确定为与训练任务组si所属的模态类型相匹配的目标路由层;

39、若训练任务组si所属的模态类型为第二模态类型,则将第二模态类型对应的第二模态子路由层,确定为与训练任务组si所属的模态类型相匹配的目标路由层。

40、在一个实施例中,单模态类型包含第一模态类型与第二模态类型;单模态路由层包括第一模态类型对应的第一模态子路由层,与第二模态类型对应的第二模态子路由层;

41、第一优化模块基于所属模态类型为单模态类型的训练任务组所对应的预测模态表征向量,对单模态路由层进行优化的具体实现方式,包括:

42、将所属模态类型为第一模态类型的训练任务组,确定为第一模态训练任务组,将所属模态类型为第二模态类型的训练任务组,确定为第二模态训练任务组;

43、获取第一模态训练任务组对应的真实模态表征向量,以及第二模态训练任务组对应的真实模态表征向量;

44、对第一模态训练任务组对应的预测模态表征向量,与第一模态训练任务组对应的真实模态表征向量,进行误差计算处理,得到第一模态训练任务组对应的第一损失值;

45、对第二模态训练任务组对应的预测模态表征向量,与第二模态训练任务组对应的真实模态表征向量,进行误差计算处理,得到第二模态训练任务组对应的第二损失值;

46、基于第一损失值对第一模态类型对应的第一模态子路由层进行优化,基于第二损失值对第二模态类型对应的第二模态子路由层进行优化。

47、在一个实施例中,第一模态类型为文本模态类型,第一模态训练任务组为文本词序列;第一模态训练任务组对应的预测模态表征向量由文本词序列中,每个文本词分别对应的预测表征特征所组成;第一模态训练任务组对应的真实模态表征向量,由文本词序列中,每个文本词分别对应的真实表征特征所组成;

48、第一优化模块对第一模态训练任务组对应的预测模态表征向量,与第一模态训练任务组对应的真实模态表征向量,进行误差计算处理,得到第一模态训练任务组对应的第一损失值的具体实现方式,包括:

49、在文本词序列所包含的文本词中获取遮掩文本词;遮掩文本词是指经过遮掩处理的文本词;

50、在第一模态训练任务组对应的预测模态表征向量中,获取遮掩文本词对应的预测表征特征,在第一模态训练任务组对应的真实模态表征向量中,获取遮掩文本词对应的真实表征特征;

51、确定遮掩文本词对应的预测表征特征,与遮掩文本词对应的真实表征特征之间的第一特征相似度;

52、将第一特征相似度确定为第一模态训练任务组对应的第一损失值。

53、在一个实施例中,训练任务组集合中,包含至少两个所属模态类型为跨模态类型的训练任务组;至少两个所属模态类型为跨模态类型的训练任务组,包含训练任务组sj,j为正整数;训练任务组sj包括所属模态类型为第一模态类型的第一样本媒体数据,以及所属模态类型为第二模态类型的第二样本媒体数据;训练任务组sj所对应的预测模态表征向量中,包括第一样本媒体数据对应的预测表征特征,以及第二样本媒体数据对应的预测表征特征;

54、第二优化模块基于所属模态类型为跨模态类型的训练任务组所对应的预测模态表征向量,对跨模态路由层进行优化的具体实现方式,包括:

55、确定第一样本媒体数据对应的预测表征特征,与第二样本媒体数据对应的预测表征特征之间的第二特征相似度;

56、将每个所属模态类型为跨模态类型的训练任务组,均确定为跨模态训练任务组,确定训练任务组sj与至少两个跨模态训练任务组中,剩余跨模态训练任务组之间的第三特征相似度;剩余跨模态训练任务组是指至少两个跨模态训练任务组中,除训练任务组sj以外的跨模态训练任务组;

57、基于第二特征相似度与第三特征相似度,对跨模态路由层进行优化。

58、在一个实施例中,数据处理装置还可以包括:

59、任务组获取模块,用于获取用于描述待分类媒体数据的目标任务组;目标任务组包括至少两个不同模态类型的媒体数据;

60、交互处理模块,用于在模态表征模型中对目标任务组进行注意力交互处理,得到目标任务组对应的注意力表征向量;

61、特征处理模块,用于在优化后的跨模态路由层中,对目标任务组对应的注意力表征向量进行特征预测处理,得到目标任务组对应的预测模态表征向量;

62、类别识别模块,用于对目标任务组对应的预测模态表征向量进行类别识别处理,得到待分类媒体数据所属的媒体类别。

63、本技术实施例一方面提供了一种计算机设备,包括:处理器和存储器;

64、存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本技术实施例中的方法。

65、本技术实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本技术实施例中的方法。

66、本技术的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行本技术实施例中一方面提供的方法。

67、在本技术实施例中,提供一种通用的模态表征模型,可以同时为所属模态类型为单模态类型的数据以及所属模态类型为跨模态类型的数据进行服务。具体的,本技术可以采用包含单模态类型与跨模态类型的训练任务组集合,对模态表征模型进行训练,其中,在模态表征模型中,包含有单模态路由层与跨模态路由层,单模态路由层可以对所属模态类型为单模态类型的数据(注意力表征向量)进行特征预测处理,跨模态路由层可以对所属模态类型为跨模态类型的数据(注意力表征向量)进行特征预测处理,而在训练优化时,单模态路由层可以基于所属模态类型为所述单模态类型的训练任务组所对应的预测模态表征向量来进行优化,跨模态路由层可以由所属模态类型为所述跨模态类型的训练任务组所对应的预测模态表征向量来进行优化。基于此,可以使得模态表征模型中的单模态路由层与跨模态路由层能够同时进行训练优化,且在训练优化时,是基于不同模态类型的数据来分别进行训练优化,无需损失任何一种模态类型的数据,可以同时保持单模态路由层与跨模态路由层的性能,由此可以提升模态表征模型对单模态类型与跨模态类型的通用性与灵活性。综上可知,本技术可以在模态表征模型中设置路由分发机制,将路由层划分为单模态路由层与跨模态路由层,不同的路由层可以对不同模态类型的数据进行处理,在训练时也由不同模态类型的数据分别进行训练优化,每个路由层只会保留当前模态类型的相关信息,由此无需舍弃任何一种模态类型的数据,也能够同时输出跨模态类型与单模态类型的表征向量,可以很好地提升各种模态类型的数据的表征结果的准确性。综上,本技术可以在模态表征业务中,提升模态表征模型的通用性,提升模态表征结果的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1