多模态特征的融合方法以及装置制造方法

文档序号：6504610阅读：232来源：国知局

多模态特征的融合方法以及装置制造方法
【专利摘要】本发明实施例提供一种多模态特征的融合方法以及装置，所述融合方法包括：利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得所述第一分类分数对应的多个两两关系矩阵；融合所述多个两两关系矩阵以得到组合后的关系矩阵；根据组合后的关系矩阵计算最终的关于所述多个类的分类分数，并为所述查询图像选择具有较大分类分数的一个或多个类。通过本发明实施例，不但可以有效且快速地进行多模态特征融合，而且可以很好地处理训练数据噪声或者数据缺失的情况。
【专利说明】多模态特征的融合方法以及装置

【技术领域】
[0001] 本发明涉及图像处理【技术领域】，尤其涉及一种多模态（Multi-modal)特征的融合方法以及装置。

【背景技术】
[0002] 在数据分类任务例如图像分类中，数据常常由单一模态特征表示，但是单一模态特征无法充分地表示数据、且越来越多的研究已经表明同时考虑多个模态特征对于分类是有益的。另外，随着各种传感设备越来越轻便及易用，例如手机、数码相机等，数据的多模态特征也越来越容易获得。因此，多模态特征融合技术在数据分类任务中将变得越来越重要。
[0003] 目前，基于最小秩的融合方法是最近提出的一种鲁棒的多模态特征融合方法。在该方法中，可以先根据每种模态特征生成关于所有测试图像的两两之间的关系矩阵 (PairwiseRelationshipMatrix),然后从所有生成的关系矩阵中推断出一个低秩关系矩阵，最后基于所得到的低秩关系矩阵计算出一组关于所有测试图像的分数。
[0004] 但是，发明人发现在现有技术中，这些方法需要复杂的求解过程且要求每个模态下生成的关系矩阵较为有效，因此存在多模态特征融合下各个特征不同尺度的问题，并且不能很好地处理训练数据噪声或者数据缺失的情况。
[0005] 应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的

【背景技术】部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
[0006] 下面列出了对于理解本发明和常规技术有益的文献，通过引用将它们并入本文中，如同在本文中完全阐明了一样。
[0007] [参考文献 1] :P.GehlerandS.Nowozin.Onfeaturecombinationfor multiclassobjectclassification,InProceedingsofInternationalConferenceon ComputerVision,2009.
[0008] [参考文献 2] :G.N.Ye，D.Liu，I.H.Jhuo,S.F.Chang.Robustlatefusion withrankminimization,InProceedingsofComputerVisionandPattern Recognition, 2012.

【发明内容】

[0009] 本发明实施例提供一种多模态特征的融合方法以及装置，目的在于避免多模态特征融合下各个特征不同尺度的问题，并且提高图像数据具体的鲁棒性。
[0010] 根据本发明实施例的一个方面，提供一种多模态特征的融合方法，所述融合方法包括：
[0011] 利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得所述第一分类分数对应的多个两两关系矩阵；
[0012] 融合所述多个两两关系矩阵以得到组合后的关系矩阵；
[0013] 根据组合后的关系矩阵计算最终的关于所述多个类的分类分数，并为所述查询图像选择具有较大分类分数的一个或多个类。
[0014] 根据本发明实施例的另一个方面，提供一种多模态特征的融合装置，所述融合装置包括：
[0015] 矩阵获取单元，利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得所述第一分类分数对应的多个两两关系矩阵；
[0016] 矩阵组合单元，融合所述多个两两关系矩阵以得到组合后的关系矩阵；
[0017] 类别选择单元，根据组合后的关系矩阵计算最终的关于所述多个类的分类分数，并为所述查询图像选择具有较大分类分数的一个或多个类。
[0018] 本发明的有益效果在于：根据每种模态特征生成一个关系矩阵，然后线性组合所有关系矩阵以得到组合后的关系矩阵，并根据线性组合矩阵推断出一个低秩关系矩阵以获得最终的分类分数。由此，不但可以有效且快速地进行多模态特征融合，而且避免了多模态特征融合下各个特征不同尺度的问题，并且可以很好地处理训练数据噪声或者数据缺失的情况，提高了对于数据噪声的鲁棒性。
[0019] 参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。
[0020] 针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。
[0021] 应该强调，术语"包括/包含"在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

【专利附图】

【附图说明】
[0022] 图1是本发明实施例1的多模态特征的融合方法的一流程图；
[0023] 图2是本发明实施例1的关于分类分数的一示例图；
[0024] 图3是本发明实施例2的多模态特征的融合方法的一流程示意图；
[0025] 图4是本发明实施例2的多模态特征的融合方法的又一流程示意图；
[0026] 图5是本发明实施例2的获得最终的关系矩阵的一流程示意图；
[0027] 图6是本发明实施例2的多模态特征融合过程的一示意图；
[0028] 图7是本发明实施例3的多模态特征的融合装置的一构成示意图；
[0029] 图8是本发明实施例4的多模态特征的融合装置的一构成示意图；
[0030] 图9是本发明实施例4的多模态特征的融合装置的又一构成示意图；
[0031] 图10是本发明实施例4的矩阵变换单元的一构成示意图。

【具体实施方式】
[0032] 参照附图，通过下面的说明书，本发明的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。
[0033] 实施例1
[0034] 本发明实施例提供一种多模态特征的融合方法，图1是本发明实施例的多模态特征的融合方法的一流程图。如图1所示，该融合方法包括：
[0035] 步骤101，利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得第一分类分数对应的多个两两关系矩阵；
[0036] 步骤102,融合多个两两关系矩阵以得到组合后的关系矩阵；
[0037] 步骤103,根据组合后的关系矩阵计算最终的关于多个类的分类分数，并为该查询图像选择具有较大分类分数的一个或多个类。
[0038] 在本实施例中，每个图像可以具有多个(例如M个)模态特征，可以为每个特征生成关于多个(例如C个)类的分数。关于模态以及特征的具体内容以及如何获取模态特征和分类分数，可以参考现有技术。
[0039] 图2是本发明实施例的关于分类分数的一示例图。如图2所示，对于一查询图像可以获得M个特征，该M个特征可以对应K个模态；例如，特征1对应模态A、特征2对应模态A、特征3对应模态B、……、特征M对应模态K。对于如图2所示的类1、类2、……、类C，可以分别为每个特征计算对应的一组分类分数；例如特征1对应一组分类分数{〇. 3,0. 2， 0? 1，......，0? 1}。
[0040] 在本实施例中，可以为每组分类分数构建类与类之间的两两关系矩阵。关于两两关系矩阵的具体内容和如何构建，可以参考现有技术。
[0041] 在本实施例中，可以融合多个两两关系矩阵以得到组合后的关系矩阵，根据组合后的关系矩阵计算最终的关于多个类的分类分数。例如可以对多个两两关系矩阵进行线性组合，由此形成与现有技术不同的后融合（LateFusion)处理；并且，根据线性组合矩阵推断出一个低秩关系矩阵以获得最终的分类分数。值得注意的是，本发明的后融合处理并不仅限于线性组合，还可以采用其他融合方式(例如非线性组合)，可以根据实际情况确定具体的实施方式。
[0042] 由此，不但可以有效且快速地进行多模态特征融合，而且避免了多模态特征融合下各个特征不同尺度的问题，并且可以很好地处理训练数据噪声或者数据缺失的情况，提高了对于数据噪声的鲁棒性。
[0043] 实施例2
[0044] 在实施例1的基础上，本发明实施例提供一种多模态特征的融合方法，以下对本发明实施例进行进一步说明。
[0045] 图3是本发明实施例的多模态特征的融合方法的又一流程示意图。如图3所示，该融合方法包括：
[0046] 步骤301，利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得第一分类分数对应的多个两两关系矩阵；
[0047] 步骤302,将所有的多模态特征直接拼接成一组合特征；并利用训练图像以及该组合特征，为该查询图像生成一组关于多个类的第二分类分数，并获得该第二分类分数对应的一个两两关系矩阵；
[0048] 步骤303,将第一分类分数对应的多个两两关系矩阵以及第二分类分数对应的一个两两关系矩阵进行融合以得到组合后的关系矩阵；
[0049] 步骤304,根据组合后的关系矩阵计算最终的关于多个类的分类分数，并为该查询图像选择具有较大分类分数的一个或多个类。
[0050] 在本实施例中，通过多组(例如M组）第一分数对应的M个两两关系矩阵和一组第二分数对应的一个两两关系矩阵来进行后融合，可以使得融合结果更为准确和鲁棒。以下以线性组合为例对本发明进行详细说明；值得注意的是，本发明的后融合处理并不仅限于线性组合，还可以采用其他融合方式(例如非线性组合)，可以根据实际情况确定具体的实施方式。
[0051] 在具体实施时，可以给定一组包含C个类的训练图像D= (D1,D2，… 為}，0尸（{0山知，...，0"}4)，1=1，...州^表示训练图像的个数；{0山知，...，0"}表示图像数据Di的M个模态特征，Yi是一个C维的0-1向量，它表示数据Di的类别信息，Yij=I表示数据Di属于第j类，Yu=O表示数据Di不属于第j类。本发明的目的为：对于任意一个具有M个模态特征的图像数据Dq，可以利用所有M个特征和训练数据自动推断出Dq所属的类别。
[0052] 在步骤301中，可以基于每个单一模态特征生成一组分类分数。
[0053] 例如，对于某个模态特征t，可以按某种距离尺度(例如欧氏距离、余弦距离等）计算出查询图像Dq与训练图像集中所有图像的距离，找出前k个具有最小距离的训练图像： Dql，Dq2，…，Dqk。然后按照如下的公式（1)来统计在这k个最近邻训练图像中每个类出现的频率，这些频率即可以作为在该模态特征t下生成的一组关于C个类的分数。

【权利要求】
1. 一种多模态特征的融合方法，所述融合方法包括：利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得所述第一分类分数对应的多个两两关系矩阵；融合所述多个两两关系矩阵以得到组合后的关系矩阵；根据组合后的关系矩阵计算最终的关于所述多个类的分类分数，并为所述查询图像选择具有较大分类分数的一个或多个类。
2. 根据权利要求1所述的融合方法，其中，所述融合方法还包括：将所有的多模态特征直接拼接成一组合特征；利用训练图像以及所述组合特征，为所述查询图像生成一组关于所述多个类的第二分类分数，并获得所述第二分类分数对应的一个两两关系矩阵；并且，将所述第一分类分数对应的多个两两关系矩阵以及所述第二分类分数对应的一个两两关系矩阵进行融合以得到组合后的关系矩阵。
3. 根据权利要求2所述的融合方法，其中，融合所述多个两两关系矩阵以得到组合后的关系矩阵具体包括：对所述第一分类分数对应的多个两两关系矩阵进行线性组合；并且将所述第二分类分数对应的两两关系矩阵作为约束项以引导所述线性组合。
4. 根据权利要求3所述的融合方法，其中，所述线性组合获得的关系矩阵为： Γ= Σ ，其中疒为所述第一分类分数对应的两两关系矩阵，i=l，...，M，Μ为所述多模态特征的个数;Wi为线性权重，所述线性权重满足如下条件：条件1 :所有线性权重均大于或者等于零；条件2 :线性权重的L2-范数最小；条件3 :线性组合中的Γ和Γ尽可能接近，所述Γ为所述第二分类分数对应的两两关系矩阵。
5. 根据权利要求1至4任一项所述的融合方法，其中，在融合所述多个两两关系矩阵以得到组合后的关系矩阵之后，所述融合方法还包括：对所述组合后的关系矩阵进行过滤或变换以获得最终的关系矩阵；并且，根据所述最终的关系矩阵计算最终的关于所述多个类的分类分数。
6. 根据权利要求5所述的融合方法，其中，对所述组合后的关系矩阵进行过滤或变换以获得最终的关系矩阵具体包括：找出并保留所述组合后的关系矩阵Γ中最可信的元素；以及根据最可信的元素获得最终的关系矩阵Tf; 其中，对于Γ中任意第（j，k)个元素，如果满足以下其中任一个条件，则该元素被认为是可?目的：条件1 :r (j，k)>0,并且在Μ个关系矩阵f中有Nt个关系矩阵的第（j，k)个元素大于〇 ; 条件2 :r (j，k)〈0,并且在Μ个关系矩阵f中有Nt个矩阵的第（j，k)个元素小于0 ; 其中，#大于一预设值#为所述第一分类分数对应的两两关系矩阵，i=l，. . .，M。
7. 根据权利要求6所述的融合方法，其中，根据最可信的元素获得最终的关系矩阵Tf，具体满足如下条件：条件1:所述关系矩阵Tf的秩尽可能小；条件2 :所述关系矩阵Tf的大小与所述关系矩阵Γ相同、且所述关系矩阵Tf是反对称的；条件3 :所找到的最可信元素在Γ中的索引位置所对应的Tf中的元素，与所述最可信元素尽可能接近。
8. -种多模态特征的融合装置，所述融合装置包括：矩阵获取单元，利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得所述第一分类分数对应的多个两两关系矩阵；矩阵组合单元，融合所述多个两两关系矩阵以得到组合后的关系矩阵；类别选择单元，根据组合后的关系矩阵计算最终的关于所述多个类的分类分数，并为所述查询图像选择具有较大分类分数的一个或多个类。
9. 根据权利要求8所述的融合装置，其中，所述融合装置还包括：特征拼接单元，将所有的多模态特征直接拼接成一组合特征；并且，所述矩阵获得单元还用于利用训练图像以及所述组合特征，为所述查询图像生成一组关于所述多个类的第二分类分数，并获得所述第二分类分数对应的一个两两关系矩阵；所述矩阵组合单元还用于将所述第一分类分数对应的多个两两关系矩阵以及所述第二分类分数对应的一个两两关系矩阵进行融合以得到组合后的关系矩阵。
10. 根据权利要求8或9所述的融合装置，其中，所述融合装置还包括：矩阵变换单元，对所述组合后的关系矩阵进行过滤或变换以获得最终的关系矩阵；并且，所述类别选择单元还用于根据所述最终的关系矩阵计算最终的关于所述多个类的分类分数，并为所述查询图像选择具有较大分类分数的一个或多个类。
【文档编号】G06F17/30GK104239360SQ201310252672
【公开日】2014年12月24日申请日期:2013年6月24日优先权日:2013年6月24日
【发明者】刘曦, 刘汝杰申请人:富士通株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘曦;刘汝杰
技术所有人：富士通株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。