一种基于张量模式的多源数据分类优化方法及系统的制作方法

文档序号:10553374阅读:521来源:国知局
一种基于张量模式的多源数据分类优化方法及系统的制作方法
【专利摘要】本发明涉及一种基于张量模式的多源数据分类优化方法及系统,包括:步骤a:在Map?reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据,并根据高阶张量数据构建初始的支持张量机分类模型;步骤b:以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;步骤c:根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;步骤d:将测试样本输入到支持张量机分类模型进行分类。本发明可以有效提高分类模型的分类精度;且计算复杂度更低,保证分类模型能够识别张量数据中的冗余信息,进一步提高分类模型的分类速度。
【专利说明】
一种基于张量模式的多源数据分类优化方法及系统
技术领域
[0001] 本发明属于模式识别技术领域,尤其涉及一种基于张量模式的多源数据分类优化 方法及系统。
【背景技术】
[0002] 模式识别(Pattern Recognition),就是通过计算机用数学技术方法来研究模式 的自动处理和判读。我们把环境与客体统称为"模式"。随着计算机技术的发展,人类有可能 研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。 对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官 来获得)的识别,这是模式识别的两个重要方面。
[0003] 随着计算机技术的不断发展,模式识别技术逐渐由向量数据向多维模型转变,问 题描述的支持数据也由单视角数据过渡到多个视角数据,如医学科学,基于临床、免疫、影 像、血常规、尿常规和个体/群体的基因组组等数据评价病人或居民的健康状况,这些数据 之间相互信息补充。通常将描述同一个问题的多个视角的数据统称为多视角数据。
[0004]大数据时代的环境下,描述问题的数据愈发丰富多元,常常从多个不同角度描述 问题,如描述病人的健康状况,有影像数据,基因组数据,血常规数据,尿常规数据等等。根 据不同视角数据之间存在信息互补作用的原理,有机整合这些多视角数据能够更全面地描 述问题,进而提高疾病诊断的精度。由于张量模型能够有效表达数据的结构信息,数据的表 达逐渐由传统的向量模式过渡到张量模式。在模式识别、计算机可视化和图像处理等研究 领域,数据经常以张量模式储存,譬如,灰度图像是二阶张量(矩阵)、彩色图像是三阶张量 等。不同于向量模式表示方法,张量模式表示能够储存更多向量模式无法表示的信息,如原 始数据的结构信息、内在依赖性等。但是,现有张量模式表达的数据冗余信息导致现有张量 分类算法的计算复杂度较高,且计算效率不高。

【发明内容】

[0005] 本发明提供了一种基于张量模式的多源数据分类优化方法及系统,旨在解决现有 的张量模式表达的数据冗余信息导致现有张量分类算法的计算复杂度较高,且计算效率不 高的技术问题。
[0006] 本发明实现方式如下,一种基于张量模式的多源数据分类优化方法,包括以下步 骤:
[0007] 步骤a:在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量 数据,并根据高阶张量数据构建初始的支持张量机分类模型;
[0008] 步骤b:以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除, 输出各视角数据保留特征的下标数据;
[0009] 步骤c:根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数 进行优化,确定最终的支持张量机分类模型;
[0010]步骤d:将测试样本输入到支持张量机分类模型进行分类。
[0011]本发明实施例采取的技术方案还包括:在所述步骤a中,所述在Map-reduce分布式 框架下对多视角数据进行张量积运算,得到高阶张量数据的运算方式包括以下步骤:
[0012]步骤al:确定Map过程中向量模式数据x(l)和维数为I的向量特征&张量模式数据X (2)的键值对;
[0013]步骤a2:执行Map过程,输出x (1)和X (2)的键值对;
[0014] 步骤a3 :将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到 Reduce 阶段;
[0015] 步骤a4:确定reduce过程中的键值对;所述reduce的输入键值对为Map的输出键值 对;
[0016] 步骤a 5 : r e d u c e过程中,并行计算向量x ( 1 )与X ( 2 )的张量积运算: T 。尤(2>,输出的键值对即为高阶张量矿的键值对。
[0017]本发明实施例采取的技术方案还包括:所述步骤b还包括:在Map-reduce分布式框 架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。
[0018]本发明实施例采取的技术方案还包括:所述根据交替投影算法迭代优化得出初始 的支持张量机分类模型的最优参数的算法包括以下步骤:
[0019] 步骤bio:在Map-reduce分布式框架下初始化哪介张量中前(N-1)阶的投影向量,根 据支持张量机分类模型求张量的第N阶投影向量;其中,N为高阶张量数据的阶数;
[0020] 步骤bll:确定第哪介投影向量的(key-value);
[0021]步骤bl 2:在Map-reduce分布式框架下更新张量的第N阶投影向量,根据支持张量 机分类模型求张量的第(N-1)阶投影向量;
[0022] 步骤bl3:确定第N-1阶投影向量的(key-value);
[0023]步骤bl4:在Map-reduce分布式框架下更新张量的第(N-1)阶投影向量,根据支持 张量机分类模型求张量的第(N-2)阶投影向量;
[0024]步骤bl 5:在Map-reduce分布式框架下更新张量的第2阶投影向量,根据支持张量 机分类模型求张量的第1阶投影向量;
[0025] 步骤bl6:循环步骤blO至步骤bl5,直到支持张量机分类模型收敛,获得支持张量 机分类模型的投影张量和偏移标量。
[0026] 本发明实施例采取的技术方案还包括:在所述步骤b中,所述以支持向量递归特征 消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据 具体包括以下步骤:
[0027] 步骤b20:初始化保留特征的下标数据,使保留特征的下标数据对应视角 数据I(v)中的各个特征;
[0028]步骤b21:确定保留特征的总数p(v);
[0029] 步骤b22:计算保留特征对应的权值数据你(v) ? ,.
[0030] 步骤b23 :对保留特征的秩确定(key-value),并计算各个保留特征的秩得分 riv} . =(w(v) . )2 W 乂V V 叫 A" ? 5
[0031 ] 步骤b24 :在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分 〇rgmind...;A' h J.-, -Z:y: ? * 5
[0032]步骤b25:在保留特征的下标数据^~中剔除秩得分最低特征对应的下标(h,i2,-_ In);
[0033] 步骤b26:循环步骤b20至步骤b25,直到length(yv)) < , .,
[0034] 步骤b27:输出保留特征对应的下标数据5(v) 〇
[0035] 本发明实施例采取的技术方案还包括:所述步骤c还包括:根据各视角数据保留特 征的下标数据J00剔除测试样本的冗余信息。
[0036] 本发明实施例采取的另一技术方案为:一种基于张量模式的多源数据分类优化系 统,包括张量积运算模块、分类模型构建模块、特征消除模块、分类模型优化模块和数据分 类模块;
[0037] 所述张量积运算模块用于在Map-reduce分布式框架下对多视角数据进行张量积 运算,得到高阶张量数据;
[0038] 所述分类模型构建模块用于根据高阶张量数据构建初始的支持张量机分类模型;
[0039] 所述特征消除模块用于以支持向量递归特征消除算法在原始空间进行各个视角 数据的特征消除,输出各视角数据保留特征的下标数据;
[0040] 所述分类模型优化模块用于根据各视角数据保留特征的下标数据对初始的支持 张量机分类模型参数进行优化,确定最终的支持张量机分类模型;
[0041] 所述数据分类模块用于将测试样本输入到支持张量机分类模型进行分类。
[0042] 本发明实施例采取的技术方案还包括:还包括交替投影算法模块,所述交替投影 算法模块用于在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张 量机分类模型的最优参数。
[0043] 本发明实施例采取的技术方案还包括:所述特征消除模块以支持向量递归特征消 除算法在原始空间进行各个视角数据的特征消除的消除方式为:初始化保留特征的下标数 据使保留特征的下标数据对应视角数据x(v)中的各个特征;确定保留特征的总数 P(v);计算保留特征对应的权值数据做(_V)丨对保留特征的秩确定(key-value),并计算各个 保留特征的秩得分41...& = (MX.、.)2 .在Map-reduce分布式框架下遍历各秩的得分, ,. (V) _ ... (V) 寻找最小的秩得分保留特征的下标数据/v)中剔除秩得分最低 特征对应的下标(1142广士);并循环处理直到1€_1:110(1;);)<$ (1〇后,输出保留特征对 应的下标数据 D
[0044] 本发明实施例采取的技术方案还包括:还包括信息剔除模块,所述信息剔除模块 用于根据各视角数据保留特征的下标数据$(v)剔除测试样本的冗余信息。
[0045] 与现有技术相比,本发明的有益效果在于:本发明实施例的基于张量模式的多源 数据分类优化方法及系统通过在Map-reduce分布式框架下构建高阶张量数据,从而快速计 算高阶张量数据,保证大数据计算过程的高效性;采用原始数据为不同数据源的多视角数 据,有效提高分类模型的分类精度;选择支持张量机作为构建的初始分类模型,提高分类精 度的同时,更加适合小样本问题,避免过学习等问题;并通过利用支持向量机递归特征消除 算法在原始空间进行特征选择,计算复杂度更低,保证分类模型能够识别张量数据中的冗 余信息,进一步提高分类模型的分类速度。
【附图说明】
[0046] 图1是本发明实施例的基于张量模式的多源数据分类优化方法的流程图;
[0047] 图2是本发明实施例构建的高阶张量数据的规模效果图;
[0048] 图3是本发明实施例的基于张量模式的多源数据分类优化系统的结构示意图。
【具体实施方式】
[0049] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不 用于限定本发明。
[0050] 请参阅图1,是本发明实施例的基于张量模式的多源数据分类优化方法的流程图。 本发明实施例的基于张量模式的多源数据分类优化方法包括以下步骤:
[0051 ] 步骤100:将多视角数据引入统一的张量积空间,并在Map-reduce分布式框架下对 多视角数据进行张量积运算,得到高阶张量数据;
[0052] 在步骤100中,Map-Reduce是Google开发的一种并行分布式计算模型,用于大规模 数据集(大于1TB)的并行运算,概念"Map(映射)〃和"Reduce(归约)〃和它们的主要思想,都 是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。Map-Reduce极大地方 便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。本发 明通过在Map-reduce分布式框架下构建高阶张量数据,从而快速计算高阶张量数据,保证 大数据计算过程的高效性;本发明实施例中,采用原始数据为不同数据源的多视角数据,分 别从不同的角度描述目标问题,而且各个视角数据之间存在信息互补的效果,所以所收集 的原始多视角数据的信息量特别丰富,全面综合描述目标问题,有效提高分类模型的分类 精度。
[0053]为了清楚说明步骤100,本发明实施例以2源多视角数据(向量模式数据x(l):维数 为I的向量特征&张量模式数据X(2): J X K矩阵特征)为例,在Map-reduce分布式框架下构建 高阶张量数据的方法包括以下步骤:
[0054] 步骤101:确定1&口过程中1(1)和乂(2)的键值对(1^7-¥31116)。其中^(1)的索引 (1^7)为;[£{1,2,...,1},对应着1(1)中元素:^_15的数值¥31116:"4)^(2)的索弓丨(1^7)为
[(k-1)*M+j ],对应着X(2)中元素〇勺数值value: ;
[0055] 步骤102:执行Map过程,输出x(l)和X(2)的键值对(key-value);此时,x(l)的key 变为i与数值JCp以字符串的形式链接:(1,41))^&11^不变,同理4(2)的1?^变为([仏-1)* M+j ],xjj ),value 不变;
[0056] 步骤103 :将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到 Reduce 阶段;
[0057] 步骤104:确定reduce过程中的键值对;其中,reduce的输入键值对为Map的输出键 值对;
[0058] 步骤105 : reduce过程中,并行计算向量x (1)与X( 2 )的张量积(外积)运算: T = x(1)。1(2\输出的键值对即为高阶张量實的键值对;
[0059]在步骤105中,若I = 3,J = 3,K = 4,则构建所述的高阶张量数据的规模为三阶张量 数据(3x3x4),具体如图2所示,是本发明实施例构建的高阶张量数据的规模效果图。
[0060]步骤200:以高阶张量数据为输入,构建初始的支持张量机(Support Tensor Machine, STM)分类模型;
[0061]在步骤200中,本发明选择支持张量机作为构建的初始分类模型,该模型能够直接 在张量领域处理张量数据,有效分析利用结构信息,提高分类精度,同时,相比向量分类模 型,其参数较少,更加适合小样本问题,避免过学习等问题;例如,将256*256的二阶张量数 据转化为向量数据,其维数256*256 = 65536,同时丢失了各个mode之间的内在相关性。支持 张量积直接处理张量数据,其模型参数为256+256 = 512个,而支持向量机处理后的数据,对 应的模型参数为65536个,而现实中能够采集的样本量较少,难免出现小样本问题。
[0062]步骤300:在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支 持张量机分类模型的最优参数;
[0063]具体地,本发明实施例的根据交替投影算法迭代优化得出支持张量机分类模型的 最优参数的方法包括以下步骤:
[0064] 步骤301:在Map-reduce分布式框架下初始化哪介张量中前(N-1)阶的投影向量,根 据支持张量机分类模型求张量的第N阶投影向量;其中,N为高阶张量数据的阶数;
[0065] 步骤302:确定第哪介投影向量的(key-value);
[0066]步骤303:在Map-reduce分布式框架下更新张量的第N阶投影向量,根据支持张量 机分类模型求张量的第(N-1)阶投影向量;
[0067] 步骤304:确定第N-1阶投影向量的(key-value);
[0068] 步骤305:在Map-reduce分布式框架下更新张量的第(N-1)阶投影向量,根据支持 张量机分类模型求张量的第(N-2)阶投影向量;
[0069] 步骤306:以此类推,在Map-reduce分布式框架下更新张量的第2阶投影向量,根据 支持张量机分类模型求张量的第1阶投影向量;
[0070]步骤307:循环步骤301至步骤306,直到支持张量机分类模型收敛为止,获得支持 张量机分类模型的投影张量和偏移标量。
[0071 ] 步骤400:在Map-reduce分布式框架下,以支持向量递归特征消除算法(SMV-RFE) 在原始空间进行各个视角数据的特征消除,并输出各视角数据保留特征的下标数据J(V); [0072]在步骤400中,支持向量机递归特征消除算法的主要思想是根据支持向量机(SVM) 在训练过程输出的权值向量W来构造特征排序系数,每次迭代删去一个排序系数最小的特 征,最后得到前k个最大排序系数的特征子集。本发明通过利用支持向量机递归特征消除算 法在原始空间进行特征选择,相比在张量积空间进行特征选择,参数更少,计算复杂度较 低,保证分类模型能够识别张量数据中的冗余信息,进一步提高分类模型的分类速度。
[0073] 假设正在循环的某维视角数据为N阶张量数据X(v) e ,以支持向量递归 特征消除算法在各个视角数据v迭代循环过程包括以下步骤:
[0074] 步骤401:初始化保留特征的下标数据J(v\,使保留特征的下标数据$@对应视角 数据(v)中的各个特征(义(v)与>规模、类型一致);
[0075]步骤402:确定保留特征的总数p(v);
[0076] 步骤403:计算保留特征对应的权值数据你<1);
[0077] 步骤404 :对保留特征的秩确定(key-value),并计算各个保留特征的秩得分 r.(v) . =(w(v) . )2
[0078] 步骤405 :在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分 =arg_ ~ i ?
[0079] 步骤406:在保留特征的下标数据中剔除秩得分最低特征对应的下标(h,i2,… In);
[0080] 步骤407:循环步骤402至步骤406,直到length(5(i'})乞".
[0081] 步骤408:输出保留特征对应的下标数据5(V} 0
[0082] 步骤500:根据各视角数据保留特征的下标数据进一步优化初始的支持张量 机分类模型参数,并确定最终的支持张量机分类模型;
[0083] 在步骤500中,根据各视角数据保留特征的下标数据J(v),剔除冗余特征对应的参 数,得到各视角数据分别对应的最终的投影,从而得到最终的支持张量机分类模型; 决策函数为/(1)=海"(rr__1<w(vwv)>+^其中第 v视角数据x(v)若为向量,其投影w(v)亦为向量,同理x(v)若为张量,其投影w(v)亦为张量。
[0084] 步骤600:根据各视角数据保留特征的下标数据剔除测试样本的冗余信息;
[0085] 步骤700:将剔除冗余信息的测试样本输入到支持张量机分类模型,通过支持张量 机分类模型对测试样本进行分类。
[0086] 请参阅图3,是本发明实施例的基于张量模式的多源数据分类优化系统的结构示 意图。本发明实施例的基于张量模式的多源数据分类优化系统包括张量积运算模块、分类 模型构建模块、交替投影算法模块、特征消除模块、分类模型优化模块、信息剔除模块和数 据分类模块;
[0087] 张量积运算模块用于将多视角数据引入统一的张量积空间,并在Map-reduce分布 式框架下对多视角数据进行张量积运算,得到高阶张量数据;其中,本发明实施例以2源多 视角数据(向量模式数据x(l):维数为I的向量特征&张量模式数据X(2):JXK矩阵特征)为 例,在Map-reduce分布式框架下构建高阶张量数据的方式具体为:确定Map过程中x( 1)和X (2)的键值对(key-value); x(1)的索弓丨(key)为i G {1,2,. . .,I},对应着x(1)中元素.if}的 数值value: X(2)的索引(key)为[(k-1) *M+j ],对应着X(2)中元素〇勺数值value : ,执行Map过程,输出x(l)和X(2)的键值对(key-value);此时,x(l)的key变为i与数值 x;(1 >以字符串的形式链接:(i,JCp),value不变,同理,X⑵的key变为([(k-1 )*M+j ],xg), value不变;将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到Reduce阶 段;确定reduce过程中的键值对;其中,reduce的输入键值对为Map的输出键值对;reduce过 程中,并行计算向量X(l)与X(2)的张量积(外积)运算:€ = 1(1)。:1(2),输出的键值对即为 高阶张量纩的键值对。
[0088]分类模型构建模块用于以高阶张量数据为输入,构建初始的支持张量机分类模 型;其中,本发明选择支持张量机作为构建的初始分类模型,该模型能够直接在张量领域处 理张量数据,有效分析利用结构信息,提高分类精度,同时,相比向量分类模型,其参数较 少,更加适合小样本问题,避免过学习等问题;例如,将256*256的二阶张量数据转化为向量 数据,其维数256*256 = 65536,同时丢失了各个mode之间的内在相关性。支持张量积直接处 理张量数据,其模型参数为256+256 = 512个,而支持向量机处理后的数据,对应的模型参数 为65536个,而现实中能够采集的样本量较少,难免出现小样本问题。
[0089]交替投影算法模块用于在Map-reduce分布式框架上根据交替投影算法迭代优化 得出初始的支持张量机分类模型的最优参数;其中,本发明实施例的根据交替投影算法迭 代优化得出支持张量机分类模型的最优参数的方式为:在Map-reduce分布式框架下初始化 N阶张量中前(N-1)阶的投影向量,根据支持张量机分类模型求张量的第N阶投影向量;其 中,N为高阶张量数据的阶数;确定第N阶投影向量的(key-value);在Map-reduce分布式框 架下更新张量的第N阶投影向量,根据支持张量机分类模型求张量的第(N-1)阶投影向量; 确定第N-1阶投影向量的(key-value);在Map-reduce分布式框架下更新张量的第(N-1)阶 投影向量,根据支持张量机分类模型求张量的第(N-2)阶投影向量;以此类推,在Map-reduce 分布式框架下更新张量的第 2 阶投影向量,根据支持张量机分类模型求张量的第 1 阶 投影向量,并循环至支持张量机分类模型收敛为止,获得支持张量机分类模型的投影张量 和偏移标量。
[0090]特征消除模块用于在Map-reduce分布式框架下,以支持向量递归特征消除算法 (SMV-RFE)在原始空间进行各个视角数据的特征消除,并输出各视角数据保留特征的下标 数据?其中,假设正在循环的某维视角数据为N阶张量数据JT(V) ei?/lX/;x''+/N,以支持向 量递归特征消除算法在各个视角数据v迭代循环方式为:初始化保留特征的下标数据 使保留特征的下标数据对应视角数据1@中的各个特征与规模、类型一致); 确定保留特征的总数P(v);计算保留特征对应的权值数据对保留特征的秩确定(key- value),并计算各个保留特征的秩得分<2,..、. _= 在Map-reduce分布式框架 " ? (.V *) * (飞') 下遍历各秩的得分,寻找最小的秩得分在保留特征的下标数据#v) ^ , 中剔除秩得分最低特征对应的下标(h,i2,…iN);并循环处理直到lengthC^ 11) < i?(v) 后,输出保留特征对应的下标数据61(v) 〇
[0091] 分类模型优化模块用于根据各视角数据保留特征的下标数据?1^进一步优化初 始的支持张量机分类模型参数,并确定最终的支持张量机分类模型;其中,根据各视角数据 保留特征的下标数据.S W,剔除冗余特征对应的参数,得到各视角数据分别对应的最终的投 影矽w,从而得到最终的支持张量机分类模型;决策函数为/(幻=掩"(til < wu1'1 >+&), 其中第V视角数据X(v)若为向量,其投影W(v)亦为向量,同理x(v)若为张量,其投影w (v)亦为张 量。
[0092] 信息剔除模块用于根据各视角数据保留特征的下标数据5(1;)剔除测试样本的冗 余信息;
[0093] 数据分类模块用于将剔除冗余信息的测试样本输入到支持张量机分类模型,通过 支持张量机分类模型对测试样本进行分类。
[0094]本发明实施例的基于张量模式的多源数据分类优化方法及系统通过在Map-reduce分布式框架下构建高阶张量数据,从而快速计算高阶张量数据,保证大数据计算过 程的高效性;采用原始数据为不同数据源的多视角数据,有效提高分类模型的分类精度;选 择支持张量机作为构建的初始分类模型,提高分类精度的同时,更加适合小样本问题,避免 过学习等问题;并通过利用支持向量机递归特征消除算法在原始空间进行特征选择,计算 复杂度更低,保证分类模型能够识别张量数据中的冗余信息,进一步提高分类模型的分类 速度。
[0095]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之。
【主权项】
1. 一种基于张量模式的多源数据分类优化方法,包括W下步骤: 步骤a:在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数 据,并根据高阶张量数据构建初始的支持张量机分类模型; 步骤b: W支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出 各视角数据保留特征的下标数据; 步骤C:根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行 优化,确定最终的支持张量机分类模型; 步骤d:将测试样本输入到支持张量机分类模型进行分类。2. 根据权利要求1所述的基于张量模式的多源数据分类优化方法,其特征在于,在所述 步骤a中,所述在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数 据的运算方式包括W下步骤: 步骤al:确定Map过程中向量模式数据X(I)和维数为I的向量特征的长量模式数据X(2) 的键值对; 步骤曰2:执行Map过程,输出X (1)和X (2)的键值对; 步骤曰3:将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到Reduce阶 段; 步骤日4:确定reduce过程中的键值对;所述reduce的输入键值对为Map的输出键值对; 步骤曰5: reduce过程中,并行计算向量X (1)与X(2)的张量积运算:。输出 的键值对即为高阶张量争的键值对。3. 根据权利要求2所述的基于张量模式的多源数据分类优化方法,其特征在于,所述步 骤b还包括:在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量 机分类模型的最优参数。4. 根据权利要求3所述的基于张量模式的多源数据分类优化方法,其特征在于,所述根 据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数的算法包括W下步 骤: 步骤blO:在Map-reduce分布式框架下初始化N阶张量中前(N-I)阶的投影向量,根据支 持张量机分类模型求张量的第N阶投影向量;其中,N为高阶张量数据的阶数; 步骤bl 1:确定第N阶投影向量的化ey-value); 步骤bl 2:在Map-reduce分布式框架下更新张量的第N阶投影向量,根据支持张量机分 类模型求张量的第(N-I)阶投影向量; 步骤bl3:确定第N-I阶投影向量的化巧-value); 步骤bl4:在Map-reduce分布式框架下更新张量的第(N-I)阶投影向量,根据支持张量 机分类模型求张量的第(N-2)阶投影向量; 步骤bl 5:在Map-reduce分布式框架下更新张量的第2阶投影向量,根据支持张量机分 类模型求张量的第1阶投影向量; 步骤bl6:循环步骤blO至步骤bl5,直到支持张量机分类模型收敛,获得支持张量机分 类模型的投影张量和偏移标量。5. 根据权利要求1所述的基于张量模式的多源数据分类优化方法,其特征在于,在所述 步骤b中,所述W支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输 出各视角数据保留特征的下标数据具体包括W下步骤: 步骤b20:初始化保留特征的下标数据玄W >使保留特征的下标数据对应视角数据 中的各个特征; 步骤b21:确定保留特征的总数pW; 步骤b22:计算保留特征对应的权值数据; 步骤b23:对保留特征的秩确定(key-value),并计算各个保留特征的秩得分iuce分布式框架下遍历各秩的得分,寻找最小的秩得分 步骤b25:在保留特征的下标数据户"> 中剔除秩得分最低特征对应的下标(ii,i2,…iN); 步骤b26:循环步骤b20至步骤b25,直菌步骤b27:输出保留特征对应的下标数据又W0.6. 根据权利要求5所述的基于张量模式的多源数据分类优化方法,其特征在于,所述步 骤C还包括:根据各视角数据保留特征的下标数据j'W剔除测试样本的冗余信息。7. -种基于张量模式的多源数据分类优化系统,其特征在于,包括张量积运算模块、分 类模型构建模块、特征消除模块、分类模型优化模块和数据分类模块; 所述张量积运算模块用于在Map-reduce分布式框架下对多视角数据进行张量积运算, 得到高阶张量数据; 所述分类模型构建模块用于根据高阶张量数据构建初始的支持张量机分类模型; 所述特征消除模块用于W支持向量递归特征消除算法在原始空间进行各个视角数据 的特征消除,输出各视角数据保留特征的下标数据; 所述分类模型优化模块用于根据各视角数据保留特征的下标数据对初始的支持张量 机分类模型参数进行优化,确定最终的支持张量机分类模型; 所述数据分类模块用于将测试样本输入到支持张量机分类模型进行分类。8. 根据权利要求7所述的基于张量模式的多源数据分类优化系统,其特征在于,还包括 交替投影算法模块,所述交替投影算法模块用于在Map-reduce分布式框架上根据交替投影 算法迭代优化得出初始的支持张量机分类模型的最优参数。9. 根据权利要求8所述的基于张量模式的多源数据分类优化系统,其特征在于,所述特 征消除模块W支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除的消 除方式为:初始化保留特征的下标数据文W,使保留特征的下标数据公,4对应视角数据 中的各个特征;确定保留特征的总数PW ;计算保留特征对应的权值数据睐W 对保留 特征的秩确定(key-value ),并计算各个保留特征的秩得4E Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得《在 保留特征的下标数据、中剔除秩得分最低特征对应的下标-Jn);并循环处理直到旨,输出保留特征对应的下标数据jW O10.根据权利要求9所述的基于张量模式的多源数据分类优化系统,其特征在于,还包 括信息剔除模块,所述信息剔除模块用于根据各视角数据保留特征的下标数据剔除测 试样本的冗余信息。
【文档编号】G06K9/62GK105913085SQ201610223152
【公开日】2016年8月31日
【申请日】2016年4月12日
【发明人】王书强, 刘志华, 胡勇, 郭毅可, 曾德威, 卢哲
【申请人】中国科学院深圳先进技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1