一种面向海洋多维数据的可视分析方法及系统与流程

文档序号:18360874发布日期:2019-08-06 23:49阅读:399来源:国知局
一种面向海洋多维数据的可视分析方法及系统与流程
本发明属于可视分析
技术领域
,尤其涉及一种面向海洋多维数据的可视分析方法及系统。
背景技术
:目前,业内常用的现有技术是这样的:目前,我国已经形成了全方位的海洋监测网,导致海洋数据呈现爆炸式增长。监测数据的来源包括航空遥感、海洋站、浮标观测系统等;多源头又造成了在获取海洋数据时要用到不同数据挖掘技术,从而又导致了海洋数据在数据格式、参数以及使用区域上都存在巨大的差异;同时,海洋数据又包含了一些如气象、水文、灾害预警等敏感信息,需要采取安全保障措施;另一方面,海洋数据的应用价值一定是体现在具体的时间和空间上的;最后海洋科学涉及多个学科,包括海洋物理、海洋化学等,每一条数据又包含多个维度信息,如海温、盐度、酸度等多维度的信息。海洋事件都离不开各类数据的共同作用,同一维度的数据或不同维度属性之间会存在或多或少的关系,研究海洋多维数据间和各维度之间的关系成为对海洋数据研究的重点内容。综合以上海洋数据的特性,传统的数据分析方法已经不再适用于对海洋多维属性数据的研究。1)多维数据可视化(multi-dimensionaldatavisualization)多维数据可视化是信息可视化中的重要组成部分,它已经成为越来越受欢迎的显示和探索复杂多维数据的方法。现实应用中,实验数据、模拟数据和统计数据等大多以多维形式存在。如何将超过人类理解能力的三维以上的数据,转化为人类能视觉直观理解的可视化结果,是多维数据可视化所研究的发明。2)传统多维数据可视化方法:现有多维可视化的基本方法,包括基于几何图形、基于图标、基于像素、基于层次结构、基于图结构以及混合方法。其中,基于几何图形的多维可视化方法是近年来主要的研究方向。大数据背景下,除了数据项规模扩张带来的挑战,高维所引起的问题也是研究的重点,以下几种传统的多维数据可视分析方法:在多维数据可视分析中,散点图是最为常用的多维可视化方法。二维散点图将多个维度中的两个维度属性值集合映射至两条轴,在二维轴确定的平面内通过图形标记的不同视觉元素来反映其他维度属性值,例如,可通过不同形状、颜色、尺寸等来代表连续或离散的属性值,二维散点图能够展示的维度十分有限,研究者将其扩展到三维空间,通过可旋转的scatterplot方块扩展了可映射维度的数目。散点图适合对有限数目的较为重要的维度进行可视化,通常不适于需要对所有维度同时进行展示的情况。投影是能够同时展示多维的可视化方法之一。将各维度属性列集合通过投影函数映射到一个方块形图形标记中,并根据维度之间的关联度对各个小方块进行布局。基于投影的多维可视化方法一方面反映了维度属性值的分布规律,同时也直观展示了多维度之间的语义关系。平行坐标(parallelcoordinates)是研究和应用最为广泛的一种多维可视化技术,将维度与坐标轴建立映射,在多个平行轴之间以直线或曲线映射表示多维信息。近年来,研究者将平行坐标与散点图等其他可视化技术进行集成,提出了平行坐标散点图pcp(parallelcoordinateplots)。将散点图和柱状图集成在平行坐标中,支持分析者从多个角度同时使用多种可视化技术进行分析。再如有的研究者建立了一种具有角度的柱状图平行坐标,支持用户根据密度和角度进行多维分析。大数据环境下,平行坐标面临的主要问题之一是大规模数据项造成的线条密集与重叠覆盖问题,根据线条聚集特征对平行坐标图进行简化,形成聚簇可视化效果,将为这一问题提供有效的解决方法。降维是常用的多维数据可视化方法,将数据从多维空间降解至低维空间,并且进行有效的分析和展示。经典的降维方法有pca、mds、som等。利用线性判断分析对多维数据进行降维,支持用户交互式标记样本,进而改进样本集合,迭代式优化分类过程。虽然降维方法能够从宏观角度展现多维数据的分布情况,却难以有效地展示原始数据各个维度的具体信息,存在一定的局限性。散点图矩阵是将散点图按照一定的顺序进行二维排列,支持用户解读原始数据并且分析任意2个维度之间的相关性。然而随着数据维度的增加,散点图矩阵的规模增加,为可视化界面的布置及用户的理解带来负担,而且基于二维散点图的拓展,使其不具有发现更多维度属性相关性的能力,仍然存在局限性。3)海洋数据可视化:近年来,在多维海洋数据可视化信息挖掘方面,国内外学者进行了大量研究,主要集中在数据模型的提出与可视化系统的建立等方面。另一方面,采用数据特性映射的方式将多种数据属性分别映射为不同的视觉特征(如色彩、亮度、大小等);类似地,采用多重纹理映射技术将海底底质纹理映射到地形模型上。两者均实现了多维数据元素以不同的形式同时展现,便于从整体上把握各维数据的分布情况。更进一步,为了实现登岛作战中的登陆地域可行性评估,将海底的坡度、底质以及海流海浪等地理要素进行综合考虑,实现各要素数据的集成可视化,对数据信息进行更深层次的挖掘,从而为分析过程提供了可靠的理论依据。4)问题分析现阶段随着陆海空全方位海洋监测网的形成,海洋数据呈现爆炸式增长,海洋数据已经步入大数据时代。海洋大数据具有海量、多源、多维、动态、空间、异构等特征,传统的可视分析技术在挖掘海洋数据背后隐藏的信息具有一定的局限性:目前全方位的海洋监测网包括空中监测平台(卫星遥感、航空、气象等)。地面监测平台(台站、浮标、船舶等);海底监测平台(水下传感器)等,导致海洋数据呈现从gb、tb到pb量级爆炸式增长,如何从海量数据中得到具有更高价值的数据并加以分析是目前海洋大规模监测数据面临的挑战。海洋事件离不开各类数据的共同作用,海洋数据存在较强的多维时空特性,不同维度属性之间会存在或多或少的相关性,如何准确判断海洋数据相关性是目前有待研究的重点问题。对数据进行可视分析的方法有很多,而且都存在优缺点,在众多海洋多维可视化展示结果中,探索更加适合挖掘海洋多维数据背后隐藏信息的可视化方法是重点问题。以上三个方面是海洋大数据可视分析面临的挑战,同时也逐渐成为今后的海洋大数据可视分析研究的热点与方向,进一步工作将沿着以上存在的问题展开,利用可视分析方法深入挖掘隐藏在海洋大数据背后隐藏的信息。本申请有效解决了现有技术存在的部分缺陷:(1)传统可视分析技术在挖掘海洋数据背后隐藏的信息方面具有一定的局限性。本申设计的方法支持用户操作,可以帮助用户初步探隐藏在海洋数据背后的信息。(2)传统可视分析技术无法准确判断海洋数据以及各维度数据的相关性。本申请设计的方法可以有效研究海洋数据间以及数据维度间的相关性。(3)基于散点图的海洋数据可视分析不适于需要对所有维度同时进行展示的情况;且随着数据维度的增加,散点图矩阵的规模增加,为可视化界面的布置及用户的理解带来负担,而且基于二维散点图的拓展,不具有发现更多维度属性相关性的能力,仍然存在局限性。本设计提出矩阵散点图来进行海洋数据的展示,可以有效展示各个维度之间的关系。(4)基于平行坐标的海洋数据可视分析会导致大规模数据项造成的线条密集与重叠覆盖,且难以有效地展示原始数据各个维度的具体信息,存在一定的局限性。本申请引入数据约简的方法对数据进行预处理,并使处理后的数据保持原始数据的有效信息。解决上述技术问题的难度:(1)对于本申请提出的支持用户操作的功能设计,此类设计不仅需要了解用户需求,而且需要更清晰的去感受整体的用户思维方式,从而完善产品。(2)对于研究海洋数据相关性方面,需要通过海量数据处理以及大量实验来验证所提出方法的可行性。(3)对于设计矩阵散点图多视角展示海洋数据方面,需要综合考虑各类因素之间的相关关系,综合矩阵散点图的分布情况,获得海洋数据维度间的差异。(4)对于数据约简方面,首先要对千余条数据进行月份划分、周划分,再筛选有效数据,再通过相似性度量算法获得数据之间的相似度。进行相似性度量时要计算两两数据之间的差异,导致计算量巨大。解决上述技术问题的意义:多维数据可视分析已经成为探索复杂多维数据的热门方法。如何将多维度的浮标监测数据转化为人类通过视觉就能直观理解的视图,并挖掘多维度的浮标监测数据背后隐藏信息,是多维数据可视分析所研究的重点。同时海洋数据多以多维数据的形式存在,海洋事件的发生离不开各属性数据的共同作用,本申请提出的方法可以有效分析海洋多维数据间的相关关系,解决了传统技术的局限性。技术实现要素:针对现有技术存在的问题,本发明提供了一种面向海洋多维数据的可视分析方法及系统。本发明是这样实现的,一种面向海洋多维数据的可视分析方法包括:利用降维的方法保留数据间关系对大规模海洋数据进行约简,筛选出海量信息;进行可视化展示,对海洋多维数据间以及各维度间的相关性进行分析,对于高维规模数据,选择若干个视图,在多个角度下生成不同的可视化结果,并进行管理、分析;采用多种多视图协同可视分析方法对海洋多维数据进行可视化展示。进一步,利用降维的方法保留数据间关系对大规模海洋数据进行约简中,通过相似性算法来衡量数据之间的相似度,根据相似度的计算结果,再为聚类的数据选择不同的聚类中心,对不同属性的数据进行聚类,实现对数据的约简。进一步,对海洋多维数据间以及各维度间的相关性进行分析中,利用平行坐标和散点图协同视角的可视化方法对海洋多维数据进行可视分析,再结合各个属性中间的数据差异构建相似性矩阵,利用多维标度法对当前数据进行降维,得到原始数据在低维空间中的表达,并进行可视化展示;利用k-means算法对降维后的输出值进行聚类分析。进一步,采用多种多视图协同可视分析方法对海洋多维数据进行可视化展示中,利用平行坐标和散点图的多视图协同可视化展示,利用散点图协同平面坐标分析出某一条数据每个属性的分布情况。进一步,所述面向海洋多维数据的可视分析方法具体包括以下步骤:步骤一,面向海洋多维数据可视化展示:利用平行坐标的方法对浮标观测点数据进行可视展示,包括对同一站点不同时间点的测试数据以及同一时间点不同观测点的数据展示,同时用户直接选择所需分析的数据文件;步骤二,利用角度、面积、正负相关性度量任意2个属性轴之间的数据线的视觉差异,度量同一时间点各个浮标监测点多维属性差异,或者同一监测点各个时间点多维属性差异;步骤三,在分析各个属性维度之间视觉差异的基础上引入mds降维算法对浮标监测数据进行降维;步骤四,根据投影点的空间位置关系,引入k-means算法对投影点进行聚类分析。进一步,步骤一中,所述平行坐标方法包括:1)添加滑块功能选择用户感兴趣的时间点或者某一维度数据值得区间,更加直观的展示想观测的数据;2)在下方数据栏中选择感兴趣的数据,在可视化的平行坐标中突出展示其分布情况,使可视化效果更加直观;3)通过交换坐标轴把属性关系较密切的坐标轴相邻,更好地呈现属性间的关系;在未知属性间的关系时,可试探地调换坐标轴次序,发现不同属性间隐含的关系。进一步,步骤二中,角度、面积的计算方法具体包括:1)角度差异:角度的计算公式如下:2)面积差异:利用三角形或梯形公式分别求得两两数据线之间的面积差异度量。进一步,步骤三中,mds降维算法包括:输入:各个属性维度的差异矩阵;输出:浮标监测数据的低维空间表示;1)读入各个数据节点在不同轴区间的数据差异,即角度差异和面积差异的加权值;2)计算多维数据节点的相似性矩阵;其中k表示数据的节点数量,δi,j表示节点i和节点j的差异,其计算公式为:其中,n代表的是数据的维数,差异矩阵的数量是n-1;a·nrom(θi,j)+b·norm(σi,j)表示平行坐标轴每两条轴之间数据节点i和数据节点j的加权差异,包含角度差异归一化值a·nrom(θi,j)以面积归一化值b·norm(σi,j);3)算每个样本之间的欧氏距离:mds算法的结果是得到m个样本在原始空间的距离矩阵d,目标是获得样本在d’维空间中的表示,并且两个样本在d’维空间中的欧氏距离等于原始空间中的距离;欧式距离计算公式如下:4)计算降维后样本的内积矩阵b:根据步骤3)得到m个样本在原始空间的距离矩阵为d,其中第i行第j列的元素disti,j代表样本xi到xj的距离;目标是获得样本在d′维空间的表示z,满足任意两个样本在d′维空间中的欧式距离等于原始空间中的距离,即||zi-zj||=distij;令b=ztz,其中,b为降维后样本的内积矩阵,有:根据矩阵计算相关知识,得:通过降维前后保持距离矩阵d不变求取内积矩阵b;5)对内积b做特征值分解——求取特征值——计算特征值,求得矩阵z对矩阵b做特征值分解,b=v∧vt,其中∧为特征值构成的对角矩阵,v为特征向量矩阵,其中有d*个非零特征值,构成对角矩阵∧*,令v*表示相应的特征向量矩阵,则有:取d′个最大特征值构成对角矩阵∧**=diag(λ1,λ2,..…λd′),令v**表示相应的特征向量,则:进一步,步骤四中,聚类分析具体包括:输入:初始数据节点在低维空间中的投影坐标;输出:低维空间投影点的聚类分析结果;1)随机选取k个中心点;2)遍历所有数据,将每个数据划分到最近的中心点;k-means算法以距离作为数据对象间相似性度量的标准,采用欧氏距离来计算数据对象间的距离;3)计算每个聚类的平均值,并作为新的中心点;k-means算法聚类过程中,每次迭代对应的类簇中心需要重新计算,为对应类簇中所有数据对象的均值;定义第k个类簇的类簇中心为centerk,则类簇中心更新方式如下:其中,ck表示第k个类簇,|ck|表示第k个类簇中数据对象的个数,求和是指类簇c_k中所有元素在每列属性上的和;4)重复步骤2)-步骤3),直到这k个中线点不再变化。本发明的另一目的在于提供一种实施所述面向海洋多维数据的可视分析方法的面向海洋多维数据的可视分析控制系统。综上所述,本发明的优点及积极效果为:(1)现有技术和本申请提出的方法比较:比较内容本申请提出的方法传统的数据可视分析方法是否支持用户操作是否是否为多视图展示是否是否支持分析数据相关性是否响应时间少多布局耗时较长短(2)本发明提出方法优点的证明有:对于支持用户操作方面,如下图12所示,图左为传统的可视化方法,只是简单的进行数据展示;图右为本发明提出的可视分析方法。本发明提供的平行坐标可视化分析方法对浮标观测点数据进行可视展示,支持用户直接选择所需分析的数据文件;通过添加滑块功能选择用户感兴趣的时间点或者某一维度数据值得区间,使想观测的数据更加直观的展示;在下方数据栏中选择感兴趣的数据,可以在可视化的平行坐标中突出展示其分布情况,使可视化效果更加直观;通过交换坐标轴可以把属性关系较密切的坐标轴相邻,更好地呈现属性间的关系。在未知属性间的关系时,可以试探地调换坐标轴次序,这样可以发现不同属性间隐含的关系。对于数据展示方面方面,传统的可视分析技术旨在对数据进行单一的可视化展示;而本发明提出的方法在对数据进行可视化展示的同时,添加散点图对数据进行多视角的展示,有效地结合了降维算法及散点图矩阵的优势,不仅支持原始数据的解读,而且数据线的分布能够有效地展示多维数据的特征。如图7所示。对数据信息挖掘方面,传统的方法往往存在缺陷;本发明提出的可视分析方法在数据可视化展示后,计算数据间的差异,再利用多维尺度降维算法和k-means聚类得到高维数据的低维表达,使挖掘海洋多维数据背后隐藏的关系更加便捷,克服了现有技术中存在的对海洋多维数据可视分析中存在的对数据间相关性以及对各维度之间相关性的分析上存在的缺陷。如图13、14所示。(3)在实验过程中,本发明在数据读取方面相比于传统的统计学软件具有明显优势,能够根据用户需求快速抽取感兴趣的数据;相比于经典的聚类方法,本发明是在平行坐标视觉差异的基础上,对多维数据进行降维和聚类,从视觉角度实现数据分析和特征挖掘;本发明提出的方法不仅可以呈现不同时间、维度数据,而且支持用户探索式地发现海洋数据背后隐藏的信息,可以为领域专家和提供更深入的分析手段,具有较强的实用价值。附图说明图1是本发明实施例提供的面向海洋多维数据的可视分析方法流程图。图2是本发明实施例提供的面向海洋多维数据的可视分析方法构建与应用过程示意图。图3是本发明实施例提供的利用平行坐标的方法对多维浮标监测数据进行可视化展示示意图。图4是本发明实施例提供的轴移动示意图。图5是本发明实施例提供的添加刷技术示意图。图6是本发明实施例提供的数据选择示意图。图7是本发明实施例提供的协同可视化展示示意图。图8是本发明实施例提供的差异度量结果示意图。图9是本发明实施例提供的mds输出结果示意图。图10是本发明实施例提供的十二条数据在二维平面上的投影点示意图。图11是本发明实施例提供的k-means聚类结果示意图。图12是本发明实施例提供的对于支持用户操作方面,传统的可视化方法与本发明提出的可视分析方法图。图中:(a)、传统的可视化方法;(b)、本发明提出的可视分析方法。图13是本发明实施例提供的利用可视分析的方法对7个属性进行mds投影的结果。图14是本发明实施例提供的利用可视分析的方法对7个属性进行k-means聚类的结果。图15是本发明实施例提供的可视化展示图。图16是本发明实施例提供的差异度量结果图。图17是本发明实施例提供的多维尺度分析方法降维结果图。图18是本发明实施例提供的k-means聚类结果图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。传统的可视分析技术在挖掘海洋数据背后隐藏的信息具有一定的局限性。传统的可视分析技术无法准确判断海洋数据以及各维度数据的相关性,且在数据格式、参数以及使用区域上都存在巨大的差异。基于散点图的海洋数据可视分析不适于需要对所有维度同时进行展示的情况;且随着数据维度的增加,散点图矩阵的规模增加,为可视化界面的布置及用户的理解带来负担,而且基于二维散点图的拓展,不具有发现更多维度属性相关性的能力,仍然存在局限性。基于平行坐标的海洋数据可视分析会导致大规模数据项造成的线条密集与重叠覆盖,且难以有效地展示原始数据各个维度的具体信息,存在一定的局限性。为解决上述技术问题,下面结合具体方案对本发明应用原理做详细描述。本发明实施例提供的面向海洋多维数据的可视分析方法包括:1)利用降维的方法在保留数据间关系的基础上实现对大规模海洋数据的约简。为提升大规模数据可视化效果,在保留数据信息、准确性的基础上对数据进行必要的约简是可视分析中的一项重要内容,其中对于海洋大数据价值密度低这一特点,利用数据约简的方法同样可以筛选出海量信息中更为有效的信息。主要的数据约简有三种方式:聚类、采样、多分辨率表示。其中,本发明采用的聚类算法分为两个部分,第一部分是:通过相似性算法来衡量数据之间的相似度,第二部分是:根据第一部分的计算结果,再为需要聚类的数据选择不同的聚类中心,从而对不同属性的数据进行聚类,经过以上两个过程的计算,可以实现对数据的约简。2)在可视化展示的基础上对海洋多维数据间以及各维度间的相关性进行分析。针对高维规模数据,可选择若干个视图,在多个角度下生成不同的可视化结果,并对其管理、分析等,如本发明提出利用平行坐标和散点图协同视角的可视化方法来对海洋多维数据进行可视分析,再结合各个属性中间的数据差异构建相似性矩阵,利用多维标度法对当前数据进行降维,得到原始数据在低维空间中的表达,并对其进行可视化展示;最后利用k-means算法对降维后的输出值进行聚类分析,使得用户可以方便快速的分析隐藏在海洋多维数据背后数据间以及各维度间的规律。3)进一步探索适合海洋多维数据的多视图可视分析方法。为探究更适合海洋多维数据的可视化方法,本发明拟采用多种多视图协同可视分析方法对海洋多维数据进行可视化展示。如利用平行坐标和散点图的多视图协同可视化展示,在数据到达一定量时,平行坐标间将出现折线密集的情况,扰乱视线,不易观察出某一数据在平行坐标中的走势;而在散点图的协同作用下,可以清楚观察出某一条数据每个属性的分布情况,再通过多位观测者进行观测来判断更适合分析海洋多维数据的可视分析方法。下面结合附图对本发明的应用原理作进一步描述。如图1所示,本发明实施例提供的面向海洋多维数据的可视分析方法具体包括以下步骤:s101,面向海洋多维数据可视化展示:利用平行坐标的方法对浮标观测点数据进行可视展示,包括对同一站点不同时间点的测试数据以及同一时间点不同观测点的数据展示,同时用户可直接选择所需分析的数据文件。s102,利用角度、面积、正负相关性度量任意2个属性轴之间的数据线的视觉差异,度量同一时间点各个浮标监测点多维属性差异,或者同一监测点各个时间点多维属性差异。s103,在分析各个属性维度之间视觉差异的基础上引入mds降维算法对浮标监测数据进行降维。s104,根据投影点的空间位置关系,引入k-means算法对投影点进行聚类分析。步骤s101中,本发明实施例提供的平行坐标方法包括:平行坐标技术是表示多维和属性间相互关系的重要可视分析方法;其思想是将n个维度的数据通过n条等距离的平行轴映射到二维平面,在这个二维平面上每个轴都代表一个属性维度,每条轴上的数据按照数值从大到小均匀分布,每一条数据可以根据其属性值用线段在n条平行轴上连接起来成n-1条折线段;这n-1条线段与n条坐标轴相交的n个点分别代表了数据点的n维数据平行坐标。平行坐标方法具体包括以下步骤:1)添加滑块功能选择用户感兴趣的时间点或者某一维度数据值得区间,更加直观的展示想观测的数据。2)在下方数据栏中选择感兴趣的数据,在可视化的平行坐标中突出展示其分布情况,使可视化效果更加直观。3)通过交换坐标轴把属性关系较密切的坐标轴相邻,更好地呈现属性间的关系;在未知属性间的关系时,可试探地调换坐标轴次序,发现不同属性间隐含的关系。步骤s102中,本发明实施例提供的角度、面积的计算方法具体包括:1)角度差异角度指两条平行坐标轴内两两数据线之间的夹角;在一定程度上,角度越大,反应数据在这两个维度上的相关性越强;角度越小,反应数据在这两个维度上的相关性越弱;角度的计算公式如下:2)面积差异面积指两条平行坐标轴内两两数据线之间的面积;即两两数据线围成的面积越大,数据差异越大;反之围成的面积越小,数据差异越小;实际情况中,两条平行坐标轴内的数据线之间构成的集合图形可以构成3种情况,利用三角形或梯形公式分别求得两两数据线之间的面积差异度量。步骤s103中,本发明实施例提供的mds降维算法包括:mds算法要求原始空间中样本之间的距离在低维空间得以保持,从而获得样本间的相似性的空间表达。利用mds算法降维的具体步骤包括:输入:各个属性维度的差异矩阵。输出:浮标监测数据的低维空间表示。1)读入各个数据节点在不同轴区间的数据差异,即角度差异和面积差异的加权值。2)计算多维数据节点的相似性矩阵;其中k表示数据的节点数量,δi,j表示节点i和节点j的差异,其计算公式为:其中,n代表的是数据的维数,差异矩阵的数量是n-1;a·nrom(θi,j)+b·norm(σi,j)表示平行坐标轴每两条轴之间数据节点i和数据节点j的加权差异,包含角度差异归一化值a·nrom(θi,j)以面积归一化值b·norm(σi,j)。3)算每个样本之间的欧氏距离:mds算法的结果是得到m个样本在原始空间的距离矩阵d,目标是获得样本在d’维空间中的表示,并且两个样本在d’维空间中的欧氏距离等于原始空间中的距离;欧式距离计算公式如下:4)计算降维后样本的内积矩阵b:根据步骤3)得到m个样本在原始空间的距离矩阵为d,其中第i行第j列的元素disti,j代表样本xi到xj的距离。我们的目标是获得样本在d′维空间的表示z,满足任意两个样本在d′维空间中的欧式距离等于原始空间中的距离,即||zi-zj||=distij。令b=ztz,其中,b为降维后样本的内积矩阵,有:根据矩阵计算相关知识,得:由此可通过降维前后保持距离矩阵d不变求取内积矩阵b。5)对内积b做特征值分解——求取特征值——计算特征值,从而求得矩阵z对矩阵b做特征值分解,b=v∧vt,其中∧为特征值构成的对角矩阵,v为特征向量矩阵,假设其中有d*个非零特征值,它们构成对角矩阵∧*,令v*表示相应的特征向量矩阵,则有:为了有效降维,往往仅需要降维后的距离与原始空间中的距离尽可能接近,而不必严格相等,此时取d′个最大特征值构成对角矩阵∧**=diag(λ1,λ2,.....λd′),令v**表示相应的特征向量,则:步骤s104中,本发明实施例提供的聚类分析具体包括:输入:初始数据节点在低维空间中的投影坐标。输出:低维空间投影点的聚类分析结果(分类结果和各类质心坐标)。1)随机选取k个中心点。2)遍历所有数据,将每个数据划分到最近的中心点;k-means算法以距离作为数据对象间相似性度量的标准,采用欧氏距离来计算数据对象间的距离;即数据对象间的距离越小,相似性则越高,它们越有可能在同一个类簇。3)计算每个聚类的平均值,并作为新的中心点;k-means算法聚类过程中,每次迭代对应的类簇中心需要重新计算,即为对应类簇中所有数据对象的均值。定义第k个类簇的类簇中心为centerk,则类簇中心更新方式如下:其中,ck表示第k个类簇,|ck|表示第k个类簇中数据对象的个数,求和是指类簇c_k中所有元素在每列属性上的和。4)重复步骤2)-步骤3),直到这k个中线点不再变化。下面结合具体实施例对本发明的应用原理做进一步描述。实施例:如图2所示,本发明分为五个步骤进行面向海洋多维数据的可视分析方法包括:第一步,利用平行坐标展示海洋多维属性数据,该平行坐标支持用户对轴进行排列、引入刷技术支持用户对平行坐标轴上感兴趣的数据进行筛选,同时为了突出某条数据在平行坐标中的分布情况,支持用户直接在数据栏中选取某一数据并实现在平行坐标中突出显示;第二步,对大规模海洋多维数据进行数据约简,然后利用最大最小化归一算法对数据进行预处理;第三步,引入角度、面积、正负相关性等方式度量数据在平行坐标中的差异,再结合各个属性中间的数据差异构建相似性矩阵,利用多维标度法对当前数据进行降维,得到原始数据在低维空间中的表达,并对其进行可视化展示;第四步,利用多尺度算法得到高维数据在低维空间上的表达,再利用k-means算法对降维后的输出值进行聚类分析,使得用户可以方便快速的分析隐藏在海洋多维数据背后数据间以及各维度间的规律。第五步,在上述步骤的基础上,分析海洋多维数据在不同时间点上的相关性以及同一时间上不同维数之间的相关性。下面结实验数据对本发明作进一步描述。实验数据为0°156°w地域一年内的浮标监测数据,每条数据包括气温、气压、降雨、海温、盐度、风速、下行辐照度7种要素,如表1所示,为部分初始浮标多维监测数据,每隔一小时记录一次:表1部分初始浮标多维监测数据气温气压降雨盐度海温风速下行辐照度28.75131008.58035.274729.59173.13222584.81328.75961008.42035.275729.66552.89673708.76428.76581007.81035.27729.8072.78067931.51628.81331007.16035.279129.96363.263711056.0128.80091006.49035.280230.01143.99485984.19928.85481005.83035.284530.05363.78582879.9828.90461005.55035.289930.07713.28626701.34329.06031005.62035.291730.01632.87584488.77229.12281006.15035.295630.02863.33768227.7328.78831006.85035.296430.03133.0947531.37328.69911007.5035.293229.9823.228870由于数据量巨大且杂乱,为了方便后续步骤,对初始数据进行整理,将数据按照月份划分为十二个月,再对十二份数据进行简约,最终提炼出代表十二个月份的数据,这里将其称为实验数据:表2实验数据气温气压降雨海温盐度风速辐照28.41311007.030.068535.152529.59814.5839240.874628.37861008.0740.255734.676729.22486.239288.190427.0211977.21250.053834.259227.64995.3078283.618727.7442999.83610.015334.791928.16822.2771276.838728.11007.9350.006735.007128.86133.2771229.453428.21005.9690.066733.562228.93274.2771220.634428.23451000.890.267534.492729.12545.2771255.170328.46831007.0030.142533.817629.48936.2771235.543523.5817998.35440.096532.817629.9492.7734264.199326.52181007.840.113733.817630.01093.5378254.538326.6651005.3490.064433.817629.93563.2429253.031726.0875975.70970.142335.817629.26323.1179229.2271。下面结合分析海洋多维数据在不同时间点上的相关性为例对本发明的操作流程作进一步描述。(1)对实验数据进行可视化展示:本发明采用平行坐标的方法对多维浮标监测数据进行可视化展示,如图3所示:该平行坐标支持用户对轴进行排列,如图4所示,通过交换坐标轴可以把其中属性关系较密切的坐标轴相邻,更好地呈现属性间的关系,在未知属性间的关系时,可以试探地调换坐标轴次序,这样可以发现不同属性间隐含的关系;通过添加刷技术选择用户感兴趣的时间点或者某一维度数据值得区间,使想观测的数据更加直观的展示,如图5所示,同时为了突出某条数据在平行坐标中的分布情况,支持用户直接在数据栏中选取某一数据并实现在平行坐标中突出显示,如图6所示;最后加入散点图对浮标监测数据进行多视角展示如图7所示;(2)数据预处理利用最大最小归一化方法,分别对原始实验数据的每个维度分别进行处理,使得原始实验数据结果值映射到[0-1]之间。转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值,结果如下:表3数据的归一化处理气温气压降雨海温盐度风速下行辐照度0.98870.967740.236960.77830.825160.57670.299610.9816410.954750.61970.667050.9904810.703840.046430.18060.4805300.757680.932330.851820.745460.032980.65810.2195300.831970.924630.9956900.729830.513090.250.130540.945090.934940.230060.24820.543330.500.952150.7780310.558370.624950.750.5112210.966890.520710.333330.7790810.2206900.699680.3443300.973780.124080.644870.601670.992760.410280.3333310.315180.501860.630970.915780.221240.333330.968110.241450.479560.5127900.5199410.683310.21020.12719(3)差异性度量根据公式计算出坐标轴之间12条数据之间的差异,这里总差异是两两平行坐标轴之间的六组数据差异相加,差异计算结果如图8所示。(4)多维尺度分析方法和k-means聚类:1)多维尺度分析方法:输入:各个属性维度的差异矩阵;输出:浮标监测数据的低维空间表示;。根据本发明提供的mds算法计算步骤,输入12个月份浮标数据差异矩阵,输出结果如图9所示,代表十二条数据投影在二维平面上的投影点坐标;图10为其可视化展示效果:2)k-means聚类:输入:初始数据节点在低维空间中的投影坐标;输出:低维空间投影点的聚类分析结果;为了使数据间隐藏的信息变得更加明确,采用kmeans算法对上一步中mds算法的输出结果进行聚类;如图11所示,颜色相同的代表聚为一类,‘+’状代表各个类别的质心:(5)相关性分析基于步骤(4)中的可视化展示结果,可以分析多维浮标监测数据十二个月中数据的相关关系,例如图11所示,浮标监测数据9、10、11这三个月聚为一类,证明这三个月份的数据波动变化不大,具有一定的相似性。证明部分(具体实施例/实验/仿真/药理学分析/能够证明本发明创造性的正面实验数据、证据材料、鉴定报告、商业数据、研发证据、商业合作证据等)证明部分(具体实施例/实验/仿真/药理学分析/能够证明本发明创造性的正面实验数据、证据材料、鉴定报告、商业数据、研发证据、商业合作证据等)下面结合效果对本发明作进一步描述。对于支持用户操作方面,如下图12所示,图左为传统的可视化方法,只是简单的进行数据展示;图右为本发明提出的可视分析方法。本发明提供的平行坐标可视化分析方法对浮标观测点数据进行可视展示,支持用户直接选择所需分析的数据文件;通过添加滑块功能选择用户感兴趣的时间点或者某一维度数据值得区间,使想观测的数据更加直观的展示;在下方数据栏中选择感兴趣的数据,可以在可视化的平行坐标中突出展示其分布情况,使可视化效果更加直观;通过交换坐标轴可以把属性关系较密切的坐标轴相邻,更好地呈现属性间的关系。在未知属性间的关系时,可以试探地调换坐标轴次序,这样可以发现不同属性间隐含的关系.对于数据展示方面,传统的可视分析技术旨在对数据进行单一的可视化展示;而本发明提出的方法在对数据进行可视化展示的同时,添加散点图对数据进行多视角的展示,有效地结合了降维算法及散点图矩阵的优势,不仅支持原始数据的解读,而且数据线的分布能够有效地展示多维数据的特征。如图7所示。对数据信息挖掘方面,传统的方法往往存在缺陷;本发明提出的可视分析方法在数据可视化展示后,计算数据间的差异,再利用多维尺度降维算法和k-means聚类得到高维数据的低维表达,使挖掘海洋多维数据背后隐藏的关系更加便捷,克服了现有技术中存在的对海洋多维数据可视分析中存在的对数据间相关性以及对各维度之间相关性的分析上存在的缺陷。如图13、14所示。在实验过程中,本发明在数据读取方面相比于传统的统计学软件具有明显优势,能够根据用户需求快速抽取感兴趣的数据;相比于经典的聚类方法,本发明是在平行坐标视觉差异的基础上,对多维数据进行降维和聚类,从视觉角度实现数据分析和特征挖掘;本发明提出的方法不仅可以呈现不同时间、维度数据,而且支持用户探索式地发现海洋数据背后隐藏的信息,可以为领域专家和提供更深入的分析手段,具有较强的实用价值。下面结合实验结果对本发明作进一步描述。选取一组实验结果,目的是分析浮标监测数据各属性之间的相关性。下图分别代表的是多维数据的可视化展示结果、计算所得差异结果、降维可视化展示结果以及k-means聚类结果如:图15可视化展示图,图16差异度量结果图,图17多维尺度分析方法降维结果图。图18k-means聚类结果图。为了进一步该实验方法的实用性,邀请了统计学专家和海洋学专家对本发明提出的方法进行使用和评估。统计学专家对本发明数据读取和可视分析功能方面给予高度评价,主要包括如下几方面:1)本发明在数据读取方面相比于传统的统计学软件具有明显优势,能够根据用户需求快速抽取感兴趣的数据;2)相比于经典的聚类方法,本发明是在平行坐标视觉差异的基础上,对多维数据进行降维和聚类,从视觉角度实现数据分析和特征挖掘;海洋学专家在利用本发明方法对海洋多维数据进行可视分析的过程中,通过交互操作发现不同时间节点的数据存在显著的相似性,并验证了该方法在研究属性间相关性的有效性;该专家认为,本发明提出的方法不仅可以呈现不同时间、维度数据,而且支持用户探索式地发现海洋数据背后隐藏的信息,可以为领域专家和提供更深入的分析手段,具有较强的实用价值。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1