基于表征采样的高维复杂集合数据的不确定性可视化方法

文档序号：36718497发布日期：2024-01-16 12:19阅读：18来源：国知局

本发明属于数据可视化，具体涉及一种基于表征采样的高维复杂集合数据的不确定性可视化方法。

背景技术：

1、集合数据的不确定性可视化旨在表示与集合数据相关的不确定性，这种不确定性可能与数据收集、处理、表示或其它与数据集相关的因素有关。目前有很多集合数据的不确定性可视化方法都取得了较好的效果，然而当集合数据过于庞大、复杂的时候，由于过多的可视化元素，会导致可视化的结果过于复杂，造成视觉混乱，可视化的效果会变得很差，现有的方法无法很好的应对这个问题。对此，基于表征采样的技术可以在几乎不改变集合数据的统计分布的情况下对集合数据进行采样并得到集合数据的代表性子集，让该代表性子集来表示当前集合数据，从而降低集合数据的复杂度，提升可视化的效果。

2、在过去的工作中，对集合数据进行采样得到具有代表性的子集数据，利用代表性子集数据来代表集合数据，然后再进行不确定性可视化的这一技术虽然已经被应用，但是具有一定的限制，那就是过去的工作所使用的采样技术只能应用于2维的集合数据点上，不适用于高维度的集合数据点。为了解决这个问题，需要构建一个实用性更强的表征采样框架来应对高维度与高复杂结构的集合数据不确定性的可视化，从而克服现有方法在可视化集合数据不确定性上的局限性。

技术实现思路

1、为了克服现有技术的不足，本发明提供了一种基于表征采样的高维复杂集合数据的不确定性可视化方法，首先利用cvt算法将集合数据转换至均匀分布的空间，然后使用带有泊松盘属性的加权样本消除算法对已转换至均匀分布空间的集合数据进行随机均匀采样得到代表性子集，最后利用径向基函数(rbf)插值算法来比较完整集合和采样子集数据在数据深度上的差异来验证表征采样技术的有效性。本发明可以降低集合数据的复杂性，同时保留原集合数据的统计分布，这不仅可以更方便的传达底层的不确定性，还可以应对高维度与高复杂度集合数据不确定性的可视化。

2、本发明解决其技术问题所采用的技术方案包括如下步骤：

3、步骤1：使用2d与3d的点或者轨迹的原始数据集；

4、步骤2：对原始数据集进行数据清洗，每一条数据都被编一个标号，再对数据的每一个维度进行最大最小归一的操作进行标准化，使得每一个维度的数据成员的范围都位于区间[0,1]内；

5、步骤3：使用cvt算法让归一化后数据的分布转换为均匀分布；

6、步骤4：使用加权样本消除的方法生成泊松盘样本集对均匀分布后的数据进行随机均匀采样，得到代表性子集；

7、步骤5：通过rbf插值算法在代表性子集和原始数据集上进行插值后，计算它们各自的单纯深度，最后比较它们在单纯深度上的差异，定量衡量所述不确定性可视化方法的有效性。

8、优选地，所述步骤3中，为了将数据转换为均匀分布的空间，将每个数据视为高维空间的一个点，通过将这些数据作为voronoi单元质心的初始种子点，进行cvt迭代，直到这些数据变为均匀分布。

9、优选地，在数据处理阶段对每一条数据进行了标号，当得到代表性子集后，能够通过代表性子集数据的标号对应得到原始数据。

10、优选地，所述原始数据集中，2d数据集为模拟飓风轨迹数据集与从模拟飓风路径集合中提取的特定时间步长预测飓风位置的数据集，3d数据集为脑部mri纤维束追踪数据集与从模拟飓风轨迹的集合中提取的特定时间步的预测飓风位置以及风速的数据集，这些数据集均以csv文件的形式进行保存。

11、优选地，所述加权样本消除的方法具体如下：

12、首先被给定一个最小样本间的距离r，然后计算每一个样本所占的权重，将所有样本的权重进行排序，每次取一个最大权重值所对应的样本，将该样本消除，并更新与该样本相邻的其它样本的权重，这样每次都能够消除一个样本，直到样本的数量变为所要求的数量；

13、对于某一个样本i，在距离该样本2*r范围内的所有其它样本，都要与样本i计算一个部分权重，并称这些样本与样本i相邻；部分权重的计算公式为表示与样本i相邻的一个样本j相对于样本i的一个权重，最后将所有的wij累加作为样本i的权重wi；公式中dij为样本i与样本j的空间距离，α为超参数；

14、当删除一个样本k时,与样本k相邻的所有其它样本的权重都要加上样本k的权重来做一次更新。

15、本发明的有益效果如下：

16、本发明的表征采样技术对原集合数据进行采样得到一个较小的集合数据作为代表性子集后，可以降低集合数据的复杂性，同时保留原集合数据的统计分布，这不仅可以更方便的传达底层的不确定性，还可以应对高维度与高复杂度集合数据不确定性的可视化。

技术特征：

1.一种基于表征采样的高维复杂集合数据的不确定性可视化方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于表征采样的高维复杂集合数据的不确定性可视化方法，其特征在于，所述步骤3中，为了将数据转换为均匀分布的空间，将每个数据视为高维空间的一个点，通过将这些数据作为voronoi单元质心的初始种子点，进行cvt迭代，直到这些数据变为均匀分布。

3.根据权利要求1所述的一种基于表征采样的高维复杂集合数据的不确定性可视化方法，其特征在于，在数据处理阶段对每一条数据进行了标号，当得到代表性子集后，能够通过代表性子集数据的标号对应得到原始数据。

4.根据权利要求1所述的一种基于表征采样的高维复杂集合数据的不确定性可视化方法，其特征在于，所述原始数据集中，2d数据集为模拟飓风轨迹数据集与从模拟飓风路径集合中提取的特定时间步长预测飓风位置的数据集，3d数据集为脑部mri纤维束追踪数据集与从模拟飓风轨迹的集合中提取的特定时间步的预测飓风位置以及风速的数据集，这些数据集均以csv文件的形式进行保存。

5.根据权利要求1所述的一种基于表征采样的高维复杂集合数据的不确定性可视化方法，其特征在于，所述加权样本消除的方法具体如下：

技术总结
本发明公开了一种基于表征采样的高维复杂集合数据的不确定性可视化方法，首先利用CVT算法将集合数据转换至均匀分布的空间，然后使用带有泊松盘属性的加权样本消除算法对已转换至均匀分布空间的集合数据进行随机均匀采样得到代表性子集，最后利用径向基函数(RBF)插值算法来比较完整集合和采样子集数据在数据深度上的差异来验证表征采样技术的有效性。本发明可以降低集合数据的复杂性，同时保留原集合数据的统计分布，这不仅可以更方便的传达底层的不确定性，还可以应对高维度与高复杂度集合数据不确定性的可视化。

技术研发人员：刘乐,张艳宁,罗莞东,王鹏
受保护的技术使用者：西北工业大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘乐,张艳宁,罗莞东,王鹏
技术所有人：西北工业大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。