版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第 2*卷 第 *期 计算机辅助设计与图形学学报 Vol. 2* No.* 201*年 *月 Journal of Computer-Aided Design & Computer Graphics *. 201*复审稿 多维数据的不确定性可视相关分析张 怡 , 熊朝阳 , 张加万(天津大学软件学院 天津 300350(yizhang摘 要 :基于不确定性的相关关系和原始数据的相关关系作为两种相关关系具有一定的联系与区别 . 为了找出不确 定性相关关系并有效对比这两种相关关系的异同 , 发现可能产生额外不确定性的数据特征 , 提出了一套分析框架和 交互系统 . 首先进行聚类分析 , 并
2、根据聚类结果得到分组 ; 然后根据不确定性定量方法计算得到的每组不确定性数 据来构建不确定性数据集 , 并进行相关分析和对比分析 ; 最后建立可视分析系统来帮助用户利用不确定性相关关系 来筛选出可能产生额外不确定性的数据 . 使用两个差异较大的真实数据集 , 验证了框架和系统的可用性和有效性 .关键词 :不确定性可视化 ; 多维数据 ; 数据聚类 ; 相关分析 ; 统计检验中图法分类号 :TP391.41Uncertainty-aware Visual Correlation Analysis for Multidimensional DataZhang Yi, Xiong Zhaoyang,
3、 and Zhang Jiawan1 (Tianjin University, Tianjin 300350Abstract : There are some similarities and differences between the correlation based on uncertainty and the correlation of original data. In order to find out the uncertainty correlation, effectively compare the similari-ties and differences betw
4、een the two correlations and discover the data characteristics that may generate ad-ditional uncertainty, this paper proposed a framework for analyzing the uncertainty correlation and an inter-active system. Firstly, the framework performs clustering analysis, and obtains several groups according to
5、 the result of clustering analysis. Then it constructs the uncertainty data set through calculating the uncer-tainty of each group by the uncertainty quantification method and executes the correlation analysis and comparative analysis. Finally, a visual analysis system is established to help users u
6、se the uncertainty corre-lation to filter out data that may generate additional uncertainty. Experimental results on two real-world da-tasets demonstrate the effectiveness of our approach.Key words: Uncertainty visualization; Multidimensional data; Data clustering; Correlation analysis; Statistic te
7、st收稿日期 : 20*-*-*; 修回日期 : 20*-*-*. 基金项目 : 基金名称 1(项目编号 1, 项目编号 2, ; 基金名称 2(项目编号 1, 项目编号 2, ; . 张怡 (1981 , 女 , 博士 , 副教授 , 硕导 , 主要研究方向为可视化与可视分析、 图形图像 ; 熊朝阳 (1992 , 男 , 硕士在读 , 通讯作者 , 主要研究方向为可视化与可视分析 ; 张加万 (1975 , 男 , 博士 , 教授 , 博导 , CCF 会员 , 主要研究方向为可视 化与可视分析、图形图像、语义网与知识图谱 .2 计算机辅助设计与图形学学报 第 2*卷1 简 介在数据的获取
8、和处理过程中 , 由于获取方法 的不完善以及数据处理方法的缺陷所造成的数据 不确定性逐渐引起了研究人员的注意 . 不确定性 作为评价数据质量的重要属性 , 指的是事物的存 在状态和结果无法被精确描述 . 其产生的主要原 因有以下几个方面 : 一是数据收集来源的不可靠 . 当前用于分析的数据大量来自互联网 , 这些数据 往往伴随着信息的失真 , 缺失甚至是欺骗 . 二是测 量数据的误差 . 传统测量方式往往伴随着大量的 误差 , 即使是在计算机时代 , 由于计算机的不精确 性 , 在测量和录入阶段也会产生误差 . 最后是在数 据的处理过程中 , 任何对原始数据的更改都会产 生不确定性 . 由于数
9、据不确定性的大小对决策结 果的可靠性会产生重要影响 , 当不确定性产生后 , 合理的定量方法和分析方法就显得非常关键 . 近几年对于不确定性的研究主要在数据获取 , 变换 , 传播的过程中不确定性的建模与分析 , 以及 基于不确定性集合数据的差异分析等其他方面 . 而对于多维数据维度之间基于不确定性的关系的 分析却寥寥无几 . 当要分析的数据中产生了较大 不确定性 , 可能会直接导致分析过程误入歧途 , 得 出完全不正确的结论 . 此时如果能快速找出可能 产生误差 , 使得不确定性增高的变量 , 并筛选出可 能导致额外不确定性的部分数据 , 这将会使得整 个数据集的不确定性在可控范围内 , 并
10、使数据分 析工作更加高效可靠 . 本文针对这种应用场景 , 提 出了一个分析变量之间基于不确定性的相关关系 的框架和进行对比分析和筛选数据的交互系统 . 该框架将会使分析者发现不确定性相关关系和原 数据的相关关系的异同 , 交互系统更能帮助分析 者定位受不确定性影响的变量和数据 . 我们工作 的首要目标便是提取原数据中的不确定性信息 . 工作原理如下 : 首先对原数据进行聚类分析 . 其次 , 通过聚类结果对原始数据进行分组 , 并利用不确 定性定量方法计算每组的数据不确定性 . 然后构 建不确定性数据集来分析相关关系 . 但是当我们 在第二步中使用不同的分组方法时 , 构建的不确 定性数据集
11、是截然不同的 . 什么样的不确定性数 据才是最合理的 , 最符合实际的数据 , 还需要进行 进一步的检验分析 .真实的数据往往近似正态分布 , 因此我们需 要利用统计学中的正态性检验方法来检验构建的 不确定性数据是否符合正态分布 . 正态性检验主 要 包 括 Shapiro-Wilk (W 检 验 1, Q-Q(quantile-quantile图等检验方法 . 在分析框架 中我们也将使用上述两种检验方法 .相关性分析是使用最广泛的多维数据分析方 法 , 它能够判断变量之间是否有相关关系以及相 关程度 . 根据得到的不确定性数据集 , 我们将利用 相关分析方法来分析基于不确定性维度之间是否 存
12、在相关关系以及相关程度 , 并与原始数据的相 关关系进行对比 , 分析这两种相关关系可能存在 的异同 . 我们也将利用不确定性关系在交互系统 中筛选出可能产生额外不确定性的数据 .2 相关工作2.1不确定性分析不确定性作为数据的一个重要属性 , 其定义 是什么 , 基于这个问题发表了大量的研究成果 . Skeels 等人 2对信息可视化的不确定性进行了综合 分类 . Hunter 和 Goodchild 3将不确定性定义为 对于误差量多少的认知的缺失程度 . 在文献学中 , 不确定性也可以通过准确性 , 可靠性 , 精度和一致 性来表征 4. 在计量学中 , 不确定性是描述测量值 偏差的参数
13、5. 气象学家一般将不确定性的来源归 类为随机误差和基于评估方法的系统不确定性 , 这两种不确定性都可以用标准差来表示 , 叫做标 准 不 确 定 性 . 而 在 信 息 学 中 , 通 常 使 用 信 息 熵 (entropy6来估计信息的不确定度 . 这两种不确定 性的表示方法都有各自的使用条件和场景 . 在近几年 , 在数据的整个分析过程中探索不第 *期 张怡 , 等 : 多维数据的不确定性可视相关分析 3确定性的演化方式和变化规律以及在大数据时代 分析多维集合数据的不确定性逐渐成为了热门的 研究课题 . Pang等人 4对传统的不确定性可视化技 术进行了全面的调查 . Thomson
14、等人 7提出了可视 化 智 能 分 析 中 不 确 定 性 的 类 型 学 . Zuk 和 Carpendale 等人 8通过加入推理的不确定性扩展了 这种类型 . Correa 等人 9提出了一个在整个数据可 视分析过程中利用统计学方法介绍不确定性的框 架 , 这篇文章主要是在原始数据的变换和聚类等 分析过程中对数据中的不确定性进行建模分析 , 并进行相应的可视化展示 . Roy 和 Oberkampf 等人 10描述了科学计算中不确定性建模和量化的不确 定性框架 . Wu 等人 11改进并完善了 Correa 9的工 作 , 提出了一种在分析过程中定量 , 跟踪和可视化 不确定性的分析方式
15、 , 以流的方式使得用户在整 个分析过程中能够直观有效的管理不确定性 , 定 位提高了不确定性的步骤 , 帮助用户通过降低分 析过程中的不确定性来改善结论并提高结论的可 靠性 . 另外 , 作者还介绍了利用标准误差椭圆的体 积来定量多维数据的整体不确定性 . Chen 等人 12针对多维整体数据集展示了一个探索数据内部特 征和不确定性的交互式系统 , 其核心是一个新的 基于不确定性的多维数据映射方法 , 不仅能够反 映集合数据的均值差异 , 并且还能体现整体数据 的分布情况 . 我们的工作借鉴了前人的部分思想 和方法 , 例如不确定性的建模方法和定量方式 , 针 对原始数据中存在的不确定性 ,
16、 来分析多维数据 的各个维度之间可能存在的关系 .2.2聚类分析与统计学方法统计学方法 13和聚类方法是在多维数据分析 中使用非常广泛的工具 , 能够帮助分析数据中的 可能的分布类型 , 离散情况以及数据中可能的分 类情况 . 其中包含了很多测试方法来评估数据的 合理性 . Royston 和 Patrick 1提出一个名叫 W-test 的检验方法来检验数据分布在一定的置信区间中 是否符合正态分布以及符合程度 . Becker 等人 14利用分位图 (Q-Q plot 来直观的检验正态分布 . 另 外 , 概率图 (P-P plot 和频率分布直方图也是重要 的 图 形 检 验 方 法 .
17、魏 鹏 等 人 15提 出 了 一 种 基 于 K-means 聚类算法来计算维度之间的聚类的方法 . Ferdosi Bilkis J等人 16通过子空间聚类的方法分析 维度之间关系 . Zhao X 等人 17主要通过聚类来分 析相邻维度之间的相关性 .2.3相关分析相关分析能够有效的帮助我们发现多维数据 中变量之间的可能存在的关系 , Pearson 相关系数 18是相关分析中使用最普遍的对于数值型数据的 分析方法 . Zhang 等人 19和 Jinwook Seo 等人 20使用 Pearson 相关系数来计算两个维度之间的相关 性 . 此外 , Spearman系数 21和 Q &
18、amp;R 系数 22也用于 分析两个变量之间的相关性 , 它们分别主要用于 有 序 数 据 和 分 类 数 据 . 我 们 的 工 作 将 会 使 用 Pearson 相关系数来分析维度之间的相关关系 .3 不确定性分析框架与交互系统 图 1 总体框架流程图相关关系分析是多维数据分析普遍采用的方 法 , 而不确定性作为数据的重要属性 , 通常分布在 数据的每个维度之中 , 因此定量多维数据中每个 维度的不确定性 , 分析维度之间基于不确定性的 相关关系成为了这个框架主要解决的课题 . 交互 系统的使用则方便用户进行进一步的对比分析和 不确定性数据特征的挖掘 . 分析框架与交互系统 流程图如图
19、 1所示 .3.1框架简介要分析维度之间基于不确定性的相关关系 , 首要目标便是得到明确展示了原数据不确定性的 数据集 . 因此 , 这个框架主要包括两个部分 , 第一 部分是通过聚类和分组计算构建不确定性数据集4 计算机辅助设计与图形学学报 第 2*卷并加以相应的数据检验 . 第二部分是根据得到不 确定性数据集利用相关分析来得到维度之间的基 于不确定性的相关关系 .在第一部分 , 首先对数据进行标准化处理以 消除量纲的影响 . 利用现存的聚类算法对处理后 的数据进行聚类分析 , 依据轮廓系数得到最优化 的分类 . 然后根据聚类结果对数据进行分组 , 并按 照现在的不确定性定量方法来计算每组的
20、不确定 性 , 最后将不确定性结果构建成方便用来分析的 数据形式 . 众所周知 , 数据越接近真实越符合正态 分布 , 不确定性也不例外 . 而且由于此数据是用来 进行相关分析 , 且相关分析中的检验方法要求数 据近似符合正态分布 . 因此 , 我们还需要对构建的 不确定性数据进行正态检验 , 来验证数据是否符 合要求 .在第二部分 , 我们使用 Pearson 相关系数 18来 对构建的不确定性数据进行相关性分析 , 判断维 度之间是否存在不确定性的相关关系以及相关程 度 . 根据这些结果 , 并与原数据的相关关系进行对 比分析 , 得出结论 .3.2方法与步骤3.2.1 数据标准化由于多维
21、数据各位维度上往往具有不同的量 纲和量纲单位 , 直接进行数据分析常常会影响分 析结果 . 为了消除维度之间的量纲影响 , 需要对数 据进行标准化处理 , 解决数据维度之间的可比性 , 使得数据在进行第二步基于距离的聚类分析时 , 所有变量在计算距离中发挥相同的作用 . 在这个 框架中 , 我们使用 Z-score 14来进行标准化操作 . 3.2.2 聚类分析聚类是将数据集中相似的对象通过静态分类 的方法分成不同的组别或者更多的子集 . 例如 , 在 基于距离的聚类方法中 , 对象之间的距离越短 , 相 似性越高 . 相似性越高的数据集也就意味着不确 定性越低 . 因此 , 我们能够通过聚类
22、方法来观察数 据集中各个对象的相似程度 , 方便我们利用其它 合理的分组方法得到近似服从正态分布的不确定 性数据集 .K-medoids 聚类算法是常用 K-means 算法的 改进版本 . 不同于将所有数据点的平均值作为中 心点的 K-means, K-medoids 是选取一个数据点作 为聚类中心点 , 这个数据点需要满足在它所属聚 类中到其它所有数据点的距离之和最小 . 因此 , K-medoids 解决了 K-means 对噪声数据很敏感的问 题 , 是一个更具有鲁棒性的聚类算法 .在框架中 , 我们将使用 K-medoids 聚类最常见 的实现版本 PAM(Partitioning
23、Around Medoids 23聚类算法 . 但是在此之前 , 首先要解决的问题是决 定 聚 类 的 最 优 个 数 . 我 们 将 使 用 轮 廓 系 数 (silhouette24来解决这个问题 .( (max (, (b i a iS ia i b i-=(1 其中 , (a i 表示的是 i 向量到同一簇内其他点不相 似程度的平均值 , (b i 定义的 i 向量到其它簇的平 均不相似程度的最小值 . (S i 的取值范围在 1,1-之间 , 接近于 1说明数据点的聚类簇较合适 , 接近 1-则说明数据点应该被聚类到其相邻的簇中 , 近 似于 0说明该数据点在两个簇的边界上 . 整个
24、数 据集的平均 (S i 值表示的是整体聚类效果 , 所以 我们可以通过比较每个聚类个数 K 下的平均 ( S i值来获得最优聚类个数 (图 2a. a. 轮廓系数折线图 b. 聚类散点图图 2 聚类分析图根据得到的最佳聚类个数 , 我们将使用 PAM 方法进行聚类分析 . 结果将以传统散点图的形式 展示 (图 2b. 横纵坐标分别是利用 PCA 得到最重要两 维属性 . 不同的颜色代表着不同的聚类 . 而且相应的 轮廓系数详细信息将展示在柱状图 (图 3 中 . 每个 柱的长度表示该点的轮廓系数大小 . 从这个图中 , 我们不仅可以了解每个簇 (分别为 0.53, 0.45 和整 个数据集的
25、平均轮廓系数 (0.47, 还可以了解各个 数据点的轮廓系数的分布情况 . 而这也是我们进第 *期张怡 , 等 : 多维数据的不确定性可视相关分析 5 行分组的重要条件 .图 3 聚类结果的轮廓系数分布图 .3.2.3 不确定性定量方法在这个部分 , 我们将首先介绍当前使用较为 广泛的两种不确定性定量方式 , 然后我们将简单 讨论一下这两种不确定性的差异以及适用场景 .在一维空间 , 标准差是非常流行的用来定量 随机变量不确定性的度量标准 . 它衡量的是数据 分布的离散程度 , 而这也是在某种程度上不确定 性的定义 . 但是在信息论中 , 我们通常使用信息熵6来衡量信息的不确定度 :1(Xlo
26、g ki b ii H p p =- (2其中 b 表示对数的基数 , 不同的 b 值可以获得不同单位的信息熵 . 常用的 b 值分别为 2, e 和 10, 相应的单位分别为 bit, nat 和 hartly. 在框架中 , 我 们将使用 2作为 b 的值 . i p 表示变量 i x 的概率函 数 . 信息熵表示信息量 . 信息熵越大 , 信息量越大 , 不确定度越高 .对比于标准差 , 信息熵更适合描述信息的不 确定度 , 这是信息熵的定义 . 在均匀分布 , 正态分 布 , 伯努利分布 , 二项分布等分布下 , 标准差和信 息熵描述不确定性的效果是等价的 25. 然而 , 当 数据出
27、现多峰状态时 , 此时信息熵增大而标准差 可能减小 , 此时信息熵能更好的表示不确定性 . 更 重要的是 , 信息熵能更好的处理类别数据 , 特别是 当类别的取值没有实际意义的情况 . 所以 , 我们将使用信息熵来衡量不确定性 .3.2.4 正态性检验由于我们构建的不确定性数据集并不是直接 由现实情况得到 , 而且在随后的步骤里 , 我们还需 要对构建的数据集进行相关性分析 , 其中的检验 方法要求数据集是来自正态总体 . 所以我们需要 对构建的不确定性数据集进行正态性检验 , 以此 来判断我们构建的数据集是否合理 .当前主要的正态性检验方法主要有以下两种 , 统计学方法主要是 Shapiro
28、-Wilk(W检验 14. 该方 法类似于线性回归的检验方法 , 是检验其于回归曲线的残差 , 用于验证一个随机样本数据是否来 自正态分布 , 属于拟合优度统计量检验方法 . 通常 推荐在样本量较小的时候使用该检验方法 . W检验 返回两个检验值 : p-value 和 W. 当 p-value 大于显 著性水平 0.05, 不能拒绝零假设 : 即样本来自正态 分布 . 统计量 W 能被如下公式得到 :(22i i i a y W y y =- (3其中 , i y 是原随机变量样本排序后得到的样本数据 , i a 可由下式得到 :(111112, , T n Tm V a a m VV m-
29、=(4其中(1, , Tn m m m = (51, , m n m 是遵循标准正态分布的独立同分布的随机变量的顺序统计量的期望值 , V 表示这些顺序统计量的协方差矩阵 . 统计量 W 是连续样本 i y 和 系数 i a 之间线性回归的决定系数 . W 的值越高 , 样本与正态分布越匹配 . 但是仅凭这一个参数是 不够的 , 在非正态分布的小样本数据中也经常会 出现较大的 W 值 , 所以一般在选用 W 检验时 ,p-value 会起到主导作用 .另外 , 我们还会使用图示法中的分位图 (Q-Q来对我们的测试结果进行辅助检验 .6计算机辅助设计与图形学学报 第 2*卷 3.2.5 分组和计
30、算在这部分 , 我们将会讨论三种数据的分组计 算方式 , 并使用上部分介绍的正态性检验作为评 价标准 .1. 根据图 3中轮廓系数分布图和聚类结果 , 我们会将原始数据分成若干小组 . 具体 步骤如下 , 首先将每个聚类簇作为初始 分组 . 在每个簇中 , 我们将在轮廓系数 分布平滑或者陡峭的地方将数据划分成 几个部分 . 在图 3中 , 第一个簇可以分为 两部分 , 第二个簇分为三部分 . 然后在 每个部分中 , 我们将数据划分成最终的 小 组 , 每 个 小 组 包 含 同 等 数 量 的 数 据 . 此外 , 最终组数不能太少 , 便于在进行 正态检验和和相关性分析时拥有良好的 可靠性
31、. 例如在图 3中的拥有 392个数据 样本 , 最终组数可能在 25组左右 .2. 根据图 3中轮廓值的分布情况 , 从上到下 对原数据进行均匀个数的分组 , 而没有 根据轮廓值分布的平滑与陡峭情况把数 据分为几块 . 例如在图 3中 , 按照每 14行划分为一个小组 , 最终得到了 28组数 据 .3. 不进行聚类等操作 , 直接根据某个维度 变量值的大小对原数据进行排序 , 然后 对排序后的数据进行均匀分组 .按照这几种数据的分组方式 , 根据信息熵来 计算每组数据的不确定性 , 构建成方便我们进行 数据分析的数据形式 (图 4. 然后根据正态性检验 方法来检验每种分组方式的合理性.图
32、4 不确定性数据集的部分结果图 5 三种分组方式的正态检验结果图 . 上侧表格是 SW-test 的检验结果 , 下侧为相应的分位数分布图 .图 5 是以 Cars 数据集为例子得出的正态性检 验结果图 , 若要满足数据近似正态分布 , W 检验中p-value 必须满足大于 0.05的条件, 相应的 W 值则 越高越好 , 反映在图示法中则表现为分布接近直 线 . 对比上册三种 W-test 检验结果 , 第一种分组方 法 中 , 五 个 变 量 (economy, displacement, power,timeTo60mph, year 的 p-value 均大于显著性水平 0.05,
33、并且相应的检验量 W 值都在 0.9以上 , 可以 认为这五个变量均近似正态分布 . 而在第二种和 第三种分组方法中 , 分别只有 year 属性和 power 属性的 p-value 大于 0.05. 下侧利用分位数图示法 进行的正态检验的结果 . 在这我们选取了 economy 属性, 得到了三种分组方法的分位图 , 我们可以明 显发现第一种分组方法的分位数分布更接近于一 条直线 , 意味着数据分布更符合正态分布 .综上所述 , 在 Cars 数据集中个,与第二种和 第三种分组方法相比 , 第一种分组方法使得大多 数变量满足条件 . 可以认为近似正态分布 . 在 4.2节中, 我们使用了维
34、度更多、 观测值更多的 Boston 房价数据集来进一步验证了我们第一种分组方法 的合理性,我们发现其中 8个属性的 p-value 均大 于 0.05, 说明大部分维度均近似正态分布 . 通过这 两个完全不同类型的数据集的检验充分说明了第 一种分组方式的合理性 .3.2.6 相关分析在这一部分 , 我们将利用 Pearson 相关系数对上部分经过检验的数据集进行相关性分析 . 计算 公式如下 :第 *期张怡 , 等 : 多维数据的不确定性可视相关分析 7 n i i x x y y R -=(6其中 , x 和 代表着参数均值 . 相关分析除了返 回检验量 R 外 , 还返回显著性水平 p-
35、value. 我们 将显著性水平设置为 0.05. 只有当 p-value 低于0.05时 , R 的值才有意义 . 此时 , 当 R 值越高 , 则 表明线性相关越显著 . 当 p-value 超过了 0.05, 两 个个变量之间则没有相关关系 .另外 , 我们还将对原数据本身的相关关系进 行分析 , 并与得到的不确定性的相关关系进行对 比 , 找出这两种相关关系的异同点 .3.2 可视分析与交互设计本节将介绍一套整合的可视交互分析系统 , 用来帮助用户通过对比数据集中两种不确定性关 系 , 并利用交互操作来定位和筛选出最可能产生 额外不确定性的变量和数据 .3.3.1 可视分析工具及流程交
36、互界面如图 6所示, 主要分为 5个部分, 维 度散点图 (A 展示了各个维度上的常用统计量 . 原 数据散点图(B 可以观察某两维的散点分布以及相关情况。C 和 E 分别是原数据和通过我们的框架 构建的不确定性数据集的相关图。 平行坐标图 (F 展示了原数据在各个维度上的分布情况。用户首先导入待分析的数据文件, 整个探索流 程将会从维度特征散点图开始。 该系统计算了常用 的统计特征以及不确定性, 用户可通过点击感兴趣 的两维来决定原数据散点图 (B的 x 和 y 轴。 A 和B 两图均可进行放大缩小以及拖动的操作以方便 用户对某个范围内的点进行观察 . 两个相关图分 别是原始数据的和不确定性
37、的相关关系图, 用户可以对维度按照相关性进行排序, 也可点击自己感兴 趣的某两维进行两种相关性的对比。 用户可以在 F 图中将感兴趣的两维拖动到一起来观察数据的分 布情况 , 也可以在坐标轴上进行筛选操作, 找出具 有特定特征的部分数据 .图 6 可视分析系统的交互界面 . 图 A 为维度散点图 . 图 B 为原始数据的散点图 . C 和 E 分别为原始数据相关 图和不确定性相关图。 F 图为原数据的平行坐标图 .4 用例分析在这部分 , 我们将会使用两个常见的数据集 ,Cars 数据集和 Boston 数据集 , 运用我们的框架进 行用例分析 , 做出相应的结论 .4.1 Cars 数据集C
38、ars 数据集包含 7个维度 (economy, cylinder, displacement, power, weight, timeTo60mph, year和 392条数据 . 其中 , 维度之间的关系非常具有代表 性 , 所以我们把这个数据集作为我们的典型用例 . 首先 , 我们对数据进行标准化处理 , 然后进行最佳 聚类个数分析 , 结果如图 1所示 , 当聚类个数为 2时 , 轮廓系数最高 , 聚类效果最好 . 图 2展示了聚 类分析的结果 , 可以发现两种颜色的簇重合范围 较小 , 数据基本分离开 , 聚类结果是可以接受的 .然后我们根据聚类结果得到了轮廓系数图 , 如图 3所示
39、 , 整个数据集的轮廓系数为 0.47, 反映 了较好的聚类效果 . 我们根据每个数据点详细的 轮廓系数分布 , 按照第一种分组办法 , 分别将这两 个聚类得到的簇划分为 3个和 6个初始分组 , 每个 初始组中再划分成包含相同数据量的小组 , 最终 分别在两个簇中得到了 7个和 18个小组 , 共计 25个小组 . 最后根据第三部分所介绍的信息熵这个 不确定性定量方法计算得到最后的不确定性数据 集 , 部分结果如图 4所示 . 图 5中第一组结果就是 该数据集的正态检验结果 , 数据基本满足正态分 布 , 可以认为来自正态总体 .8 计算机辅助设计与图形学学报 第 2*卷最后 , 我们对该数
40、据集进行相关性分析以及 对比分析 , 结果如图 7a 所示 , 左侧图是通过我们 的框架得出的不确定性数据集的相关分析图 , 变 量顺序代表着变量之间基于不确定性的相关关系 的程度大小 , 可以发现 displacement 与其他变量的 不 确 定 性 相 关 程 度 最 高 , 其 次 是 timeTo60mph, economy 等 . 最弱的是 cylinders, 它与其他变量的 不确定性相关程度很弱 , 甚至与 timeTo60mph 之 间没有相关关系 . 从现实意义上很好解释 , cylin-ders 不同于其他变量 , 是一个类别变量 , 测量方式 简单准确 , 不确定性程度
41、很低 , 而这也可从图 4中 发现 , 对比与其他变量 , cylinders 变量的不确定性 数值明显低于其他变量 , 数值为 0表示该组内数据 点拥有相同数量的 cylinders. Cylinders变量不确定 性程度低 , 误差低 , 自然也就很难引起其他变量产 生误差 . 而 displacement 作为汽车的重要的属性 , 从右侧图可以看出该变量仍然排在第一位 , 与其 他变量的相关关系非常显著 . 因此该变量如果产 生额外的不确定性 , 其他变量受到影响的概率非 常大 , 所以与其他变量的不确定性程度也很大 , 而 这也在左图中反映了出来 .右侧图是原数据的相关关系图 , 对比
42、这两种 相关关系 , 最明显的区别就是原数据的相关关系 中存在负相关 , 而不确定性关系中没有负相关 , 从 实际情况来看 , 如果某个变量产生了误差 , 其他变 量如果与该变量完全没有关系 , 只可能不会产生 新的误差 , 而不会降低误差 . 从右侧图中可以发现 year 变量作为原数据中与其他变量相关程度最低 的变量 , 在左图中它的不确定性相关程度仅高于 cylinders 这一类别变量 , 与 displacement 变量形成 了两种完全相反的情况 , 在某种条件下说明了不 确定性相关关系和原数据的相关关系具有一致性 . 我们知道当数据某个维度上产生了额外的不 确定性 , 意味着这个
43、维度上的数值种类将会增加 , 对应在低不确定性维度上可能呈现发散状分布 , 同时这两个维度的不确定相关性也将减小 . 我们 选取了不确定性相关性较低甚至不具有 (如图 7a 中 所示 , 并且维度的不确定性具有明显差异的几对 维度 (例如 cylinders 与 economy , cylinders 与 timeTo60mph, 如图 7b 所示 , 其中点的大小代表 不确定性 . Cylinders的不确定性明显小于其余两个 维度 . 在平行坐标系 (图 7c 中观察数据分布 , 具有 明显的从低不确定性的维度向高不确定性的维度 发散的分布方式 , 我们可以认为这部分数据极有 可能产生了额
44、外的不确定性 . 而这个结论也将在 下一个用例分析来验证 . a. 不确定性相关关系图与原始数据相关关系图 b. 维度散点图 c. 原始数据平行坐标图图 7 Cars 数据集的相关图以及平行坐标图 . 4.2Boston 房价数据集在这个用例中 , 我们将使用于著名的 “波士顿 邻居房价“ (Boston Neighbour-hood Housing Price数据集 . 该数据集是美国人口普查局所收集 , 以了 解波士顿群岛地区房价与其他因素之间的关系 , 其中包含 14个变量和 506个观测值 . 我们选择了 12个变量进行分析 . 它们是 CRIM(城镇人均犯罪 率 , ZN(占地面积超
45、过 25,000平方尺住宅用地比 例 , INDUS(每 个 城 镇 的 非 零 售 商 业 用 地 比 例 , NOX(氮氧化物浓度 , RM(每个住宅的平均房间数 , AGE(1940年以前建成的自用房屋的比例 , DIS(距 离五个波士顿就业中心的加权平均数 , TAX(全值 财 产 税 , PTRATIO(城 镇 学 生 - 教 师 比 例 , BLACK (21000(0.63Bk 其中 Bk 是城市黑人的比 例 , LSTAT(低收入人口数 (百分比 和 MEDV(自住 房屋数的中值 .我们首先进行数据标准化和聚类分析 . 结果第 *期 张怡 , 等 : 多维数据的不确定性可视相关
46、分析 9显示在图 8a 和图 8b 中 . 如图 8a 所示 , 该数据集 主要分为两个集群 , 数据点基本分离开 . 图 8b 是 该聚类结果的轮廓系数分布图 . 总体轮廓系数值 是 0.34, 表明我们的聚类结果基本有效 . 而这个 分布图也是我们分组方法的基础 . a. Boston数据集的聚类散点图 b. Boston房价数据集的轮廓系数分布图图 8 Boston 数据集聚类分析图通过分组和不确定性计算 , 我们可以得到波 士顿数据集的不确定性数据 . 相应的 W 检验结果 显示在图 9的左图中 . 右图是 CRIM 变量的分位图 (Q-Q图 , 其分位数分布非常接近直线说明满足正 态
47、分布 . 从图 9的左图中 , 我们可以发现只有 ZN, INDUS, TAX和 PTRATIO 的 p 值低于 0.05的显著 性水平 , 其他 8个变量都通过了正态检验 . 因此 , 这个不确定性数据基本满足正态分布 , 可以认为 是来自正态总体 . 图 9 Boston 不确定性数据集的正态性检验结果 . 左图 是 W-test 检验结果 , 右图是 CRIM 变量的分位图 .图 10 不确定性相关关系图与原始数据相关关系图 两种相关性的相关图展示在图 10中 . 左图是 波士顿数据集的不确定性相关图 . 在该图中 , 原始 数据中的 INDUS, TAX, PTRATIO, ZN四个维
48、度的 不确定性很低 , 而且它们与其他变量的相关性都 非常弱 . 右图是波士顿原始数据集的相关图 . 结合 这两个图 , 我们可以发现 , 这两个相关图中 , NOX, CRIM 和 AGE 都与其他变量均有很强的相关性 . 相反的 , DIS 和 BLACK 与其他变量的相关性都相 对较弱 . 因此 , 我们结合上个案例可以得出结论 , 这两种相关性在某些条件下是一致的 . 然而 , 在这 个用例中由于 INDUS, TAX, PTRTIO和 ZN 这四个 变量的相关关系存在 , 不确定性相关性和原始相 关性之间仍然存在一些差异 . 虽然拥有低不确定 性的变量与其他变量有很强的原始相关性 ,
49、 但这 些变量与其他变量的不确定性相关性仍然很弱 . 我们在图 10中选定不确定性相关性很低的几 个维度 (如 tax 与 rm, rm与 ptratio, crim与 zn, indus与 lstat, 并在图 11C 中将这几维拖放到相邻位置 , 如图所示 , 均有从低不确定性的维度的某一块向 高不确定性发散的形式 , 根据相关性的定义 , 如果 这两维的不确定性无线性相关, 则高不确定性的维 度可能产生了额外的不确定性, 而这部分呈现发散 状的数据极大可能则是产生了额外不确定性的数 据 . 映射到原数据中即为图 10B 中椭圆区域的数10 计算机辅助设计与图形学学报 第 2*卷据 , 而
50、这也验证了第一个用例最后得出的结论 . 图 11 Boston 数据集分析图 . A图为维度散点图 . B图为原始数据散点图 . C为平行坐标系 .5 讨 论分析多维数据变量之间的不确定性相关关系 , 并找出这种相关性与原始数据相关性之间的相似 性和差异性 . 这是我们工作的主要问题 , 而利用这 种不确定性相关性来对原始数据进行特征分析是 主要应用 . 本文针对以上两个问题提出了一个新 的框架和交互系统 .根据第四部分中两个用例分析结果 , 我们可 以知道通过这个框架构建的数据集基本合理 , 能 够基本反映出原数据集中的不确定性情况 . 对比 不确定性数据集的相关关系和原数据的相关关系 ,
51、我们可以得出在某些条件下 , 这两种相关关系虽 然存在一致性 , 但是仍然存在着显著差异 . 交互系 统也让我们对这种不确定性相关关系有了一定程 度上的应用 .在整个研究过程中 , 我们认识到对构建的数 据集进行检验来是非常有必要的 . 因为构建方式 多种多样 , 得出的数据集也各不相同 , 判断那种方 法是否合理 , 是否符合现实情况就显得非常重要 . 在本文中 , 我们讨论了三种构建方式的合理性 , 得 出了第一种方式是比较适合本框架 , 但是仍然不 够完美 , 没有做到使得全部的变量都近似正态分 布 , 而且我们开发的交互系统仍然存在很多优化 和完善的地方 , 这些也将是我们今后的工作
52、.6 结 语在本文中 , 我们介绍了一个新的框架和交互 系统 , 它通过构建不确定性数据集 , 分析维度变量 之间基于不确定性的相关关系 , 并发现了这种相 关关系与原始数据的相关性之间的相似性和差异 . 该框架通过对原数据集进行聚类和分组等分析 , 利用对类别变量更加友好的信息熵对不确定性性 进行定量计算 , 并对结果进行相应的检验 , 得到了 合乎实际的不确定性数据集 , 并对其进行相关性 分析 . 根据实验结果 , 我们发现这种不确定性的相 关关系与传统的原数据的相关关系并不完全一样 , 首先最大的区别就是不确定性相关关系并不存在 负相关 . 其次 , 对于本身不确定程度高 , 与其他变
53、 量具有强相关关系的变量 , 它与其他变量的不确 定性相关程度也很高 , 具有很强的一致性 . 最后对 于本身不确定性程度较低的变量 , 例如 Cars 数据 集中 cylinders 变量和 Boston 数据集中的 INDUS 变量 , 虽然可能与其他变量有很强的相关关系 , 但 是它与其他变量的不确定性相关关系却很弱 . 可视分析交互系统的开发使得我们发现了产 生额外不确定性的数据最可能出现在维度不确定 性相差明显 , 并且这两维不确定性相关关系弱甚 至不存在 . 数据分布呈现明显的发散状分布 . 因此当要分析的数据集中存在较大的不确定 性 , 我们可以根据这个框架和交互系统快速定位 最
54、有可能产生额外不确定性的变量和数据 , 帮助 研究人员快速定位不确定性来源 , 并将不确定性 控制在可接受的范围内 , 使得数据结论更加可靠 .参考文献 (References:1 ROYSTON P. Remark AS R94: A Remark on Algorithm AS 181: The W-test for Normality J. Journal of the Royal Statis-tical Society, 1995, 44(4: 547-51.2 SKEELS M, LEE B, SMITH G, et al. Revealing uncertainty for in
55、formation visualization J. Information Visualization, 2009, 9(1: 70-81.第 *期 3 张怡 , 等 : 多维数据的不确定性可视相关分析 11 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 HUNTER G J, GOODCHILD M F. Managing uncertainty in spatial databases: putting theory into practice J. Urisa Journal, 1993, 5(2: 1-14. PANG A T, WI
56、TTENBRINK C M, LODHA S K. Approaches to uncertainty visualization J. The Visual Computer, 1997, 13(8: 370-90. TAYLOR B N, KUYATT C E, BROWN R H, et al. Guidelines for Evaluating and Expressing the Uncertainty of NIST Measurement Results J. Procfifth Internasympnumermethods Engrg, 1996, 1297( R NYI A
57、. On measures of entropy and information; proceedings of the Proceedings of the fourth Berkeley symposium on mathematical statistics and probability, F, 1961 C. THOMSON J, ERBACHER R F, HETZLER E, et al. A typology for visualizing uncertainty J. 2005, 5669(146. ZUK T, CARPENDALE S. Visualization of
58、Uncertainty and Reasoning J. 2007, 4569(164-77. CORREA C D, CHAN Y-H, MA K-L. A framework for uncertainty-aware visual analytics J. 2009, 51-8. ROY C J, OBERKAMPF W L. A comprehensive framework for verification, validation, and uncertainty quantification in scientific computing J. Computer methods in applied mechanics and engineering, 2011, 200(25: 2131-44. WU Y, YUAN G X, MA K L. Visualizin
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海市县(2024年-2025年小学五年级语文)统编版小升初真题(下学期)试卷及答案
- 4 雷电监测装置闪电定位仪的技术参数有哪些
- 七年级语文上册教学计划进度表
- 区域医疗中心“卓越青年医师”定向进修培养计划申请表
- 多用途运动包产业运行及前景预测报告
- 女式紧身马甲产业规划专项研究报告
- 塑料制购物袋产业规划专项研究报告
- 人教版英语八年级下册 Unit 9-10综合练习题
- 手持裁纸刀市场需求与消费特点分析
- 医务人员健康教育培训
- 《基本医疗卫生与健康促进法》试题
- 新人教版九年级下数学27-1《图形的相似》课件
- 浙江义乌中学吴加澍
- 成人玩具创业计划书
- 粮油流通统计新任统计人员业务培训课件
- 汽车起重机日常检查维修保养记录表
- 中国医科大学2023年12月《康复工程学》作业考核试题-【答案】
- 荔枝包装工艺设计
- 浙江省9+1高中联盟2022-2023学年高一上学期11月期中考物理试题(解析版)
- 七年级上册英语期中专项复习-补全对话(含答案)
- 铁的单质(导学案)高一化学
评论
0/150
提交评论