探索性数据分析_第1页
探索性数据分析_第2页
探索性数据分析_第3页
探索性数据分析_第4页
探索性数据分析_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、探索性数据分析 EDA的提出 1977年,美国统计学家John W. Tukey出版了探索 性数据分析一书,引起了统计学界的关注。该书指出了 统计建模应该结合数据的真实分布情况,对数据进行分析, 而不应该从理论分布假定出发去构建模型。EDA重新提出 了描述统计在数据分析中的重要性,它为统计学指明了新 的发展方向和数据相结合。 EDA的定义 探索性数据分析是对调查、观测所得到的一些初步 的杂乱无章的数据,在尽量少的先验假定下进行处理,通 过作图、制表等形式和方程拟合、计算某些特征量等手段, 探索数据的结构和规律的一种数据分析方法。 EDA的主要特点 n研究从原始数据入手,完全以实际数据为依据研究

2、从原始数据入手,完全以实际数据为依据 传统的统计分析方法通常是先假定数据服从某种分 布,然后用适应这种分布的模型进行分析和预测。但实际 上,多数数据(尤其是实验数据)并不能保证满足假定的理 论分布。因此,传统方法的统计结果常常并不令人满意, 使用上受到很大的局限。 n分析方法从实际出发,不以某种理论为依据分析方法从实际出发,不以某种理论为依据 传统的统计分析方法是以概率论为理论基础,对各种 参数的估计、检验和预测给出具有一定精度的度量方法和度 量值。而EDA在探索数据内在的数量特征、数量关系和数量 变化时,什么方法可以达到这一目的就采用什么方法,灵活 对待,灵活处理。方法的选择完全取决于数据的

3、特点和研究 的目的。 n分析工具简单直观,更易于普及分析工具简单直观,更易于普及 传统的统计分析方法都比较抽象和深奥,一般人难 于掌握,EDA则更强调直观及数据可视化,使分析者能一 目了然地看出数据中隐含的有价值的信息,显示出其遵循 的普遍规律及与众不同的突出特点,促进发现规律,得到 启迪,满足分析者的多方面要求,这也是EDA对于数据分 析的的主要贡献。 数据类型 n结构化数据:结构化数据: 二分类型:如性别 多分类型:如职业 有序类型:如收入水平 数值类型:如年龄、收入 n 非结构化数据:非结构化数据: 文本 音频 视频 图片 单变量分析 l频率和众数:频率和众数:针对于无序的分类的变量 l

4、百分位数:百分位数:针对于有序的或连续的变量 l位置度量:位置度量:均值和中位数 l散布度量:散布度量:方差、标准差、偏度、峰度、四分位数极差 偏度和峰度 偏度的计算公式: 偏度是刻画数据对称性的指标。关于均值对称的数据其 偏度为0,呈现右偏的数据偏度大于0,呈现左偏的数据偏 度小于0。 3 3 1 峰度的计算公式: 峰度是刻画分布状态的陡缓程度的指标。峰度等于0,分 布呈正态,峰度大于0,分布呈尖峰状态,峰度小于0,分 布呈平峰状态。 3 4 4 2 四分位数极差 四分位数极差定义: 判断数据异常点的方法:称 为数据的下、上截断点。大于上截断点或小于下截断点 的数据均为异常点。 QQ R 1

5、3 1 ,5.1 1 1 R Q R Q 1 3 5 .1 直方图 对于分类属性,每个值在一个箱中。对于连续属性,将值 域划分成箱(通常是等宽的)并对每个箱中的值计数。 正常型直方图:正常型直方图: 它的形状是中间高 两边低,左右近似对称。 双峰型直方图:双峰型直方图: 当直方图中出现了两个峰, 这是由于观测值来自两个总 体、两个分布的数据混合在 一起造成的。 平顶型直方图:平顶型直方图: 当直方图没有突出的顶峰, 呈平顶型 。形成的原因: 1.多个总体多个分布混合在 一起;2.变量在某个区间 均匀变化。 偏态型直方图:偏态型直方图: 偏态型直方图是指图的 顶峰有时向左偏、 有时向右偏。 孤岛

6、型直方图:孤岛型直方图: 在直方图旁边有孤立的小岛出现。 直方图作用 数据是否接近对称 数据分散性如何 数据是否有异常值 数据中是否有间隙 箱线图 箱线图是一种显示 一维数值属性值分布 的图形。 它有6个数据节点: 上边缘、上四分位数 中位数、下四分位数 下边缘、异常值。 箱线图的作用:箱线图的作用: 识别异常值;判断数据的偏态;比较几批数据的形状。 正态性检验 正态分布是许多检验的基础,比如F检验,t检验,卡方 检验等。因此,对于一个样本是否来自正态总体的检验 是至关重要的。 u图示法图示法 直方图:直方图:是否以钟型分布 箱线图:箱线图:观测矩形位置和 中位数,若矩形位于中间位 置且中位数

7、位于矩形的中间位置, 则分布较为对称。 QQ图图 对于样本 ,其次序统计量是 。 QQ图是由以下的点构成的散点图: 若样本数据近似于正态分布,在QQ图上这些点近似地在直 线 附近。 xxx n ,., 21 xxxn ,., 21 , 25. 0 375. 01 xi n i .1ni xy u非参数检验方法非参数检验方法 Kolmogorov-Smirnov 正态性检验:正态性检验: 检验统计量为 表示一组随机样本的累计频率函数 , 表示分布的分 布函数。 Shapiro-Wilk的的(W检验检验) 夏皮络威尔克检验当 时可以使用。 xxD FFon max x Fn x Fo 508n 两

8、个变量的关系 两个数值型变量线性相关两个数值型变量线性相关(服从二元正态分布) 秩相关秩相关(两个有序的分类变量) 两个无序分类变量关联性分析两个无序分类变量关联性分析 两个数值型变量线性相关 1. 计算计算Pearson样本相关系数样本相关系数 Pearson样本相关系数的取值范围和含义是: l相关系 数 的取值在-11之间。 l 0表示两变量存在正的线性相关关系 , 0.8表示两变量之间具有较强的线性关系, 0.3表示两变量 之间的线性相关关系较弱。 问题:当我们得到相关系数 后,是否就能直接判断两变量 之间的关系? n i n i i i yyx x y x ii yx 1 2 2 1

9、2. 相关系数的假设检验:相关系数的假设检验: l提出零假设:两变量无线性相关关系 l选择检验统计量:Pearson相关系数的检验统计量为t统计量, 即 其中,t统计量服从n-2个自由度的t分布。 l计算检验统计量的观测值和p值。 l决策。如果p值小于显著水平 ,应拒绝原假设,认为两变量 有线性相关关系,否则两变量不存在线性相关关系。 2 1 2 n t 应用时注意的问题 n进行线性相关分析前,可以先绘制散点图。 n要求两变量都来自正态总体的随机变量。 n出现异常值时慎用。 秩相关 设 的秩统计量是 , 的 秩统计量是 。 则Spearman相关系数是: 对于Spearman相关系数,也可以做

10、假设检验: 检验统计量: 其中t统计量服从n-2个自由度的t分布。 n i n i n i ii xy S S R R SR q ii SR 1 2 1 2 1 2 1 2 n xy t q q xy xxx n ,., 21RRR n ,., 21YYYn ,., 21 SSS n ,., 21 两个无序分类变量关联性分析 方法: 检验 检验统计量为: 其中, 统计量服从自由度为(n-1)(m-1)的 分布。 为观测频数, 为期望频数。 2 n i m j ijE EA ijij 11 2 2 2 2 AijEij 多个数值型变量可以使用散点图矩阵 多个分类变量可以使用网状图 补充 n当目标变量是分类型变量,解释变量是数值型变量时可以 利用方差分析方差分析的方法,来判断目标变量在不同分类水平下 解释变量的均值是否存在显著差异。 初步结论 u变量是否有缺失 u变量是否有异常值 u变量是否有冗余 u变量的分布情况 u样本是否有重复 u样本是否存在不平衡类问题 简单的处理 u对于缺失问题可以删除删除记录或者插补插补 u对于异常值可以删除删除或者替换替换 u对于变量冗余问题可以使用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论