数据探索性分析方法_第1页
数据探索性分析方法_第2页
数据探索性分析方法_第3页
数据探索性分析方法_第4页
数据探索性分析方法_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据探索性分析方法1.1数据探索性分析概述探索性数据分析(ExploratoryDataAnalysis,简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。探索性数据分析在上世纪六十年代被提出,其方法由美国著名统计学家约翰•图基(JohnTukey)命名。EDA的出现主要是在对数据进行初步分析时,往往还无法进行常规的统计分析。这时候,如果分析者先对数据进行探索性分析,辨析数据的模式与特点,并把它们有序地发掘出来,就能够灵活地选择和调整合适的分析模型,并揭示数据相对于常见模型的种种偏离。在此基础上再采用以显著性检验和置信区间估计为主的统计分析技术,就可以科学地评估所观察到的模式或效应的具体情况。所以概括起来说,分析数据可以分为探索和验证两个阶段。探索阶段强调灵活探求线索和证据,发现数据中隐藏的有价值的信息,而验证阶段则着重评估这些证据,相对精确地研究一些具体情况。在验证阶段,常用的主要方法是传统的统计学方法,在探索阶段,主要的方法就是EDA。EDA的特点有三个:一是在分析思路上让数据说话,不强调对数据的整理。传统统计方法通常是先假定一个模型,例如数据服从某个分布(特别常见的是正态分布),然后使用适合此模型的方法进行拟合、分析及预测。但实际上,多数数据(尤其是实验数据)并不能保证满足假定的理论分布。因此,传统方法的统计结果常常并不令人满意,使用上受到很大的局限。EDA则可以从原始数据出发,深入探索数据的内在规律,而不是从某种假定出发,套用理论结论,拘泥于模型的假设。二是EDA分析方法灵活,而不是拘泥于传统的统计方法。传统的统计方法以概率论为基础,使用有严格理论依据的假设检验、置信区间等处理工具。EDA处理数据的方式则灵活多样,分析方法的选择完全从数据出发,灵活对待,灵活处理,什么方法可以达到探索和发现的目的就使用什么方法。这里特别强调的是EDA更看重的是方法的稳健性、耐抗性,而不刻意追求概率意义上的精确性。三是EDA分析工具简单直观,更易于普及。传统的统计方法都比较抽象和深奥,一般人难于掌握,EDA则更强调直观及数据可视化,更强调方法的多样性及灵活性,使分析者能一目了然地看出数据中隐含的有价值的信息,显示出其遵循的普遍规律及与众不同的突出特点,促进发现规律,得到启迪,满足分析者的多方面要求,这也是EDA对于数据分析的的主要贡献。1.2数据基本描述及可视化1.2.1数据的类型按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述的,例如,人口按性别分为男、女。顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的。比如将产品分为一等品、二等品、三等品、次品等。数值型数据是按数字尺度测量的观测值,其结果表现为具体的数值。现实中所处理得到大多数都是数值型数据。按照统计数据的收集方法,可以将其分为观测数据和实验数据。观测数据是通过调查或观测而收集到的数据,这类数据实在没有对事物认为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据。实验数据则是在实验中控制实验对象而收集到的数据。按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。截面数据是在相同或近似相近的时间点上收集到的数据,这类数据通常是在不同的空间上获得的,用于描述现象在某一时刻的变化情况,例如,2015年我国各地区食品中污染物数据。时间序列数据是在不同是时间上收集到的数据,这类数据是按时间顺序收集到的,用于所描述现象随时间变化的情况,例如20102015年,北京市某食源性疾病的发病率数据。1.2.数据的概括性量度利用图表展示数据,可以对数据分布的形状和特征有一个大致的了解。但要全面把握数据分布的特征,还需要找到反映数据分布的各个代表值。数据分布的特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。这三个方面分别反映了数据分布特征的不同侧面。1.2.2.1集中趋势集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。对分类数据,一般使用众数,众数是一组数据中出现次数最多的变量值。顺序数据一般使用中位数和分位数描述数据的集中趋势,中位数是一组数据排序后处于中间位置上的变量值,用Me表示,数值型数据一般使用平均数来描述数据的集中趋势,它是一组数据相加后初一数据的个数得到的结果。1.2.2.2离散程度离散程度是数据分布的另一个重要特征,它反映的是各变量值远离其中心值的程度。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;离散程度越小,其代表成都就越好。描述数据离散程度采用的测度值,根据所依据数据类型的不同主要有异众比率、四分位差、方差和标准差。分类数据一般使用异众比率,异众比率是指非众数组的频数占总频数的比例,用*表示。其计算公式为:―曷"—…「=苟=我式中,时为变量值的总频数;fm为众数组的频数。异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。顺序数据主要用四分位差,它是上四分数与下四分位数之差,用^^表示。其计算公式为:Qd=Q「QL四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。数值型数据离散程度的描述方法主要有极差、平均差、方差和标准差,其中最常用的是方差和标准差。方差是各变量值与其平均数离差平方的平均数。它在数学处理上通过平方的办法消去离差的正负号,然后再进行平均。方差的平方根成为标准差。1.2.2.3分布形状集中趋势和离散程度是数据分布的重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜程度以及分布的扁平程度等。偏态和峰态就是对分布形状的测度。“偏态”是对数据分布对称性的测度,测度偏态的统计量是偏态系数,记作SK。偏态系数的计算方法很多,在根据未分组的原始数据计算偏态系数时,通常采用下面的公式=n^^x.-x)=(n-1)(n-2)s3式中,S3是样本标准差的3次方。如果一组数据的分布是对称的,则偏态系数等于0,如果偏态系数明显不为0,表明分布是非对称的。若偏态系数大于1或小于1,被称为高度偏态分布;若偏态系数在0.5〜1或1〜0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低。“峰态”是对数据分布平峰或尖峰程度的测度。测度峰态的统计量则是峰态系数,记作K。在根据未分组数据计算峰态系数时,通常采用下式:Kn(n+1)Z(%一斤)1—3[Z(%一斤)2]2(n—1)(n—2)(n—3)si用峰态系数说明分布的尖峰和扁平程度,是通过与标准正态分布的峰态系数进行比较而言的。由于正态分布的峰态系数为0,当K>0时为尖峰分布,数据的分布更集中;当K<0时为扁平分布,数据的分布越分散。1.2.3数据的可视化一张好的统计图表,往往胜过冗长的文字表述,统计图的类型有很多,多数统计图除了可以绘制二维平面图外,还可以绘制三维立体图,图形的制作均可由计算机来完成。1.2.3.1分类数据的图示分类数据的图示:分类数据的图示方法主要包括条形图、帕累托图、饼图等。1.条形图条形图用相同宽度的条形是高度或长短来表示数据多少的图形。图形可以横置或纵置,纵置时也称为柱状图。当分类变量在不同时间或不同空间上有多个取值时,为对比分类变量的取值在不同时间或不同空间上的差异或趋势变化,可以绘制对比条形图。我国各市某食源性疾病发病散4002.帕累托图该图是按各类别数据出现多少的频率多少排序后绘制的柱状图。

我国备市某食源性疾病年发病数3.饼图用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用。■3某腐源性疾病的年龄分布9-13^19-30竖1.2.3.2数值型数据的图示上面介绍的条形图、饼图都适用于显示数值型数据。此外,对数值型数据还有如下方法:直方图、茎叶图、箱线图、线图、散点图、三维散点图、气泡图、雷达图等。1.直方图

用直方图显示分组数据的频数分布特征。直方图是用于展示分组数据分布的一种图形,它用矩形的面积来表示频数分布的。直方图的高度高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。如下图是某茎叶图反映原始数据分布的图形,它由茎和叶两部分构成,其图形是由数字组成的。通过茎叶图可以看出数据的分布形状及数据的离散状况。绘制茎叶图的关键是设计好树茎,制作树茎时,首先把一个数字分成两部分,通常是以该组数据的高位数值作为树茎,而且叶上只保留该数值的最后一个数字。下图为某地食源性疾病患者的年龄构成甲(50步以下)乙(知岁以上)12015676323796534452g5861678+7585328093.箱线图箱线图是由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。箱线图的绘制方法是:先找出一组数据的最大值、最小值、中位数和两个四分位数,然后连接两个四分位数画出箱子;再将最大值和最小值与箱子相连,中位数在箱子中间。箱线图的一般形式如下:

各市大米某重金属污染监删数据分布mg/kg0.15-13.12-0.06-各市大米某重金属污染监删数据分布mg/kg0.15-13.12-0.06-01111■:可北祖I南峡西匚川旋北1.线图用线图显示时间序列数据的分布特征,主要用于反映现象随时间变化的特征。某市某畲源性疾病发病敬5D0-I20CO/L0/52001/3/222M1/9/62002/2/2120D2/g/82M3/1/232003/7/101.2.3.3多变量数据数据的图示1.地图地图是将某变量的值在地图上标注出来,值的大小用气泡的大小来表示。如下图为全国监测单位某食源性疾病发病数,其中大庆、衢州等地的发病数较高。5「钮羸疏一性排2.雷达图q或】很%蚩全国;S测单位某套源性疾病发病数,乌兰巴托他耳残啊.雷达图是显

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论