数据分析基础资料_第1页
数据分析基础资料_第2页
数据分析基础资料_第3页
数据分析基础资料_第4页
数据分析基础资料_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数学建模素养基础篇之 统计数据分析,主讲教师 高全胜教授,1.基本统计分析 1.1 基本统计分析概述 一、基本统计分析包括的内容 频度分析Frequencies 统计描述Descriptives 探索性数据分析Explore 多维频数分布交叉列联表Crosstable 摘要报告表Summarize 行形式的输出报告Report Summaries in Row 列形式的输出报告Report Summaries in Column 二、统计分析的特殊图形 箱图Boxplot 茎叶图Stem-and Leaf Plot,1.2单变量的统计描述集中趋势的的描述指标,1.2.1 算术平均 算术平均(A

2、rithmetic Mean)是最常用的描述集中趋势的统计量。总体均数(Population Mean)用希腊字母 表示,样本均数常用 表示。 一、算术平均数的定义和性质,二、均数的意义,任何一个平均数值首先是同类现象的平均数。任何一个平均数总是一个平衡点。 但平均数在高度概括观测数据从而使问题简化的同时,却丢失了某些有用的信息。 一方面它把各个观测数据之间的差异性掩盖了起来,另一方面由于平均数对于个别极端值反应比较灵敏,因而平均数在某些情况下可能具有一定的欺骗性。,三、均数的适用范围,严格的讲平均数指示用于定距变量。但有时对于定序变量,求平均等级也可以使用平均数。,1.2.2 中位数,中位数

3、(Median)是将总体各单位的标志值按大小顺序排列,处于中间位置的那个标志。 对于未分组的原始资料,首先必须将标志值按大小顺序。设排序结果为: 则中位数就可以按下列方式确定: 中位数的适用范围:具有稳健性。 被平均的实例。,1.2.3其他集中趋势指标,一、截尾均数 由于均数较易受极端之的影响,因此可以考虑将数据排序后,按照一定的比例去掉最两端的数据,只是用中部的数据来求均数。如果截尾均数河源均数相差不大,则说明数据不存在极端值,或者两侧极端值的影响正好抵消;反之,则说明数据中有极端值,此时截为均数更好地反映数据的集中趋势。 常用的截尾均数有5%截尾均数,即两端各去掉5%的数据。,二、几何均数

4、,几何均数适用于原始数据分布不对称,但经过对数转换后称对称分布的资料。,几何均数实际上就是对数转换后的数据lgX的算术平均数的反对数。,四、调和均数 它实际上是观察值X倒数之均数的倒数。,三、众数(Mode),众数指的是样本数据中出现频次最多的那个数。 众数适用于任何层次的变量,特别适用于单峰对称的情况,是比较两个分布是否接近首先要考虑的参数。,1.3 离散趋势的描述指标,1.3.1全距(Range) 又称为极差,是一组数据中最大值(Maximun)与最小值(Minimum)之差。 极差反映的是变量分布的差异范围或离散程度,在总体中,任何两个标志值之差都不可能超过极差。 极差存在两点不足: 一

5、是它仅仅取决于两个极端之的水平,不能反映其间的变量分布情况,提供的信息太少。 二是它容易受个别极端值的影响,不符合稳健型的要求。,1.3.2 方差和标准差,方差(Variance)和标准差(Standard Deviation)的定义 将离均差平方和(Sum of Squares of Deviation from Mean,SS)除以观察例数N,就得到方差: 方差越大,数据分布离散程度越大。 对于样本数据而言,方差的计算公式为: 将方差开方,就得到标准差。对于同性质的数据来说,标准差越小,表明数据的变异程度越小,即数据越整齐,数据的分布范围越集中;标准差越大,表明数据的变异程度越大,即数据越

6、参差不齐,分布越分散。,1.3.3 百分位数、四分位数与四分位数间距,一、分位数,分位数:是一种位置指标,用PX表示。一个百分位数PX将一组观测之分为两部分,理论上有x%的观测值比它小,(100-x)%的观测值比它大。 四分位数(quartile)、十分位数(decile)、百分位数(percentile),他们分别是用3个点、9个点、99个点将数据4等分、10等分和100等分后各分位点上的值。,二、四分位数,四分位数:实际上是三个数值的总称,分别是P25、P50、P75分位数。 很显然,中间的分位数是中位数,因此通常所说的四分位数是指 第一个四分位数(下四分位数)和第三个四分位数(上四分位数

7、)。,三、奇异值 数据点到主体边缘的距离超过箱高的1.5倍。 上奇异值=(75%百分位数-25%百分位数)*1.5+75%百分位数 下奇异值=(75%百分位数-25%百分位数)*3+75%百分位数 下极端值0: 正偏离, Skewness0 分布集中趋势强(尖),Kurtosis=98) Stem width: 10.00;Each leaf: 1 case(s),在输出显示窗口Viewer中以字符数字构成的图,用以表达变量的频度分布。例如:,第一列 频数Frequency:表示样本的频数。 第二列 茎Stem: 表达整数 第三列 叶Leaf: 每片叶表示小数的量级。 Stem width表示

8、茎宽,即倍率,例如茎宽=10.00 当茎stem=9时,表示90 Each leaf表示每片叶表示样本数,例如当Each leaf=2 case(s)时,每片叶子代表的样本数为2个样本。 例如在上述例子中,第六行中的数据表示共有七个样本,其中70的样本有三个,而71的样本有四个。第七行中的数据表示共有七个样本,其中72的样本有三个,而73的样本有四个。最后一行中的数据表示共有一个样本,该样本为极端值,大于等于98。,1.5. 实例,1.5.1 使用Explore过程进行分析 探索分析是对数据进行初步的观察分析,主要的分析项目有: 观察数据的分布特征:可通过绘制箱图和茎叶图等图形直观地反映数据的

9、分布形式和数据的一些规律性,包括考察数据中是否存在异常值等。 正态分布检验:检验数据是否服从正态分布。 方差齐性的检验:用Levene检验比较各组的方差是否相等。,1、单击Analyze-Descriptive statistics-Explore,打开Explore主对话框:,一、分析操作,(3)在Display栏中选择输出项,依次是Both选择项,输出图形与描述统计量(系统默认),只输出描述统计量和只输出图形。本例中选择默认项。,(1)从左侧的变量列表中选出变量”身高”,送入Dependent List栏。,(2)选择”性别”作为因子变量,送入Factor List栏。有了因子变量,SPS

10、S会把所有的观测个体按照因子变量的取值分成若干各组,再分组考察Dependent List中的各个变量,如果不选择因子变量,SPSS会对全部观测来做探索分析。,2、单击Statistics统计量按钮,打开Statistics对话框,选择统计输出量。,(1)Descriptives基本统计描述。同时指定均值的置信区间的置信度,系统默认为95。,(2)M-估计(M估计在计算时对所有观测量赋予权重,随观测量距分布中心的远近而变化)。 (3)Outliers输出分析数据中五个最大值和五个最小值。 (4)Percentiles输出百分数。,3、单击Plots 图形按钮,打开Plots对话框。,(1)Bo

11、xplot 箱图选择栏,Factor levels together因变量按因素水平分组(系统默认); Dependents together 所有因变量生成一个并列箱图(本例中选择项);None不显示箱图。,(2)Descriptive 描述图形栏Stem-and-leaf 茎叶图Histogram 直方图,(3)Normality plots with test(复选项),正态分布检验并输出Q-Q图。,None:不产生回归直线的斜率和方差齐性检验;Power Estimation转换幂值估计(对每组数据产生一个中位数自然对数及四个分位数的自然对数的散点图)选项;Transformed 变换

12、原始数据选择项; Untransformed不变换变换原始数据选择项。,(4)Spread vs level with Levene Test栏,对所有的散布层次图,同时输出回归直线的斜率以及方差齐性的Levenes检验。,4、单击Option按纽,打开Option对话框如图所示。可选择缺失值的处理方式,SPSS提供三种处理方式:,(1)Exclude cases listwies 剔除带缺失值的观测量(系统默认)。 (2)Exclude cases pairwise 剔除带缺失值的观测量时还一并剔除与缺失值有成对关系的观测量。 (3)Report values 输出频数表时同时输出缺失值。,

13、5、单击OK,得到相应的输出结果如表所示。,二、基本的分析结果,三、输出百分位数和极端值列表,身高 Stem-and-Leaf Plot for sex= 男 Frequency Stem & Leaf 1.00 15 . 9 .00 16 . 9.00 16 . 555778999 20.00 17 . 00000000011112334444 24.00 17 . 555555555556677777788889 12.00 18 . 000000122234 3.00 18 . 668 Stem width: 10 Each leaf: 1 case(s),箱图中,最底部的水平线段是数据

14、的最小值(奇异点除外),顶部的水平线段是数据的最大值(奇异点除外),中间矩形箱子的底所在位置是数据的第一个四分位数(即25分位数),箱子顶部所在位置是数据的第三个四分位数据(即75分位数)。箱子中间的水平线段刻画的是数据的中位数(即50分位数)。,箱线图,四、使用其他过程过程进行分析 1、Descriptive过程的结果,2、Frequencies过程的结果,2.多元统计分析初步 第一节 引言,多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵。例如在研究公司的运营情况时,要考虑公司的获利能力、资金周转能力、竞争能力以及偿债能力等财务指标;又如在研究国家财政收入时,税收收入、

15、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等都是需要同时考察的指标。 显然,如果我们只研究一个指标或是将这些指标割裂开分别研究,是不能从整体上把握研究问题的实质的,解决这些问题就需要多元统计分析方法。为了更好的探讨这些问题,本章我们首先论述有关随机向量的基本概念和性质。,第二节 基本概念,一 随机向量,二 多元分布,三 随机向量的数字特征,一、随机向量,我们所讨论的是多个变量的总体,所研究的数据是同时p个指标(变量),又进行了n次观测得到的,我们把这个p指标表示为X1 ,X2,Xp,常用向量X = (X1 , X2 , , XP)表示

16、对同一个体观测的p个变量。 这里我们应该强调,在多元统计分析中,仍然将所研究对象的全体称为总体,它是由许多(有限和无限)的个体构成的集合,如果构成总体的个体是具有p个需要观测指标的个体,我们称这样的总体为p维总体(或p元总体)。 上面的表示便于人们用数学方法去研究p维总体的特性。这里“维”(或“元”)的概念,表示共有几个分量。若观测了n个个体,则可得到如表2.1的数据,称每一个个体的p个变量为一个样品,而全体n个样品组成一个样本。,二、多元分布,三、随机向量的数字特征,第三节 多元正态分布,一 多元正态分布的定义,二 多元正态分布的性质,一、多元正态分布的定义,二、多元正态分布的性质,第四节

17、多元正态分布的参数估计,一 多元样本的数字特征,二 均值向量与协差阵的最大似然估计,三 Wishart分布,一、多元样本的数字特征,二、均值向量与协差阵的最大似然估计,三、Wishart分布,第五节 多元正态分布参数估计的实例与计算机实现,一 均值向量的估计,二 协差阵的估计,通过上面的理论分析知道,多元正态总体均值向量和协差阵的最大似然估计分别是样本均值向量和样本协差阵。利用SPSS软件可以迅速地计算出多元分布的样本均值向量、样本离差阵和样本协差阵。下面通过一个实例来说明多元正态分布参数估计的SPSS实现过程。 从沪深两市上市公司中随机抽取300家公司,取其三个反映收益情况的三个财务指标:每

18、股收益率(eps)、净资产收益率(roe)和总资产收益率(roa)。现要求对这三个指标的均值和协差阵进行估计。,一、均值向量的估计,在SPSS中计算样本均值向量的步骤如下: 1. 选择菜单项AnalyzeDescriptive StatisticsDescriptives,打开Descriptives对话框,如图2.1。将待估计的三个变量移入右边的Variables列表框中。,图2.1 Descriptives对话框,2. 单击Options按钮,打开Options子对话框,如图2.2所示。在对话框中选择Mean复选框,即计算样本均值向量。单击Continue按钮返回主对话框。,图2.2 Options子对话框,3. 单击OK按钮,执行操作。则在结果输出窗口中给出样本均值向量,如表2.2。即样本均值向量为(0.175,0.044,0.026)。,表2.2 样本均值向量,二、协差阵的估计,在SPSS中计算样本协差阵的步骤如下: 1. 选择菜单项AnalyzeCorrelateBivariate,打开Bivariate Correlations对话框,如图2.3。将三个变量移入右边的Variables列表框中。,图2.3 Bivariate Correlations对话框,2. 单击Options按钮,打开Options子对话框

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论