版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1 第5章 连续性变量的统计描述与参数估计 连续变量的统计描述概述 1 统计描述中的可用工具 (1)各种初步汇总描述方法 频数、百分位数。 (2)各种统计描述指标 均值、标准差、四分位数间距。 (3)统计表 (4)统计图 2 5.1 连续变量的统计描述指标体系 年龄 70.065.060.055.050.045.040.035.030.025.0 年龄 Frequency 30 20 10 0 Std. Dev = 10.23 Mean = 42.7 N = 70.00 (1)集中趋势 (Central Trend): 均数(Mean) 中位数(Median) 截尾均数(Trimmed Mea
2、n) 几何均数(Geometric Mean) 众数(Mode) 调和均数(Harmonic Mean) 3 (4)其他趋势 单峰双峰分布、极端值(Outlier)。 (2)离散趋势(Dispersion Trend) 全距(Range)、标准差(Std. Deviation)和方差(Variance)、百分 位数(Percentile)、四分位数,四分位间距、变异系数 (3)分布特征(Distribution Tendency) 偏度系数(Skewness)和峰度系数(Kurtosis) 4 2集中趋势的的描述指标 1 算术平均 算术平均(Arithmetic Mean)是最常用的描述数据分
3、布的集中 趋势的统计量。总体均数(Population Mean)用希腊字母 表示,样本均数常用 表示。 一、算术平均数的定义和性质 X XaaXXX XX n X n XXX X ii i i n 2 2 21 0 5 二、均数的意义二、均数的意义 任何一个平均数值首先是同类现象的平均数。任何一个平均数总是一 个平衡点。 但平均数在高度概括观测数据从而使问题简化的同时,却丢失了某些 有用的信息,一方面它把各个观测数据之间的差异性掩盖了起来,另 一方面由于平均数对于个别极端值反应比较灵敏,因而平均数在某些 情况下可能具有一定的欺骗性。 三、均数的适用范围三、均数的适用范围 严格的讲平均数指示用
4、于定距变量。但有时对于定序变量,求平均 等级也可以使用平均数。 6 2 中位数 中位数(Median)是将总体各单位的标志值按大小顺序排列,处于中间 位置的那个标志。 一、中位数的定义 对于未分组的原始资料,首先必须将标志值按大小顺序。设排序结果为: 则中位数就可以按下列方式确定: 二、中位数的适用范围 n XXXX 321 为偶数时当 为奇数时当 n2/ n 12/2/ 2/1 nn n XXM XM 7 3其他集中趋势指标 一、截尾均数 由于均数较易受极端值的影响,因此可以考虑将数据排序后, 按照一定的比例去掉最两端的数据,只是用中部的数据来求 均数。如果截尾均数和原均数相差不大,则说明数
5、据不存在 极端值,或者两侧极端值的影响正好抵消;反之,则说明数 据中有极端值,此时截尾均数更好地反映数据的集中趋势。 常用的截尾均数有5%截尾均数,即两端各去掉5%的数据。 8 二、几何均数二、几何均数 几何均数适用于原始数据分布不对称,但经过对数转 换后呈对称分布的资料。 n X G XXXXG i n n lg lg 1 321 几何均数实际上就是对数转换后的数据lgX的算术平均数 的反对数。 9 四、调和均数 它实际上是观察值X倒数之均数的倒数。 三、众数(Mode) 众数指的是样本数据中出现频次最多的那个数。 众数适用于任何层次的变量,特别适用于单峰对称的情 况,是比较两个分布是否接近
6、首先要考虑的参数。 在SPSS中,众数可以在Report子菜单和Tables子菜单的 全部报表过程和制表过程中计算出来。 在SPSS中,调和均数可以在Report子菜单的4个报表过 程过程中计算出来。 x n xxx n n xxx G nn 1111111 1 2121 10 3 离散趋势的描述指标 1全距(Range) 又称为极差,是一组数据中最大值(Maximun)与最小值 (Minimum)之差。 极差反映的是变量分布的差异范围或离散程度,在总体中, 任何两个标志值之差都不可能超过极差。 极差存在两点不足: 一是它仅仅取决于两个极端值的水平,不能反映其间的变量 分布情况,提供的信息太少
7、。 二是它容易受个别极端值的影响,不符合稳健型的要求。 minmax XXR 11 2 方差和标准差 一、方差(Variance)和标准差(Standard Deviation)的定义 将离均差平方和(Sum of Squares of Deviation from Mean,SS)除以观 察例数N,就得到方差: 方差越大,数据分布离散程度越大。 对于样本数据而言,方差的计算公式为: 将方差开方,就得到标准差。对于同性质的数据来说,标准差越小,表明 数据的变异程度越小,即数据越整齐,数据的分布范围越集中;标准差越 大,表明数据的变异程度越大,即数据越参差不齐,分布越分散。 二、方差和标准差的适
8、用范围: 方差和标准差的适用范围应当是正态分布。 N XX i 2 2 1 2 2 n XX S i 12 3 百分位数、四分位数与四分位数间距 分位差是对极差指标的一种改进,是从变量数列中剔除了一部分极 端值后重新计算的类似于极差的指标。常用的分位差有四分位差、 十分位差、百分位差。 一、分位数一、分位数 分位数:是一种位置指标,用PX表示。一个百分位数PX将一组观测值 分为两部分,理论上有x%的观测值比它小,(100-x)%的观测值比它 大。 四分位数(quartile)、十分位数(decile)、百分位数 (percentile),他们分别是用3个点、9个点、99个点将数据4等分、 10
9、等分和100等分后各分位点上的值。 13 二、四分位数二、四分位数 四分位数:实际上是三个数值的总称,分别是P25、P50、P75分位数。 很显然,中间的分位数是中位数,因此通常所说的四分位数是指 第一个四分位数(下四分位数)和第三个四分位数(上四分位数)。 上下四分位数的差值称为四分位数间距: QR=Q3-Q1 14 4 变异系数 当需要比较两组数据离散程度大小的时候,往往直接使用标 准差来进行比较并不合适。这可以被分为两种情况: (1)测量尺度相差太大; (2)数据量纲不同。 在以上情形中,就应当消除测量尺度和量纲的影响,而变异 系数(Coefficient of Variance),它是
10、标准差和其平均数的 比率。 X S CV 15 5.2 连续性变量的参数估计 根据样本数据对总体的客观规律性作出合理估计的过程被称 为统计推断(Statistical Inference),它可以被分为参数估 计和假设检验两大类。 1 正态分布 一、正态分布的定义 若连续性随即变量X的概率分布密度函数为 则称随机变量X服从正态分布(Normal Distribution) 2 2 2 2 1 X exf 16 二、正态分布的特征 (1)正态分布是一条对称曲线,关于均数对称,因此均数被 称为正态分布的位置参数。 (2)曲线是单峰,在均值出达到最高点。 (3)正态分布曲线的高矮与标准差有关。因此标
11、准差被称为 正态分布曲线的尺度参数。 (4)曲线无论向左或向右延伸,都越来越接近横轴,但不会 与横轴相交,以横轴为渐近线。 (5)约68%的个体的取值与平均数在距离一个标准差之内。 (6)约95%的个体取值与平均数的距离在1.96个标准差之内。 (7)99%个体的取值与平均数的距离在2.58个标准差。 17 三、标准正态分布(Standard Normal Distribution) 将原来的正态分布转换为标准正态分布。 X 在SPSS中的Descriptive过程可以将原变量转换为标准正态分布的得分, 只需要选中主对话框左下角的Save standardized values as vari
12、ables 复选框即可。 18 四、偏度和峰度 (1)偏度(Skewness):偏度是用来描述变量取值分布形 态的统计量,指分布不对称的方向和程度。样本偏度系数: 3 3 1 / 1 sxx n n i i 分布为对称分布。 偏右;即长尾巴在左边,峰尖分布,为负偏或左偏, 偏左;即长尾巴在右边,峰尖分布,为正偏或右偏, 0 0 0 偏态的方向指的应当是长尾的方向,而不是高峰的位置。 19 (2)峰度(Kurtosis):峰度用来描述变量取值分布形态陡缓的 统计量,是指分布图形的的尖削程度或峰凸程度。样本的峰 度系数: 3/ 1 4 4 1 SXX n n i i 分布为正态峰。 峰平坦。即形状
13、要比正态分布的 分布为低峰度的, ,峰的形状也比较尖。即比正态分布峰要陡峭 分布为高峰度的, 0 0 0 20 2 参数的点估计 参数的点估计就是选定一个适当的样本统计量作为参数的估计量,并计 算出估计值。 对于所选统计量是否适于作参数估计量,有无偏性、一致性和有效性三 个评选标准。 无偏性是指虽然估计量的值不全等于参数,但应在真实值附近摆动。 一致性是指样本容量越大,估计值离真实值的差异应当越小。 有效性是指如果两个统计量都符合上述要求,则应当选取误差更小的一 个作为估计值。 在许多种情况下,样本统计量本身往往就是相应的总体参数的最佳估计, 此时就可以直接取相应的样本统计量作为总体参数的点估
14、计。 一、矩法一、矩法 21 二、极大似然估计法 该方法的原理是在已知总体的分布,但未知其参数值时,在 待估参数的可能取值范围内进行搜索,使似然函数值最大的 那个数值为极大似然估计值。 三、稳健估计值 稳健估计值的是该统计量具有稳健性,当数据存在异常值时 受影响较小,而且对大部分的分布而言都很好。 22 稳健估计有M估计、R估计等不同方法。 SPSS中数出的M估计量有4种,它们分别是Huber、Andrews、Hampel 和Tukey所提出的,实际上就是所用的函数不同。一般而言,Huber适 用于数据接近正态分布的情况,另外三种则适用于数据中许多异常值的 情况。如果M估计量里平均数和中位数较
15、远,则数据中可能存在异常值。 此时,应该用M估计量替代平均数以反映集中趋势。 23 3 参数的区间估计 一、标准误 标准误就是用来描述参数估计值可能离真实值究竟有多远的统 计量。 二、区间估计的计算 结合样本统计量和标准误可以确定一个具有较大的可信度包含 总体参数的区间,该区间称为总体参数的1-a可信区间或置 信区间(Confidence Interval)。 对于任意可信度的区间情况,总体均值在100(1-a)%可信区 间为: nSuXnSuX 2/2/ 24 的正态分布。、方差为 值为的抽样分布近似服从均样本 通常要求充分大时的随机样本,当为 的总体中,抽取容量、方差为从均值 这一定理可以
16、表述为: 中心极限定理。 的。这就是统计学上著名总体方差的 ,方差为均值分布的数学期望为总体 于正态分布,其均值的抽样分布都将趋 样本从正态分布不论原来的总体是否服 通常要求的增大随着样本容量 n n nn n nn / X),30 ( /1 , ),30( 2 2 25 spss中的相应功能 1、Spss的用于连续变量统计描述的过程,均集中在Descriptive Statistics子菜单中。 (1)Frequencies:产生原始数据的频数表,并能计算各种百分位数。 26 控制频数 表输出范 围类型的 最大数目 27 (2)Descriptive过程 该过程用于一般性的统计描述,相对于F
17、requencies过程而 言,它不能绘制统计图。 28 (3)Explore 过程 该过程用于对连续性资料分布状况不清楚时的探索性分析, 它可以计算许多描述统计量,给出各种统计图,并进行简单 的参数估计。 29 30 (4)Ratio 过程 用于对两个连续性变量计算相对比指标。 31 32 5.3 连续变量统计描述实例 CCSS中的消费者信心总指数index1,现状指数 index1a,预期指数index1b进行统计描述,并计算 95%个体参考值范围。 1 使用频数过程进行分析 2 使用描述过程进行分析 33 一、Descriptive过程的结果 二、Frequencies过程的结果 34
18、3 使用Explore过程进行分析 探索分析是对数据进行初步的观察分析,主要的分析项目有: 观察数据的分布特征:可通过绘制箱图和茎叶图等图形直观 地反映数据的分布形式和数据的一些规律性,包括考察数据 中是否存在异常值等。 正态分布检验:检验数据是否服从正态分布。 方差齐性的检验:用Levene检验比较各组的方差是否相等。 35 1、单击Analyze-Descriptive statistics-Explore,打开Explore主对话框: 一、分析操作一、分析操作 (3)在Display栏中选择输出项,依次是Both选择项,输出图形与 描述统计量(系统默认),只输出描述统计量和只输出图形。本
19、例 中选择默认项。 (1)从左侧的变量列表中选出变量,送入Dependent List栏。 (2)选择” ”作为因子变量,送入Factor List栏。有了因子变量, SPSS会把所有的观测个体按照因子变量的取值分成若干各组,再分组考 察Dependent List中的各个变量,如果不选择因子变量,SPSS会对全部 观测来做探索分析。 36 2、单击Statistics统计量按钮,打开Statistics对话框,选择统计输出量。 (1)Descriptives基本统计 描述。同时指定均值的置信 区间的置信度,系统默认为 95。 (2)M-估计(M估计在计算时对所有观测量赋予权重,随观测 量距分布中心的远近而变化)。 (3)Outliers输出分析数据中五个最大值和五个最小值。 (4)Percentiles输出百分数。 37 3、单击Plots 图形按钮,打开Plots对话框。 (1)Boxplot 箱图选择栏 Factor levels together因变量 按因素水平分组(系统默认); Dependents together 所有因变 量生成一个并列箱图(本例中选 择项);None不显示箱图。 (2)Descriptive 描述图形栏 Stem-and-leaf 茎叶图 Histogram 直方图 (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度文具用品存货质押担保合同3篇
- 2024年图书出版发行与销售代理合同协议3篇
- 2024年瓶装矿泉水品牌联名限量版销售合同2篇
- 隔膜泵投资规划项目建议书
- 工业铝型材项目立项申请报告
- 年产xxx汽车蒸发器项目可行性分析报告
- (投资方案)全氟共聚物项目可行性研究报告
- 班长竞选演讲稿锦集九篇
- 个人财务人员工作总结(10篇)
- 2024版农产品包月运输合同范本2篇
- 2024年考研政治试题及详细解析
- 征兵工作试题
- 情绪调试-再见emo你好+Emotion+高一下学期心理健康教育课(通用版)
- TCALC 003-2023 手术室患者人文关怀管理规范
- 北京市西城区2023-2024学年七年级上学期期末地理试卷
- 建设工程安全风险管理
- 临水临电施工组织方案
- 国网安全生产培训课件
- 木材的分类和命名规则
- 班会:拓展学生的兴趣爱好课件
- 学校“禁毒八个一”台账目录
评论
0/150
提交评论