版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基本统计分析返回11 频数分布分析 返回2定义:频数就是一个变量在各个变量值上取值的个案数。如要了解学生某次考试的成绩情况,需要计算出学生所有分数取值,以及每个分数取值有多少个人,这就需要用到频数分析。变量的频数分析正是实现上述分析的最好手段,它可以使人们非常清楚地了解变量取值的分布情况。3利用一维频数分布表可以对数据按组进行归类整理,形成各变量的不同水平的频数分布表和图形,以便对各变量的数据特征好观测量分布状况有一个概括的认识。交叉表分析过程可以生成二维或多维频数表,还可以进行分类变量之间的独立性检验。4 返回一、 一维频数分布分析过程(data05-01)Analyze descripti
2、ve statistics frequencies5选择statistics(输出统计量)对话框 返回如果中位数与众数相差很大,说明观测量中存在异常值6Charts(图形)参数选择对话框 返回7频数分布表format(格式)对话框 返回8Data05-01 age eudc不同年龄人员与其受教育年限的统计表 返回9受教育年限的频数分布表 返回10age变量的直方图 返回11educ变量直方图 返回12二、交叉表分析analyze descriptive statistics crosstabs (data05-01) 返回前面的分析都是对单个变量的数据分布情况进行分析。但在实际分析中,还需要掌
3、握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系,这种分析就称为交叉列联表分析。交叉列联表分析除了列出交叉分组下的频数分布外,还需要分析两个变量之间是否具有独立性或一定的相关性。要获得变量之间的相关性,仅仅靠频数分布的数据是不够的,还需要借助一些变量间相关程度的统计量和一些非参数检验的方法。13常用的衡量变量间相关程度的统计量是简单相关系数(参见本书有关章节),但在交叉列联表分析中,由于行列变量往往不是连续变量,不符合计算简单相关系数的前提条件。因此需要根据变量的性质,选择其他的相关系数,如Kendall等级相关系数、Eta值等。14SPSS提供了多种适用于
4、不同相关系数的相关关系,这些检验的零假设是:行和列变量之间彼此独立,不存在显著的相关关系。SPSS将自动给出检验的P值,如果P值小于显著性水平0.05,那么应拒绝零假设,认为行列变量之间彼此相关。15计算公式如下。(1)卡方统计量检验是常用的检验行列变量之间是否相关的方法。交叉列联表的卡方检验零假设是:行列变量之间独立,计算公式为16卡方统计量服从(行数1)(列数1)个自由度的卡方统计,SPSS在自动计算卡方统计量后,还会给出相应的P值。注意:使用这个统计量进行检验时,要求期望频数大于等于5。若不满足该条件需要使用精确检验法。17(2)Contingency coefficient:列联系数。
5、用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,公式为 其中,N为观测量数 其数值在01之间,0表示行列变量之间没有关联,1表示行列变量之间有很强的关联。18 (3)Phi and Cramers V:系数。用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,公式为 数值界于01之间,其中K为行数和列数较小的实际数。19 返回一个行变量和一个列变量可以形成一个二维交叉表,再指定一个分组变量作为控制变量就形成三维交叉表。如果可以指定多个行、列、控制变量,就会形成一个复杂的多维交叉表。交叉表的数据可以是数值型或字符型变量,短字符串变量可以直接作为分类变量。2021选择sta
6、tistics(统计量)对话框 返回22Exact(精确检验)对话框 返回提供两种针对小数据量与不平衡表的检验方法此值小于0.05则认为行、列变量存在关系23Cells(显示单元格)对话框 返回24Format(格式)对话框 返回25大样本的交叉表实例Data05-01 child/occcat80/region观测量统计处理摘要 返回26 返回27卡方检验 返回28小样本的交叉表实例 data05-02 sex/earnings观测量统计处理摘要 返回29交叉表 及卡方检验结果 返回302 描 述 统 计 返回31描述统计分析对话框analyze descriptive statistics
7、 descriptives(data05-03) 返回32Options(选择项)对话框 返回33全美各种犯罪数据描述统计量 返回343 探 索 分 析 返回35 定义:调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索分析。 它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。36探索分析提供对数据的考查:1. 检查数据是否有错误。过大或过小的数据均有可能是奇异值、影响点或错误数据。2. 数据分布特征。许多分析方法对数据的分布有一定要求。许多分析方法要求样本来自正态分布总体,对两组数据均值差异性的分
8、析要求方差相等。37EXPLORE过程提供数据在分组与不分组的情况下,常用的统计量与统计图形。EXPLORE的图形可以直观的将奇异值、非正常值、丢失的数据及数据本身的特点呈现出来。提供的考查方法: 1. 箱线图 2. 茎叶图3. 正态分布检验4. 方差齐性检验38一、箱图 返回异常值所使用的标记为“0”极值所使用的标记为“*”39二、茎叶图 返回近似值=(茎值+叶值0.1)茎宽40三、正态性检验观测量数据的正态分布检验需要特别指出的是:对数据进行正态分布的检验时,几乎都有理由认定数据拒绝正态分布假设,此时如果数据量足够大,进行统计计算时就不必强求观测量一定服从正态分布,只要数据接近于正态分布就
9、可以了。常用的检验方法有: P-P概率图和Q-Q概率图; LILLIFORS统计量检验法 一般情况下,当其显著性水平小于0.05时,就可以拒绝数据的正态分布假设。零假设:数据分布为正态分布41四、方差齐性检验Spread vs level图显示图形的同时还输出回归方程斜率以及为使方差变齐的Levene稳健估计量,即为使两个方差相同,对数据进行幂转换的幂值。Levene检验其好处为:进行方差齐性检验时,不强求数据必须服从正态分布的条件。一般情况下,如果它的显著性水平小于0.05,就可以拒绝各方差相等的假设。M估计M估计在计算时对所有观测量赋权,随观测量距离分布中心的远近而变。计算包括极端值。极端
10、值由于靠外,因此比位于中心部位的观测量给予较小的权重。常用的M估计方法有Huber、Andrew、Hampel和Tukey。通过实践,这四种方法都可以很好的取代平均值以及中位数,其中Hube估计方法对于近似正态分布的数据效果最好。零假设:各方差全相等42五、实例analyze descriptive statistics explore(data05-04 salary/gender/id)43选择statistics描述统计量对话框 返回44plots统计图对话框 返回45实例输出之一:观测量摘要表 返回46salary变量的描述统计量 返回47M估计值全部比均值小,但与中位数十分接近,初步判断观测量数据可能呈现偏态分布48变量的极端值 返回49数据正态分布检测统计量 返
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医用矿物盐产品供应链分析
- 医用水床产品供应链分析
- 复印传真体机产业链招商引资的调研报告
- 电线项目运营指导方案
- 医用鼻咽拭子产品供应链分析
- 废物环境监测行业市场调研分析报告
- 医用超声成像设备产业链招商引资的调研报告
- 医用体育训练器械产业链招商引资的调研报告
- 上门验光服务行业市场调研分析报告
- 局域网服务器产业链招商引资的调研报告
- 经典私募股权投资(PE)课程课件
- 创建三级综合性医院汇报材料课件
- 《管理会计》案例分析题案例分析一 经理的困惑e
- 证券投资分析教材电子版版
- 毕业生求职简历模板精简版
- 小学数学西南师大六年级上册二圆《圆》PPT
- 建设工程安全隐患排查表
- 英文工作证明Letter-of-Employment-(模版)
- 压力式泡沫比例混合装置安装使用说明书
- 整改措施及落实情况反馈表
- 基肥一生物菌肥田间肥效试验专题方案
评论
0/150
提交评论