描述性统计分析_第1页
描述性统计分析_第2页
描述性统计分析_第3页
描述性统计分析_第4页
描述性统计分析_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

描述性统计分析第一页,共二十三页,编辑于2023年,星期六描述性统计只对统计数据的结构和总体情况进行描述,并不能深入了解统计数据的内部规律。Spss的许多模块都可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在descriptivestatistics菜单中,他们就是计算各种统计量或绘制统计图来实现描述功能。第二页,共二十三页,编辑于2023年,星期六descriptivestatistics菜单主要内容(1)频数分布表分析(Frequencies):其特色就是产生频数表,对分类数据和定量资料都适用。(2)统计描述分析(Descriptive)进行一般性描述,适用于服从正态分布的定量资料。(3)Explore过程:用于对数据分布状况不清楚时的探索性分析,它会杂七杂八给出一大堆可能用到的统计指标和统计图,让研究者参考。(4)Crosstabs

过程则完成计数资料和等级资料的统计描述和一般的统计检验我们常用的X2检验也在其中完成(5)Ratio过程;用于对两个连续性变量计算相对比指标,它可以计算出一系列非常专业的相对比描述指标。第三页,共二十三页,编辑于2023年,星期六常用的描述统计量集中趋势指标(centraltendency):标准差(standarddeviation),均数(means)众数(mode),中位数(median),总和(sum),标准误(S.E.mean)等。其中标准差方差只适用正态分布。标准误则反映了样本均数的波动程度。

百分位数指标(percentile):包括四分位数,各个百分位数等,适用于任何分布类型资料。分布指标(distribution):偏度系数(Skewness)和峰度系数(Kurtosis),反映了数据偏离正态分布的程度其它:M统计量(M-estimators)、极端值(outlier)等,主要用于对存在异常值的数据进行描述。第四页,共二十三页,编辑于2023年,星期六7.1frequencies过程频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的,它不仅可以产生单变量详细的频数表,显示文件中指定变量特定值发生的频数,还可以获得某些描述统计量或按要求给出某百分位点的数值以及常用的条图、圆图等统计图。第五页,共二十三页,编辑于2023年,星期六7.1.1对话框界面及各部分选项说明【Displayfrequencytables复选框】确定是否在结果中输出频数表。【Statistics钮】单击后弹出Statistics对话框,用于定义需要计算的其他描述统计量。第六页,共二十三页,编辑于2023年,星期六

分布指标百分位数指标集中趋势指标离散趋势指标计算百分数时选此项第七页,共二十三页,编辑于2023年,星期六【Charts钮】弹出Charts对话框,用于设定所做的统计图。Charttype单选钮组定义统计图类型,有四种选择:无、条图(Barchart)、圆图(Piechart)、直方图Histogram),其中直方图还可以选择是否加上正态曲线(Withnormalcurve)。ChartValues单选钮组定义是按照频数还是按百分比做图(即影响纵坐标刻度)。【Format钮】弹出Format对话框,用于定义输出频数表的格式,不过用处不大,一般不管。第八页,共二十三页,编辑于2023年,星期六

7.1.2分析实例例6.1某地101例健康男子血清总胆固醇值测定结果存在文件danguchun.sav中,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。第九页,共二十三页,编辑于2023年,星期六操作过程如下:1.Analyze==>DescriptiveStatistics==>Frequencies2.Variables框:选入X3.单击Statistics钮:4.选中Mean、Std.deviation、Median复选框5.单击Percentiles:输入2.5:单击Add:输入97.5:单击Add:6.单击Continue钮7.单击Charts钮:8.选中Barcharts9.单击Continue钮10.单击OK第十页,共二十三页,编辑于2023年,星期六结果解释最上方为表格名称,左上方为分析变量名,可见样本量N为101例,缺失值0例,均数Mean=4.69,中位数Median=4.61,标准STD=0.8616,P2.5=3.04,P97.5=6.45。第十一页,共二十三页,编辑于2023年,星期六系统对变量x作频数分布表(此处只列出了开头部分)Vaild右侧为原始值,Frequency为频数,Percent为各组频数占总例数的百分比(包括缺失记录在内),Validpercent为各组频数占总例数的有效百分比,CumPercent为各组频数占总例数的累积百分比。第十二页,共二十三页,编辑于2023年,星期六7.2Descriptives过程Descriptives过程是连续资料统计描述应用最多的一个过程,他可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。这和其他过程相比并无不同。但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。第十三页,共二十三页,编辑于2023年,星期六确定是否将原始数据的标准正态变换结果存为新变量。选入需要描述的变量,可选入多个第十四页,共二十三页,编辑于2023年,星期六变量列表顺序字母顺序均数升序均数降序。

第十五页,共二十三页,编辑于2023年,星期六一个典型的Descriptives过程结果统计表最上方为表格名称,左下方为分析变量名,可见样本量N为101例;均数:Mean=4.6995,最大值:Maximum=7.22,标准差:STD=0.8616,最小值:Minimum=2.70。第十六页,共二十三页,编辑于2023年,星期六7.3Explore过程主要用于对资料数据的性质、分布状况等完全不清楚时的进行分析,故称探索性分析。在常用的描述性统计指标的基础上,它又增加了有关数据详细分布特征的文字与图形描述,如茎叶图、箱式图等,显得更加详细全面。还可以为以方差齐性为目的的变量变换提供线索,有助于用户制定继续分析的方案。第十七页,共二十三页,编辑于2023年,星期六选入需要分析的变量选入分组变量选择一个变量,他的取值将作为每条记录的标签

选择所需要的描述统计量

选择所需要的统计图

选缺失值的处理方式第十八页,共二十三页,编辑于2023年,星期六Statistics对话框Descriptives复选框:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。M-estimators复选框:作中心趋势的粗略最大似然确定,该统计量是用哪个迭代法计算出来的,输出四个(Huber,Andrew,Hampel,Tukey)不同权重的最大似然确定数。其中huber法适用于数据接近正态分布的情况,另三种适合数据中有许多异常值时。Outliers复选框:输出五个最大值与五个最小值。Percentiles复选框:输出第5%、10%、25%、50%、75%、90%、95%位数。第十九页,共二十三页,编辑于2023年,星期六第二十页,共二十三页,编辑于2023年,星期六血清总胆固醇Stem-and-LeafPlotFrequencyStem&Leaf1.002.78.003.001233349.003.55668999924.004.00000111122233333334444425.004.555555666667777777778889917.005.011111112223333349.005.5567788896.006.1123331.006.51.00Extremes(>=7.2)Stemwidth:1.00Eachleaf:1case(s)第二十一页,共二十三页,编辑于2023年,星期六茎叶图,整数位为茎,小数位为叶。这样可以非常直观的看出数据的分布范围及形态第二十二页,共二十三页,编辑于2023年,星期六作业1、对给定数据文件exerc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论