版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第六章:描述性统计分析Descriptive Statistics 菜单详解6.1Freque ncies过程6.1.1界面说明6.1.2分析实例6.1.3结果解释6.2Descriptives过程621界面说明6.2.2结果解释6.3 Explore 过程:至6.3.1界面说明6.3.2结果解释6.4Crosstabs 过程6.4.1界面说明6.4.2分析实例6.4.3结果解释描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的 先决条件。SPSS勺许多模块均可完成描述性分析,但专门为该目的而设计的几 个模块则集中在Descriptive Statistics菜单中,最常用
2、的是列在最前面的四个过程:Frequencies过程的特色是产生频数表;Descriptives 过程则进行一般 性的统计描述;Explore过程用于对数据概况不清时的探索性分析;Crosstabs 过程则完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。I十 本章讲述的四个过程在9.0及以前版本中被放置在Summarize菜单中。§ 6.1 Frequencies 过程频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产 生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位 点的数值,以及常用的条图,圆图
3、等统计图。和国内常用的频数表不同,几乎所有统计软件给出的均是详细频数表,即并 不按某种要求确定组段数和组距,而是按照数值精确列表。如果想用 Frequencies过程得到我们所熟悉的频数表,请先用第二章学过的Recode过程产生一个新变量来代表所需的各组段。6.1.1 界面说明Frequencies对话框的界面如下所示:该界面在SPSS中实在太普通了,无须多言,重点介绍一下各部分的功能如下:【Display freque ncy tables复选框】确定是否在结果中输出频数表。【Statistics 钮】单击后弹出Statistics对话框如下,用于定义需要计算的其他描述统计量。Fyuquu口
4、匚己tistics厂 klunrtilesi*11 UMiiiiHHMaiiiMiiiaiiaaf厂 Cui points for |l0equal groupsDispersion厂 Sid. deviation厂Minimum厂 Variance厂Maximumr Rang?厂S.E. mCn厂 Values are group midpointsDistribution 厂 Skewnessr Kurtosls现将各部分解释如下:o Percentile Values复选框组 定义需要输出的百分位数,可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cut poi n
5、tsfor equal groups)、或直接指定某个百分位数(Percentiles),如直 接指定输出P2.5和P97.5。o Central ten de ncy 复选框组用于定义描述集中趋势的一组指标:均数 (Mean)、中位数(Median)、众数(Mode)、总和(Sum)。o Dispersion复选框组用于定义描述离散趋势的一组指标:标准差(Std.deviation)、方差(Varianee)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)。o Distribution复选框组用于定义描述分布特征的两个指标:偏度系数(Ske
6、wnes9 和峰度系数(Kurtosis)。o Values are group midpoints复选框 当你输出的数据是分组频数数据,并且具体数值是组中值时,选中该复选框以通知spss免得它犯错误。众数(Mode)指所有数值中出现频率最高的一个值,在国内用的非常少【Charts钮】弹出Charts对话框,用于设定所做的统计图o Chart type单选钮组 定义统计图类型,有四种选择:无、条图(Bar chart )、圆图(Pie chart)、直方图Histogram ),其中直方图还可以选 择是否加上正态曲线(With normal curve )。o Chart Values 单选钮
7、组 定义是按照频数还是按百分比做图(即影响纵坐 标刻度)。Format 钮】 弹出 Format 对话框,用于定义输出频数表的格式,不过用处不大,一般不管o Order by 单选钮组 定义频数表的排列次序,有四个选项: Ascending values 为根据数值大小按升序从小到大作频数分布; Descending values 为根据数值大小按降序从大到小作频数分布; Ascending counts 为根据 频数多少按升序从少到多作频数分布; Descending counts 为根据频数多 少按降序从多到少作频数分布。o Multiple Variables 单选钮组 如果选择了两个以
8、上变量做频数表,则 Comparevariables 可以将他们的结果在同一个频数表过程输出结果中显 示,便于互相比较, Organize output by variables则将结果在不同的频数表过程输出结果中显示。o Suppress Tables more than. 复选框 当频数表的分组数大于下面设定 数值时禁止它在结果中输出,这样可以避免产生巨型表格。6.1.2 分析实例例 6.1 某地 101 例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直 方图,计算均数、标准差、变异系数 CV中位数M p2.5和P97.5 (卫统第三版 p233 1.1 题)。4.77 3.376.
9、143.953.564.234.314.715.694.124.564.375.396.305.217.22 5.543.935.214.125.185.774.795.125.205.104.704.743.504.694.38 4.896.255.324.504.633.614.444.434.254.035.854.093.354.084.79 5.304.973.183.975.165.105.864.795.344.244.324.776.366.384.88 5.553.044.553.354.874.175.855.165.094.524.384.314.585.726.55 4
10、.764.614.174.034.473.403.912.704.604.095.965.484.404.555.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90 3.05解:为节省篇幅,这里只给出精确频数表的做法,假设数据已经输好,变量名为X,具体解法如下:1. Analyze=>Descriptive Statistics=>Frequencies2. Variables 框:选入 X3. 单击 Statistics 钮:4. 选中 Mean、Std.deviation 、 Median 复选框5. 单击 Percentiles :
11、输入 2.5 :单击 Add:输入 97.5 :单击 Add:6. 单击 Continue 钮7. 单击 Charts 钮:8. 选中 Bar charts9. 单击 Continue 钮10. 单击OK得出结果后手工计算出CVI "上面做出的直方图分组太多,需要进一步编辑6.1.3 结果解释上题除直方图外的的输出结果如下:Freque nciesXStdtiticsNValid101M isEing04.&99505M e d ia n4 餌 0000Sid. Deviation.361013Percentilsf2 597,5C. 453500最上方为表格名称,左上方为分
12、析变量名,可见样本量 N为101例,缺失值0 例,均数 Mean=4.69,中位数 Median=4.61,标准差 STD=0.8616, P2.5=3.04, P97.5=6.45。Cum!Ulldti¥C;FrequencyPercen 七Va hd PercentP ercentViiid2.700011.01 Q1.09.04001101j02.03,2皿11.01 Q3.03.19&01101.04.03 240011.01.0厅.D系统对变量x作频数分布表(此处只列出了开头部分),Vaild右侧为原始值,Freque ncy为频数,Perce nt为各组频数占总例
13、数的百分比(包括缺失记录在内),Valid perce nt 为各组频数占总例数的有效百分比,Cum Perce nt为各组频数占总例数的累积百分比。§ 6.2 Descriptives 过程Descriptives 过程是连续资料统计描述应用最多的一个过程,他可对变量进行 描述性统计分析,计算并列出一系列相应的统计指标。这和其他过程相比并无不 同。但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量 的形式存入数据库供以后分析。621界面说明【Save sta ndardized values as variables 复选框】 确定是否将原始数据的标准正态评分存为新
14、变量【Options钮】弹出Options对话框,大部分内容均在前面Frequences过程的Statistics 对话 框中见过,只有最下方的Display Order单选钮组是新的,可以选择为变量列表 顺序、字母顺序、均数升序或均数降序。6.2.2结果解释F面是一个典型的Descriptives 过程结果统计表:DescriptiveNStd.叶-i冃tianX1 口 12.70007.220001515Valid N (lishvtse)101一望可知,这里的大部分内容都在上一节见过,因此就不再多解释了I讲了两个过程,也许大家已经发现了:结果中的统计专业单词多数在对话框 中就已经出现,因
15、此我们以后会详细解释对话框的内容, 结果中相同的单词不再 重复解释。§ 6.3 Explore 过程Explore过程可对变量进行更为深入详尽的描述性统计分析,主要用于对资料的性质、分布特点等完全不清楚时,故又称之为探索性分析。它在一般描述性统计 指标的基础上,增加有关数据其他特征的文字与图形描述,如枝叶图、箱图等, 显得更加详细、全面,有助于用户制定继续分析的方案。6.3.1界面说明【 Display 单选钮组】用于选择输出结果中是否包含统计描述、统计图或两者均包括。Dependent List 框】 用于选入需要分析的变量Factor List 框】 如果想让所分析的变量按某种因
16、素取值分组分析,则在这里选入分组变量Label cases by 框】 选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录 ID 号的变量。【 Statistics 钮】弹出 Statistics 对话框,用于选择所需要的描述统计量。有如下选项:o Descriptives 复选框:输出均数、中位数、众数、 5%修正均数、标准误、 方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系 数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。o M-estimators 复选框:作中心趋势的粗略最大似然确定,输出四个不同 权重的最大似然确定数。o Outliers
17、 复选框:输出五个最大值与五个最小值。o Percentiles 复选框:输出第 5%、10%、25%、50%、 75%、90%、95%位数。【 Plot 钮】 弹出 Plot 对话框,用于选择所需要的统计图。有如下选项:o Boxplots 单选框组:确定箱式图的绘制方式,可以是按组别分组绘制 (Factor levels together) ,也可以不分组一起绘制 (Depentends together) ,或者不绘制 (None) 。o Descriptive 复选框组:可以选择绘制茎叶图 (Stem-and-leaf) 和直方图 (Histogram) 。o Normality pl
18、ots with test复选框:绘制正态分布图并进行变量是否符合正态分布的检验。o Spread vs. Level with Levene Test单选框组:当选择了分组变量时,绘制 spread-versus-level 图(我还没有找到他的中文名字该叫什么), 设置绘图时变量的转换方式,并进行组间方差齐性检验。Options 钮】用于选择对缺失值的处理方式,可以是不分析有任一缺失值的记录、不分析计算 某统计量时有缺失值的记录,或报告缺失值。6.3.2结果解释以例6.1的数据为例,按默认方式下的选择,Explore过程的输出如下:ExploreCflse Processing Summa
19、ry5解ValidM issi hgT otalNPercentINPerea irtNPercentX101100.00沁忙T1OOj0y首先是例行的处理记录缺失值情况报告,可见 101例均为有效值。Oeser iptiuesStdtiftio SN. ErrorXMean4.6635054.62Q4118.573 E-02。百囁 Confidanat lntrvl forBoundUpper Bound5% Trinmfd Mtin4.oeai isMe dia n4.B 10000VarianceStd. Donation.S61&15Minimum2.7000Maximum7.
20、2200Range4.5200interquartile Range1.060000SkiAjn 逢.251.240Kurtoiis10i476上表详细列出了常用的描述统计量,如果有标准误也会列出(如偏度和峰度系 数)。X Stem-a nd-Leaf PlotFreque ncy Stem & Leaf1.00278.003001233349.00355668999924.004 .00000111122233333334444425.004 .555555666667777777778889917.005 .011111112223333349.0055567788896.0061
21、123331.00651.00 Extremes(>=7.2)Stem width:1.00001 case(s)Each leaf:以上是茎叶图,整数位为茎,小数位为叶。这样可以非常直观的看出数据的分布 范围及形态,在国外非常流行。以上是箱式图,中间的黑粗线为均数,红框为四分位间距的范围,上下两个细线 为最大、最小值。§ 6.4 Crosstabs 过程Crosstabs过程用于对计数资料和有序分类资料进行统计描述和简单的统计推 断。在分析时可以产生二维至n维列联表,并计算相应的百分数指标。统计推断则包括了我们常用的X2检验、Kappa值,分层乂 (X2m-h)0如果安装了相
22、应模块, 还可计算n维列联表的确切概率(Fisher's Exact Test )值。丄Crosstabs过程不能产生一维频数表(单变量频数表),该功能由Frequencies 过程实现。6.4.1界面说明【Rows框】用于选择行*列表中的行变量。【Colum ns框】用于选择行*列表中的列变量。【Layer框】Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用 相同的设置,而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next钮设为不同层。Layer 在这里用的比较少,在多元回归中我们将进行
23、详细的解释。【Display clustered bar charts复选框】显示重叠条图。【Suppress table复选框】禁止在结果中输出行*列表。【Exact钮】针对2*2以上的行*列表设定计算确切概率的方法,可以是不计算( Asymptotic only )、蒙特卡罗模拟(Monte Carlo )或确切计算(Exact )。蒙特卡罗模拟默 认进行10000次模拟,给出99刑信区间;确切计算默认计算时间限制在 5分钟 内。这些默认值均可更改。钮如果你在安装SPSS时没有安装EXACT模块,则此处对话框中不会出现ExactI"在3*3及以上的行*列表中,确切概率的精确计算是
24、极为漫长的过程。我曾 经用SAS 6.12在P133机上计算过一个12格表的确切概率,整整跑了两个小时后,SAS告诉我说机器内存不足:(。SPSS勺计算速度比SAS要慢许多倍,因此一 般只需要选用蒙特卡罗模拟算出概率值的 99%可信区间就行了, 精度完全可以满 足需要,而速度极快( 10000次模拟一般耗时在 10 秒左右)。【 Statistics 钮】弹出 Statistics 对话框,用于定义所需计算勺统计量。o Chi-square复选框:计算 X值。o Correlations 复选框:计算行、列两变量勺 Pearson 相关系数和 Spearman 等级相关系数。o Normina
25、l 复选框组:选择是否输出反映分类资料相关性勺指标,很少使 用。a. Contingencycoefficient复选框:即列联系数,其值界于 01之间;b. Phi and Cramer's V复选框:这两者也是基于 X2值的,Phi在四格表 乂检验中界于-11之间,在R*C表X2检验中界于01之间;Cramer's V 则界于 01 之间;c. Lambda复选框:在自变量预测中用于反映比例缩减误差,其值为 1 时表明自变量预测应变量好,为 0时表明自变量预测应变量差;d. Uncertainty coefficient 复选框:不确定系数,以熵为标准的比例 缩减误差,其值
26、接近 1 时表明后一变量的信息很大程度来自前一变 量,其值接近 0 时表明后一变量的信息与前一变量无关。o Ordinal 复选框组:选择是否输出反映有序分类资料相关性的指标,很少 使用。a. Gamm复选框:界于01之间,所有观察实际数集中于左上角和右 下角时,其值为 1 ;b. Somers'd 复选框:为独立变量上不存在同分的偶对中,同序对子数 超过异序对子数的比例;c. Kendall's tau-b复选框:界于 -1 1 之间;d. Kendall's tau-c复选框:界于 -1 1 之间;o Eta 复选框:计算 Eta 值,其平方值可认为是应变量受不同因
27、素影响所致 方差的比例;o Kappa复选框:计算Kappa值,即内部一致性系数;o Risk复选框:计算比数比ORfi;o McNeman复选框:进行 McNeman检验(一种非参检验);o Cochran's and Mantel-Haenszel statistics复选框:计算 Xm-h统计量(分层X2,也有写为X2cmH的),可在下方输出H)假设的OR值,默认为1。【Cells 钮】弹出Cells对话框,用于定义列联表单元格中需要计算的指标:o Counts复选框组:是否输出实际观察数(Observed)和理论数(Expected); o Percentages复选框组:是否
28、输出行百分数(RoW、列百分数(Column) 以及合计百分数(Total);o Residuals复选框组:选择残差的显示方式,可以是实际数与理论数的差 值(Unstandardized )、标化后的差值(Standardized,实际数与理论数 的差值除理论数),或者由标准误确立的单元格残差( Adj.Standardized );【Format钮】用于选择行变量是升序还是降序排列。642分析实例例6.2某医生用国产呋喃硝胺治疗十二指肠溃疡,以甲氰咪胍作对照组,问两 种方法治疗效果有无差别(医统第二版P37例3.10)?处理愈合未愈合合计呋喃硝胺r 548r 62甲氰咪胍4420(64合计
29、9828126 '解:由于此处给出的直接是频数表,因此在建立数据集时可以直接输入三个变量行变量、列变量和指示每个格子中频数的变量,然后用 Weight Cases对话框指定频数变量,最后调用 Crosstabs过程进行火检验。假设三个变量分别 名为R、C和W则数据集结构和命令如下:RCW1.001.0054.001.002.0044.002.001.008.002.002.0020.001. Data=>Weight Cases2. Weight Cases by 单选框:选中3. Freqency Variable :选入 W4. 单击OK钮5. Analyze=>Descriptive Statistics=>Crosstabs6. Rows框:选入R7. Columns框:C8. Statistics 钮:Chi-square 复选框:选中:单击 Continue 钮9. 单击OK钮6.4.3 结果解释上题的结果如下:CrosstabsCase Processing 5umm*ryValid!hdissi rigTotalNFercenthPerea irtNPerea ntR T C128100.00沁侥 E1OOj0y首先是处理记录缺失值情况报告,可见 126例均为有效值。CounitTot
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 市政道路工程施工合同
- 2024年外贸新品代理权独家合同
- 2024年二手摩托车买卖协议书
- 2024年工厂技术支持合同
- 2024年小产权二手房买卖合同模板
- 农业合作社合同管理与信息化方案
- 2024年商业购房贷款合同
- 2024年共同投资协议:建筑行业发展合作条款
- 2024年工厂技术转让合同样本
- 2024年区域销售代理合作协议
- 院前急救与院内急诊有效衔接工作制度
- 2.1充分发挥市场在资源配置中的决定性作用(课件) 2024-2025学年高中政治 必修2 经济与社会
- Unit+5+Fun+Clubs+Section+A++(1a-1d)教学课件-2024-2025学年人教新目标(2024)七年级英语上册
- 超聚变 FCIA 考试题库
- 陕煤集团笔试题库及答案
- 33 《鱼我所欲也》对比阅读-2024-2025中考语文文言文阅读专项训练(含答案)
- (正式版)HGT 22820-2024 化工安全仪表系统工程设计规范
- (高清版)TDT 1075-2023 光伏发电站工程项目用地控制指标
- 《中华民族共同体概论》考试复习题库(含答案)
- 2022-2023学年武汉市江岸区七年级英语上学期期中质量检测卷附答案
- 【原创】水平三花样跳绳教学设计和教案
评论
0/150
提交评论