版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.spss 数据正态分布检验方法及意义判读要观察某一属性的一组数据是否符合正态分布,可以有两种方法(目前我知道这两种,并且这两种方法只是直观观察,不是定量的正态分布检验):1:在 spss 里的基本统计分析功能里的频数统计功能里有对某个变量各个观测值的频数直方图中可以选择绘制正态曲线。具体如下:Analyze-DescriptiveStatistics-Frequencies,打开频数统计对话框,在Statistics 里可以选择获得各种描述性的统计量,如:均值、方差、分位数、峰度、标准差等各种描述性统计量。在 Charts 里可以选择显示的图形类型,其中Histograms 选项为柱状图也就
2、是我们说的直方图,同时可以选择是否绘制该组数据的正态曲线(Withnorma curve ),这样我们可以直观观察该组数据是否大致符合正态分布。如下图:从上图中可以看出,该组数据基本符合正态分布。2 :正态分布的Q-Q 图:在 spss 里的基本统计分析功能里的探索性分析里面可以通过观察数据的q-q 图来判断数据是否服从正态分布。具体步骤如下: Analyze-DescriptiveStatistics-Explore打开对话框,选择Plots 选项,选择 Normalityplots with tests 选项,可以绘制该组数据的q-q图。图的横坐标为改变量的观测值,纵坐标为分位数。若该组数
3、据服从正态分布,则图中的点应该靠近图中直线。纵坐标为分位数,是根据分布函数公式F(x)=i/n+1 得出的 .i 为把一组数从小到大排序后第i 个数据的位置, n 为样本容量。若该数组服从正态分布则其q-q 图应该与理论的 q-q 图(也就是图中的直线)基本符合。对于理论的标准正态分布,其q-q 图为 y=x 直线。非标准正态分布的斜率为样本标准差,截距为样本均值。如下图:1/32.如何在 spss中进行正态分布检验1(转 )(2009-07-22 11:11:57)标签: 杂谈一、图示法1、 P-P 图以样本的累计频率作为横坐标, 以安装正态分布计算的相应累计概率作为纵坐标, 把样本值表现为
4、直角坐标系中的散点。 如果资料服从整体分布, 则样本点应围绕第一象限的对角线分布。2、 Q-Q 图以样本的分位数作为横坐标, 以按照正态分布计算的相应分位点作为纵坐标, 把样本表现为指教坐标系的散点。 如果资料服从正态分布, 则样本点应该呈一条围绕第一象限对角线的直线。以上两种方法以Q-Q 图为佳,效率较高。3、直方图判断方法:是否以钟形分布,同时可以选择输出正态性曲线。4、箱式图判断方法:观测离群值和中位数。5、茎叶图类似与直方图,但实质不同。二、计算法1、偏度系数(Skewness)和峰度系数(Kurtosis)2/32.计算公式:g1 表示偏度, g2 表示峰度,通过计算 g1 和 g2
5、 及其标准误 g1 及 g2 然后作 U 检验。两种检验同时得出 U0.05 的结论时,才可以认为该组资料服从正态分布。由公式可见,部分文献中所说的“偏度和峰度都接近0 可以认为 近似服从正态分布”并不严谨。2、非参数检验方法非参数检验方法包括Kolmogorov-Smirnov检验( D 检验)和Shapiro- Wilk ( W 检验 )。SAS中规定:当样本含量n 2000 时 , 结果以 Shapiro Wilk (W 检验 ) 为准 , 当样本含量 n 2000 时 , 结果以 Kolmogorov Smirnov( D 检验 ) 为准。SPSS中则这样规定: (1)如果指定的是非整
6、数权重,则在加权样本大小位于3 和 50 之间时,计算Shapiro-Wilk 统计量。 对于无权重或整数权重,在加权样本大小位于3 和 5000之间时,计算该统计量。由此可见,部分SPSS教材里面关于“Shapiro Wilk 适用于样本量 3-50 之间的数据”的说法是在是理解片面,误人子弟。(2)单样本Kolmogorov-Smirnov检验可用于检验变量(例如income)是否为正态分布。对于此两种检验,如果P 值大于 0.05,表明资料服从正态分布。三、 SPSS操作示例SPSS中有很多操作可以进行正态检验, 在此只介绍最主要和最全面最方便的操作:1、工具栏 -分析描述性统计探索性2
7、、选择要分析的变量,选入因变量框内,然后点选图表,设置输出茎叶图和直方图,选择输出正态性检验图表,注意显示(Display)要选择双项( Both)。3/32.3、 Output 结果(1)Descriptives:描述中有峰度系数和偏度系数,根据上述判断标准,数据不符合正态分布。Sk =0,Ku=0 时,分布呈正态, Sk0时,分布呈正偏态, Sk0曲线比较陡峭, KuCompare Means-Independent-Samples T Test运行结果:经方差齐性检验:F= 0.393P=0.532 ,即两方差齐。(因为p 大于 0.05 )所以选用 t检验的第一行方差齐情况下的t 检验
8、的结果:就是选用方差假设奇的结果所以, t=0.644,p=0.522,没有显著性差异。(因为p 0.05表示差异有显著性)。均值相差: 113.30159解释:7/32.使用 compare means 里的 independent smaples T test,检验结果里的Levenes Test for Equality of Variances就是对方差齐性的检验 , 如果 P 值大于 0.05 则认为是方差齐, 统计量为F= S12/S2 F(n1-1,n2-1) ,显著水平一般为0.05,0.01,原假设H0:方差相等。方差分析 (Anaylsis of Variance, ANO
9、VA)要求各组方差整齐,不过一般认为,如果各组人数相若,就算未能通过方差整齐检验,问题也不大。One-Way ANOVA对话方块中,点击Options( 选项 ) 按扭,勾 Homogeneity-of-variance即可。它会产生Levene 、Cochran C 、Bartlett-Box F等检验值及其显著性水平P 值,若 P 值Compare Means-Independent-samples T Test.再看看结果中p 值的大小是否 Descriptive Statistics-Frequencies ,把 hstarts 选入 Variables ,取消在 Display Fr
10、equency table 前的勾,在 Chart 里面 histogram ,在 Statistics 选项中如图 18/32.图 1分别选好均数 (Mean),中位数 (Median) ,众数 (Mode),总数 (Sum),标准差 (Std. deviation) ,方差 (Variance) ,范围 (range) ,最小值 (Minimum) ,最大值(Maximum),偏度系数 (Skewness) ,峰度系数 (Kutosis) ,按 Continue 返回,再按 OK,出现结果如图 2图 2表中,中位数与平均数接近,与众数相差不大,分布良好。标准差大,即数据间的变化差异还还小。
11、峰度和偏度都接近 0,则数据基本接近于正态分布。下面图3 的频率分布图就更直观的观察到这样的情况9/32.图 3二采用各种图直观观察数据分布情况,如采用柱型图观察归类的比例等。同样以自带文件 Trends chapter 13.sav 为例,我们可以观察一下各年的数据总和的对比:1选择 Graph-Bar-Simple ,在“ Data in chart are ”一项选择 Summaryof groups of cases ,然后按 Define ,出现图 4,10/32.图 42 选择 Bars Represent-Other statistic(e.g. mean),把 hstarts一
12、项选入Variable 里面,把 YEAR,Periodic 一项选入 Category Axis 项中,并按 Change Statistic 键,出现图 5:图 53在 Statistic 选项中选 Sum of values 一项,按 Continue 返回,按 OK即可出现图 6:图 6从图中可以非常直观的看出1965 年 -1975 年间,每年的总体数量对比和各数值多少。三通过列联表来观察,数据的交错关系。以软件自带的文件University of Florida graduate salaries.sav来说明1、选择 Tables-Basic Table ,在弹出对话框中,选择
13、Graduate 到 Summaries 栏, College 到 Down ,Gender 到 Across 栏,如图 711/32.图 72、选择 Statistics按键,选取 Count 和 layer% 到 Cell Statistics一栏,并按 Continue 键,如图 8图 812/32with value labels only.三、选择 Layout 按键,选择 Summary Variable Labels-In separate labels(汇总的标签,如本例的 Graduate ,放在表外), Statistics Labels-Across top (数据的标签
14、横放在顶部,如本例的 Count 和 Layer%),并在 Label groups前选择打勾 ( 表示只需要具体的标签名就可以,不需要汇总名,如本例 Gender 和 College) ,如图 9图 9四、选择 Total按键,在 Totals over each group variable一项前选勾,则输出表会有增加汇总一栏,如图1013/32.图 10提示,需要什么表格形式可以根据要求来调整, 但对输出按键都需要熟悉, 多尝试几次就可以看出不同的区别。图 11 为输出的表格图 11重要提示 :如果结果变成变量的汇总( SUM),则先选择 Data-Weight Cases ,把 Gra
15、duate 的选项先选入 Weight Cases by 内,再选回 Do not weight Cases ,14/32.按 OK即可。对于其他带有编号的一项都可以这样做。这一点不知为何,本人屡次试过总需要这样调整。参考图 12图 12几种常用的统计方法应用一般来说,最最常用的统计分析有假设检验和回归分析,在 SPSS中也有很好的对应工具来做这些分析, 但对其基本思路和要求都必须了解, 这样才能更灵活的发挥。下面抄录 EXCEL在市场调查中的应用一书中关于这方面的内容:1假设检验目的:是用来 判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成 的统计推断方法。基本思想:小概率反
16、证法思想。即 P0.01 或 P0.05 在一次试验中基本不会生发。反证法思想是先提出假设 (检验假设 H0),再用适当的统计方法确定假设成立的可能性大小,如果可能性小, 则认为假设不成立, 否则,还不能认为假设不成立。方法: t 检验, u 检验,秩和检验,卡方检验应用条件: A、各组资料具有可比性B、具正态分布C、方差齐性(即先作F 检验,如 F0.1,具方差齐性)2方差分析目的:又称为变异系数分析或F 检验。用于推断 两组或多组资料的总体平均数是否相同,检验两个或多个样本平均数的差异是否具有统计意义( 也可认为是检验多个总体均值是否有显著性差异注 1,这样可能更简单一点 ) 。15/32
17、.基本思想:用组内均方去除组间均方的商,即F 值,与 1 比较,若 F 值接近 1,则说明各验均数间的差异没有统计学意义,否则表示有统计学意义。应用条件: A、各组资料具有可比性B、具正态分布C、方差齐性(即 F 检验)提示,在应用 SPSS中,只要死死的记住一个显著系数 0.05 就可以应用(如果是双尾系数需要除以 2),一般的大于 0.05 接受原假设,小于 0.05 则拒绝。简单的说,一般 结果拒绝就是说样本有差异,样本相对独立 ,都是表示同一种意思,读这方面书的时候,希望不要让这些名词混乱了思路。SPSS的方差检验中,需要注意下面问题:方差检验中, Post Hoc 键有 LSD的选项
18、:当方差分析 F 检验否定了原假设,即认为至少有两个总体的均值存在显著性差异时, 须进一步确定是哪两个或哪几个均值显著地不同,则需要进行 多重比较来检验 。LSD即是一种多因变量的三个或三个以上水平下均值之间进行的两两比较检验。2 Independent Samples 检验中的 Mann-Whitney U检验与 K Independent Samples 中的 Kruskal-Walllis (克鲁斯卡尔瓦里斯) H 检验法思想类似,常用来作为非参数检验。2 Related Samples非参数检验中,一般有Sign 普通符号检验法和Wilcoxon 威尔科克森符号秩检验法。前者用于研究的
19、问题 只有两个可能的结果 :“是”或“非”,并且二者遵从二项分布; 后者是普通符号检验法的改进, 除了可以检验是非外,还可以了解差异的大小。K Related Samples 非参数检验中,主要有 Friedman 秩和检验与 Cochran Q 检验二种选择,前者是对多个样本是否来自同一总体的检验, 而后者是用于 只分为“成功”和“失败”两种结果的定类尺度 测量的数据。附录: SPSS假设检验方法使用对照表图 13其中相关、配对或有交互作用可以理解为 EXCEL的重复,独立或无交互作用可以理解为 EXCEL中的无重复。图 13 表大部分参考数据分析与 SPSS应用一书,特别说明3回归分析16
20、/32.目的:研究一个变量 Y 与其它若干变量X 之间的一种数学工具。 它是一组试验或观测数据的基础上, 寻找被随机性掩盖的变量之间的依存关系。A直线回归方程Yc=a bXB回归关系的检验:求回归方程在总体中是否成立,即是否样本代表的总体也有直线回归关系。a. 方差分析:基本思想是将总变异分解为 SS回归和 SS乘余,然后利用 F 检验来判断方程是否成立。b. t 检验:基本思想是利用样本回归系数 b 与总体平均数回归系数进行比较来判断回归方程是否成立。下面摘录数据分析与 SPSS应用一书关于相关回归和时间序列分析一些概念解释。数据变量间主要存在二类关系:一类是函数关系,一类是相关关系。前者是
21、变量间有确定关系,即一个变量的值能够在其他变量取值确定的情况下,按某种函数关系唯一确定; 后者是变量间虽然具有的联系, 并非确定关系, 如价格与销量量,价格高了,销售量可能会上去,但无法确定销售量是多少。通过散点图来观察, 如果点都集中在一条直线附近, 是线性相关, 如果在一条曲线附近,则为非线性相关。如果一个变量因另一个变量的增加而增加, 减少而减少,则二个变量间存在正相关关系,反之则为负相关关系。 极端的相关是完全相关和零相关。 如某地区购买自行车多少与购买大蒜多少无关,是为零相关。按我的理解,相关分析就是推断变量与变量之间关系的密切程度, 回归就是在相关的基础上, 找出变量间的拟合模型,
22、 从而进一步推测出未来的趋势和变量。 而时间序列则是以时间的作为观察的序列,来推断变量间的关系的一种模型。以自带文件 Trends chapter 13.sav 为例,说明一下如何应用这三种分析工具。1相关打开 Trends chapter 13.sav 文件,可以看到,这个文件的数据是以时间来排序的,在每个值前增加一行序列号变量,如图 1417/32.图 14一个时间序列的影响因素有四种变动: A长期趋势( Secular Trend), B 季节变动( Seasonal Variation), C循环变动( Cyclical Variation), D 不规则变动( Irregular V
23、ariation)。我们可以观察一下这些数据是否存在某种关系,打开 Graphs-Sequence,如图 1518/32.图 15把 hstarts 选入 Variables 项,把 No.选入 Time Axis Lables ,然后按 OK,出现图 16:图 16从图可以看出,数据总是在一个周期内反复在上下波动, 虽然高低的位置不一样,但这种波动显然是随着时间的不同而变化。因此可以察看,因变量与时间的关系如何。选择 Data-Define Dates ,出现图 1719/32.图 17在 Year 一栏填入 1965,Month 一栏填入 1,表示数据从 1965 年 1 月开始计算。选择
24、 Analyze-Correlate-Bivariate,出现图 18图 1820/32.把 hstarts,Year 和 Month 都选入 Varibales选项, CorrelationCoefficients选择 Pearson 和 Spearman(其实只需要选 Spearman就可以,这里只是试一下,作为比较)。注:相关检验中有 Pearson(皮尔森)相关系数和 Spearman(斯皮尔曼)等级相关,前者也称皮尔森相关系数, 是对两个定距变量 关系的刻画; 后者是用来考察两个变量中至少有 一个定序变量 时的相关关系。 Zero-order Correlations (零阶偏听偏相
25、关系数) 是按 Pearson 简单相关系数公式计算得到的相关系数。 在皮尔森系数 r 是对两个定距变量关系的刻画 :若 - 1r 1, |r| 越大,表明两个变量之间的相关程度越强。若 0r1,表明两个变量之间存在正相关。 若 r=1 ,则表明变量之间存在着完全正相关的关系。若 - 1rRegression-Curve Estimation ,出现图 22图 22把 hatarts 选入 Dependents 选项,Independent 选择 Time,Models 选择(Linear )线性回归,(Quadratic )二次曲线回归,(Cubic )三次曲线回归,( Exponentia
26、l )指数回归,选择Include constant in equation表示方程式有常数项, Plotmodels 则表示用图表示,然后按OK,出现图 23图 23线性方程: Y=70.43 0.135X二次曲线方程: Y=64.171 0.415X-0.02X 223三次曲线方程: Y=87.68-1.667X 0.037X( 0X )23/32.指数曲线方程: Y=68.229xe0.002从 Sig 值判断,都小于 0.05 ,都接受回归成立,这样,只能从 R拟合度和 F 值较大来判断三次曲线方程的拟合程度比较高。注意,如果方程成立的话, 想要增加预测, 则可以在 Save 选项中选
27、择 Predicted Values 一项,如果还想预测未来的数值, 则可以在原表上增加若干行 (如 1 行),然后选择 Predict Cases 下面 Predict through ,在 Year 填入 1976,在 Month 填入 1,这样就表示预测值到 1976 年的一月。如图 24 所示。图 24注意,在 Independent 选择 Time 和把 ID 选入结果一样,则因为 ID 是以时间为序来排,所以结果一样。3时间序列因为 R 的似合度分别为0.05 , 0.064 ,0.199 和 0.039 ,都比较低,方程的效果不太好,如果要预测数值还是选择时间序列比较合适,因为从
28、刚才Sequence的图也可以观察到,数据是以后的时间来波动的变化关系。选择 Analyze-Time Series-Exponential Smoothing,出现图 2524/32.图 25把 hstarts选入 Variables选项,并在 Model 选择 Winters (注意,三种不同的模型的选择:简单指数平滑适用于不包含长期趋势和季节成分的数据; Holt 方法适合于包含长期趋势但不包含季节成分的数据; Winters 方法适合于包含季节成分(以及长期趋势)的数据。 EXCEL中只有简单的指数回归,与这里的绝不相同,从这里也可以看到专业分析软件的优势更具体更仔细),又按Save
29、键,如图 2625/32.图 26Predict Case选项中选择 Predict through,并在 Year 栏填入 1976, month 填入 6,这样就可以得到 1976 年 1-6 月份的预测值( 注意,此处与上面的回归不同,不需要增加 6 个 ID ,不然结果会显示有缺失值 )。返回,按 Parameters 键,如图 2726/32.图 27分别把 Alpha(截距项的平滑系数), Gamma(趋势项的平滑系数)和 Delta (季节指数的平滑系数),设为从 0 到 1 之间以步长 0.05 搜索最优的参数值,其它选项采用默认值。返回按 OK,出现结果如图 28:图 28从
30、图可看到平滑指数分别是 Alpha 0.75 ,Gamma=0, Delta=0 ,而更重要的是,可以直接得到预测值,如图 29:图 2927/32.除了 Fit 一项的预测外,可以得到 1976 年 1-6 月的预测结果。同时,可以通过 FIT 1 的预测情况与上面三次曲线回归方程比较,采用平均绝对误差、均方根误差和平均绝对百分误差的结果选择更佳的答案。与 EXCEL表现的比较和补充这一点是针对像我这样开始只懂得用 EXCEL的人来说。从个人的体会来说, 二种软件有一定相似,操作都简便,同时又有一些可以互补的地方。一、图型的表现力是SPSS的主要优点之一应该说, EXCEL的图型表现主要是简
31、便,对许多的人来说基本够用,但对于科学的表现, SPSS就更为详细和准确,这一点据说在所有统计软件中都突出。因为大多的书里面都谈到,这里从略。二、通过 SPSS检验方差齐性和数据分布假设检验中,采用的t 检验和方差检验都需要满足二个要求,即1样本方差齐性2样本总体呈正态分布在 EXCEL中,提供了 F 检验来检验方差齐性问题。 也就是可以先通过 F 检验确定方差齐性与否来选择下一步用哪个 T 检验或方差检验分析工具。 但只要数据多于二组则无从下手; 通过描述统计大约能从峰度和偏度来了解样本的分布 (实际工作中,只要分布单峰且近似对称分布,也可应用注 2),但要具体确定样本的分布也有难度。这二个
32、问题在SPSS就可以解决。A、用 SPSS检验方差齐性同样以 University of Florida graduate salaries.sav 文件作为例子来检验性别数据是否方差齐性a.选择 Analyze-Descriptive Statistics-Explore ,再选择 Dependent List-Graduate ,Factor List-Gender , Display-Both ,如图 3028/32.图 30b. 点击 Plot 按键,在对话框里选择 Boxplots-None ,Spread vs.Level with Levene Test-Untransformed ,在 Descriptive 选择中取消 Stem-and-leaf 一项,如图 31图 31然后,按 OK键,结果如图 32 显
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论