SPSS和SAS统计实验指导书.doc_第1页
SPSS和SAS统计实验指导书.doc_第2页
SPSS和SAS统计实验指导书.doc_第3页
SPSS和SAS统计实验指导书.doc_第4页
SPSS和SAS统计实验指导书.doc_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS和SAS统计实验指导书(学生用)王慧、欧晓华、王立平等编经济与贸易系市场营销教研室2006年4月目 录实验一:统计描述31均值(Mean)和均值标准误差(S.E.mean)32中位数(Median)53众数(Mode)64全距(Range)75方差(Variance)和标准差(Standard Deviation)86四分位数(Quartiles)和十分位数(Deciles)107频数(Frequency)128峰度(Kurtosis)149偏度(Skewness)16实验二:均值比较和T检验171均值比较172单一样本T检验203两独立样本T检验214两配对样本T检验23实验三:相关分析261实验理论概述262二元定距变量的相关分析263二元定序变量的相关分析334偏相关分析375距离相关分析41实验四:回归分析511一元线性回归512多元线性回归分析57实验一:统计描述实验内容:均值、中位数、众数、全距、方差与标准差、四分位数、十分位数、频数、峰度、偏度实习目的:掌握SPSS基本的统计描述方法,可以对要分析的数据的总体特征有比较准确的把握,从而为以后实验项目选择其他更为深入的统计分析方法打下基础。实验一要研究的问题:某班级的数学成绩A1A2A3A4A5A6A7A8A9A10A11A12A13A14A15A16A17A18998879595489795689992389705067788956将该班级学生的姓名和数学成绩定义为两个变量,并将数学成绩作为实验一的原始数据输入SPSS保存。1 均值(Mean)和均值标准误差(S.E.mean)问题:求该班级在一次数学测验中的平均成绩和其标准差 实验步骤:步骤1 单击“Analyze”菜单“Descriptive statistics”项中的“Frequencies”命令,如图1-1所示。图1-1 选择Frequencies菜单步骤2 弹出Frequencies对话框,如图1-2所示,在对话框左侧的便利列表中选择“数学”,单击按钮使之添加到Variable(s)框中。图1-2 Frequencies对话框步骤3 单击Frequencies对话框下方的Statistics 按钮,弹出如图1-3 所示对话框。选择要统计的项目,在Central Tendency中选择Mean,在Dispersion中S.E.mean,选好后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS开始计算图1-3 Frequencies:Statistics对话框实验结果:由以上结果可以看出该班数学的平均成绩为72.9444分,均值的标准误差为4.75097。该结果可以在“File”菜单中选择Save as 命令,将该结果保存为Mean1文件。2 中位数(Median)问题:求该班级数学成绩的中位数 实验步骤:步骤1 单击“Analyze”菜单“Descriptive statistics”项中的“Frequencies”命令,如图1-4所示。图1-4 选择Frequencies菜单步骤2 弹出Frequencies对话框,如图1-5所示,在对话框左侧的变量列表中选择“数学”,单击按钮使之添加到Variable(s)框中。图1-5 Frequencies对话框步骤3 单击Frequencies对话框下方的Statistics 按钮,弹出如图1-6所示对话框。选择要统计的项目,在Central Tendency中选择Median,选好后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算图1-6 Frequencies:Statistics对话框实验结果:由上图可以看出该班数学成绩的中位数是78.5分。在结果输出窗口处选择“File”菜单中的Save as 命令,将该结果保存为Median1文件。3 众数(Mode)问题:求该班数学成绩的众数 实验步骤:步骤1 步骤一和步骤二同以上求均值和中位数的步骤一和步骤二步骤2 单击Frequencies对话框下方的Statistics 按钮,弹出如图1-7所示对话框。选择要统计的项目,在Central Tendency中选择Mode,选好后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算图1-7 Frequencies:Statistics对话框实验结果:由以上结果可以看出该班级数学成绩中成绩为89分的人最多。将该结果保存为“Mode1”4 全距(Range)问题:求该班学生数学成绩的全距 实验步骤:步骤1 步骤一和步骤二同以上求均值和中位数的步骤一和步骤二步骤2 单击Frequencies对话框下方的Statistics 按钮,弹出如图1-8所示对话框。选择要统计的项目,在Dispersion中选择Range,选好后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算图1-8 Frequencies:Statistics对话框实验结果:由以上结果可以看出该班学生成绩的全距为76分(即9923=76)。将该结果保存为range1。5 方差(Variance)和标准差(Standard Deviation)问题:求该班学生数学成绩的方差和标准差 实验步骤:步骤1 单击“Analyze”菜单“Descriptive statistics”项中的“Descriptives”命令,如图1-9所示图1-9选择Frequencies菜单步骤2 弹出Descriptives对话框,如图1-10所示,在对话框左侧的变量列表中选择“数学”,单击按钮使之添加到Variable(s)框中。图1-10 Descriptives 对话框步骤3 单击Descriptives对话框下方的Options 按钮,弹出如图1-11所示对话框。选择要统计的项目,在此对话框中选择Mean、Std.deviation、和Variance三项统计量,选好后单击Continue按钮返回Descriptives对话框,单击OK按钮,SPSS即开始计算图1-11 Descriptives:Options对话框实验结果:由以上结果可以看出,该班级学生数学成绩的方差为406.291,标准差为20.15666,平均成绩为72.9444。将该结果文件保存为variance1。6 四分位数(Quartiles)和十分位数(Deciles)问题1:求该班级学生成绩的四分位数 实验步骤:步骤1 单击“Analyze”菜单“Descriptive statistics”项中的“Frequencies”命令,如图1-1所示步骤2 弹出Frequencies对话框,如图1-2所示,现要求处该班学生数学成绩的四分位数,故在对话框左侧的便利列表中选择“数学”,单击按钮使之添加到Variable(s)框中。步骤3 单击Frequencies对话框下方的Statistics 按钮,弹出如图1-12所示对话框。选择要统计的项目,在Percentile Value中选择Quartiles,选好后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算图1-12 Frequencies:Statistics对话框实验结果1: 由以上结果可以看出,该班学生数学成绩的第一分位数Q1=56,第二分位数Q2=78.5,第三分位数Q3=89。四分位差Q=(89-56)/2=16.5。将该结果保存为quartiles1文件。问题2:求该班学生成绩的D6实验步骤:步骤1 单击“Analyze”菜单“Descriptive statistics”项中的“Frequencies”命令,如图1-1所示步骤2 弹出Frequencies对话框,如图1-2所示,现要求处该班学生数学成绩的十分位数,故在对话框左侧的便利列表中选择“数学”,单击按钮使之添加到Variable(s)框中。步骤3 单击Frequencies对话框下方的Statistics 按钮,弹出如图1-13所示对话框。在Percentile Value中选择Percentile(s)右方的小框中依次10,20,100,每输完一个数据后单击下方的Add按钮,使这个数据依次添加到右下方的空白框内。之后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算图1-13 Frequencies:Statistics对话框实验结果2:由以上结果可以看出,该班学生数学成绩的D6=82,其余十分位数D1=47.3,D2=55.6,D9=99。将该结果保存为Deciles1文件。7 频数(Frequency)问题:求出该班学生数学成绩的频数分布 实验步骤:步骤1 在“Analyze”菜单中“Descriptive Statistics”中选择Frequencies命令,弹出Frequencies对话框,如图1-14所示图1-14 Frequencies对话框步骤2 在对话框左侧的变量列表中选择“数学成绩”,单击按钮使之添加到Variable(s)框中。步骤3 选择对话框下方的Display frequency tables 复选框,表示显示频数分布表。单击OK按钮,SPSS自动完成计算。实验结果:由以上结果可以看出各个分数的得分人数,如得89分的人最多为4个,得56分、79分和99分的人各有2个,其余的分数都为1人。8 峰度(Kurtosis)问题:数学分数人数231501541562591671701781792881894992求该班学生数学成绩的峰度 实验步骤:步骤1 在“Data”菜单中选择Weight Cases命令,如图1-15所示图1-15 选择菜单步骤2 在弹出如图1-16所示的Weight Cases 对话框中,左边的变量表中选择“人数”变量,使其添加到Frequency Variable 框中。使人数成为权重变量。单击OK按钮,返回到SPSS数据编辑窗口。图1-16 Weight Cases 对话框步骤3 在“Analyze”菜单中“Descriptive Statistics”中选择Frequencies命令,弹出Frequencies对话框,如图1-17所示图1-17 Frequencies 对话框在对话框左侧的变量列表中选择“数学成绩”,单击按钮使之添加到Variable(s)框中。步骤4 单击Frequencies对话框下方的Statistics 按钮,弹出如图1-18所示对话框。选择要统计的项目,在Distribution中选择Kurtosis,选好后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算图1-18 Frequencies:Statistics 对话框实验结果:由上图可以看出个案N为18,峰度为0.488,峰度大于0,表示该班级数学成绩分布比正态分布高峰更加陡峭。9 偏度(Skewness)问题:求该班数学成绩分布的偏度步骤1 步骤一、二和步骤三同求峰度的步骤步骤2 单击Frequencies对话框下方的Statistics 按钮,弹出如图1-19所示对话框。选择要统计的项目,在Distribution中选择Skewness,选好后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算图1-19 Frequencies:Statistics 对话框实验结果:由以上结果可以看出个案数N为18个,偏度为0.810,偏度小于0,表示该班级数学成绩分布中,负偏差数值较大,为负偏或左偏,即和正态分布相比较,分数偏低的人较多,有一条长尾巴拖在左边。实验二:均值比较和T检验实验目的:掌握均值比较、单一样本T检验、两独立样本T检验和两配对样本T检验的方法实验内容:均值比较、单一样本T检验、两独立样本T检验和两配对样本T检验1均值比较研究问题:性别数学成绩Male99795989798999Female88545623比较不同性别学生数学成绩的平均值和方差 实验步骤:步骤1 在“Analyze”菜单“Compare Means”项中选择Means命令,如图2-1所示图2-1 选择菜单步骤2 弹出Means对话框,如图2-2 所示。因要分性别求数学成绩的均值和标准差,所以在对话框左侧的变量列表中选择“数学”,单击按钮使之进入Dependent List框中。选择“性别”,单击使之添加到Independent List框中。Independent List框可以有多个变量,表示分做的多个层次,可以通过单击“Next”按钮来实现。图2-2 Means 对话框步骤3 单击右下角的Options按钮,弹出如图2-3所示的对话框,可以选择要统计的项目。图2-3 Means:Options对话框在Cell Statistics 项中,Mean为均值、Standard Deviation为标准差、Variance为方差、Number of Cases 为观察单位数。在Statistics for First Layer项中,如果选中Anova table and eta 项,则将为第一层次的分组计算方差分析(也就是单因素方差分析,通过方差分析的结果,可以看出第一层次的分组是否在观察值上有均值显著差异)。如果选中Test of linearity 项,则进行第一层次的线性检验。选好后,单击Continue按钮返回Means对话框,单击Ok按钮,SPSS即开始计算。以上结果显示:总共对11个个案进行了统计,其中男生的数学成绩平均值为84.71分,标准差为13.97;女生的数学成绩平均值为55.25分,标准差为26.55;总体平均值为74分,标准差为23.44。由此可以看出女生的数学成绩总体上来说差于男生,未达到总体的平均分。2单一样本T检验问题:分析该班学生的数学成绩和全国的平均成绩70分之间是否存在显著性差异。 实验步骤:步骤1 在“Analyze”菜单“Compare Means”项中选择one-sample T test命令,如图2-4所示图2-4 选择菜单步骤2 选择菜单后,出现One-Sample T Test对话框,如图2-5所示图2-5 One-Sample T Test对话框 将全国数学高考的平均值70填入Test Value框,将要检验的变量“数学”从左侧框中添加到Test Variable框中。步骤3 单击Options按钮,出现图2-6所示的对话框图2-6 One-Sample T Test:Options对话框步骤4 单击Continue按钮,返回到One-sample T Test对话框,单击OK按钮,SPSS即完成所需要的计算实验结果:由以上结果可以看出:11个学生的数学成绩平均值为74分,标准差为23.44,均值误差为7.07。本例中的检验均值为70分,样本均值和检验均值的差为4,计算出的T值为0.566,相伴概率为0.584。95%的置信区间为-11.75,19.75,表示95%的样本差值在该区间内。假设显著性水平a为0.05,由于相伴概率大于a,因此接受原假设,即认为该11名同学的均值和全国的数学均值相比,没有显著性差异。3两独立样本T检验研究问题:分析清华、北大大一学生的高考数学成绩之间是否存在显著性差异 实验步骤:步骤1 首先到清华、北大校园中随机调查9位大一同学的高考数学成绩,进行记录。虽然分析的是两个独立样本,但在数据组织时,SPSS要求两个独立样本数据放在一个SPSS变量中,再加上另外一个变量source01,对来自不同学校的学生进行区分。学校数学成绩清华998879595489795689北大992389705067788956步骤2 在“Analyze”菜单“Compare Means”中选择Independent-Samples T Test命令,如图2-7所示图2-7 选择菜单步骤3 在弹出如图2-8所示的Independent-Samples T Test对话框中,从对话框左侧的变量列表中选择“数学”变量,并添加,到Test Variable(s)框中。选择“source01”变量,添加到Grouping Variable框中。图2-8 Independent-Samples T Test对话框步骤4 单击Define Groups按钮,弹出Define Groups对话框,如图2-9所示。在该对话框中指定标识变量的区分方法。选择Use specified values选项,表示根据标识变量的取值进行区分。在Group1中输入0,在Group2中输入1。图2-9 Define Groups 对话框步骤5 单击Continue按钮,返回Independent-Sample T Test对话框,单击OK按钮,SPSS即开始计算。实验结果:由以上结果可以看出:两个学校9个学生的数学平均分分别为76.89和69分,标准差分别为16.56和23.54,均值误差分别为5.52和7.85 。统计量F的相伴概率为0.461,大于显著性水平0.05,接受方差相等的假设,即认为两个学校学生的数学成绩无显著差异。方差相等时T检验结果,统计量T的相伴概率为0.423,大于显著性水平0.05,接受T检验的零假设,也就是说,两个学校18个学生高考数学成绩平均值不存在显著差异。4两配对样本T检验问题:研究一个班同学在参加了暑期数学培训班之后,数学成绩是否有明显的变化?姓名数学1数学2A19998A28889A37980A45978A55478A68989A77987A85676A98956A109976A112389A128989A137099A145089A156788A167898A178978A185689 实验步骤:步骤1 在“Analyze”菜单“Compare Means”中选择Pared-Samples T Test命令,如图2-10所示图2-10 选择菜单步骤2 在弹出如入4-11所示的Pared-Samples T Test对话框中,从对话框左侧的变量列表中选择“数学1”,这时“数学1”变量出现在图4-11种的Current Selections框的Variable1中。然后从对话框左侧的变量列表中选择“数学2”, “数学2”出现在Current Selections框的Variable2中,这时表示将这两个变量配对,然后使之添加到Pared Variable(s)框中。图2-11 Pared-Samples T Test对话框步骤3 单击OK,SPSS即开始自动计算。实验结果: 由以上结果可以看出:参加培训前后,该班学生数学成绩分别为72.94和84.77分,培训前后数学成绩序列的均值相差-11.83。计算出的T统计量为-2.15,相伴概率为0.046,比显著性水平0.05小,因此拒绝原假设,即认为培训前后该班学生的数学成绩有显著的差异,培训后,该班学生数学成绩明显提高。实验三:相关分析实验目的:掌握二元定距变量的相关分析、二元定序变量的相关分析、偏相关分析、距离相关分析的理论内容,SPSS中的操作方法。实验内容:二元定距变量的相关分析、二元定序变量的相关分析、偏相关分析、距离相关分析1实验理论概述任何事物的变化都与其他事物是相互联系和相互影响的,用于描述事物数量特征的变量之间自然也存在一定的关系。变量之间的关系归纳去来可以分为两种类型,即函数关系和统计关系。衡量事物之间,或称变量之间的线形相关程度的强弱并用适当的统计指标表示出来,这个过程就是相关分析。比较直接和常用的一种方法是绘制散点图,但是为了能更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。如果相关系数是根据总体全部数据计算的,称为总体相关系数,记为,如果是根据样本数据计算来的,则称为样本相关系数,记为r.在统计学中,一般用样本相关系数r来推断总体相关系数.相关系数的取值范围在1和+1之间,即1r+1。其中:若0r 1,表明变量之间存在正相关关系。若1r0,表明变量之间存在负相关关系。当1=1时,其中一个变量的取值完全取决于另一个变量,二者即为函数关系;若r=+1,表明变量之间完全正相关;若r=1,表明变量之间完全负相关。当r=0时,说明变量之间不存在线形相关关系。在说明变量之间线形相关程度时,根据经验可将相关程度分为以下几种情况: 当r0.8时,视为高度相关。 0.5 r0.8时,视为中度相关。 0.3 r0.5时,视为低度相关。 r0.3时,说明变量之间的相关程度极弱,可视为不相关。2二元定距变量的相关分析 统计学上的定义和计算公式二元定距变量的相关分析是指通过计算定距变量间两两相关的相关系数,对两个或两个以上定距变量之间两两相关的程度进行分析。在二元相关分析过程中比较常用的几个相关系数是Pearson简单相关系数、Sperman和Kendalls tua-b等级相关系数。本材料仅介绍Pearson简单相关系数。Pearson简单相关系数用来衡量定距变量间的线形关系。如衡量国民收入和居民储蓄存款、身高和体重等变量间的线形相关关系。Pearson简单相关系数的计算公式为:对Pearson简单相关系数的统计检验是计算t统计量:t统计量服从n-2个自由度的t分布 SPSS中实现过程 研究问题:某班级学生数学和化学期末考试成绩如表3-1所示,现要研究该班学生的数学和化学成绩之间是否具有相关性。表3-1 学生的数学和化学成绩人名数学化学Yuli99.0090.00Yafe88.0099.00Ty65.0070.00Yu89.0078.00Zhang94.0088.00Wang90.0088.00Hai79.0075.00Bill95.0098.00Cfei95.0098.00Kake80.0099.00Jou70.0089.00Heyy89.0098.00Marry85.0088.00Mary50.0060.00Ming87.0087.00Chen87.0087.00Smith86.0088.00Jess76.0079.00 实现步骤步骤1在“Analyze”菜单“Correlate”中选择Bivariate命令,如图3-1所示。图3-1 选择Bivariate Correlate 菜单步骤2在弹出的如图3-2所示Bivariate Correlate对话框中,从对话框左侧的变量列表中分别选择“数学”和“化学”变量,单击 按钮使这两个变量进入Variables框。在Correlation Coefficients框中选择相关系数,本例选用Pearson项。在Test of significance框中选择相关系数的双侧(Two-tailed)检验,检验两个变量之间的相关取向,也就是从结果中来得到是正相关还是负相关。图3-2 Bivariate Correlate对话框选中Flag significations correlations选项,则相关分析结果中将不显示统计检验的相伴概率,而以星号(*)显示。一个星号表示当用户指定的显著性水平为0.05时,统计检验的相伴概率值小于等于0.05,即总体无显著性相关的可能性小于等于0.05;两个星号表示当用户指定的显著性水平为0.01时,统计检验的相伴概率值小于等于0.01,即总体无显著线形相关的可能性小于等于0.01。显然,在这两个星号比一个星号的检验更加精确。步骤3单击Options按钮,出现Bivariate Correlate:Options对话框,如图3-3所示。图3-3 Options对话框Statistics框中的Means and standard deviations表示在输出相关系数的同时计算输出各变量的平均值和标准差;选中Cross-product deviations and covariances项表示输出叉积离差和协方差。叉积离差即为Pearson简单相关系数公式的分子部分,协方差为:叉积离差/(1),也反映变量间的相关程度。Missing Values框中为对缺失值进行处理,Exclude cases pairwise项表示如果正参与计算的两个变量中有缺失值,则暂时提出那些在这两个变量上去缺失值的个案;Exclude cases listwise项为剔除所有具有缺失值的个案后再计算。本例中选择Means and standard deviations和Exclude cases pairwise项,单击Continue按钮,返回Bivariate Correlate对话框,单击OK按钮,则可得到SPSS相关分析的结果。结果和讨论:SPSS的运行结果如下:Correlations 从以上结果可以得出第一个表格所有人(n=18)的数学成绩(83.5556)、数学成绩的标准差(12.14240)、化学平均成绩(96.6111)和化学成绩的标准差(10.777109)。第二个表格则是所要求的相关系数,它以一个矩阵的形式表示。从中可以看出,数学成绩和化学成绩的相关系数为0.742。在这个数据的旁边有两个星号,表示用户指定的显著性水平为0.01时,统计检验的相伴概率小于等于0.01,即数学和化学显著相关,且为正相关。 绘制相关散点图如果对变量之间的相关程度不需要那么精确,则可以通过绘制变量的散点图来直接判断。仍以上例作为说明。实现步骤步骤1在“Graphs”菜单中选择Scatter命令,如图3-4所示。图3-4 选择Scatter命令步骤2本例只需绘制出数学成绩和化学成绩两者的散布情况,因此选择“Simple”图,如图3-5所示。图3-5 Scatterplot对话框步骤3单击Define按钮,打开Simple Scatterplot对话框,如图3-6所示。在此对话框中,把左侧的“数学”、“化学”这个两个变量分别通过单击按钮使之添加到右侧的X Axis和Y Axis框中,表示散点图将分别把数学成绩和化学成绩绘制在X轴和Y轴上。其他悬想不变,然后单击OK,开始绘图。图3-6 Simple Scatterplot对话框结果和讨论绘出的散点图如图3-7所示,从中明显看出这两个变量线形正相关,数学成绩好的学生其化学成绩也较好。图3-7 散点图 练习题: 某工厂生产多种产品,分别对其进行两标准评分,评分结果如下表,现在要研究这两个标准之间是否具有相关性。 产品的标准1和标准2评分产品名标准1标准2产品165.0043.00产品278.0050.00产品388.0070.00产品445.0060.00产品594.0078.00产品690.0068.00产品779.0055.00产品873.0088.00产品974.0070.00产品1080.0075.00产品1167.0080.00产品1268.0068.00产品1365.0074.00产品1456.0076.00产品1581.0088.00产品1689.0091.003二元定序变量的相关分析 统计学上的定义和计算公式定序变量又称为有序变量、顺序变量,它的取值的大小能够表示观测对象的某种顺序关系(等级、方位、或大小等),也是基于“质”因素的变量。例如,“最高学历”变量的取值是:1小学及以下、2初中、3高中、中专、技校、4大学专科、5大学本科、6研究生以上。由小到大的取值能够代表学历由低到高。Spearman和Kendalls tua-b等级相关系数用以衡量定序变量间的线形相关关系,它们利用的是非参数检验的方法。计算公式如下:Spearman等级相关系数:其中 ( 、分别为两变量排序后的秩),可见,Spearman是利用秩得到的。对Spearman等级相关系数的统计检验,一般如果个案数n30,将直接利用Spearman等级相关系统计量表,SPSS将自动根据该表给出对应的相伴概率值。但是当个案数n30,则计算Z统计量:Z统计量近似服从正态分布,SPSS将依据正态分布表给出对应的相伴概率。Kendalls tua-b等级相关系数:V是利用变量的秩数据计算而得的非一致对数目。对Kendalls tua-b等级相关系数的统计检验,一般如果个案数n30,将直接利用Kendalls tua-b等级相关系统计量表,SPSS将自动根据该表给出对应的相伴概率值。但是当个案数n30,则计算Z统计量:Z统计量近似服从正态分布,SPSS将依据正态分布表给出对应的相伴概率。 SPSS中实现过程 研究问题某语文老师先后两次对其班级学生同一篇作文加以评分,两次成绩分别记为变量“作文1”和“作文2”,如表3-2所示。问两次评分的等级相关有多大,是否达到显著水平?表3-2 学生作文两次的得分情况人名作文1作文2Yuli86.0083.00Yafe78.0082.00Ty62.0070.00Yu75.0073.00Zhang89.0092.00Wang67.0065.00Hai96.0093.00Bill80.0085.00Cfei77.0075.00Kake59.0065.00Jou79.0075.00Heyy68.0070.00Marry85.0080.00Mary87.0075.00Ming75.0080.00Chen73.0078.00Smith95.0090.00Jess88.0090.00 实现步骤步骤1在“Analyze”菜单“Correlate”中选择Bivariate命令,如3-8所示。图3-8 选择Bivariate Correlate菜单步骤2在弹出如图3-9所示的Bivariate Correlate对话框中,从对话框左侧的变量列表中分别选择“作文1”和“作文2”变量,单击按钮使这两个变量添加到Variables框。在Correlation Coefficients框中选择Spearman和Kendalls tua-b等级相关系数;在Test of significance框中选择相关系数的双侧(Two-tailed)检验,选中Flag significations correlations选项,则相关分析结果中将不显示统计检验的相伴概率,而以星号(*)显示。如图3-9。图3-9 Bivariate Correlate对话框步骤3单击OK按钮,SPSS开始计算Spearman和Kendalls tua-b等级相关系数。 结果和讨论SPSS的运行结果如下:Nonparametric Correlations从结果中可以看出,语文老师两次评分的Spearman和Kendalls tua-b等级相关系数分别为0.745和0.874。在这个数据的旁边有两个星号,表示用户指定的显著性水平为0.01时,统计检验的相伴概率小于等于0.01,即两次评分显著相关,且为正相关。练习题:某专家先后对一个工程的多个项目加以评分,两次评分分别记为变量“分值1”和“分值2”,如下表所示。问两次评分的等级相关有多大,是否达到显著水平? 工程项目两次的得分情况项目名分值1分值2项目178.0075.00项目277.0083.00项目381.0083.00项目487.008300项目591.0092.00项目677.0074.00项目796.0093.00项目881.0087.00项目967.0065.00项目1079.0073.00项目1189.0085.00项目1278.0070.00项目1395.0090.00项目1488.0081.00项目1595.0085.004偏相关分析二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如,在研究某农场春季早稻产量与平均降雨量、平均温度之间的关系时,产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响。同时平均降雨量对平均温度也会产生影响。在这种情况下,单纯计算简单相关关系数不能准确反映事物之间的相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。 统计学上的定义和计算公式定义:偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。偏相关分析的工具是计算偏相关系数计算公式:假定有3个变量:、,求剔除变量的影响后,变量和之间的偏相关系数:其中,表示变量与变量的简单相关系数; 表示变量与变量的简单相关系数; 表示变量与变量的简单相关系数。显著性检验公式:其中,n为个案数,n-3为自由度。 SPSS中实现过程 研究问题某农场通过试验取得某农作物产量与春季降雨量和平均温度的数据,如表3-3所示。现求降雨量对产量的偏相关。表3-3 早稻产量与降雨量和温度之间的关系产量降雨量温度150.0025.006.00230.0033.008.00300.0045.0010.00450.00105.0013.00480.00111.0014.00500.00115.0016.00550.00120.0017.00580.00120.0018.00600.00125.0018.00600.00130.0020.00 实现步骤步骤1在“Analyze”菜单“Correlate”中选择Partial命令,如图3-10所示。图3-10 选择Bivariate Partial 菜单步骤2在弹出的如图2所示Bivariate Partial对话框中,从对话框左侧的变量列表中分别选择“产量”和“降雨量”变量,单击 按钮使这两个变量进入Variables框中,在选择“温度”变量,单击按钮使这个变量添加到Controlling For框中,表示现在所求的是剔除“温度”变量影响后“产量”和“降雨量”变量之间偏相关系数。图3-11 Partial Correlations对话框在Test of significance框中选择相关系数的双侧(Two-tailed)检验。本例选中Flag significations correlations选项,则相关分析结果中将不显示统计检验的相伴概率,而以星号(*)显示,星号的意义与计算简单相关系数中的相同。步骤3单击Options按钮,出现Partial Correlations对话框,如图3-12所示。图3-12 Partial Correlations对话框在Statistics框中选择Zero-order correlations项,在输出偏相关系数的同时还输出变量间的简单相关系数。在Missing Values框中选择Exclude cases listwise项,剔除所有具有缺失值的个案后再计算。步骤4单击Continue按钮,返回Partial Correlations对话框,单击OK按钮,即可得到SPSS相关分析的结果。 结果和讨论SPSS的运行结果如下。Partial Corr从结果中可以看到,上半部分是变量两两之间的Partial简单相关系数,以“产量”和“降雨量”为例,它们之间的Partial简单相关系数为0.9811。下半部分是偏相关分析的输出结果,其中,对每个变量都有三行输出结果:第一行为偏相关系数、第二行为统计检验的自由度,第三行为检验统计量的相伴概率。从中可知,在剔除“温度”变量的影响条件下,“产量”与“降雨量”二变量的影响条件下,“产量”与“降雨量”二变量的偏相关系数为0.7803,自由度为7,相伴概率为0.013。可见,简单相关系数和偏相关系数相比,前者有夸大的成分,后者更符合实际。练习题某农业实验场通过试验取得小麦产量与单位虫害值和平均温度的数据,如下表所示。现求单位虫害值对产量的偏相关。 小麦产量与单位虫害值和温度之间的关系产量单位虫害值温度170.0015.007.00200.0023.009.00230.0035.0011.00350.0038.0013.00400.0041.0017.00480.0044.0019.00530.0047.0020.00590.0050.0023.00670.0055.0028.00710.0059.0031.005距离相关分析 统计学上的定义和计算公式距离相关分析是对观测量之间或变量之间相似或不相似的程度的一种测量,可以用于同一变量内部各个取侄间,以考察其相互接近程度;也可用于变量间,以考察预测值对实际值的拟合优度。距离相关分析根据统计量不同,可分为:不相似性预测和相似性预测。根据分析对象不同,可以分为:样本间分析和变量间分析。在不相似性预测的距离分析中,根据不同类型的变量,采用不同的统计量进行计算。1)对连续变量的样本(x、y)进行距离相关分析时,常用的统计量有以下几种。 欧氏距离(Euclidean Distance)计算公式为:其中,k表示每个样本中有k个变量,表示第一个样本在第i个变量上的取值,表示第二个样本在第i个变量上的取值。 欧氏距离平方(Squared Euclidean Distance)计算公式为:其中,k表示每个样本中有k个变量,表示第一个样本在第i个变量上的取值,表示第二个样本在第i个变量上的取值。 Chebychev距离计算公式为:其中,表示第一个样本在第i个变量上的取值,表示第二个样本在第i个变量上的取值。 Block距离计算公式为:其中,k表示每个样本中有k个变量,表示第一个样本在第i个变量上的取值,表示第二个样本在第i个变量上的取值。 Minkowski距离计算公式为:其中,k表示每个样本中有k个变量,p、q是任意可指定的次方,表示第一个样本在第i个变量上的取值,表示第二个样本在第i个变量上的取值。2) 对顺序或名义变量的样本(x、y)进行距离相关分析时,常用的统计量如下。 Chi-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论