第5章 相关分析与回归分析_第1页
第5章 相关分析与回归分析_第2页
第5章 相关分析与回归分析_第3页
第5章 相关分析与回归分析_第4页
第5章 相关分析与回归分析_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章相关分析与回归分析1.皮尔逊积矩系数、Spearman相关系数以及Kendall相关系数的计算与分析;2.偏相关系数的计算与伪相关系数的鉴别;3.简单线性回归;4.多元线性回归;统计学原理变量间的关系分为确定性关系和非确定性关系。确定性关系即函数关系,非确定性关系即相关关系。相关分析的主要目的是研究变量之间关系的密切程度。回归分析是揭示一个变量如何与其他变量相联系,前者叫做解释变量,后者叫做被解释变量相关分析和回归分析都是对客观事务数量依存关系的分析。相关系数的取值范围在−1和+1之间,即−1≤r≤+1。其中:

若0<r≤1,表明变量之间存在正相关关系,即两个变量的相随变动方向相同;

若−1≤r<0,表明变量之间存在负相关关系,即两个变量的相随变动方向相反;1.相关分析的统计学原理为了判断r对ρ的代表性大小,需要对相关系数进行假设检验。(1)首先假设总体相关性为零,即H0为两总体无显著的线性相关关系。零假设H0:x,y不相关备择假设H1:x,y相关(2)其次,计算相应的统计量,并得到对应的P值。如果P值小于或等于指定的显著性水平,则拒绝H0,认为两总体存在显著的线性相关关系;如果P值大于指定的显著性水平,则不能拒绝H0,认为两总体不存在显著的线性相关关系。>0.05不相关α通常取0.05。P=也有时α取值0.01或0.001<=0.05相关计算相关系数有不同的方法。其中,皮尔逊积矩相关系数(Pearson简单相关系数)适用等间隔测度,而Spearman相关系数和Kendall相关系数都是非参测度。Pearson简单相关系数用来衡量定距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。Pearson简单相关系数计算公式如下。Pearson简单相关系数计算公式为对Pearson简单相关系数的统计检验是计算t统计量,公式为t统计量服从n−2个自由度的t分布。

定序变量又称为有序(ordinal)变量、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如,“最高学历”变量的取值是:1—小学及以下、2—初中、3—高中、中专、技校、4—大学专科、5—大学本科、6—研究生以上。由小到大的取值能够代表学历由低到高。

Spearman和Kendall'stua-b等级相关系数用以衡量定序变量间的线性相关关系,它们利用的是非参数检验的方法。Spearman等级相关系数为对Spearman等级相关系数的统计检验,一般如果个案数n≤30,将直接利用Spearman等级相关统计量表,SPSS将自动根据该表给出对应的P值(相伴概率)。Kendall’stau-b等级相关系数对Kendall'stua-b等级相关系数的统计检验,一般如果个案数n≤30,将直接利用Kendall'stua-b等级相关统计量表,SPSS将自动根据该表给出对应的相伴概率值。2.相关分析过程的操作原理选择Analyze—Correlate相关分析过程具体包括:Bivariate:计算双变量间的相关系数;Partial:计算偏相关系数;Distances:对变量进行相似性或不相似性测度。双变量相关分析过程[Statistics]——[Correlate]——[Bivariate]数据5-1选择求相关的变量:至少选择两个移动到:Variables内。①CorrelationCoefficients

:相关类型Pearson:皮尔逊积矩相关系数Kendall’stau-b:肯德尔和谐系数Spearman:斯皮尔曼等级相关系数②Testofsignificance:显著性检验

Two-tailed:双侧检验(默认)

One-tailed:单侧检验③“Flagsignificantcorrelations”:选择相关显著度水平的标识,该标识就是*号。当显著度水平低于0.05时,显示一个*号,当低于0.01时,将显示两个*号。[Options]选项①Statistics:Meansandstandarddeviations显示每一个变量的均值和标准差Cross-productdeviationsandcovariances每一对变量的离均差交叉积与协方差②Missingvalues:缺失值Excludecasespairwise:成对删除Excludecaseslistwise:成列删除偏相关分析二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如,在研究某农场春季早稻产量与平均降雨量、平均温度之间的关系时,产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响。同时平均降雨量对平均温度也会产生影响。在这种情况下,单纯计算简单相关系数,显然不能准确地反映事物之间地相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。定义:偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。偏相关分析的工具是计算偏相关系数r12,3。统计学上的定义和计算公式偏相关分析过程[Statistics]——[Correlate]——[Partial]数据5-2选择两个求相关变量到:Variables框内选择中介变量到控制变量“Controlling”框中显示相关显著度水平的标识“Displayactualsignificance”[Options]选项①Statistics:Meansandstandarddeviations显示每一个变量的均值和标准差Zero-ordercorrelations:零阶相关系数,显示所有变量的Pearson相关系数②Missingvalues:缺失值

Excludecasespairwise:成对删除Excludecaseslistwise:成列删除偏相关系数的计算与伪相关的鉴别数据文件5-42.回归分析的统计学原理回归分析是研究客观事物变量间的关系,它是建立在对客观事物进行大量试验和观察的基础上,通过建立数学模型寻找不确定现象中所存在的统计规律的方法。回归分析所研究的主要问题就是研究因变量(y)和自变量(x)之间数量变化规律,如何利用变量X,Y的观察值(样本),对回归函数进行统计推断,包括对它进行估计及检验与它有关的假设等。Уi=β0+β1x2i+β2x+…+βkxki+μi回归分析过程操作原理选择Analyze—Regression打开“Regression”的右拉式菜单,菜单包含:1.Linear线性回归。2.CurveEstimation曲线估计。3.BinaryLogistic二元逻辑分析。4.MultinomialLogistic多元逻辑分析。5.Ordinal序数分析。6.Probit概率分析。7.Nonlinear非线性估计。8.WeightEstimation加权估计。9.2-StageLeastSquares两段最小二乘法。在数学关系式中只描述了一个变量与另一个变量之间的数量变化关系,则称其为一元回归分析。其回归模型为y称为因变量,x称为自变量,称为随机误差,a,b称为待估计的回归参数,下标i表示第i个观测值。如果给出a和b的估计量分别为,,则经验回归方程:一般把称为残差,残差可视为扰动的“估计量”。(1)线性回归过程“Analyze”——“Regression”——“Linear

数据文件5-5“Dependent”:因变量“Independent(S)”:自变量注:SPSS中一元回归和多元回归以及多元逐步回归都是使用同一过程,所以该栏可以输入多个自变量。“SelectionVariable”:控制变量输入栏。控制变量相当于过滤变量,即必须当该变量的值满足设置的条件时,观测量才能参加回归分析。输入控制变量后,激活“Rule”按钮。“CaseLabels”:选择观测量的标签变量。在输出结果中,可显示该观测量的值,通过该变量的值可查看相应的观测量。“WLS”:选择加权变量。“Method”:选择一种回归分析方式。①强行介入法Enter(一次性进入)这是一种不检验F和Tolerance,一次将全部自变量无条件地纳入回归方程。②强行剔除Remove(一次性剔除)指定某些变量不能进入方程。这种方法通常同别的方法联合使用,而不能首先或单独使用,因为第一次使用或单独使用将意味着没有哪个变量进入方程。③逐步进入Stepwise每次选择符合进入条件的自变量进入方程,进入后立即检验,不合格者剔除,直到全部合格自变量进入方程。④反向剔除Backward先强行介入,再逐个剔除不合格变量,直到全合格。⑤正向进入Forward每次选择符合进入条件的自变量进入方程,逐个选择,逐个进入,直到全部合格自变量进入方程。“Statistics”①“RegressionCoefficients”回归系数选项:“Estimates”输出回归系数和相关统计量。“Confidenceinterval”回归系数的95%置信区间。“Covariancematrix”回归系数的方差-协方差矩阵。②“Residuals”残差选项:“Durbin-Watson”Durbin-Watson检验。“Casewisediagnostic”输出满足选择条件的观测量的相关信息。选择该项,下面两项处于可选状态:“Outliersoutsidestandarddeviations”选择标准化残差的绝对值大于输入值的观测量;—“Allcases”选择所有观测量。③其它输入选项“Modelfit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA表。“Rsquaredchange”输出由于加入和剔除变量而引起的复相关系数平方的变化。“Descriptives”输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。“Partandpartialcorrelation”相关系数和偏相关系数。“Collinearitydiagnostics”显示单个变量和共线性分析的公差“Plots”该对话框用于设置要绘制的图形的参数。“X”和“Y”框用于选择X轴和Y轴相应的变量。左上框中各项的意义分别为:

•“DEPENDNT”因变量。•“ZPRED”标准化预测值。•“ZRESID”标准化残差。•“DRESID”删除残差。•“ADJPRED”调节预测值。•“SRESID”学生氏化残差。•“SDRESID”学生氏化删除残差。

“StandardizedResidualPlots”设置各变量的标准化残差图形输出。

“Histogram”用直方图显示标准化残差。

“Normalprobabilityplots”比较标准化残差与正态残差的分布示意图。“Produceallpartialplot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。“Save”①“PredictedValues”预测值栏选项:Unstandardized非标准化预测值。就会在当前数据文件中新添加一个以字符“PRE_”开头命名的变量,存放根据回归模型拟合的预测值。Standardized标准化预测值。Adjusted调整后预测值。S.E.ofmeanpredictions预测值的标准误。②“Distances”距离栏选项:Mahalanobis:距离。Cook’s:Cook距离。Leveragevalues:杠杆值。③“PredictionIntervals”预测区间选项:Mean:区间的中心位置。Individual:观测量上限和下限的预测区间。在当前数据文件中新添加一个以字符“LICI_”开头命名的变量,存放预测区间下限值;以字符“UICI_”开头命名的变量,存放预测区间上限值。ConfidenceInterval:置信度。④“SavetoNewFile”保存为新文件:选中“Coefficientstatistics”项将回归系数保存到指定的文件中。⑤“ExportmodelinformationtoXMLfile”导出统计过程中的回归模型信息到指定文件。⑥“Residuals”保存残差选项:“Unstandardized”非标准化残差。“Standardized”标准化残差。“Studentized”学生氏化残差。“Deleted”删除残差。“Studentizeddeleted”学生氏化删除残差。⑦“InfluenceStatistics”统计量的影响。“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。“StandardizedDfBeta(s)”标准化的DfBeta值。“DiFit”删除一个特定的观测值所引起的预测值的变化。“StandardizedDiFit”标准化的DiFit值。“Covarianceratio”删除一个观测值后的协方差矩阵的行列式和带有全部观测值的协方差矩阵的行列式的比率。“Options”①“SteppingMethodCriteria”框用于进行逐步回归时内部数值的设定。

“UseprobabilityofF”如果一个变量的F值的概率小于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当变量的F值的概率大于设置的剔除值(Removal),则该变量将从回归方程中被剔除。由此可见,设置“UseprobabilityofF”时,应使进入值小于剔除。“UesFvalue”如果一个变量的F值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当变量的F值小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。同时,设置“UseFvalue”

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论