实验4相关分析与回归分析_第1页
实验4相关分析与回归分析_第2页
实验4相关分析与回归分析_第3页
实验4相关分析与回归分析_第4页
实验4相关分析与回归分析_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实验四 相关分析与回归分析【实验项目】-04【实验目的与要求】1、掌握利用 SPSS 软件进行简单相关分析,偏相关分析的基本方法2、掌握利用 SPSS 软件进行回归分析的基本方法,包括一元线性回归分析,多元线性回归分析,非线性回归分析(曲线估计)【实验内容】1、相关分析2、偏相关分析3、一元线性回归分析4、多元线性回归分析5、非线性回归分析【实验步骤】SPSS中的相关分析功能在【分析】【相关】中实现(图4.1),可以进行“双变量相关分析”、“偏相关分析”和“距离分析”。图4.1 “相关分析”功能菜单双变量相关分析 用于进行两个/多个变量间的参数/非参数相关分析,主要用于分析两个变量之间是否存在

2、相关关系,如果是多个变量,则给出两两相关的分析结果。这是相关分析最为常用功能,占到相关分析的 95%以上。下面的讲述也以该过程为主。双变量相关分析中,Person 相关系数用于度量定距连续变量间的相关性,如测度收入和储蓄,身高和体重的关系:Kendall tau-b相关系数则用非参数检验方法来度量定序变量间的线性相关关系,如计算基于数据的秩:其中V为利用变量的秩计算得到的非一致对数目。Spearman等级相关系数用于度量定序变量间的相关性,如军队教员的军衔与职称。一般情况下选择Person 相关系数。偏相关分析 如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其

3、他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。距离相关分析 对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。在进行相关分析的过程中还可以计算均数和标准差等基本统计量。一、相关分析为了估计山上积雪溶化后对河流下游灌溉的影响,在山上建立观测站,测得连续10 年的最大积雪深度和灌溉面积数据(表4.1)。本实验应用SPSS相关分析方法分析最大积雪深度与灌溉面积之间的关系。表4.1 连续10 年的最大积雪深度和灌溉面积年份最大积雪深度(米)灌溉面

4、积(千亩)197115.228.6197210.419.3197321.240.5197418.635.6197526.448.9197623.445.0197713.529.2197816.734.1197924.046.7198019.137.4操作步骤1、在Excel中录入表4.1数据。图4.1 Excel中录入的数据2、启动SPSS,打开在Excel中录入的数据(图4.2)。图4.2 SPSS打开Excel中录入的数据3、【分析】【相关】【双变量】,在弹出的“双变量相关”对话框(图4.3)中,将左边栏三个变量中的“最大积雪深度”与“灌溉面积”两个变量通过图示中的箭头输入到右边栏“变量”

5、列表框中。相关系数选择“Pearson”,显著性检验选择“双侧检验”,选中标记显著性相关后,在0.05水平显著的相关系数用单个星号“*”标识,在0.01水平显著的相关系数用两个星号“*”标识。如果不选择此项,则相关系数检验的显著性不用星号“*”标识。 图4.3 “双变量相关”对话框中相应选项4、单击“双变量相关”对话框中右边“选项”按钮,弹出“双变量相关性:选项”对话框(图4.4),选中统计量中两个选择项,缺失值选择默认。点击“继续”按钮,回到“双变量相关”对话框(图4.3右),点击“确定”。图4.4 “双变量相关性:选项”对话框5、在弹出的输出窗口中,左边栏是输出内容列表(图4.5),右边栏

6、是相关内容的详细信息,其中描述性统计量和相关性以表格的形式给出(表4.2、表4.3)。双击这两张表格可以对其进行修改。从表4.3可以看出两个变量的相关系数0.989,在 0.01水平(双侧)上显著相关。图4.5 输出内容列表表4.2 描述性统计量均值标准差N最大积雪深度(米)18.8505.031510灌溉面积(千亩)36.5309.219310表4.3 相关性最大积雪深度(米)灌溉面积(千亩)最大积雪深度(米)Pearson 相关性1.989*显著性(双侧).000平方与叉积的和227.845413.065协方差25.31645.896N1010灌溉面积(千亩)Pearson 相关性.989

7、*1显著性(双侧).000平方与叉积的和413.065764.961协方差45.89684.996N1010*. 在 .01 水平(双侧)上显著相关。二、偏相关分析某农场通过试验取得某农作物产量与春季降雨量和平均气温的数据,如表4.4所示。在研究早稻产量与平均降雨量、平均气温之间的关系时,产量和平均降雨量之间的关系中实际还包含平均气温对产量的影响,同时平均降雨量对平均气温也会产生影响。因此,单纯计算简单相关系数,显然不能准确地反映事物之间的相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。现以表4.4中数据为例求降雨量对产量的偏相关。表4.4 某农场

8、早稻产量与降雨量和气温之间的关系早稻产量(kg)降雨量(mm)气温()150256230338300451045010513480111145001151655012017580120186001251860013020操作步骤1、在Excel中录入表4.4数据。启动SPSS,打开在Excel中录入的数据。2、【分析】【相关】【偏相关】,在弹出的“偏相关”对话框(图4.3)中,将左边栏三个变量中的“早稻产量”与“降雨量”两个变量通过图示中的箭头输入到右边栏“变量”列表框中,将“平均气温”输入到“控制”列表框中。显著性检验选择“双侧检验”,不选中显示实际显著性水平。图4.6 “偏相关”对话框中相

9、应选项3、单击右边“选项”按钮,弹出“偏相关:选项”对话框(图4.7),选中统计量中两个选择项,缺失值选择默认。点击“继续”按钮,回到“偏相关”对话框(图4.6),点击“确定”。图4.7 “偏相关:选项”对话框4、在弹出的输出窗口中,左边栏是输出内容列表(图4.8),右边栏是相关内容的详细信息,其中描述性统计量和相关性以表格的形式给出(表4.5、表4.6)。双击这两张表格可以对其进行修改。根据有无控制变量,表4.6分为两部分,当无控制变量时,得到的实际上就是三个变量两两之间的双变量相关系数(即Pearson相关系数),在0.01水平上显著相关;当将“平均气温”作为控制变量时,早稻产量与降雨量之

10、间的偏相关系数为0.780,在0.05水平上显著相关。图4.8 输出内容列表表4.5 描述性统计量均值标准差N早稻产量444.00161.87810降雨量92.9041.27310平均气温14.004.69010表4.6 相关性控制变量早稻产量(kg)降雨量(mm)气温()-无-a早稻产量(kg)相关性1.000.981*.986*降雨量(mm)相关性.981*1.000.957*气温()相关性.986*.957*1.000气温()早稻产量(kg)相关性1.000.780*降雨量(mm)相关性.780*1.000a. 单元格包含零阶 (Pearson) 相关。*. 在 0.01 水平上显著相关

11、*. 在 0.05 水平上显著相关三、一元线性回归分析操作步骤仍以表4.1数据为例说明建立一元线性回归模型的方法。1、在Excel中录入表4.1数据。启动SPSS,打开在Excel中录入的数据。2、作散点图与线性趋势判定2.1 【图形】【旧对话框】【散点/点状】(图4.9)。图4.9 “散点/点状”命令 2.2 在弹出的“散点图/点图”对话框中选择“简单分布”(图4.10),点击“定义”。图4.10 “散点图/点图”对话框2.3 在弹出的“简单散点图”对话框(图4.11)中,设置X轴、Y轴对应的变量,点击“标题”,在“标题”对话框中输入标题(图4.12),点击“继续”,返回到“简单散点图”对话

12、框(图4.11),点击“确定”。图4.11 “简单散点图”对话框图4.12 “标题”对话框2.4 在输出窗口中已绘制出“最大积雪面积与灌溉面积的关系”散点图(图4.13)。图4.13 “最大积雪面积与灌溉面积的关系”散点图2.5 散点图编辑 双击“最大积雪面积与灌溉面积的关系”散点图,通过“图表编辑器”(图4.14左)可以对散点图进行编辑。修改坐标轴 左键单击Y轴上的刻度值,单击右键弹出快捷方式,选择“属性窗口”,在弹出的“属性”对话框(图4.14右)中对坐标轴进行修改,在“刻度”选项中将最小值改为 0。 图4.14 “图表编辑器”对话框和坐标轴“属性窗口”修改坐标轴标题 单击左键两次(注意:

13、非双击)Y轴标题“灌溉面积千亩”,对其进行修改成“灌溉面积(千亩)”。可以对X轴标题做相应修改。修改图表 在散点图上单击右键,选择“属性窗口”,在弹出的图表属性窗口(图4.15)中可以对图表大小、填充和边框和变量进行修改。图4.15 图表“属性窗口”修改标记 在散点图的标记上单击右键,选择“属性窗口”,在弹出的标记属性窗口(图4.16)中可以对图表大小、标记、花序和变量进行修改。图4.16 对标记进行修改添加拟合线 在散点图上单击右键,在出现的快捷方式中选择“添加总计拟合线”(图4.17),在弹出的拟合线属性窗口(图4.18)中可以对拟合线的宽度、样式、颜色、拟合方法和置信区间进行修改。图4.

14、17 “添加总计拟合线”快捷方式图4.18 对拟合线进行修改 修改图例 在散点图右侧图例“R2 线性=0.979”上单击右键,在弹出的快捷方式中选择属性窗口(图4.19),在弹出的图例属性窗口(图4.20)中可以对图例的文本布局、文本样式、填充和边框等进行修改。也可以移动图例的位置。图4.19 图例修改快捷方式图4.20 对图例进行修改通过一系列修改,最后的散点图如图4.21所示,当然也可以对散点图进行不同于图4.21的修改。对散点图的其它要素的修改也可以通过图表编辑器(图4.14左)的菜单和图标等进行修改。图4.21 修改后的散点图3、回归 3.1 【分析】【回归】【线性】(图4.22)。图

15、4.22 “线性回归”命令3.2 定义变量 在弹出的“线性回归”对话框(图4.23)中定义因变量(灌溉面积)和自变量(最大积雪面积)。图4.23 “线性回归”对话框3.3 设置回归选项 点击右侧“统计量”按钮,在“线性回归:统计量”对话框(图4.24)中选中回归系数项下的“估计”、残差项下的Durbin-Watson(这一项将给出DW 值),其余取默认值,如选中模型拟合度,这一项将给出回归参数。点击“继续”回到“线性回归”对话框(图4.23)。图4.24 “线性回归:统计量”对话框点击图4.23右侧的“绘制”按钮,在“线性回归:图”对话框(图4.25)中选中标准化残差图项下选中直方图和和正态概

16、率图。这两项将给出标准残差的频率直方图和及其正态分布的累计概率图。单击“继续”回到“线性回归”对话框(图4.23)。图4.25 “线性回归:图”对话框 点击图4.23右侧的“保存”按钮,在“线性回归:保存”对话框(图4.26)中选中预测值项下的“未标准化”和残差项下的“未标准化”。这两项将在原始表格数据中加上两列,变量名称分别为“PRE_1”和“RES_1”,对应于通过回归模型计算得到的预测值、预测值与原始值的残差。其它选项可以不管:有些选项是用于多元线性回归或逐步回归的,在一元线性回归中根本用不到;有些选项是用于特定场合保存文件的;还有一些选项只有做更细致的统计分析是才会用上。单击“继续”回

17、到“线性回归”对话框(图4.23)。图4.26 “线性回归:保存”对话框3.4 回归结果 根据前述设定获得的回归结果如图4.27所示,主要包括五个表格(输入/移去的变量、模型汇总、Anova(方差分析Analysis of Variance)、系数和残差统计量)和两张图(直方图和正态概率图)。图4.27 回归结果主要内容3.4 结果解读与模型检验 3.4.1 回归系数 从表4.7中很容易读出回归系数:截距a = 2.356 ,斜率b = 1.813。即一元线性回归模型为表4.7 系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)2.3561.8281.289.233最大积雪深

18、度米1.813.094.98919.286.000a. 因变量: 灌溉面积千亩3.4.2 模型检验 通过输出结果的表(表4.8、4.9、4.10、4.11)可以获得模型检验需要的统计量,主要包括:表4.8 模型汇总b模型RR 方调整 R 方标准估计的误差Durbin-Watson1.989a.979.9761.4189.751a. 预测变量: (常量), 最大积雪深度米。b. 因变量: 灌溉面积千亩表4.9 Anovab模型平方和df均方FSig.1回归748.8541748.854371.945.000a残差16.10782.013总计764.9619a. 预测变量: (常量), 最大积雪深

19、度米。b. 因变量: 灌溉面积千亩表4.10 残差统计量a极小值极大值均值标准 偏差N预测值21.21150.21836.5309.121710残差-1.91082.3691.00001.337810标准 预测值-1.6791.501.0001.00010标准 残差-1.3471.670.000.94310a. 因变量: 灌溉面积千亩模型拟合度检验统计量:从表4.8得到模型相关系数R=0.989,测定系数R2=0.979。F-检验统计量:从表4.9中得到,为371.945。t-检验统计量:从表4.7得到斜率的t值,为19.286。DW 检验统计量:从表4.8得到,为0.751。标准误差检验统计

20、量(变异系数):从表4.8中得到标准差为1.419,从表表4.10中得到y的均值为36.530,因此可得到变异系数为得到各种检验统计量后,查阅相应表格,确定回归模型是否通过检验。3.4.3 预测值与残差值 在图4.26“线性回归:保存”对话框进行了保存预测值和残差的设定,原始数据表格自动增加了两列,变量名称分别为“PRE_1”和“RES_1”(图4.28)。图4.28 增加了“预测值”和“残差”的数据表格 3.4.4回归结果可靠程度判断 根据残差分布的直方图(图4.29)和残差正态分布的累计概率图(图4.30)可以判断回归结果可靠程度的高低。图4.29 残差分布的直方图图4.30 残差正态分布

21、的累计概率图 一般来讲,残差分布的直方图越是具有正态分布即钟形曲线(bell-like curve)特征(图4.29),表明残差分布越是随机,回归结果越可靠。残差分布的累计概率越是接近对角线(图4.30),表明残差分布越是随机,回归结果越可靠。四、多元线性回归分析本实验利用某省工业产值、农业产值、固定资产投资和运输业产值的统计数据(表4.11),分析该省工业产值、农业产值与固定资产投资对运输业产值的影响为例予以说明多元线性回归分析方法。表4.11 某省工业产值、农业产值、固定资产投资和运输业产值的统计数据序号年份工业产值x1农业产值x2固定资产投资x3运输业产值y1197057.8227.05

22、14.543.092197158.0528.8916.833.403197259.1533.0212.263.884197363.8335.2312.873.905197465.3624.9411.653.226197567.2632.9512.873.767197666.9230.3510.803.598197767.7938.7010.934.039197875.6547.9914.714.3410197980.5754.1817.564.6511198079.0258.7320.324.7812198180.5259.8518.675.0413198286.8864.5725.345.5

23、914198395.4870.9725.066.01151984109.7181.5429.697.03161985126.5094.0143.8610.03171986138.89103.2348.9010.83181987160.56119.3360.9812.90操作步骤1、录入或调入数据,此处不再赘述。2、多元线性回归分析的过程与一元线性回归分析的过程大致相似,差别在于多元线性回归分析需要定义多个自变量。【分析】【回归】【线性】调出“线性回归”对话框(图4.31),定义“运输业产值”为因变量,定义“工业产值”、“农业产值”和“固定资产投资”为自变量。单击“统计量”,在“线性回归:统计量

24、”对话框中的选择如图4.32所示。同理,单击“绘制”,在 “线性回归:图”对话框的选择如图4.33所示;单击“保存”,在“线性回归:保存”对话框的选择如图4.34所示,其他的选择默认。单击“继续”,回到“线性回归”对话框(图4.31),单击“确定”。图4.31 “线性回归”对话框图4.32 “线性回归:统计量”对话框图4.33 “线性回归:图”对话框图4.34 “线性回归:保存”对话框3、在原始数据的表格中新增了四个变量,名称分别为“PRE_1”、“RES_1”、“ZPR_1”、“ZRE_1”(图4.35),分别对应“运输业产值预测值”、“残差值”、“标准化的运输业产值预测值”和“标准化的残差

25、”,在“变量视图”窗口中作相应的修改(图4.36),在“数据视图”窗口中可以查看修改后的数据表格(图4.37)。图4.35 数据表格中新增的四个变量图4.36 “变量视图”窗口中所做的修改图4.37 在“数据视图”窗口中查看所做的修改4、在输出窗口相应的表格中查看回归分析所需要的参数:表4.12 模型汇总b模型RR 方调整 R 方标准 估计的误差Durbin-Watson1.994a.989.986.335431.853a. 预测变量: (常量), 固定资产投资x3, 农业产值x2, 工业产值x1。b. 因变量: 运输业产值y从表4.12中可以看出:复相关系数R = 0.994 、测定系数R2

26、 = 0.989、估计的标准误差s = 0.3354 以及DW 值DW = 1.853。表4.13 Anovab模型平方和df均方FSig.1回归136.896345.632405.580.000a残差1.57514.113总计138.47117a. 预测变量: (常量), 固定资产投资x3, 农业产值x2, 工业产值x1。b. 因变量: 运输业产值y从表4.13中可以看出:回归平方和SSr = 136.896 ,剩余平方和SSe = 1.575 ,总平方和SSt = 138.471 ,显然R=SSr/SSt=0.994。同时可以读到F = 405.580 。顺便说明,df 为degree o

27、f freedom 的简称:3 为回归自由度,等于变量个数k;14 为剩余自由度;17 为总自由度,等于n-1 即样本个数减1。易见回归自由度剩余自由度总自由度。我们在各种检验参数用到的自由度为剩余自由度,即v=n-k-1。在本例中,v=18-3-1=14。各种检验都要根据剩余自由度和变量个数判定临界值。 从表4.14中可以得出回归分析模型中的回归系数,a = 1.004 ,b1=0.05533, b2 =-0.00402,b3 =0.09069,以及回归系数对应的标准误差(Std. Error)。据此可以建立回归模型:从表4.14中还可以得出零阶相关系数,即各个自变量与因变量的简单相关系数:

28、 工业产值与运输业产值的线性相关系数为0.989, 农业产值与运输业产值的线性相关系数为0.965,固定资产投资与运输业产值的线性相关系数为0.987。与之对应的还有偏相关系数和部分相关系数(对于一元线性回归而言,这三个相关系数是相等的)。表4.15 残差统计量a极小值极大值均值标准 偏差N预测值3.247412.92995.55942.8377318残差-.40058.63261.00000.3043918标准 预测值-.8152.597.0001.00018标准 残差-1.1941.886.000.90718a. 因变量: 运输业产值y下面对图形进行说明,回归标准残差的直方图(图4.38)

29、应该呈正态分布(下图不具备正态曲线的钟形图式);累计概率点列应该沿着对角线分布(图4.39),当且仅当观察的累计概率与预期的累计概率相等时才会形成严格意义的对角线,统计结果给出的坐标图越接近对角线说明回归效果越好(下图的分布有些偏离对角线较远)。说明本实验建立的多元线性回归模型的回归效果不是很好。图4.38回归标准残差的直方图图4.39回归标准残差分布的累计概率图五、非线性回归分析本实验以Boston 人口密度的空间分布模型为例说明非线性回归分析方法。Clark是城市人口密度模型的最早提出者。他按照等距离的方式将城市分成若干环带(rings),然后借助人口普查区段(census tract)计

30、算各个环带的平均人口密度。这样就得到两组变量:到城市中心(CBD)的距离r(基于环带的中线或者外边界)和r 处的平均人口密度(r)。Clark 用这种方法先后测量了欧美国家的20 多个城市的人口密度数据,发现了所谓的Clark 定律。下面是Clark测量的原始数据之1940 年美国Boston 的城市人口密度,数据由Banks(1994)提供(表4.12)。操作步骤1、录入或调入数据,此处不再赘述。2、做散点图。【图形】【旧对话框】【散点/点状】【简单分布】调出“简单散点图”对话框,分别将“距离”和“密度”导入X-轴和Y-轴对应的栏目中(图4.40),点击“确定”按钮,生成散点图(图4.41)。 观察图4.41 所示的散点图,发现点列具有指数衰减特征,可以初步判断Boston的人口密度服从负指数模型,即对于城市人口密度,习惯上用r 表示x,(r)表示y,用0 表示a,从而有表4.12 1940 年美国Boston 的城市人口密度距离(英里) 密度(人/平方米) 0.5263001.5251002

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论