第六章 相关和回归5.13_第1页
第六章 相关和回归5.13_第2页
第六章 相关和回归5.13_第3页
第六章 相关和回归5.13_第4页
第六章 相关和回归5.13_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章第六章 相关与回归分析相关与回归分析 (Correlation and Regression)060120180施氮量施氮量(kg N/ha)2468植物的生长量植物的生长量学习目的1.相关与回归的概念;2.直线相关与直线回归分析;3.多重线性回归分析。学习内容学习内容1.直线相关2.秩相关3.直线回归4.曲线回归5.多重线性回归第一节第一节 直线相关直线相关一、相关关系的概念一、相关关系的概念相关关系相关关系变量之间的依变量之间的依存关系存关系确定性、严格确定性、严格的的依存关系依存关系 函数关系函数关系不确定、不规则不确定、不规则 的依存关系,宏的依存关系,宏观关系观关系(1)现象之

2、间确实存在数量上的依存关系。)现象之间确实存在数量上的依存关系。(2)现象之间数量上的依存关系不是确定的。)现象之间数量上的依存关系不是确定的。联系(联系(1)本来具有函数关系的变量,当在观测误差)本来具有函数关系的变量,当在观测误差 时,其函数关系往往以相关的形式表现出来。时,其函数关系往往以相关的形式表现出来。 (2)如果我们对所研究对象有更深入的认识,便)如果我们对所研究对象有更深入的认识,便 可以将影响因素全部纳入方程,使之成为函数关系。可以将影响因素全部纳入方程,使之成为函数关系。区别:(区别:(1)两变量之间的关系是否确定)两变量之间的关系是否确定 (2)是否可用数学公式表式)是否

3、可用数学公式表式 直线相关又称简单线性相关,是描述两变量间是否有线性关系以及线性关系的方向和密切程度的统计分析方法。 直线相关用于双变量正态分布资料,两变量之间的直线相关关系用相关系数来描述。样本相关系数用r表示,总体相关系数用 表示。(一)相关关系的种类 按相关的按相关的程度程度,可分为,可分为完全相关完全相关不完全相关不完全相关不相关不相关正相关正相关负相关负相关线性相关线性相关非线性相关非线性相关单相关单相关复相关复相关按涉及按涉及变量的多少变量的多少,可分为,可分为按相关的按相关的形式形式,可分为,可分为按相关的按相关的方向方向,可分为,可分为按相关的程度按相关的程度 完全相关完全相关

4、:当一种现象的数量变化完全由另:当一种现象的数量变化完全由另一个现象的数量变化所确定时,这两种现象间的一个现象的数量变化所确定时,这两种现象间的关系为完全相关。即函数关系。关系为完全相关。即函数关系。 不完全相关不完全相关:两个现象之间的关系介于完全:两个现象之间的关系介于完全相关和不相关之间,称为不完全相关。相关和不相关之间,称为不完全相关。 不相关不相关:当两个现象彼此互不影响,其数量:当两个现象彼此互不影响,其数量变化各自独立时,称为不相关。如:股票价格的变化各自独立时,称为不相关。如:股票价格的高低与气温的高低是不相关的。高低与气温的高低是不相关的。 正相关正相关:当一个现象的数量由小

5、变大,:当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相另一个现象的数量也相应由小变大,这种相关称为正相关。如工人的工资随劳动生产率关称为正相关。如工人的工资随劳动生产率的提高而增加。的提高而增加。 负相关负相关:当一个现象的数量由小变大,:当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种而另一个现象的数量相反地由大变小,这种相关称为负相关。如商品流转的规模越大,相关称为负相关。如商品流转的规模越大,流通费用水平则越低。流通费用水平则越低。按相关形式划分按相关形式划分 线性相关线性相关:当两种相关现象之间的关系:当两种相关现象之间的关系大致呈现为线性关系时,称之

6、为线性相关。大致呈现为线性关系时,称之为线性相关。如人均消费水平与人均收入水平通常呈线性如人均消费水平与人均收入水平通常呈线性关系。关系。 非线性相关非线性相关:如果两种相关现象之间,:如果两种相关现象之间,并不表现为直线的关系,而是近似于某种曲并不表现为直线的关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性线方程的关系,则这种相关关系称为非线性相关。如产品的平均成本与产品总产量之间相关。如产品的平均成本与产品总产量之间的相关关系就是一种非线性关系。的相关关系就是一种非线性关系。按变量多少划分按变量多少划分单相关单相关:一个变量对另一个变量的相关关系,称:一个变量对另一个变量的相关

7、关系,称为单相关。为单相关。 复相关复相关:当所研究的是一个变量对两个或两个以:当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。如某种上其他变量的相关关系时,称为复相关。如某种商品的需求与其价格水平及人们收入水平之间的商品的需求与其价格水平及人们收入水平之间的相关关系就是一种复相关。相关关系就是一种复相关。 散点图散点图直观的说明直线相关的性质直观的说明直线相关的性质(二)相关系数(二)相关系数 定量描述两变量间直线相关方向和密切程度的统计指标。以两变量与各自平均值的离均差为基础。积差相关系数积差相关系数(Product-moment correlation coeffi

8、cient)Pearson相关系数,相关系数。YYXXXYlllYYXXYYXXr22)()()(参数统计。-1 r 1符号相关方向绝对值密切程度r0 :正相关。r00表示自变量表示自变量应变量应变量 ,直线上升。,直线上升。b b越陡越陡 y y随随x x变化率大。变化率大。b=0b=0,表示回归直线与,表示回归直线与X X轴平行,即轴平行,即X X与与Y Y无直线关系。无直线关系。二、直线回归分析的应用条件:二、直线回归分析的应用条件:1 1、XYXY具有线性相关关系具有线性相关关系2 2、对于每一个确定的、对于每一个确定的X X,相应的,相应的Y Y值间独立值间独立3 3、Y Y值具有正

9、态性。值具有正态性。4 4、对于任意一组自变量值,因变量、对于任意一组自变量值,因变量Y Y具有相同具有相同的方差的方差三、直线回归方程的建立、检验与应用三、直线回归方程的建立、检验与应用 1.1.建立:最小二乘法原则,使各个实测点到回归直线纵向建立:最小二乘法原则,使各个实测点到回归直线纵向距离的平方和最小。距离的平方和最小。a a,b b的计算公式由此推导出来。的计算公式由此推导出来。 2.2.应用:在样本数据范围内。应用:在样本数据范围内。 3. 3.检验:用样本数据建立的直线回归方程是样本方程,样检验:用样本数据建立的直线回归方程是样本方程,样本方程是否能在总体上反应两个变量之间的直线

10、回归关系,本方程是否能在总体上反应两个变量之间的直线回归关系,需要对样本方程进行假设检验。需要对样本方程进行假设检验。(1)回归方程的假设检验采用)回归方程的假设检验采用方差分析方差分析。(2)将总的变异)将总的变异SS总分解为总分解为SS回归和回归和SS剩余,剩余,然后利用然后利用F检验来判断回归方程是否成立。检验来判断回归方程是否成立。4.对回归方程总体进行假设检验以后,需要对回归系数b进行检验。回归系数的检验采用t检验。假设=0,即X和Y之间不存在依存关系。5.b为总体回归系数的点估计,可用公式6-15对总体回归系数做区间估计。6.6.决定系数决定系数(R2) R2 = SS回 /SS总

11、 = (SS总SS剩 )/SS总 =1SS剩 / SS总 。R2表示y的总变异中被x所决定的部分占多少比例。0R2 1, 1,回归效果越好,模型对数据的拟合效果越好,用回归方程进行预测也越有意义。R2 是评价回归效果的重要的指标。对例题对例题6-1的资料做直线回归分析的资料做直线回归分析1、考察资料是否满足应用条件2、绘制散点图3、求直线方程4、回归方程的假设检验5、回归系数的假设检验6、用决定系数评价回归方程7、绘制回归直线8、残差分析9、回归方程的应用表表9-1 某某地地10名名三三岁岁儿儿童童的的体体重重与与体体表表面面积积数数据据P112【SPSS操作操作】以以“(胰岛素)(胰岛素)”

12、、“(血糖)(血糖)”为变量名,建立为变量名,建立2列列20行行数据集数据集li0601.sav。(1)正态性检验:)正态性检验: Descriptive Statistics 胰岛素、血糖胰岛素、血糖入Dependent variable plots (2)作散点图)作散点图 :Graphs(绘图)Legacy Dialogs Scatter/Dot(散点图)Simple ScatterDefine,“血糖”Y Axis(轴)框,“胰岛素”X Axis(轴)框,OK。 (3)线性回归:线性回归: AnalyzeRegressionLinear,“血糖Dependent,“胰岛素”Indepe

13、ndent框OK。改改用影用影像像1-2班统计学与科研方法成绩分析:班统计学与科研方法成绩分析:正态性检验正态性检验P0.000(非正态)等级相关等级相关P0.000(相关系数rk0.293,rs 0.405,不用r表达)直线回归(直线回归(y=40.63+0.50 x )第五节多重线性回归第五节多重线性回归一、多元一、多元(多重多重)线性回归线性回归( multiple linear regression) 1个应变量与多个自变量之间线性依存关系。个应变量与多个自变量之间线性依存关系。Example:SBP versus age, weight, height, etc偏回归系数的含义:1表

14、示当2, 3等等不变时, 1每变动一个单位,因变量Y的平均变动量。二、二、基本条件基本条件 xy呈线性关系;呈线性关系; x 互相独立;互相独立; y正态分布。正态分布。 三、多重线性回归方程的建立:三、多重线性回归方程的建立:最小二乘法原理。最小二乘法原理。 确定确定n:n应应自变量个数自变量个数m的的5倍、最好倍、最好20倍,否则效能不足。倍,否则效能不足。 n结果越稳定。结果越稳定。 标准化偏回归系数用来评价每个自变量对因变量的标准化偏回归系数用来评价每个自变量对因变量的作用大小,绝对值越大,说明相应的自变量对因变作用大小,绝对值越大,说明相应的自变量对因变量的影响越大。量的影响越大。多

15、重共线性多重共线性 1.多重共线性(多重共线性(multicollinearity) :x间线性相关。间线性相关。2.判别:相关系数判别:相关系数r : r0.8 容忍度(容忍度(tolerance 1r2):): 0.1 方差膨胀因子(容忍度倒数)方差膨胀因子(容忍度倒数) VIF 103.处理:剔除处理:剔除x;合成一个变量等。;合成一个变量等。 变量选择与逐步回归变量选择与逐步回归1. 全局择优法全局择优法 :最大校正决定系数法挑选:最大校正决定系数法挑选R2最大者最大者 原则原则变量易得、解释合理。变量易得、解释合理。 纳入纳入P0.05,剔除,剔除P0.10。2.向前选择向前选择:k

16、个自变量个自变量分别建立分别建立k个回归方程,选取最大校正决个回归方程,选取最大校正决定系数法挑选定系数法挑选R2最大者,逐步增加最大者,逐步增加x,直到增加,直到增加x不能使不能使SSE增加增加为止。为止。 3.向后选择向后选择:与向前选择相反。:与向前选择相反。先取先取k个自变量建立回归方程,逐步个自变量建立回归方程,逐步剔除剔除x ,直到剔除,直到剔除x不能使不能使SSE减少为止。最大校正决定系数法挑减少为止。最大校正决定系数法挑选选R2最大者。最大者。 4.逐步逐步选择选择法法(Stepwise) :Forward、Backward局部最优局部最优回归回归方程。不宜用于寻找最优预测模型

17、或主要因素的实验性研究。方程。不宜用于寻找最优预测模型或主要因素的实验性研究。P116【SPSS操作思路】操作思路】 全局择优法全局择优法. 以以X1(年龄)、(年龄)、X2(体重指数)、(体重指数)、X3(总胆固醇)、(总胆固醇)、X4(收缩(收缩压)、压)、X5(舒张压)、(舒张压)、Y(糖化血红蛋白)为变量名,建立(糖化血红蛋白)为变量名,建立6列列20行数据集行数据集li0606.Sav。Analyze Regression(回归)(回归)Linear(线性回归),(线性回归),Y进进Dependent、X1、X2、X3 、X4、X5进进IndependentStatistic,Confidence intervals、Collinearity diagnostics、Casewise d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论