第九讲相关分析与回归分析_第1页
第九讲相关分析与回归分析_第2页
第九讲相关分析与回归分析_第3页
第九讲相关分析与回归分析_第4页
第九讲相关分析与回归分析_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第六六章章 回归回归和回归分析和回归分析 6.1 相关分析概述相关分析概述 6.2 相关分析相关分析 6.3 多元线性回归多元线性回归 6.4 曲线回归曲线回归 6.5 逐步回归逐步回归 1. 1. 散点图散点图 散点图是描述变量之间关系的一种直观方法。我们用散点图是描述变量之间关系的一种直观方法。我们用坐标的横轴代表自变量坐标的横轴代表自变量X,纵轴代表因变量,纵轴代表因变量Y,每组数,每组数据据(xi,yi)在坐标系中用一个点表示,由这些点形成的在坐标系中用一个点表示,由这些点形成的散点图描述了两个变量之间的大致关系,从中可以直散点图描述了两个变量之间的大致关系,从中可以直观地看出变量之

2、间的关系形态及关系强度。观地看出变量之间的关系形态及关系强度。 6.1 相关分析概述相关分析概述 图图6-1 不同形态的散点图不同形态的散点图 (a) (b) (c) (d) 就两个变量而言,如果变量之间的关系近似地表就两个变量而言,如果变量之间的关系近似地表现为一条直线,则称为线性相关,如图现为一条直线,则称为线性相关,如图6-1(a)和和(b);如果变量之间的关系近似地表现为一条曲线,则称为如果变量之间的关系近似地表现为一条曲线,则称为非线性相关或曲线相关;如图非线性相关或曲线相关;如图6-1(c);如果两个变量;如果两个变量的观测点很分散,无任何规律,则表示变量之间没有的观测点很分散,无

3、任何规律,则表示变量之间没有相关关系,如图相关关系,如图6-l(d)。 2. 2. 相关系数相关系数 相关系数是对变量之间关系密切程度的度量。若相关系数是对变量之间关系密切程度的度量。若相关系数是根据总体全部数据计算的,称为总体相关相关系数是根据总体全部数据计算的,称为总体相关系数,记为系数,记为;总体相关系数的计算公式为:;总体相关系数的计算公式为: 其中其中COV(X,Y)为变量为变量X和和Y的协方差,的协方差,D(X)和和D(Y)分分别为别为X和和Y的方差。的方差。)()(),(YDXDYXCOV 若相关系数是根据样本数据计算的,则称为样本相若相关系数是根据样本数据计算的,则称为样本相关

4、系数(简称为相关系数),记为关系数(简称为相关系数),记为r。样本相关系数的计。样本相关系数的计算公式为:算公式为: 一般情况下,总体相关系数一般情况下,总体相关系数是未知的,我们通常是未知的,我们通常是将样本相关系数是将样本相关系数r作为作为的近似估计值。的近似估计值。niiniiniiiyyxxyyxxr12121)()()(相关系数相关系数r有如下性质:有如下性质: 1)相关系数的取值范围:相关系数的取值范围:1 r 1,若,若0 r 1,表明,表明X与与Y之间存在正线性相关关系,若之间存在正线性相关关系,若1 r 0,表明,表明X与与Y之间存在负线性相关关系。之间存在负线性相关关系。

5、2)若若r = 1,表明,表明X与与Y之间为完全正线性相关关系;若之间为完全正线性相关关系;若 r = 1,表明,表明X与与Y之间为完全负线性相关关系;若之间为完全负线性相关关系;若r = 0,说明二者之间不存在线性相关关系。说明二者之间不存在线性相关关系。 3)当当1 r 1时,为说明两个变量之间的线性关系的时,为说明两个变量之间的线性关系的密切程度,通常将相关程度分为以下几种情况:当密切程度,通常将相关程度分为以下几种情况:当| r | 0.8时,可视为高度相关;时,可视为高度相关;0.5 | r | 0.8时,可视时,可视为中度相关;为中度相关;0.3 | r | 0.5时,视为低度相关

6、;当时,视为低度相关;当| r | 0.3时,说明两个变量之间的相关程度极弱,可视时,说明两个变量之间的相关程度极弱,可视为不相关。但这种解释必须建立在对相关系数进行显为不相关。但这种解释必须建立在对相关系数进行显著性检验的基础之上。著性检验的基础之上。3. 3. 相关系数的显著性检验相关系数的显著性检验 相关系数的显著性检验也就是检验总体相关系数相关系数的显著性检验也就是检验总体相关系数是否显著为是否显著为0,通常采用费歇尔(,通常采用费歇尔(Fisher)提出的)提出的t分分布检验,该检验可以用于小样本,也可以用于大样本。布检验,该检验可以用于小样本,也可以用于大样本。检验的具体步骤如下:

7、检验的具体步骤如下: 1) 提出假设:假设样本是从一个不相关的总体中提出假设:假设样本是从一个不相关的总体中随机随机抽抽取取的,即的,即 H0: = 0;H1: 0 2) 由样本观测值计算检验统计量:由样本观测值计算检验统计量: 的观测值的观测值t0和衡量观测结果极端性的和衡量观测结果极端性的p值:值:p = P| t | | t0 | = 2Pt |t0| 3) 进行决策:比较进行决策:比较p和检验水平和检验水平 作判断:作判断:p |r|概率值,记为概率值,记为.统计假设统计假设H0:总体相关系数:总体相关系数=0若若 0.05,接受,接受H0,相关不显著,即总体,相关不显著,即总体x与与

8、y间不存在相关关系。间不存在相关关系。若若0.01 0.05,拒绝,拒绝H0,相关显著,即总体,相关显著,即总体x与与y间存在相关关间存在相关关系。系。若若 0.01,拒绝,拒绝H0,相关极显著,即总体,相关极显著,即总体x与与y间存在相关关系。间存在相关关系。data data li6_1li6_1; ; input x y; input x y; cards; cards;77 8.8 64 7.9 73 3.577 8.8 64 7.9 73 3.5; ;例例6-16-1 橡胶树幼苗期刺检干胶产量橡胶树幼苗期刺检干胶产量(x,(x,毫克毫克) )与正式割胶量与正式割胶量(y,(y,克克)

9、 )如下表,试求如下表,试求x x与与y y的相关系数并画出的相关系数并画出y y关于关于x x的散点图。的散点图。三、简单相关实例简单相关实例proc corr; proc corr; var x y; var x y; /*求求r*/run;run;proc gplot;proc gplot;plot yplot y* *x; /x; /* *散点图散点图* */ /run;run;PLOT的用法的用法PLOT * = /; 表表 PLOT语句的选项语句的选项PLOT语句语句的注意事项的注意事项vPLOT语句用以对两个变量绘制散点图,表达式语句用以对两个变量绘制散点图,表达式中位置在前(在

10、乘号中位置在前(在乘号“*”之前)的变量作为散点之前)的变量作为散点图的图的y轴,位置在后的变量作为散点图的轴,位置在后的变量作为散点图的x轴。轴。 Correlation Analysis 2 VAR Variables: X Y Simple StatisticsVariable N Mean Std Dev Sum X 26 92.0385 30.4427 2393.0000 Y 26 9.1115 3.3269 236.9000Variable Minimum Maximum X 61.0000 188.0000 y 3.5000 17.7000 SAS输出结果:输出结果: Pearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 26 X Y X 1.00000 0.71019 0.0 0.0001 Y 0.71019 1.00000 0.0001 0.0结论:结论:因因r=0.71019,其出现的概率,其出现的概率=0.00010.01,极显著,极显著,表示刺检干胶量与正式割胶量存在极显著的简单相关关系。表示刺检干

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论