第九讲 回归与回归分析_第1页
第九讲 回归与回归分析_第2页
第九讲 回归与回归分析_第3页
第九讲 回归与回归分析_第4页
第九讲 回归与回归分析_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章回归和回归分析

6.1相关分析概述

6.2相关分析

6.3多元线性回归

6.4

曲线回归

6.5逐步回归

1.散点图

散点图是描述变量之间关系的一种直观方法。我们用坐标的横轴代表自变量X,纵轴代表因变量Y,每组数据(xi,yi)在坐标系中用一个点表示,由这些点形成的散点图描述了两个变量之间的大致关系,从中可以直观地看出变量之间的关系形态及关系强度。

6.1相关分析概述

图6-1不同形态的散点图

(a)(b)(c)(d)

就两个变量而言,如果变量之间的关系近似地表现为一条直线,则称为线性相关,如图6-1(a)和(b);如果变量之间的关系近似地表现为一条曲线,则称为非线性相关或曲线相关;如图6-1(c);如果两个变量的观测点很分散,无任何规律,则表示变量之间没有相关关系,如图6-l(d)。

2.相关系数相关系数是对变量之间关系密切程度的度量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;总体相关系数的计算公式为:其中COV(X,Y)为变量X和Y的协方差,D(X)和D(Y)分别为X和Y的方差。

若相关系数是根据样本数据计算的,则称为样本相关系数(简称为相关系数),记为r。样本相关系数的计算公式为:

一般情况下,总体相关系数ρ是未知的,我们通常是将样本相关系数r作为ρ的近似估计值。相关系数r有如下性质:

1)相关系数的取值范围:–1≤r≤1,若0<r≤1,表明X与Y之间存在正线性相关关系,若–1≤r<0,表明X与Y之间存在负线性相关关系。2)若r=1,表明X与Y之间为完全正线性相关关系;若

r=–1,表明X与Y之间为完全负线性相关关系;若r=0,说明二者之间不存在线性相关关系。

3)当–1<r<1时,为说明两个变量之间的线性关系的密切程度,通常将相关程度分为以下几种情况:当|r|≥0.8时,可视为高度相关;0.5≤|r|<0.8时,可视为中度相关;0.3≤|r|<0.5时,视为低度相关;当|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关。但这种解释必须建立在对相关系数进行显著性检验的基础之上。3.相关系数的显著性检验相关系数的显著性检验也就是检验总体相关系数是否显著为0,通常采用费歇尔(Fisher)提出的t分布检验,该检验可以用于小样本,也可以用于大样本。检验的具体步骤如下:1)提出假设:假设样本是从一个不相关的总体中随机抽取的,即H0:ρ=0;H1:ρ≠0

2)由样本观测值计算检验统计量:的观测值t0和衡量观测结果极端性的p值:p=P{|t|≥|t0|}=2P{t≥|t0|}3)进行决策:比较p和检验水平

作判断:p<

,拒绝原假设H0;p

,不能拒绝原假设H0。相关分析的实质:反映各变量之间相关密切程度。简单相关:研究两变量直线相关的密切程度和性质,也称直线相关。偏相关:排除其余的影响因子,求出x与y的纯相关,这种相关称偏相关。复相关:研究一个变量与一组变量之间的相关性关系。典型相关:研究两组变量间的相关关系。1简单相关2偏相关3复相关6.2相关分析(AnalysisofCorrelation)1简单相关简单相关:

是对有联系的两类事物(x与y)表面关系密切程度的衡量。(SimpleCorrelation)一、简单相关系数相关系数r(无单位)的取值:即:二、简单相关系数r的显著性测验由d.f=n-2查出相关系数的临界值r0.05

、r0.01(degreeoffreedom)SAS直接输出prob>|r|概率值,记为α.统计假设H0:总体相关系数ρ=0若α>0.05,接受H0,相关不显著,即总体x与y间不存在相关关系。若0.01<α<0.05,拒绝H0,相关显著,即总体x与y间存在相关关系。若α<0.01,拒绝H0,相关极显著,即总体x与y间存在相关关系。datali6_1;inputxy@@;cards;778.8647.9…733.5;例6-1橡胶树幼苗期刺检干胶产量(x,毫克)与正式割胶量(y,克)如下表,试求x与y的相关系数并画出y关于x的散点图。三、简单相关实例proccorr;varxy;/*验证相关性*/run;procgplot;ploty*x;/*指明横纵坐标轴*/run;

PLOT的用法

PLOT<纵轴变量>*<横轴变量>[=<变量>][/<选项>];

表PLOT语句的选项PLOT语句的注意事项PLOT语句用以对两个变量绘制散点图,表达式中位置在前(在乘号“*”之前)的变量作为散点图的y轴,位置在后的变量作为散点图的x轴。

CorrelationAnalysis2'VAR'Variables:XYSimpleStatisticsVariableNMeanStdDevSumX2692.038530.44272393.0000Y269.11153.3269236.9000VariableMinimumMaximumX61.0000188.0000

y3.500017.7000SAS输出结果:

PearsonCorrelationCoefficients/Prob>|R|underHo:Rho=0/N=26

XYX1.000000.710190.00.0001Y0.710191.000000.00010.0结论:因r=0.71019,其出现的概率=0.0001<0.01,极显著,表示刺检干胶量与正式割胶量存在极显著的简单相关关系。

实验1以下给出了美国14个州一年内吸烟支数与患肺癌死亡人数的相关数据(见数据sy6_1)根据数据sy6_1说明吸烟支数与患肺癌死亡人数的相关性。2偏相关(PartialCorrelation)1.一级偏相关系数

简单相关是数字间的表面联系,如需了解x与y的本质联系,必须排除其余的影响因子,以得出x与y的纯相关,这种相关称偏相关。

如果考查xi、xj的一级偏相关,则把xk的影响从xi、xj中消除后,再求xi与xj的相关系数。通式:

如果有xi,xj,xk,xl四个变量,则用统计方法消除xk,xl对xi与xj

的影响,求xi与xj之间的相关程度称为二级偏相关。通式:2.二级偏相关系数如:r13.2表示消除x2的影响,求x1与x3的偏相关系数。r13.24

表示消除x2、x4的影响,x1与x3的偏相关系数。(Multiplecorrelation)3复相关(或多重相关)

研究一个变量与一组变量之间的相关关系,即多元相关或复相关分析。意义:复相关是因变数关于若干个自变数间关系密切程度的衡量。并以决定系数R2为衡量的标准。一般,y关于x1,x2,…,xk的复相关系数:数值范围:R的显著性测验df1=pdf2=n-p-1

复相关系数及显著性测验将在多元线性回归方程的SAS程序中输出。例橡胶树白粉病最终病情指数(x1)与最冷月的平均温度(x2)及一月份平均温度(x3)十三年记录资料如表6-2,试求简单相关系数、偏相关系数r12.3及r13.2。表6-2橡胶树病情指数与温度表proccorr;

/*简单相关*/proccorr;varx1x2;

partialx3;

/*r12.3*/proccorr;varx1x3;

partialx2;

/*r13.2*/run;

datatemp;input

x1x2x3@@;cards;0.415.315.352.315.816.411.815.215.251.617.617.942.716.316.341.515.515.533.715.815.812.515.015.036.615.815.850.716.016.02.513.713.735.216.216.60.413.115.1;主要的输出结果如下:

统计结论:

r12=0.79949p=0.001<0.01相关极显著r13=0.77549p=0.0018<0.01相关极显著r23=0.86931p=0.0001<0.01相关极显著r12.3=0.40169p=0.1956>0.05相关不显著r13.2=0.27108p=0.27108>0.05相关不显著

组合代号X1X2X3Y110.3729.5633.3110.520210.4734.2529.0510.07039.6735.2537.6512.79049.8729.2531.529.23058.2037.8533.6210.36068.6737.7838.0912.570710.0340.9730.4212.56089.0046.0029.1011.388910.0739.7332.0612.830实验221个小麦双列杂交组合F1的单株产量y(克),每株穗数x1,每穗的粒数x2,千粒重x3(克)数据如下:组合代号X1X2X3Y1010.5736.3030.5911.800118.7337.1027.178.7301210.2035.6732.2111.790138.9335.4433.2210.420149.8334.2828.409.830158.6033.3135.4910.920168.8335.1027.548.440178.8034.4534.2010.500188.8030.6529.477.940199.4031.2030.758.8302010.0339.2729.2111.330试求ry1、ry3、ry1.2、ry1.23

,并确定其显著性。6.3多元线性回归

多元线性回归分析是研究一因变量与多个自变量间关系的统计方法。一、多元线性回归的实际意义多元回归分析主要解决:1)各个自变量对因变量的各自效应,即偏回归系数;2)建立由自变量描述和预测因变量的多元回归方程,计算标准误;3)对自变量进行选择,建立最优回归方程;4)评定各个自变量对因变量的相对重要性。二、线性回归模型(LineRegressionmodel)

线性回归模型的一般形式为:

Y=

0+

1X1+…+

kXk+

其中,

0,

1,…

k,是未知的参数,

是不可观测的随机变量,称为误差项,假定

N(0,

2)。如果有n次独立的观测数据(xi1,xi2,…,xik;yi)i=1,2,…,n,则线性回归模型可以表示成如下形式:

其中,

1,

2,…,

n相互独立且服从N(0,

2)分布。上式可以简写成如下矩阵形式:

Y=Xβ+ε其中

,,,,1、参数

2的估计

若X的秩rank(X)=k+1

n,参数

的最小二乘估计为

可以证明,

的无偏估计。当给出

的估计后,将其代入回归模型并略去误差项,得到的方程

称为回归方程。利用回归方程可由自变量X1,…,

Xk的观测值求出因变量Y的估计值(预测值)。

称为残差向量,简称残差,其中I为n阶单位矩阵。

为残差平方和。

若rank(X)=k+1

n,均方残差(MSE):

即为误差ε的方差(也是实测值Y的方差)

2的无偏估计,均方残差有时也称为均方误差。2、有关统计量及回归方程的拟合优度

给定因变量Y与自变量X1,X2,…,Xk的n组观测值,就可以利用上述方法得到未知参数

2的估计,从而可以给出回归方程:

残差平方和(errorsumofsquares):反映了除去Y与X1,X2,…,Xk之间的线性关系以外的因素引起的数据y1,y2,…,yn的波动。若SSE=0,则每个观测值可由线性关系精确拟合,SSE越大,观测值与线性拟合值的偏差也越大。模型平方和(modelsumofsquares):

反映了拟合值与其平均值的总偏差,即由变量X1,X2,…,Xk的变化引起的y1,y2,…,yn的波动。若SSM

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论