一元回归及简单相关分析_第1页
一元回归及简单相关分析_第2页
一元回归及简单相关分析_第3页
一元回归及简单相关分析_第4页
一元回归及简单相关分析_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章一元回归及简单相关分析上课提纲:一、回归和相关的基本概念二、一元线性回归三、一元非线性回归四、相关重点:回归方程的拟合及其显著性检验难点:回归的方差分析

前面,我们所讨论的统计方法,只涉及一个变量。例如,在不同品种的产量比较试验中,每一品种平均数反映产量的集中点。标准差反映了产量的离散程度。如作物产量,通过计算平均数和标准差,就可知道这种作物在产量上的总体和变异情况,进而根据变异程度进行u-检验、t-检验、F-检验和x2-检验,并可确定那个品种好,那个品种不好;可筛选出适宜的条件或措施,等等,而这些都只涉猎产量一个变量,而产量不仅与品种有关,还与施肥量、播种密度、及灌水量等多种因素有关。因此在试验研究的过程中,经常要研究两个或两个以上变量间的相关关系。事物间或现象间的关系,这种研究事物间或现象间关系的统计方法就属于回归和相关。第十章一元回归及简单相关分析一、回归与相关的基本概念

回归这个名称是英国遗传学家FrancesGolton提出来的。他研究了人的身高、肘长和手的跨距等,发现:身材高的父母所生子女的身材也高,但是高身材的父母所生子女的平均身高不如他们父母那么高,但子女的身高是依靠父母的身高,他把这种趋向称作回归,即回归到全体人口的平均身高,这种子女身高依赖父母身高的关系就是回归关系。

回归关系是一种函数关系,但它不同于数学上的函数关系。数学上的函数关系是一种确定性的关系,比如,圆的面积S=πr2,你抽取多少个总体,都遵从这一关系;而回归关系是一种非确定性的关系,总体不同,函数关系就发生变化。生物统计就是从这种非确定性关系中去了解变量间的联系。表述这种变量间的联系有两个指标:回归和相关。

对两个变量,一个变量用符号x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的成对观测值,可表示为(x1,

y1),(x2,

y2),…,(xn,

yn)。为了直观看出x和y变化关系.可将每一对观测值在平面直角坐标系中表示成一个点,作成散点图。图10-1x和y之间的关系

从散点图可以看出:①两个变量间关系的性质和程度;②两个变量间关系的类型,是直线型还是曲线型;③是否有异常观测值的干扰等。例如图10.1是三幅两个变量的散点图,图a和图b都是直线型的,但图a的两个变量关系较图b密切,且是正向的,即x增加y心也增加,图b是负向的,图c的两个变量之间关系是曲线型的。由散点图表示两个变量之间的关系只是定性的研究,为了探讨它们之间的规律性,必须根据观测值将期理论关系推导出来。

研究两个变量的关系可采用回归与相关的分析统计方法。如果两个变量间关系属于因果关系,一般用回归来研究。表示原因的变量称为自变量,用x表示。自变量是固定的(试验时预先确定的),没有随机误差。表示结果的变量称为依变量,用y表示.并有随机误差。例如作物施肥和产量之间的关系,前者是表示原因的变量,为事先确定的,是自变量,后者是表示结果的变量,且具有随机误差,为依变量,作物产量是随施肥量的变化而变化的。(一个自变量x可以有许多y值和它对应)回归分析的目的是揭示呈因果关系的变量之间的联系形式,建立回归方程,利用建立回归方程由自变量来预测和控制依变量。

如果两变量是平行关系,只能用相关来进行研究。在相关分析中,无自变量和依变量之分,且都具有随机误差。(两个变量取值不是一对一的)相关分析只能研究两个变量之间相关程度和性质,不能用一个变量的变化去预测另一个变量的变化,这是回归与相关区别的关键所在。显然,相关关系中两个随机变量没有谁依赖谁的关系,而回归关系中随机变量是依赖于变量的。对于回归分析而言,我们不但要弄清楚谁依赖谁,而且要搞明白依赖程度是否显著。

相关关系(correlation)——两个随机变量(X和Y)的相互对应关系(X

Y)。回归关系(regression)——一个变量(X)和一个随机变量(Y)的对应关系(X

Y)。简单直线相关与回归的区别p1561.在资料要求上,相关要求两变量x、y都是随机变量,如动物体高与体重.两者都不能预先指定;回归要求依变量y是随机变员,而自变量x可以是随机变量,亦可以指定,幅养试验中.建立采食量与增重的回归关系,动物采食量可以人为控制.

2.在意义上.相关反映两变量间相互依赖的平行关系;而回归则反映一个变量对另一变量的单向依赖关系.

3.在应用上,说明两变量间的相关程度用相关;说明两现象间变化的数量关系用回归.第十章一元回归及简单相关分析Ⅰ、一元回归分析的意义二、一元线性回归1、较少的工作量就可掌握事物或现象的趋势或规律;假如土壤中NaCl含量为3.7g·kg-1

,叶干重是多少?因为:y=11.161x+81.786x=3.7所以:y=11.161×3.7+81.786=123.1mg·dm-2

2、预测事物或现象的具体变化;对于重复1:80、90、95、115、130、115、135样本方差:s2=431

因为:y=11.161x+81.786

误差均方:MSe=70.7。误差均方是样本方差的16.4%。

因此,只有在引进自变量以后所得到的实验误差,才是真正的实验误差。

3、减小实验误差。第十章一元回归及简单相关分析二、一元线性回归Ⅱ、一元直线回归模型的建立:1、内涵

为了描述两变量间的数量关系,当自变量时,因变量Y的平均数与之相对应,那么,称为Y的条件平均数(conditionalmean)。

在实验无限重复后,可以得到各xi上Y的条件平均数,这些平均数构成一条直线:

式中:α为直线的截距(intercept),β为斜率(slope)。

对于一对给定的X和Y与直线的离差(随机误差)ε,它独立于X且服从于同一正态分布。

如上回归模型只包含一个自变量X且具有正态性,所以称为一元正态线性回归模型。

一般情况下,得不到真正的α和β,只能求出它们的估计值a和b,从而得到一条估计的直线:

回归方程估计值回归系数画出的线叫回归线第十章一元回归及简单相关分析Ⅱ、一元直线回归模型的建立:2、模型建立二、一元线性回归每一次a和b取值不同,每一个数据点的不同。对于所有点而言,每一次a和b取值不同,每一个数据点的离差不同。回归分析中,要使每一个离差都很小,必须选取适当的常数a和b,使得:达到最小,进而保证每个离差的绝对值都很小。这种根据离差的平方和为最小的条件来选择常数的方法称为最小二乘法(methodofleastsquare)。

第十章一元回归及简单相关分析

目的明确以后,把L看成为自变量a

和b的一个二元函数,那么问题就可归结为求函数L=L(a,b)在那些点处取得的最小值,这样就可通过数学方法可求出使L达到最小时的常数a和b。

二、一元线性回归Ⅱ、一元直线回归模型的建立:2、模型建立得正规方程(normalequation):

解正规方程,得到α和β的最小二乘估计a和b:

校正交叉乘积和SXYX的校正平方和SXX计算估计值a和b时的程序:

X和Y的校正交叉乘积和:

X的校正平方和:Y的校正平方和:直线回归方程的两个性质:(1);(2)回归直线必须通过中心点。

(2)计算校正项:

(3)计算估计值a和b:

(1)计算观测平均值:

二、一元线性回归第十章一元回归及简单相关分析Ⅱ、一元直线回归模型的建立:3、例题例题10-1土壤不同含盐量时小麦收获的叶干重如下表:试建立土壤含盐量与小麦叶干重的直线回归方程。解:分别求出SXY、SXX、SYY

回归系数b=11.16,表示当自变量每变动一个单位,因变量变动11.16个单位。

二、一元线性回归第十章一元回归及简单相关分析Ⅲ、一元直线回归模型的检验:(一)方差分析1、无重复时的方差分析

即:总平方和=剩余平方和(误差平方和)+回归平方和记为:,SYY具n-1自由度;其中:,SSe具n-2自由度;

,SSR具1自由度。

均方分别为:

若F<F1,(n-2),α,则接受H0:β=0;若F>F1,(n-2),α,则拒绝H0:β=0。

F>F1,5,0.01=16.26,回归极显著。二、一元线性回归第十章一元回归及简单相关分析2、有重复时的方差分析

Ⅲ、一元直线回归模型的检验:(一)方差分析

如果对于同一个自变量,因变量重复观测两次以上,此时剩余平方和分解为纯实验误差平方和(pureexperimentalerrorsumofsquares)和失拟平方和(lackoffitsumofsquares)(模型选择不当造成的),总校正平方和做如下分解:

即:

总平方和=回归平方和+失拟平方和+纯实验误差平方和

记为:

;SYY具mn-1自由度;

;SSR具1自由度;

;SSpe具mn-n自由度;

;SSLOF具n-2自由度。

均方分别为:

第一步:检验选择模型的适宜性

若F<F(n-2),(mn-n),α,则模型选择正确;若F>F(n-2),(mn-n),α,则模型选择不当。当差异不显著(即模型选择正确)时,进行下一步检验。

第二步:检验回归关系的显著性

此时,失拟平方和基本上是由实验误差造成的。将失拟平方和和纯误差平方和合并,相应自由度合并(df=mn-2),以合并后的均方对回归均方进行显著性检验。

若F<F1,(mn-2),α,则接受H0:β=0;若F>F1,(mn-2),α,则拒绝H0:β=0。二、一元线性回归第十章一元回归及简单相关分析Ⅲ、一元直线回归模型的检验:(一)方差分析2、有重复时的方差分析

例题10-7土壤不同含盐量时有重复实验中小麦收获的叶干重如下表:试对该土壤含盐量与小麦叶干重的直线回归方程的显著性进行检验。解:得到回归方程

差异不显著,说明模型选择正确。注意:对于小样本(n≤30),F≤1.5肯定不显著;

对于大样本(n>30),F≤1.0肯定不显著。

F>F1,12,0.01=9.33,回归关系极显著。

二、一元线性回归第十章一元回归及简单相关分析Ⅲ、一元直线回归模型的检验:(二)回归系数t-检验一元线性回归模型的实测值可表示为,因无法获得α和β,故实测值表述为。二、一元线性回归第十章一元回归及简单相关分析Ⅳ、一元直线回归模型的检验:(3)点估计与区间估计1、对α和β的估计

二、一元线性回归第十章一元回归及简单相关分析Ⅳ、一元直线回归模型的检验:(3)点估计与区间估计2、对回归线和对的估计

总体平均数观测值个体—样本例题:在例题10-1中,请估计土壤含盐量为1.6g·kg-1时小麦叶干重为多少mg·dm-2(取0.95置信概率)?张老师2006年在土壤含盐量为1.6g·kg-1的试验地中进行小麦实验,叶干重为多少mg·dm-2(取0.95置信概率)?

解:分析——第一问为求总体平均值的置信区间;第二问为求单个观测值——样本的置信区间。三、一元非线性回归第十章一元回归及简单相关分析

多项式回归

两变量间的数据散点图无法确定函数关系时,用多项式回归。一般形式为:

例题10-13

假设有一组数据,如下表,

试建立回归方程并做显著性检验。解:在Excel中,分别拟合多项式回归方程,并做显著性检验。结果如下图。1、相关系数概念及其计算相关系数(correlationcoefficient)是指由于回归因素所引起的变差与总变差之比的平方根,它是衡量线性回归好坏的一个标志。由回归因素所引起的变差在总变差中的比率越大,回归的成分就越大,这两个变量间的相关就越密切。样本相关系数为:相关系数的性质用散点图说明第十章一元回归及简单相关分析四、相关2、相关系数的检验

涉及一个概念——总体相关系数,即总体相关系数等于两变量的协方差除以两变量标准差的几何平均数。

事实上,总体相关系数ρ很难计算,只能估计。

(1)r不经变换:当ρ=0时(待检验数据分布符合正态分布),可用t=b/sb来检验。检验统计量为:t0.01

例题10-14

在研究水稻籽粒蛋白质含量(%)时,采用两种不同的测定方法:凯氏定氮法(KP法)和染料结合法(DBC法),结果如下表,问两种测定方法对结果是否有显著影响?解:H0:ρ=0

说明两种方法测定结果是一致的。

简单直线相关与回归的区别p156杨运清

1.在资料要求上,相关要求两变量x。y都是随机变量,如动物体高与体重.两者都不能预先指定;回归要求依变量y是随机变员,而自变量x可以是随机变量,亦可以指定,幅养试验中.建立采食量与增重的回归关系,动物采食量可以人为控制.

2.在意义上.相关反映两变量间相互依赖的平行关系;而回归则反映一个变量对另一变量的单向依赖关系.

3.在应用上,说明两变量间的相关程度用相关;说明两现象间变化的数量关系用回归.3、相关系数与回归系数的关系通常以X为自变量、Y为因变量,这时的回归系数

反过来,以Y为自变量、X为因变量,这时的回归系数

Finished对比r和b两个变量在相关系数计算中的地位是平等的,没有自变量和依变量之分,这是回归和相关的区别。R2

的含义是变量引起变异的回归平方和占变异总平方和的比率。取值范围是0到1例题中r=0.953R2=0.9082表明y的变异中有90.82%可用y与x二者之间的线性关系来解释。

R2的作用:1R2

的大小可以说明曲线和散点配合的程度,越大配合的越好,散点离曲线越近。2(在实际应用中的意义)为探讨产妇尿液中雌三醇含量与初生儿体重是否有关,以便尽早根据产妇产前尿中雌三醇含量水平估计胎儿是否超重,并判断生产过程的风险,某产科医师测量了3l例待产妇24小时的尿雌三醇及其初生儿体重,数据记录如表所示:

r=0.6097检验后有极显著意义。即认为该样本所代表的总体相关系数不等于0。因此,本例的相关系数结果可以这样解释:产妇尿雌三醇的含量与新生儿体重之间存在正相关,即尿雌三醇含量高,相应的新生儿体重也高。本例相关系数虽然达到o.6097,且具有极显著性意义(P<0.01),但决定系数只有大约0.3717,即新生儿的体重改变量中只有将近37.17%可以用产妇尿雌三酵含量来解释,其余大部分由未进入本研究的其他因素所决定。由此可见,该回归模型的效应并不是很高。从散点图上亦可看出,各散点的分布偏离回归直线比较远。相关系数和决定系数有何区别和联系?相关系数是指由于回归因素所引起的变差与总变差之比的平方根,它是衡量线性回归好坏的一个标志。决定系数R2

的含义是变量引起变异的回归平方和占变异总平方和的比率。R2

的大小可以说明曲线和散点配合的程度,越大配合的越好,散点离曲线越近。区别:都是表示相关程度的一个统计数。相关系数还可以表示双变量相关的性质,而绝对系数只能表示相关程度不能表示相关性质。

R2取值范围是0到1r取值范围是-1到1联系R2

=r2

确定系数与回归模型的效应评价董时富126页因变量的全部变异包括;随x变化而发生b个单位的改变量和残差两个部分。这表明x不能100%地解释y的全部变异。(数学中A=KbC浓度c可以100%解释y的变异)那么y的全部变异中,x的确

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论