何兴东-生物统计学课件 第10章 一元回归及简单相关分析_第1页
何兴东-生物统计学课件 第10章 一元回归及简单相关分析_第2页
何兴东-生物统计学课件 第10章 一元回归及简单相关分析_第3页
何兴东-生物统计学课件 第10章 一元回归及简单相关分析_第4页
何兴东-生物统计学课件 第10章 一元回归及简单相关分析_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章一元回归及简单相关分析何兴东南开大学生命科学学院第十章一元回归及简单相关分析上课提纲:一、回归和相关的根本概念二、一元线性回归三、一元非线性回归四、相关重点:回归方程的拟合及其显著性检验难点:回归的方差分析第十章一元回归及简单相关分析一、回归与相关的根本概念前面,我们学习了如何研究一种事物、两种事物乃至多种事物的集中程度〔平均数〕或变异程度〔标准差〕。如作物产量,通过计算平均数和标准差,就可知道这种作物在产量上的总体和变异情况,进而根据变异程度进行u-检验、t-检验、F-检验和x2-检验,并可确定那个品种好,那个品种不好;可筛选出适宜的条件或措施,等等,而这些都没有涉猎事物间或现象间的关系,这种研究事物间或现象间关系的统计方法就属于回归和相关。回归这个名称是英国遗传学家FrancesGolton提出来的。他研究了人的身高、肘长和手的跨距等,发现:身材高的父母所生子女的身材也高,但是高身材的父母所生子女的平均身高不如他们父母那么高,但子女的身高是依靠父母的身高,他把这种趋向称作回归,即回归到全体人口的平均身高,这种子女身高依赖父母身高的关系就是回归关系。

回归关系是一种函数关系,但它不同于数学上的函数关系。数学上的函数关系是一种确定性的关系,比方,圆的面积S=πr2,你抽取多少个总体,都遵从这一关系;而回归关系是一种非确定性的关系,总体不同,函数关系就发生变化。生物统计就是从这种非确定性关系中去了解变量间的联系。表述这种变量间的联系有两个指标:回归和相关。

相关关系(correlation)——两个随机变量(X和Y)的相互对应关系(X

Y)。回归关系(regression)——一个变量(X)和一个随机变量(Y)的对应关系(X

Y)。

显然,相关关系中两个随机变量没有谁依赖谁的关系,而回归关系中随机变量是依赖于变量的。对于回归分析而言,我们不但要弄清楚谁依赖谁,而且要搞明白依赖程度是否显著。在回归关系研究中,把变量〔X〕称作自变量,把随机变量〔Y〕称作因变量。第十章一元回归及简单相关分析Ⅰ、一元回归分析的意义二、一元线性回归1、较少的工作量就可掌握事物或现象的趋势或规律;假设土壤中NaCl含量为3.7g·kg-1,叶干重是多少?因为:y=11.161x+81.786x=3.7所以:y=11.161×3.7+81.786=123.1mg·dm-2

2、预测事物或现象的具体变化;对于重复1:80、90、95、115、130、115、135样本方差:s2=431

因为:y=11.161x+81.786

误差均方:MSe=70.7。误差均方是样本方差的16.4%。

因此,只有在引进自变量以后所得到的实验误差,才是真正的实验误差。

3、减小实验误差。第十章一元回归及简单相关分析二、一元线性回归Ⅱ、一元直线回归模型的建立:1、内涵

为了描述两变量间的数量关系,当自变量时,因变量Y的平均数与之相对应,那么,称为Y的条件平均数(conditionalmean)。

在实验无限重复后,可以得到各xi上Y的条件平均数,这些平均数构成一条直线:

式中:α为直线的截距(intercept),β为斜率(slope)。

对于一对给定的X和Y与直线的离差(随机误差)ε,它独立于X且服从于同一正态分布。

如上回归模型只包含一个自变量X且具有正态性,所以称为一元正态线性回归模型。

一般情况下,得不到真正的α和β,只能求出它们的估计值a和b,从而得到一条估计的直线:

回归方程估计值回归系数画出的线叫回归线第十章一元回归及简单相关分析Ⅱ、一元直线回归模型的建立:2、模型建立二、一元线性回归每一次a和b取值不同,每一个数据点的不同。对于所有点而言,每一次a和b取值不同,每一个数据点的离差不同。回归分析中,要使每一个离差都很小,必须选取适当的常数a和b,使得:达到最小,进而保证每个离差的绝对值都很小。这种根据离差的平方和为最小的条件来选择常数的方法称为最小二乘法(methodofleastsquare)。

第十章一元回归及简单相关分析目的明确以后,把L看成为自变量a和b的一个二元函数,那么问题就可归结为求函数L=L(a,b)在那些点处取得的最小值,这样就可通过数学方法可求出使L到达最小时的常数a和b。二、一元线性回归Ⅱ、一元直线回归模型的建立:2、模型建立得正规方程(normalequation):

解正规方程,得到α和β的最小二乘估计a和b:

校正交叉乘积和SXYX的校正平方和SXX计算估计值a和b时的程序:

X和Y的校正交叉乘积和:

X的校正平方和:Y的校正平方和:直线回归方程的两个性质:(1);(2)回归直线必须通过中心点。

〔2〕计算校正项:〔3〕计算估计值a和b:〔1〕计算观测平均值:二、一元线性回归第十章一元回归及简单相关分析Ⅱ、一元直线回归模型的建立:3、例题例题10-1土壤不同含盐量时小麦收获的叶干重如下表:试建立土壤含盐量与小麦叶干重的直线回归方程。解:分别求出SXY、SXX、SYY回归系数b=11.16,表示当自变量每变动一个单位,因变量变动11.16个单位。

二、一元线性回归第十章一元回归及简单相关分析Ⅲ、一元直线回归模型的检验:(一)方差分析1、无重复时的方差分析

即:总平方和=剩余平方和(误差平方和)+回归平方和记为:,SYY具n-1自由度;其中:,SSe具n-2自由度;

,SSR具1自由度。

均方分别为:

假设F<F1,(n-2),α,那么接受H0:β=0;假设F>F1,(n-2),α,那么拒绝H0:β=0。F>F1,5,0.01=16.26,回归极显著。二、一元线性回归第十章一元回归及简单相关分析2、有重复时的方差分析

Ⅲ、一元直线回归模型的检验:(一)方差分析如果对于同一个自变量,因变量重复观测两次以上,此时剩余平方和分解为纯实验误差平方和〔pureexperimentalerrorsumofsquares〕和失拟平方和〔lackoffitsumofsquares〕〔模型选择不当造成的〕,总校正平方和做如下分解:即:

总平方和=回归平方和+失拟平方和+纯实验误差平方和

记为:

;SYY具mn-1自由度;

;SSR具1自由度;

;SSpe具mn-n自由度;

;SSLOF具n-2自由度。

均方分别为:

第一步:检验选择模型的适宜性

若F<F(n-2),(mn-n),α,则模型选择正确;若F>F(n-2),(mn-n),α,则模型选择不当。当差异不显著(即模型选择正确)时,进行下一步检验。

第二步:检验回归关系的显著性

此时,失拟平方和基本上是由实验误差造成的。将失拟平方和和纯误差平方和合并,相应自由度合并(df=mn-2),以合并后的均方对回归均方进行显著性检验。

若F<F1,(mn-2),α,则接受H0:β=0;若F>F1,(mn-2),α,则拒绝H0:β=0。二、一元线性回归第十章一元回归及简单相关分析Ⅲ、一元直线回归模型的检验:(一)方差分析2、有重复时的方差分析

例题10-7土壤不同含盐量时有重复实验中小麦收获的叶干重如下表:试对该土壤含盐量与小麦叶干重的直线回归方程的显著性进行检验。解:得到回归方程

差异不显著,说明模型选择正确。注意:对于小样本(n≤30),F≤1.5肯定不显著;

对于大样本(n>30),F≤1.0肯定不显著。

F>F1,12,0.01=9.33,回归关系极显著。

二、一元线性回归第十章一元回归及简单相关分析Ⅲ、一元直线回归模型的检验:(二)回归系数t-检验一元线性回归模型的实测值可表示为,因无法获得α和β,故实测值表述为。二、一元线性回归第十章一元回归及简单相关分析Ⅳ、一元直线回归模型的检验:(3)点估计与区间估计1、对α和β的估计

二、一元线性回归第十章一元回归及简单相关分析Ⅳ、一元直线回归模型的检验:(3)点估计与区间估计2、对回归线和对的估计

总体平均数观测值个体—样本例题:在例题10-1中,请估计土壤含盐量为1.6g·kg-1时小麦叶干重为多少mg·dm-2〔取0.95置信概率〕?张老师2006年在土壤含盐量为1.6g·kg-1的试验地中进行小麦实验,叶干重为多少mg·dm-2〔取0.95置信概率〕?解:分析——第一问为求总体平均值的置信区间;第二问为求单个观测值——样本的置信区间。三、一元非线性回归第十章一元回归及简单相关分析多项式回归两变量间的数据散点图无法确定函数关系时,用多项式回归。一般形式为:

例题10-13

假设有一组数据,如下表,

试建立回归方程并做显著性检验。解:在Excel中,分别拟合多项式回归方程,并做显著性检验。结果如下图。四、相关第十章一元回归及简单相关分析1、相关系数概念及其计算相关系数〔correlationcoefficient〕是指由于回归因素所引起的变差与总变差之比的平方根,它是衡量线性回归好坏的一个标志。由回归因素所引起的变差在总变差中的比率越大,回归的成分就越大,这两个变量间的相关就越密切。常用的相关系数有Pearson相关系数、Kendall’s相关系数和Spearman相关系数。如果不作特别说明,我们计算的都是Pearson相关系数。

样本相关系数为:第十章一元回归及简单相关分析四、相关2、相关系数的检验

涉及一个概念——总体相关系数,即总体相关系数等于两变量的协方差除以两变量标准差的几何平均数。

事实上,总体相关系数ρ很难计算,只能估计。

(1)r不经变换:当ρ=0时(待检验数据分布符合正态分布),可用t=b/sb来检验。检验统计量为:t0.01

例题10-14

在研究水稻籽粒蛋白质含量(%)时,采用两种不同的测定方法:凯氏定氮法(KP法)和染料结合法(DBC法),结果如下表,问两种测定方法对结果是否有显著影响?解:H0:ρ=0

说明两种方法测定结果是一致的。

(2)r经z变换:当ρ≠0时(待检验数据分布不符合正态分布),分3种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论