第一章 一元回归与相关分析_第1页
第一章 一元回归与相关分析_第2页
第一章 一元回归与相关分析_第3页
第一章 一元回归与相关分析_第4页
第一章 一元回归与相关分析_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高级生物统计

AdvancedBiometrics陈茂学办公地点:文理大楼0710办公电话:8242504

E-mail:mxchen@山东农业大学信息科学与工程学院数学系1主要内容:1.回归分析

包括:线性、逐步、非线性回归,相关、通径分析。2.判别分析

包括:距离判别、Bayes判别、Fisher判别等。3.聚类分析

包括:系统聚类、动态聚类等。4.主成分分析与典型相关分析5.近代回归分析

包括:岭回归、主成分回归等。6.回归设计

包括:回归正交设计、旋转设计、最优设计等。2第一章一元回归与相关分析

一、变量间的关系

1.确定性关系已知一个或几个变量的值,能严格计算出另一个变量的值。如S=πR2,S=vt等。

2.相关关系变量间虽有一定的依赖关系,但由一个或几个变量的值,不能准确求出另一变量的值。例如,作物产量与施肥量之间的关系;体重与身高之间的关系;孩子的身高与其父母的平均身高等。§1.1概述细分;单向依存关系和相互依存关系,分析方法分别为回归(regression)分析和相关(correlation)分析。3二、相关与回归分类

1.基于变量的多少简单相关与回归;多元相关与回归;偏相关与偏回归。2.基于变量间关系形式线性相关与回归;非线性相关与回归。三、相关与回归分析的作用1.寻求描述变量间数量关系的数学模型—回归方程;2.利用数学模型(回归方程)对变量进行预报或控制;3.在影响某一变量的诸多变量中,分析其主次顺序。4四、认识相关关系的方法(相关关系的表现形式)1.列表法如某作物的株高y(cm)与苗龄x(d)之间的关系。苗龄x(d)5101520253035株高y(cm)259141925332.图象法如散点图、折线图、曲线图等。3.解析法如数学方程(数学模型)。5§1.2一元线性回归一、一元线性回归方程的建立设对两变量x,y进行n次试验后得n对观测值(xi,yi),i=1,2,…,n。其散点图呈线性,用近似线性方程表示,称为y依x的直线回归方程。•••••••(xi,yi)xixyyib0为截距,b为回归系数(斜率)。它们应使达到最小。6达到最小,由多元要使函数的极值定理,将Q分别对b0,b求一阶偏导数并令其等于零得方程组整理得由(1)式得并代入(2)式得7整理得由(1)式得并代入(2)式得这种求b0、b的方法称为最小二乘法,b0、b称为最小二乘估计(LSE——leastsquareestimate)。8例1.1某作物的株高y(cm)与苗龄x(d)的试验结果如下表:苗龄x(d)5101520253035株高y(cm)25914192533解

xi=5+10+15+20+25+30+35=140试求株高y依苗龄x的回归方程。

yi=2+5+9+14+19+25+33=107

xi2=52+…+352=3500

yi2=22+…+332=2381

xiyi=52+…+3533=2855

lxy=xiyi–(xi)(yi)/n=2855-140107/7=715

lxx=xi2–(xi)2/n=3500-1402/7=700

lyy=yi2–(yi)2/n=2381-1072/7=745.439从而得回归系数b=lxy/lxx=715/700=1.02因此得苗龄与株高的回归方程为解

xi=5+10+15+20+25+30+35=140

yi=2+5+9+14+19+25+33=107

lxy=xiyi–(xi)(yi)/n=2855-140107/7=715

lxx=xi2–(xi)2/n=3500-1402/7=700

lyy=yi2–(yi)2/n=2381-1072/7=745.4310二、一元线性回归的数学模型设因变量y与自变量x的内在联系是线性的,当做了n次试验后,得n组数据(xi,yi),i=1,2,…,n.满足

yi=0+xi+ei,i=1,2,…,n其中0、是未知参数,称为回归系数,x是一般变量,e1,…,en是相互独立的随机误差,方差均为2,数学期望为0的正态分布,即ei~N(0,2)。这就是一元线性回归的数学模型。简记为11简记为显然yi~N(0+xi,2)可以证明:E(b0)=0,E(b)=,E(Q/(n-2))=2,b0,b为0,的最小二乘估计。12检验x与y之间是否存在显著的线性关系,即检验假设

H0:=0,Ha:0三、回归关系的显著性检验1.回归方程的检验(方差分析)总平方和•••••••(xi,yi)xixyyi(交叉项的和等于0)=Q+u13其中=Q+u分别称为剩余平方和与回归平方和。Q=lyy-u=lyy-blxy.自由度fT=n-1,fu=1,fQ=n-2.它们的计算公式为14Q=lyy-u=lyy-blxy.自由度fT=n-1,fu=1,fQ=n-2.均方:在H0成立的条件下当F≥F(1,n-2)时,否定H0,即x与y存在显著的线性关系;否则线性关系不显著。15在上例中因为lxy=715,lyy=745.43,b

=1.02自由度fT=n-1=7-1=6,fu=1,fQ=n-2=7-2=5.均方:所以回归方程极显著,即苗龄与株高有极显著的线性关系。可列方差分析表(略)。所以u=blxy=1.02715=729.3,

Q=lyy-u=745.43-729.3=16.1316对上例2.回归系数的t检验H0:=0,Ha:0在H0成立的条件下

当|t|≥t/2(n-2)时,否定H0,即x与y存在显著的线性关系;否则线性关系不显著。故回归系数极显著,即苗龄与株高线性关系极显著。173.一元线性回归的SAS程序对例1.1的SAS程序如下:DATAex1_1;INPUTxy@@;CARDS;521051592014251930253533;PROCREG;MODELy=x;RUN;苗龄x(d)5101520253035株高y(cm)2591419253318方差分析与参数估计输出结果:19PROCGPLOT;PLOTy*x;SYMBOLV=starI=RLCV=orangeCI=blue;RUN;其中:CV、CL—分别表示点的符号和回归线的颜色上例作y关于x的回归和散点图。增加如下程序:2021当所求回归方程此值即为点预测(估计)。另外还有区间预测(估计),其1-的置信区间为

四、预测问题

x=x0的值预测y的值,其预测值为显著时,可对给定的其中(1)单个y(2)y的平均值22显然,l越大,预测精度越低。预测区间长度为2l。当x0

越远离,预测精度越低。原则上x0的取值要在试验范围之内,即:x0[min{x1,…,xn},max{x1,…,xn}]如上例中,当x=28时,y的1-0.05=95%的预测区间23如上例中,当x=28时,y的1-0.05=95%的预测区间即当苗龄为28天时,株高的95%预测区间为[18.56,28.28]厘米。SAS程序如下:24DATAex1_1;INPUTxy@@;CARDS;52105…353328.;PROCREG;MODELy=x/CLM;RUN;25§1.3相关分析(correlationanalysis)

一、相关系数两个随机变量X、Y之间的总体相关系数样本相关系数26二、相关系数的性质-1r1因为r2称为确定系数或决定系数。且ulyy,所以当|r|=1时,称x与y完全相关;当r=0时,称x与y不相关;当r>0时,称x与y正相关;当r<0时,称x与y负相关。注:r的符号与b的符号一致。上例27三、相关系数的检验H0:=0,Ha:01.查表法由附表10,查相关系数临界值表r(fQ)。当|r|≥r(fQ)

时,拒绝H0,即x与y相关系数显著。上例中,|r|=0.9898>r0.01(5)=0.874,所以x与y相关关系极显著。2.t检验法在H0

成立的条件下当|t|≥t/2(n-2)

时,拒绝H0,即x与y相关系数显著。28注:1.对一元线性回归与相关而言,F检验、t检验、相关系数r的检验,其检验结果一致。2.

当检验结果为不显著时,可能存在的原因:(1)x与y之间根本没有关系,此时需要寻找影响y的其它变量;(2)x与y之间有关系,但不是线性关系,这时需要非线性回归。29相关分析的SAS程序DATAex1_1;INPUTxy@@;CARDS;521051592014251930253533;PROCCORR;VARxy;RUN;30§1.4曲线回归一、求曲线回归方程的步骤1.

确定变量之间的函数类型(1)根据专业知识或理论推导或实践经验确定;(2)根据散点图的分布趋势确定函数类型;(3)用多项式逼近。2.

确定方程(函数)中的未知参数一般采用最小二乘法。若非线性函数能转换成线性函数,则可以用线性回归求解;若不能化成线性函数,则采用最优化方法求解。31二、可化为线性模型的情况1.

指数函数例1.2栖霞果树站测定了覆膜条件下,国光苹果长枝的叶面积生长量,其前期数据如下表。试进行回归分析。解:由散点图其函数类型为

y=kebx=ea+bx两边取自然对数lny=a+bx令y’=lny,则

y’=a+bx天数x(d)051015202530叶面积y(cm2)5.743.776.7102.3183.4225.1344.2x102030401002003004000•••••••y32x051015202530y’=lny1.7403.7774.3404.6285.2125.4175.841将原始数据(xi,yi)转换为(xi,lnyi)=(xi,yi’),由(xi,yi’)求参数a、b,本例建立x与y’的线性回归方程。

lxx=xi2–(xi)2/n=2275-1052/7=700

lxy’=xiyi’

–(xi)(yi’

)/n=546.5845-10531.0088/7=81.4525

ly’y’=yi’2–(yi’)2/n=148.1672-31.00882/7=10.8035解:由散点图其函数类型为y=kebx=ea+bx两边取自然对数lny=a+bx令y’=lny,则

y’=a+bx33

lxx=xi2–(xi)2/n=2275-1052/7=700

lxy’=xiyi’

–(xi)(yi’

)/n=546.5845-10531.0088/7=81.4525

ly’y’=yi’2–(yi’)2/n=148.1672-31.00882/7=10.8035从而得回归系数b=lxy’/lxx=81.4525/700=0.1163因此得回归方程对此回归方程检验(F检验、t检验、r检验任选其一即可)用相关系数r检验:34因此得回归方程对此回归方程检验(F检验、t检验、r检验任选其一即可)用相关系数r检验:查相关系数临界值表r0.01(5)=0.8745|r|=0.9366>r0.01(5)=0.8745,所以x与y’相关关系极显著。故x与y的回归方程为35其SAS程序如下:dataex1_2;inputxy@@;yp=log(y);cards;05.7543.71076.715102.320183.425225.130344.2;procreg;modelyp=x;run;3637本例如果用二次多项式模型,则程序如下:datafive;inputxy@@;x2=x*x;cards;05.7543.71076.715102.320183.425225.130344.2;procreg;modely=xx2;run;R2=0.9872(指数模型R2=0.8569),二次多项式模型为382.

幂函数例1.3测定甘薯薯块在生长过程中的鲜重x(g)和呼吸强度y(Co2mg/g/h)的关系,得如下数据。试进行回归分析。解:由散点图其函数类型为

y=axb两边取以e为底的对数lny=lna+blnx令y’=lny,a’=lna,x’=lnx则

y’=a’+bx’x103880125200310445480y9232211210776x100200300400204060800••••••y500100••39dataex1_3;inputxy@@;xp=log(x);yp=log(y);cards;1092383280211251220010310744574806;procreg;modelyp=xp;run;SAS程序如下:40输出结果:因此得回归方程413.S型曲线也称为生长曲线、logistic曲线等。一般形式其中k,a,b为待估参数。xykk的确定方法:

(1)经验法(k为终极量);

(2)若y是累积频率,则k=1;

(3)取三对观测值(x1,y1),(x2,y2),(x3,y3),其中

x2=(x1+x3)/2,则42线性化方法:则y’=a’+bx

将(xi,yi)变换为(xi,yi’)=(xi,ln(k-yi)/yi),利用(xi,yi’)建立x与y’的直线回归方程,所以由得,两边取自然对数43例1.4国光苹果长枝的叶面积生长量(n=15),其数据如下表。试进行回归分析。确定k值:天数x(d)0510……6575叶面积y(cm2)5.743.776.7……454.0454.3x0510……6575y’=ln[(473.6-y)/y]4.4082.2861.644……-3.143-3.159数据转换:取三对观测值(x1,y1),(x2,y2),(x3,y3)为(5,43.7),(30,281.6),(55,452.3),得k=473.644

回归系数b=lxy’/lxx=-712.547/7000=-0.1018因此得回归方程对此回归方程检验,用相关系数r检验:

lxx=7000,

lxy’=-712.547,

ly’y’=77.9644x0510……6575y’=ln[(473.6-y)/y]4.4082.2861.644……-3.143-3.15945查相关系数临界值表r0.01(13)=0.641|r|=0.9645>r0.01(13)=0.641,x与y’相关关系极显著。因为a’=2.861,所以a=e2.861=17.4789故x与y的logistic方程为当k不能事先确定时,用非线性(最优化)方法求解。见P29的求解方法。46例在进行米氏方程和米氏常数推算时,测得酶比活力y与底物浓度x(mmol/L)之间的关系,得9对数据如下:x1.251.431.662.002.503.305.008.0010.00y17.652226.3235455255.735960由此图可认为底物浓度与酶比活力的关系为:1/y=a+b/x47DATAthree;INPUTxy@@;xp=1/x;yp=1/y;CARDS;1.2517.651.4322.001.6626.322.0035.002.5045.003.3052.005.0055.738.0059.0010.0060.00;PROCREG;MODELyp=xp;RUN;SAS程序如下:48其指数方程:1/y=0.00655+0.05437(1/x)即:49r=0.950550r=0.994651r=0.995352r=0.998453注意:(1)当曲线方程不能线性化时,可用最优化方法来解决;(2)“线性”是对未知参数而言,如y=a+bx2,对x而言是曲线(非线性),但对a,b而言是“线性”;(3)常见曲线的线性化方法见P25。54三、不能化为线性模型的情况建立酒精含量y与时间x的数学模型。(2004年竞赛题)时间(小时)511.522.533.544.55酒精含量306875828277686858515041时间(小时)678910111213141516酒精含量3835282518151210774例1.5某人在短时间内喝下2瓶啤酒后,隔一定时间测量他的血液中酒精含量(毫克/百毫升),得到数据如下:解确定数学模型的形式。55

x与y的散点图56根据药物动力学,可选择模型dataex1_5;inputxy

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论