数学建模简明教程第八章统计回归模型_第1页
数学建模简明教程第八章统计回归模型_第2页
数学建模简明教程第八章统计回归模型_第3页
数学建模简明教程第八章统计回归模型_第4页
数学建模简明教程第八章统计回归模型_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章统计回归模型第八章统计回归模型8.1

一元线性回归模型8.2

多元线性回归模型8.3

非线性回归模型

1第八章统计回归模型回归分析(RegressionAnalysis)方法是数理统计中最常见的一类方法.该方法利用大量统计数据,建立自变量与因变量之间因果关系的回归方程数学模型.这类模型广泛应用于社会、经济、医学等领域的定量分析和估值、预测.1第八章统计回归模型12).一元线性回归分析的主要任务是:用试验值(样本值)对β0、β1和σ作点估计;对回归系数β0、β1作假设检验;在x=x0处对y做出预测,给出y的区间估计.对于自变8量.x1的每一一元个值线,性因变回量归是一模个型随机变量y,若x对y的影响是线性的,则可表示为y=β0+β1x+ε,称为一元线性归模型,其中β0,β1为待定回归系数,ε为随机误差,ε~N(0,σ第八章统计回归模型1.回归系数的最小二乘估计对于一组观测值(xi,yi)(i=1,2,…,n),利用最小二乘可得到回归系数.设1第八章统计回归模型记最小二乘法就是选择β0和β1的估计 、 ,使得记1第八章统计回归模型则有1第八章统计回归模型直线为数据点(xi,yi)(i=1,2,…,n回归直线(方程),对于给出的x,可由此方程对y进行预测.1第八章统计回归模型2.σ2的无偏估计一元线性回归模型中的参数σ2的无偏估计值为:由数据点xi(i=1,2,…,n)可计算因变量y的理论值,观测数据yi(i=1,2,…,n)对数据均值的偏差 -可表示为:1第八章统计回归模型式(8.1.1)的第一项是残差,表示随机误差引起的因变量的变化;第二项表示自变量在x=xi时引起的因变量相对于平均值的变化.对式(8.1.1)两边平方并求和,有:1第八章统计回归模型式(8.1.2)记为S=Q+U,称S为总偏差平方和,Q为残差平方,U为回归平方和.定义 ,称为决定系数,R称为相关系数(0<R2<1).决定系数表示在因变量的总变化量中,由自变量引起的那部分变化的比例.R越大,说明自变量对因变量起的决定作用越大,R反映了回归方程的精确程度.1第八章统计回归模型3.回归系数的置信区间下面给出回归系数β0、β1的区间估计(在显著性水平α下).β1的置信区间为:β0的置信区间为:1第八章统计回归模型14.回归方程的显著性检验对回归方程Y=β0+β1x的显著性检验,归结为对假设H0:β1=;H1:β1≠0进行检验.假设H0:β1=0被拒绝,则回归显著,认为y与x存在线性关系,所求的线性回归方程有意义;否则回归不显著,y与x的关系不能用一元线性回归模型来描述,所得的回归方程也无意义.第八章统计回归模型1)F检验法当H0成立时,故F>F1-α(1,n-2)时,拒绝H0,否则就接受H0.1第八章统计回归模型2)t检验法当H0成立时,故时,拒绝H0,否则就接受H0.1第八章统计回归模型5.预测作为y0的预测值,y0的置信用y0的回归值水平为1-α的预测区间为.其中,特别地,当n很大且x0在附近取值时,y的置信水平为1-α的预测区间近似为:1第八章统计回归模型例1血压与年龄问题:为了研究血压随年龄的增长而升高的关系,调查了30个成年人的血压(收缩压,单位mmHg)如下表,利用这些数据给出血压与年龄的关系,并预测不同年龄人群的血压.1第八章统计回归模型解记血压(因变量)为y,年龄(自变量)为x,画出30个数据点的散点图.直观地,y与x大致呈线性关系,记为y=β0+β1x.利用一元线性回归模型,由MATLAB计算出结果如下:血压随年龄的变化关系为y=96.86+0.953x,决定系数为0.7123,显示血压与年龄有较强的线性关系.利用上述回归方程,可预测不同年龄人群的血压规律,如表8-1所示.1第八章统计回归模型表8-11第八章统计回归模型由表8-1的预测可知,对于50岁的人来说,我们有95%的把握认为其血压(收缩压)在区间[124.5,163.2].1第八章统计回归模型1若与因变量y有关联的自变量不止一个,则可建立多元线1

2…,xm),则y=β0+β1x1+β2x2+…+βmxm+ε(8.2.1)性回归模型.设影8.响2变多量y元的主线要性因素回有归m个模,记型为x=(x,x,第八章统计回归模型根据n个独立观测数据yi,xi1,…,xim(i=1,2,…,n;n>m),得记1第八章统计回归模型则式(8.2.2)可表示为矩阵形式Y=Xβ+ε,利用最小二乘法可确定参数,其参数β为:并称 为回归平面方程, 为经验回归系数.1第八章统计回归模型1多元线性回归模型讨论的主要问题是:用试验值(样本值)对未知参数β和σ2作点估计和假设检验,从而建立y与x1,x2,…,xm之间的数量关系;在x1=x01,x2=x02,…,xm=x0m处对y的值作预测与控制,即对y作区间估计.第八章统计回归模型1.多元线性回归中的检验首先假设H0:β0=β1=…=βn=0.1)F检验当H0成立时,其中, (回归平方和);(残差平方和).1第八章统计回归模型1如果F>F1-α(k,n-m-1),则拒绝H0,认为y与x1,x2,…,xm之间显著地有线性关系;否则就接受H0,认为y与x1,x2,…,xm之间的线性关系不显著.第八章统计回归模型2)R检验定义为y与x1,x2,…,xm的多元相关系数或复相关系数.由于故用F和用R检验是等效的.1第八章统计回归模型2.多元线性回归中的预测,对于给定自变量的值1)点预测求出回归方程,用来预测y*=β0+β1x*1+…+βmx*m+ε.称为y*的点预测.1第八章统计回归模型2)区间估计y的1-α的预测区间(置信区间)为,其中1第八章统计回归模型1例1

城市公交客运量的回归预测问题.据相关分析,城市公共交通年客运量y与城市职工人数x1、居民零售额x2.职工年收入x3统计相关.现有北京市1968~1980年的统计数据如表8-2所示,试对2000年该市的城市公交客运量做出预测.第八章统计回归模型表8-21第八章统计回归模型续表1第八章统计回归模型解建立多元线性回归模型,由MATLAB计算回归方程为,表明公共交通年客运量y与城市职工人数x1、居民零售额x2.职工年收入x3具有很高的线性关联性.根据有关规划,2000年该城市职工人数x1=4.5(百万人),居民零售额x2=15.0(10亿元),职工年收入x3=5.7(10亿元),则测北京市公共交通年客运量y=58.067(亿次).1第八章统计回归模型1在客观现象中,预报量y与自变量x之间存在的关系式往往不是线性的.我们8.可3依非据假线设性或经回验归,构模造型特定的函数如多项式、指数函数、三角函数等描述其关系,但其参数的确定和检验目前还无统一方法.下面以Y与x具有多项式关系为例加以说明.第八章统计回归模型1设变量x,Y多项式关系的回归模型为:Y=β0+β1x+β2x2+…+βpxp+ε其中p是已知的,βi(i=1,2,…,p)是未知参数,ε服从正分布N(0,σ2).则Y=β0+β1x+β2x2+…+βkxk称为回归多项式.若令xi=xi(i=1,2,…,k),则多项式回归模型可变为多线性回归模型.第八章统计回归模型例1

药物疗效的评价与预测问题.现在得到了美国艾滋病医疗试验机构ACTG公布的两组数据.ACTG320(见建模竞 题2006)是同时服用zidovudine(齐多夫定)、lamivudine(拉美夫定)和indinavir(茚地那韦)3种药物的多名病人每隔几周测试的CD4和HIV的浓度(每毫升血液里的数量).利用给定的数据,预测继续治疗的效果,或者确定最佳治疗终止时间(继续治疗指在测试终止后继续服药,如果认为继续服药效果不好,则可选择提前终止治疗).1第八章统计回归模型1解数据的完善与规范化:由于病人测试的时间间断性,不同病人的测试间隔、次数不同,以及部分数据缺失,无法对样本数据进行直接处理,需先对数据进行完善与规范化预处理.先对个别缺失数据严重(测试不足30周)的样本进行删除,最终得到有效样本333个.考虑到病人体内HIV和CD4两个指标变化的连续性,利用已测周数据对未知周数据进行线性插值,得到所有病人整数周的两个指标数据.第八章统计回归模型(1)线性插值方法:如果在不相邻的两周M1和M2内,测量得到CD4的含量为C1和C2,HIV的含量为H1和H2,则在M1和M2之间插入M2-M1个周的数据,即在M1+N(0<N<M2-M1)周的CD4含量为:1第八章统计回归模型以23424编号的病员为例,原始数据如下:1第八章统计回归模型经插值后的改进数据为:1第八章统计回归模型1(2)数据处理方法:对区间[0,40]整数节点的CD4和HIV指标数据进行简单求和平均,得到该疗法治疗后CD4指标和HIV指标的统计规律如下:第八章统计回归模型1第八章统计回归模型CD4的含量随时间(周)的变化曲线如图8-1所示.图8-1中的曲线是对图中的散点进行一个拟合,得出的病人体内CD4的平均含量Y随周t变化的二次函数为:1第八章统计回归模型图8-11第八章统计回归模型参数和其置信区间如下表:1第八章统计回归模型1根据以上分析可以得出CD4的平均含量的大致走向是在0~23周以前是较快上升,显示疗效确切;在23~24周左右达到一个峰值,在24~28周之间有个小的波动,之后有个缓慢的上升期,在38周达到一个最大值,但以后却急剧地下降,药品产生耐药性.由此确定:如果以CD4指标为标准,24周为最佳的停药时间.类似可处理HIV的指标数据,得到HIV的含量随时间(周)的变化曲线如图8-2所示.第八章统计回归模型图8-21第八章统计回归模型图8-2中的曲线是对图中的散点进行一个拟合,得出的病人体内HIV的平均含量Z随周t变化的二次函数为:Z(t)=4.1442t2-0.1217t+0.0025参数和置信区间如下表:1第八章统计回归模型1根据以上分析可以得出HIV的平均含量的大致走向是在0~10周以前是急剧下降的,显示疗效确切,在10~4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论