《概率论与数理统计》课件 孟祥波 第十章 回归分析_第1页
《概率论与数理统计》课件 孟祥波 第十章 回归分析_第2页
《概率论与数理统计》课件 孟祥波 第十章 回归分析_第3页
《概率论与数理统计》课件 孟祥波 第十章 回归分析_第4页
《概率论与数理统计》课件 孟祥波 第十章 回归分析_第5页
已阅读5页,还剩103页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概率论

与数理统计理学院数学系“悟道诗---严加安”随机非随意,概率破玄机;无序隐有序,统计解迷离.第十章回归分析第一节相关与回归分析概述二、相关关系的度量与可视化四、小结一、相关关系三、什么是回归分析一、相关关系函数关系:人的身高和体重父亲的身高和成年儿子的身高粮食的施肥量和产量商品的广告费和销售额相关关系:例如例如二、相关关系的度量与可视化1.相关系数随机变量X

和Y

的相关系数定义如下:其中

是X和Y的协方差,分别为X和Y的方差.二、相关关系的度量与可视化1.相关系数在实际问题中,基于X

和Y

的n

对观测数据

可以利用下式计算X和Y的相关系数:称r

为变量X

和Y

的样本相关系数.二、相关关系的度量与可视化1.相关系数样本相关系数r度量了变量X

和Y

的线性相关性的强弱,满足.对于固定的样本容量n1);2)越接近于1时,X

和Y

的线性相关性越强;3)越接近于0时,X

和Y

的线性相关性越弱.二、相关关系的度量与可视化1.相关系数二、相关关系的度量与可视化2.散点图二、相关关系的度量与可视化3.相关系数矩阵图设有m个变量,对它们进行n

次独立的观测,观测数据矩阵记为定义的相关系数矩阵如下:3.相关系数矩阵图其中这里为变量和的相关系数,满足.例10.1.1

在有氧锻炼中,人的耗氧能力Y是衡量身体状况的重要指标,它可能与以下因素有关:年龄X1

(岁),体重X2(kg),1500米跑所用的时间X3(min),静止时心速X4(次/min),跑步后心速X5(次/min).对24名40至57岁的志愿者进行了测试,结果如下表所列.试根据这些数据分析耗氧能力Y与诸因素之间的相关性.例10.1.1

数据表:序号yx1x2x3x4x5144.64489.56.8262178245.34075.16.0462185354.34485.85.1945156459.64268.24.940166549.938895.5355178…………………2345.45276.35.78481642454.75070.95.3548146解经计算得的相关系数矩阵如下:为了直观,绘制相关系数矩阵图,图中用椭圆色块直观地表示变量间的线性相关程度的大小.相关系数矩阵图第i行,第j

列的椭圆色块用来表示第i个变量和第j

个变量的相关性,其短半轴和长半轴满足注:椭圆越扁,变量间相关系数的绝对值越接近于1,椭圆越圆,变量间相关系数的绝对值越接近于0.若椭圆的长轴方向是从左下到右上,则变量间为正相关,反之为负相关.三、什么是回归分析回归分析是对变量的相关关系进行建模的数学工具.回归分析的内容包括:1)从一组样本数据出发,确定因变量和自变量之间的数学关系式,即经验回归方程;2)对经验回归方程进行显著性检验;3)对回归方程中的各项进行检验,判断哪些项对因变量的影响是显著的,哪些是不显著的,通常需要剔除不显著的项,重新计算,对模型做出改进;4)利用所求得的经验回归方程进行预测和控制.小结1.主要概念:相关关系,相关系数,样本相关系数,相关系数矩阵.2.基于样本数据计算样本相关系数和相关系数矩阵.3.散点图和相关系数矩阵图.概率论

与数理统计理学院数学系“悟道诗---严加安”随机非随意,概率破玄机;无序隐有序,统计解迷离.第十章回归分析第二节一元线性回归二、参数的最小二乘估计四、利用回归方程进行预测一、一元线性回归模型三、回归方程的显著性检验五、小结一、一元线性回归模型随机变量

Y可控变量X线性相关Y

关于X的一

元线性回归模型:

n

次独立观测数据a,b

为待估计的模型参数.εi为随机误差项.一、一元线性回归模型当时,,可得对每个,相应的因变量的观测值来自于正态总体,回归直线将穿过点,即回归直线从Y的均值位置穿过.理论回归方程:二、参数的最小二乘估计假设a,b

的估计量为拟合误差(残差)一个比较好的回归方程应该使所有观测点的残差平方和尽可能小二、参数的最小二乘估计残差平方和:二元函数的最小值点称为a,b

的最小二乘估计.求关于的偏导数,并令其等于0,列方程组如下:二、参数的最小二乘估计进一步整理得:其中当不全相等时,方程组的系数矩阵的行列式二、参数的最小二乘估计解得唯一解:经验回归方程:其中注:经验回归直线一定过观测数据散点图的几何中心例10.2.1

由专业知识可知,合金钢的强度Y(107

Pa)与合金钢中碳的含量X

(%)有关.为了研究它们之间的关系,从生产中收集了一批数据,如下表所列.试根据这些数据求Y关于X的经验回归方程.序号xy序号xy10.1042.070.1649.020.1143.580.1753.030.1245.090.1850.040.1345.5100.2055.050.1445.0110.2155.060.1547.5120.2360.0解先根据已知数据绘制X

和Y

的散点图解由散点图可知,12个观测数据点分布在一条直线附近,Y与X是线性相关的.假定Y

关于X

的理论回归方程为经计算得从而可得故Y

关于X

的经验回归方程为三、回归方程的显著性检验对于变量Y和X的任意n对观测值,只要不全相等,则无论变量Y和X之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线性回归方程。显然,只有当变量Y和X之间存在线性相关关系时,这样的线性回归方程才是有意义的.为了使求得的线性回归方程真正有意义,就需要检验变量Y

和X

之间是否存在显著的线性相关关系.三、回归方程的显著性检验1.F

检验离差分解:三、回归方程的显著性检验1.F

检验残差平方和回归平方和三、回归方程的显著性检验1.F检验定理10.2.1对于一

元线性回归,有并且和相互独立H0成立时,三、回归方程的显著性检验1.F检验检验统计量拒绝域aF

(1,n-2)0拒绝H0不能拒绝H0FF分布三、回归方程的显著性检验1.F

检验当时拒绝原假设H0,认为Y

和X之间的线性相关关系是显著的.方差来源平方和自由度均方F值临界值回归SSR1MSR=SSR/1MSR/MSE

Fα(1,n–2)残差SSEn–2MSE=SSE

/(n–2)总和SSTn–1一元线性回归的方差分析表:例10.2.2

在研究合金钢的强度(Y)与碳含量(X)关系的例10.2.1中,我们已经求出了Y关于X的经验回归方程,接下来取显著性水平α

=0.01,对回归方程进行显著性检验.解经计算得从而可得解SST,SSR,SSE

的自由度分别为11,1和10,从而可得各均方分别为检验统计量的观测值由于检验统计量可得检验的p

值为解由上表可知两不等式均可说明在显著性水平0.01下,Y和X之间的线性相关关系是显著的,或者说Y关于X的回归方程是显著的.又F(1,10)分布的上侧0.01分位数,于是可得方差分析表如下:方差来源平方和自由度均方F值临界值p值回归317.25871317.2587176.539310.040.0000残差17.9705101.7971

总计335.229211

三、回归方程的显著性检验2.t检验定理10.2.2对于一

元线性回归,有并且和相互独立(1)的分布并且和相互独立2.t检验当原假设成立时,检验统计量(2)检验统计量和拒绝域拒绝域检验的p

值其中称为剩余标准差(或均方根误差)故在显著性水平0.01下拒绝原假设H0,认为Y关于X

的回归方程是显著的以例10.2.1中数据为例,经计算得注:对于一元线性回归分析,t检验和F检验是等同的四、利用回归方程进行预测1.点预测称为

y0的点预测.对于给定的X=x0,由于因变量Y是随机变量,Y

的相应取值y0是无法准确预测的.将x0代入经验回归方程,只能得到y0的均值的估计四、回归系数的显著性检验2.区间预测对于给定的X=x0,相应的y0

的均值a+bx0

的点估计为由可得y0

的置信水平为1-α

的预测区间为其中四、回归系数的显著性检验2.区间预测当时,y0的预测区间的长度达到最短当x0逐渐远离时,预测区间的长度逐渐增大例10.2.3

在例10.2.1中,若碳含量为0.19,求相应的合金钢强度的预测值和置信水平为95%的预测区间.解令,可得合金钢强度y0

的预测值为取,则,又可得从而可得所求预测区间为小结1.主要概念:一元线性回归模型,理论回归方程,经验回归方程.2.参数的最小二乘估计.3.回归方程的显著性检验:F检验和

t

检验.4.利用回归方程进行预测:点预测和区间预测.概率论

与数理统计理学院数学系“悟道诗---严加安”随机非随意,概率破玄机;无序隐有序,统计解迷离.第十章回归分析第三节多元线性回归二、参数的最小二乘估计四、回归系数的显著性检验一、多元线性回归模型三、回归方程的显著性检验五、小结一、多元线性回归模型随机变量

Y可控变量X1,X2,…,

Xm线性相关Y

关于X1,X2,…,

Xm

的m

元线性回归模型:

n

组独立观测数据b0,b1,…,

bm为待估计的模型参数.εi为随机误差项.一、多元线性回归模型Y

关于X1,X2,…,

Xm

的m

元线性回归模型:Y

关于X1,X2,…,

Xm

的理论回归方程:二、参数的最小二乘估计假设b0,b1,…,

bm的估计量为回归平面拟合误差(残差)一个比较好的回归方程应该使所有观测点的残差平方和尽可能小二、参数的最小二乘估计残差平方和:求m+1元函数的最小值点,即得未知参数b0,b1,…,

bm的最小二乘估计二、参数的最小二乘估计求关于的偏导数,并令其等于0,列方程组如下:称为正规方程组二、参数的最小二乘估计1.第一种解法求解方程组其中二、参数的最小二乘估计1.第一种解法由后m个方程解得,代入第一个方程得Y

关于X1,X2,…,

Xm

的经验回归方程:二、参数的最小二乘估计2.第二种解法(矩阵解法)令可得正规方程组的矩阵形式X

称为设计矩阵二、参数的最小二乘估计2.第二种解法(矩阵解法)由解得将代入理论回归方程式同样可得经验回归方程三、回归方程的显著性检验1.离差平方和分解残差平方和回归平方和三、回归方程的显著性检验2.F检验法定理10.3.1对于m

元线性回归,有并且和相互独立H0成立时,三、回归方程的显著性检验2.F检验法检验统计量拒绝域aF

(m,n-m-1)0拒绝H0不能拒绝H0FF分布三、回归方程的显著性检验3.方差分析表当时拒绝原假设H0,认为回归方程整体上是显著的.方差来源平方和自由度均方F值回归SSRmMSR=SSR/mMSR/MSE

剩余SSEn–m–1MSE=SSE

/(n–m–1)总和SSTn–1四、回归系数的显著性检验1.的分布并且和相互独立.定理10.3.2记,对于m元线性回归模型,有四、回归系数的显著性检验2.t

检验法对于给定的显著性水平α,检验的拒绝域为当原假设H0成立时,检验统计量检验的p

值:例10.3.1

考察15名不同程度的烟民的每日抽烟量X1(支)、饮酒(啤酒)量X2(L)与其心电图指标Y的对应数据,如下表所列:(1)求变量的相关系数矩阵;(2)求Y

关于的二元线性回归方程;(3)对回归方程进行显著性检验(取).解(1)由式(10.25)~式(10.27)计算得于是可得X1和X2的相关系数为解(1)X1

和Y的相关系数为X2

和Y的相关系数为X1

,X2,Y的相关系数矩阵为解(2)假设Y关于X1

,X2

的理论回归方程为根据式(10.28)写出如下方程组解得可得Y关于X1

,X2

的经验回归方程为解(3)显著性检验的原假设和备择假设为显著性检验的方差分析表如下:由上表可知,

所以Y关于X1

,X2

的回归方程是显著的.方差来源平方和自由度均方F值临界值p值回归110638.83255319.4273.893.890.0000残差8984.512748.71

总计119623.3314

小结1.主要概念:m元线性回归模型,理论回归方程,经验回归方程,正规方程组.2.求解参数最小二乘估计的两种方法.3.回归方程的显著性检验:F检验法(方差分析表).4.回归系数的显著性检验:t检验法.概率论

与数理统计理学院数学系“悟道诗---严加安”随机非随意,概率破玄机;无序隐有序,统计解迷离.第十章回归分析第四节一元非线性回归二、可线性化的非线性函数一、一元非线性回归模型三、小结一、一元非线性回归模型随机变量

Y可控变量X非线性相关Y

关于X的一元非线性回归模型:

n

组独立观测数据b0,b1,…,

bk为待估计的模型参数.εi为随机误差项.二、可线性化的非线性函数1.双曲线函数3)线性化方法:1)

函数形式:令,则有2)函数图形:2.幂函数3)线性化方法:1)

函数形式:取对数得2)函数图形:令,则有3.对数函数3)线性化方法:1)

函数形式:2)函数图形:令,则有4.指数函数3)线性化方法:1)

函数形式:取对数得2)函数图形:令,则有5.负指数函数3)线性化方法:1)

函数形式:取对数得2)函数图形:令,则有6.逻辑斯蒂(logistic)函数3)线性化方法:1)

函数形式:取倒数得2)函数图形:令,则有7.多项式函数3)线性化方法:1)

函数形式:2)函数图形:令,则有例10.4.1

头围是反映婴幼儿大脑和颅骨发育程度的重要指标之一.为研究头围Y和月龄X的关系,现收集21名男童的头围(cm)和月龄数据,如下表所列:序号月龄头围序号月龄头围序号月龄头围1137.88844.7154851.42239.49946.1166052.33340.7101045.4177252.94441.8111146.9188453.15542.8121247.0199653.36643.7132449.72010853.07742.9143651.22112053.5求Y

关于X

的回归方程.解(1)散点图(2)理论回归方程解(3)线性化对理论回归方程取对数得令建立V

关于U

的一元线性回归方程uvuvuv0.13.63230.05883.80.01753.93960.09093.67380.05563.83080.01453.9570.08333.70620.05263.81550.01233.96840.07693.73290.053.8480.01083.97220.07143.75650.04763.85010.00953.97590.06673.77730.03033.9060.00853.97030.06253.75890.02223.93570.00783.9797利用本例中已给数据计算得U,V

的数据如下表:解(3)经计算得可得于是V关于U的经验回归方程为解(3)进一步计算得由于所以V和U之间的线性相关关系是非常显著的.解(4)换回原变量可得故Y关于X的经验回归方程为注:对于一元非线性回归,如何选取合适的回归曲线是一个难题,通常要用到专业知识,如果专业上也不清楚,还可以根据散点图选取回归曲线,并且可能会有多种不同的回归曲线供选择.如何评价回归曲线的好坏呢?一个常用的指标是残差平方和SSE(或均方根误差),SSE(或)越小的回归曲线越好.小结1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论