简单线性回归_第1页
简单线性回归_第2页
简单线性回归_第3页
简单线性回归_第4页
简单线性回归_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、简单线性回归本章内容本章内容 第一节第一节 简单线性回归简单线性回归 第二节第二节 线性回归的应用线性回归的应用 第三节第三节 残差分析残差分析 第四节第四节 非非线性回归线性回归 双变量计量资料:双变量计量资料:每个个体有两个变量值每个个体有两个变量值 总体:总体:无限或有限对变量值无限或有限对变量值 样本:样本:从总体随机抽取的从总体随机抽取的n n对变量值对变量值 (X1,Y1), (X2,Y2), , (Xn,Yn) 目的:目的:研究研究X X和和Y Y的数量关系的数量关系 方法:方法:回归与相关回归与相关 简单、基本简单、基本直线回归、直线相关直线回归、直线相关第一节第一节 简单线性

2、回归简单线性回归 英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现发现:历史背景: 儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系: 。 也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”33.730.516YX “回归”已成为表示变量之间某种数量依存关系的统计

3、学术语,相关并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。线性回归的概念及其统计描述线性回归的概念及其统计描述直线回归的概念 目的:目的:研究因变量研究因变量Y对自变量对自变量X的数量依的数量依 存关系。存关系。特点:特点:统计关系。统计关系。 X值和值和Y的的均数均数的关系,的关系, 不同于一般数学上的不同于一般数学上的X 和和Y的函数关系的函数关系 为了直观地说明直线回归的概念,以15名健康人凝血酶浓度(X)与凝血时间(Y)数据(表12-1)进行回归分析,得到图12-1所示散点图(scatter plot) No. 12

4、3456789101112131415X1.11.21.00.91.21.10.90.61.00.91.10.91.11.00.7Y141315151314161714161516141517 在定量描述健康人凝血酶浓度(X)与凝血时间(Y)数据的数量上的依存关系时,将凝血酶浓度称为自变量(independent variable),用 X 表示;凝血时间称为因变量(dependent variable),用 Y 表示 由图12-1可见,凝血时间随凝血酶浓度的增加而减低且呈直线趋势,但并非所有点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linear regress

5、ion),其方程叫其方程叫直线回归方程直线回归方程,以区别,以区别严格意义的直线方程。回归是回归分析中最基本、最简单严格意义的直线方程。回归是回归分析中最基本、最简单的一种,故又称简单回归。的一种,故又称简单回归。 (12 1)YabX样本线回归方程样本线回归方程Y 为各X处Y的总体均数的估计。简单线性回归模型 iiiXY1a 为回归直线在为回归直线在 Y 轴上的截距轴上的截距a 0,表示直线与纵轴的交点在,表示直线与纵轴的交点在原点的上方原点的上方a 0,直线从左下方走向右上方,直线从左下方走向右上方,Y 随随 X 增大而增大;增大而增大; b0,直线从左上方走向右下方,直线从左上方走向右下

6、方,Y 随随 X 增大而减小;增大而减小; b=0,表示直线与,表示直线与 X 轴平行,轴平行,X 与与Y 无直线关系无直线关系b 的统计学意义是:的统计学意义是:X 每增加每增加(减减)一个单位,一个单位,Y 平均改变平均改变b个单位个单位 回归模型的前提假设回归模型的前提假设o 线性回归模型的前提条件是:线性线性(linear)独立独立(independent)正态正态(normal)等方差等方差(equal variance)公式(12-2)称为样本回归方程,它是对两变量总体间线性关系的一个估计。根据散点图我们可以假定, 对于X各个取值,相应Y的总体均数|Y X在一条直线上(图 12-2

7、) ,表示为 | Y XX 残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。 求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。YYY原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小回归参数的估计回归参数的估计最小二乘原则最小二乘原则 式中式中XYl为为 X 与与 Y 的离均差乘积和的离均差乘积和: ()()()() XYlX X Y YXYXYn2()()()XYXXXX YYlblXX aYbX回归参数的估计方法回归参数的估计方法 本例:n=15 X=14.7 X2=14.81

8、 Y=224 XY=216.7 Y2=336898020. 615)7 .14(81.1415)224)(7 .14(7 .2162b77393.21157 .14)98020. 6(15224 aXY9802. 677393.21除了图中所示两变量呈直线关系外, 一般还假定每个X对应Y的总体为正态分布,各个正态分布的总体方差相等且各次观测相互独立。这样,公式(12-2)中的Y实际上是X所对应Y的总体均数|Y X的一个样本估计值,称为回归方程的预测值(predicted value),而a、b分别为和的样本估计。 1由原始数据及散点图观察两变量间是否有直线趋势 2计算X、Y的均数X、Y,离均差

9、平方和XXl、YYl与离均差积和XYl。 解题步骤3、计算有关指标的值4、计算回归系数和截距5、列出回归方程 此直线必然通过点此直线必然通过点( , )( , )且与纵坐标轴相且与纵坐标轴相交于截距交于截距a a 。如果散点图没有从坐标系原。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易点开始,可在自变量实测范围内远端取易于读数的于读数的 值代入回归方程得到一个点的值代入回归方程得到一个点的坐标,连接此点与点坐标,连接此点与点( , )( , )也可绘出回归也可绘出回归直线。直线。 X绘制回归直线绘制回归直线XYY总体回归系数总体回归系数的的的统计推断样本回归系数样本回归系数b的

10、标准误的标准误 niixybXXss12.)(21.()2niiiy xYYsn.3.249170.249940.4999413y xs78655. 0404. 049994. 0)(12.niixybXXss回归方程的假设检验 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有 ?0无论X如何取值,|Y X总在一条水平线上,即0,总体直线回归方程并不成立,意即Y与X无直线关系,此时|Y XY。然而在一次随机抽样中,如果所得样本为实心园点所示, 则会得到一个并不等于 0 的样本回归系数b。b与 0 相差到多大可

11、以认为具有统计学意义?可用方差分析或与其等价的 t 检验来回答这一问题。 理解回归中方差分析的基本思想,需要对应变量Y的离均差平方和YYl作分解(如图所示) 。 1方差分析 Y的离均差,总变异残差回归的变异图中, 任意一点P的纵坐标被回归直线Y与均数Y截成三个线段,其中:)()(YYYYYY。由于P点是散点图中任取的一点,将全部数据点都按上法处理,并将等式两端平方后再求和则有 数理统计可证明:222)()()(YYYYYY()(YYY-)0Y = 上式用符号表示为 式中 总SS即2)(YY,为Y的离均差平方和,表示未考虑X与Y的回归关系时Y的总变异。 回SS 即2)(YY,为回归平方和。由于特

12、定样本的均数 Y 是固定的, 所以这部分变异由iY的大小不同引起。 当 X 被引入回归以后,正是由于iX的不同导致了iiYabX不同,所以回SS反映了在 Y 的总变异中可以用X 与 Y 的直线关系解释的那部分变异。 b 离 0 越远,X 对 Y 的影响越大,回SS就越大,说明回归效果越好。 YSS残即2)(YY,为残差平方和。它反应除了X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分, 表示考虑回归之后Y真正的随机误差。在散点图中, 各实测点离回归直线越近,SS残也就越小,说明直线回归的估计误差越小,回归的作用越明显。 上述三个平方和,各有其相应的自由度 ,

13、并有如下的关系: 以上分解可见,不考虑回归时,随机误差是 Y 的总变异总SS;而考虑回归以后,由于回归的贡献使原来的随机误差减小为SS残。 如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:MS回为回归均方 MS残为残差均方。 F服从自由度为 回残、的F分布。 式中22XYXYXXXXSSblllb l回 SSMSFSSMS回回回残残残, 1 2n回残, 对0这一假设是否成立还可进行如下t检验 0bbbtS,2n Y XbXXSSl 2Y XSSSn残 t 检验 (1)方差分析0H: 0,即凝血酶浓度与凝血时间)之间无直线关系 1

14、H: 0,即凝血酶浓度与凝血时间数据之间有直线关系 0.05 方差分析表 11、26,查F界值表,得0.01P 。按0.05水准拒绝0H,接受1H,可以认为尿肌酐含量与年龄之间有直线关系。 (2)t 检验13,查t界值表,得0.001P 。按0.05水准,拒绝0H,接受1H。 参数的意义是:若自变量X增加一个单位,反因变量Y的平均值便增加 bbSbt87. 878655. 098020. 6bt注意:Ft,即直线回归中对回归系数的t检验与F检验等价,类似于两样本均数比较可以作t检验亦可作方差分析。 总体回归系数 的可信区间 利用上述对回归系数的t检验,可以得到的1双侧可信区间为bnStb2,

15、本 例b = - 6 . 9 8 0 2 , 自 由 度 = 1 3 ,t0.05,13=2.16,Sb=0.78655, 代入公式(12-7)得参数的95%置信区间为 =(-8.6791 -5.2813) 78655. 016. 29802. 6注意到此区间不包括 0,可按0.05 水准同样得到总体回归系数不为 0 的结论, 即用区间估计回答相同时的假设检验问题。 第二 节 线性回归的应用(估计和预测) 1总体均数|Y X的可信区间(总体总体回归线的回归线的 95%置信带置信带) 给定X的数值0X,由样本回归方程算出的0Y只是相应总体均数0|Y X的一个点估计。0Y会因样本而异, 存在抽样误

16、差。 给定0XX时,总体均数0|Y X的(1)可信区间为 00/2,YYtS22()1()ppY XYiXXSSnXX反映其抽样误差大小的标准误为o 例12-1中,第一观测值X1=1.1, 0.4994, 0.404, 代入(12.8)式获得第一观测点X1对应的 的标准误为 0.1599Y的总体均数的95%置信区间为 14.0957(2.16)(0.1599)(13.7502,14.4412) xyS.1512)(iiXX98. 0X1Y404. 0)98. 01 . 1 (15149994. 021yS对象实测值 X实测值 Y预测值均值均值的标准误Y均值的95%CIY值的95%预测区间残差下

17、限上限下限上限11.11414.09570.159913.750214.441212.961815.2297-0.095721.21313.39770.215912.931313.864112.221214.5741-0.397731.01514.79370.130014.512815.074713.677715.90970.206340.91515.49170.143615.181515.802014.368016.6155-0.491751.21313.39770.215912.931313.864112.221214.5741-0.397761.11414.09570.159913.75

18、0214.441212.961815.2297-0.095770.91615.49170.143615.181515.802014.368016.61550.508380.61717.58580.325616.882518.289216.296918.8747-0.585891.01414.79370.130014.512815.074713.677715.9097-0.7937100.91615.49170.143615.181515.802014.368016.61550.5083111.11514.09570.159913.750214.441212.961815.22970.90431

19、20.91615.49170.143615.181515.802014.368016.61550.5083131.11414.09570.159913.750214.441212.961815.2297-0.0957141.01514.79370.130014.512815.074713.677715.90970.2063150.71716.88780.255316.336317.439315.675118.10050.1122o 以上是给定某一X值时所对应的总体均数的置信区间。当同时考虑X的所有可能取值时,总体均数的点估计就是根据样本算得的回归直线 o (1-)置信区间的上下限连起来形成一个

20、弧形区带,称为回归直线的(1-)置信带(confidence band)。同样,因为其标准误是X的函数,所以在均数( )点处置信带宽度最小,越远离该均数点,置信带宽度越大。 bXaYYX,o 图12-4中,左图显示位于最小二乘回归线上下两侧的两条弧形虚线为总体回归线的(1-)置信区带。右图的实线表示可能的总体回归线,它们落在弧形虚线所确定的置信带内。o (1-)置信带的意义是:在满足线性回归的假设条件下,可以认为真实的回归直线落在两条弧形曲线所形成的区带内, 置信度为(1-) 所谓预测就是把预报因子(自变量 X)代入回归方程对总体中预报量(应变量 Y)的个体值进行估计。给定 X 的数值0X,

21、对应的个体 Y 值也存在一个波动范围。 其标准差0YS(注意勿与样本观察值 Y 的标准差相混)按公式(12-10)计算 22()11()ppYY XXXSSnXX/2,ppYYtSo 以第一观测点数据(X1=1.1)点为例,该点预测值的标准差为 o =0.52489182 o 第一数据点的预测区间为: 14.0957(2.16)(0.0.5249)=12.961815.2297o 当同时考虑X的所有可能取值时,个体Y值的95%预测区间形成一个带子,称为Y值的95%预测带,它比总体回归线95%置信带更宽。 图12-5和图12-6同时显示个体Y值的预测带与总体回归线的置信带,可见,在相同信度下,个

22、体值预测带的曲线要比回归线置信带的曲线离回归直线更远。 404.0)98.01.1(151149994.02|1XYSPICI决定系数(coefficient of determination) 定义为回归平方和与总平方和之比,计算公式为:222XYXXXYYYXX YYSSlllRSSlll回总 取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。 2R公式说明当总SS固定不变时, 回归平方和的大小决定了相关系数 r 绝对值的大小。回归平方和越接近总平方和, 则 r 绝对值越接近 1, 说明相关的实际效果越好。 例如相关系数 r=0.8

23、818,得到2R=0.7775,表示此例中 X 可解释 Y 变异性的 77.75,另外约22的变异不能用 X 来解释。 第三节第三节 残差分析残差分析 o 残差残差(residual)是指观测值Yi与回归模型拟合值之差 o 残差分析(residual analysis)旨在通过残差深入了解数据与模型之间的关系,评价实际资料是否符合回归模型假设,识别异常点等。 o 例如,第一数据点的残差e1=14-14.0957=-0.0957,如此类推,计算出各数据点的残差值示于表12-2的第10列中。将第10列的残差减去其均数,除以其标准差,便得标准化残差。 iiiYYe若以反因变量取值Yi为横坐标,以标准

24、化残差为纵坐标,构成的散点图如图12-7所示。类似地,也可以自变量取值Xi为横坐标, 以标准化残差为纵坐标,构成的散点图。这类散点图统称为标准化残差图。 o 图12-8给出的是以自变量取值为纵坐标,以残差为横坐标的残差图的常见类型。其中,图(e)显示残差呈随机分布;图(a)、(b ) 和(f)表示残差不满足方差齐性条件;图(c)显示存在非线性关系;图(d)显示有的点处于2倍标准差以外,可能是异常点。 第四节第四节 非线性回归非线性回归o 非线性回归要比线性回归更能充分地表达变量间的关系。当今线性回归之所以比非线性回归应用甚多,原因在于无论从数学理论还是计算方法,线性回归都比非线性回归模型简单得

25、多。o 通过自变量的变换实现线性化通过自变量的变换实现线性化实践中有两类非线性关系,一类是通过自变量X的适当变换可线性化的,另一类是不可能通过自变量X的变换实现线性化的 iiiXY210iiiXY)log(10iiiXY*10iXiieY10iXiieY)(10iiiiXXY10不能线性化的关系不能线性化的关系变换自变量实现线性回归步骤变换自变量实现线性回归步骤 1.将观测数据(Xi, Yi), i=1,2,n作散点图,观察散点分布特征类似于何种函数类型;2.按照所选定的函数进行相应的变量变换;3.对变换后的数据用常规最小二乘法(OLS)作线性模型的参数估计。4.一般拟合多个相近的模型,然后通

26、过对各个模型的拟合优度评价挑选较为合适的模型。 o例12-2 为了研究某药物浓度与肾上腺素释放的量关系,选取10个给药物浓度水平,每种药物剂量水平上重复5次试验,观测结果如表12-3所示。欲用合适的回归模型描述该药品剂量与反应的规律 药物剂量(mg)肾上腺素释放量(pg/ml)1519.2614.2917.6018.3616.532021.2021.7820.7720.6523.382521.7722.6122.7021.1721.653023.4723.2221.7424.0224.053523.8825.3222.9024.8423.704025.2724.6924.6724.4825.244524.2024.9425.5225.0227.435027.9825.8826.6726.3125.945527.4224.9126.4228.2425.496028.4127.0929.0428.8527.89o 由结果可见:在所拟合的三种模型中,以x对数函数回归的效果最佳,该模型拟合的残差均方最小,决定系数最大 模型名称回归方程MSEF值P值R2值简单线性1.91786212.480.00010.8157对数函数1.39592309.88.00010.8659二次函数2.72770135.050.00010.85

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论