简单线性回归分析.ppt_第1页
简单线性回归分析.ppt_第2页
简单线性回归分析.ppt_第3页
简单线性回归分析.ppt_第4页
简单线性回归分析.ppt_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

10 简单线性回归分析,主 讲: 卢 洁 Ph.D,E-mail : hanyaa800 ,办公室:郑大公卫学院 A510室,统计学研究特点:,研究的是样本,要对总体作出推断,得到的是频率,要对概率作出推断,需进行参数估计和假设检验,抽样研究,抽样误差,利用“小概率原则”进行统计推断,准确的收集数据; 准确的录入数据; 正确的选用统计分析方法、调用统计分析程序; 对输出的结果作出合理的解释。,统计学学习的重点是掌握如何:,统计 描述,参数估计:点估计、区间估计,假设检验,定量资料,离散趋势:,算术均数、 中位数等,集中趋势:,极差、 四分位数间距、 方差、标准差、变异系数,定性资料:频率型指标、强度型指标、比,统计表和统计图,统计 推断,统计学的主要内容:,变量,对于单变量,对于多变量:,多重线性回归、logistic分析,非参数检验,参数检验,定量资料,定性资料,实验设计,对于两变量:,简单线性相关和回归分析,数据资料,定量资料,数据 类型,设计 类型,单样本,定性资料,设计 类型,两独立样本,配对样本,多独立样本,随机区组,t / Z检验,方差分析,单样本,两、多独立样本,配对样本,等级资料,进入条件,不满足进入条件,秩和检验,四格表,RC列联表,配对RC,x2检验,设计 类型,配对四格表,如果你知道某一个人的身高和体重,你能知道这个人的手指有多粗吗? 如果你知道患儿的月龄,你能换算出他体重是多少吗? 考察父亲身高与子女身高之间的关系。 考察收入水平与受教育程度之间的关系。,回归分析:是研究一个随机变量如何随另一个变量(可固定,也可随机)变化的。,从一组样本数据出发,确定变量之间的回归关系式; 对这些关系式的可信程度进行各种统计检验,并从影 响因变量的诸多变量中找出具有统计学意义的变量; 利用所求的关系式,根据一个或几个变量的取值来预 测或控制另一个特定变量的取值,并给出这种预测或 控制的精确程度。,回归分析的主要目的: 就是研究固定自变量X的情况下,因变量Y的总体均数与X之间的回归关系;即:,线性回归方程的建立 回归方程的解释 线性回归的前提条件 回归方程的假设检验 回归方程的统计应用,10.1 什么是回归? 。 10.2 简单线性回归模型 。,10.1 什么是回归?,1. 线性回归分析 linear regression analysis,:研究一个变量和另外一些变量间线性数量关系的统计分析方法。,简单线性回归 simple linear regression,多重线性回归 muptiple linear regression,:涉及多个变量(自变量、解释变量)时称。,:模型中只包含两个有“依存关系”的变量,一个变量随另一个变量的变化而变化,且呈直线变化趋势,叫。,分类,矮个子的父代:64英寸 而它子代:67英寸,父亲和他儿子的身高:,1.父代的总均数=68英寸 子代的总均数=69英寸,2.高个子的父代:72英寸 而它子代:71英寸,调查了1087对父子:,例10.1 为研究大气污染一氧化氮(NO)的浓度是否受到汽车流量、气候状况等因素的影响,选择24个工业水平相近的一个交通点,统计单位时间过往的汽车数(千辆),同时在低空相同高度测定了该时间段平均气温()、空气湿度()、风速(m/s)以及空气中一氧化氮(NO)的浓度(10-6),数据如下表。,2. 简单线性回归的两个变量:,反应变量 response variable或 因变量dependent variable :是按某种规律变化的随机变量,是被估计的被预测的变量。用“Y”表示。,解释变量explanatory variable或自变量 independent variable 或预测因子 predictor :可看作影响因素,是能独立自由变化的变量,是“Y”所依存的变量,常用“X”表示,可是随机变量,也可是人为控制或选择的变量。,若 Y 随X1、X2、Xm的改变而改变:,资料类型:定量资料 目的:了解一氧化氮浓度与汽车流量、气候状况等单变量之间的依存关系。,【案例解析】,简单线性回归,线性回归的分类:,I 型回归 :因变量(Y)是随机变化的,但自变量(X)可以不随机 ,当它是能够精确测量和严密控制的量时,叫Y 关于X 的I型回归。,II型回归 :因变量(Y)和自变量(X)都是随机变化的,叫Y 关于X 的II型回归。,表12-1 不同IgG浓度下的沉淀环数据,线性回归关系的特点:,各观测点分布在直线周围的束状带内; 当变量 X 取某个值时,变量Y取值可能有几个。 变量间关系不能用函数关系精确表达,10.2 简单线性回归模型的建立,只考虑NO浓度和车流量的关系,问之间是否存在数量依存关系?,10.1.1 解析:,回归分析的要达到下面三个目的:,X和Y间的回归联系是否有统计学意义? 车流量对NO浓度的影响(贡献)有多大?, 统计推断,10.1.2 如何定量地描述两者的关系:,绘制散点图,回归方程:求回归系数和常数项,回归方程和回归系数 的假设检验,总体回归系数的区间估计,回归方程的统计应用,(一)绘制散点图,从散点图可见:车流量与空气中NO浓度所对应的点分布在一个线性束状带内,有线性的趋向,所以可以考虑做线性回归分析。,通常情况下,研究者只能获得一定数量的样本数据,用样本数据建立的有关Y依从X变化的线性表达式称为回归方程(regression equation),记为:, YX= +X,那么在总体中,可能存在对应的方程模型:,让所有点的 的平方和最小,用最小二乘法拟合直线,选择a和b使其残差(样本点到直线的垂直距离)平方和达到最小。,(三)回归参数的估计:最小二乘估计 least square estimation,回归参数的估计方法:,回归方程:,用最小二乘法拟合直线,选择a和b使其残差(样本点到直线的垂直距离)平方和达到最小。即:使下列的SSE达到最小值。,求:NO浓度和车流量间的简单线性回归方程?,解:由样本数据了解计算统计量,带入下公式,求出回归系数b,作回归直线图,带入下公式,求出回归截矩a,最小二乘法原则下的回归方程为:,(三)建立回归方程,作回归直线图,回归方程的解释,b 的意义? a 的意义? 的意义 的意义?,回归系数的意义:,1. 由总体回归方程可知 YX= + x, 参数 的意义:若自变量X增加1个单位,反应变量Y的 平均值便增加 个单位。 。 2. 由于 是 YX= +X 的估计表达式, 所以(样本)回归系数b 表示 X 增加一个单位,样本观察值Y 平均增加 b 个单位。,总体回归系数( regression coefficient ), 的统计学意义:X每增加(或减少)一个单位,Y 平均改变了个 单位; 越大,表示Y 随X 增减变化的趋势越陡。, 0, 表明Y与X呈同向线性变化趋势 =0, 表明Y与X无线性回归关系,但可能有其它关系 0, 表明Y与X呈反向线性变化趋势,3. 线性回归分析的前题条件:,线性(linear) 独立性(independent) 正态性 (normal) 等方差性(equal variance),图12-3 线性回归模型的适用条件示意图,3. 线性回归分析的前题条件,line,normal 正态性,equal variance 等方差性,反应变量Y 的总体平均值与自变量X呈线性关系,在一定范围内任意给定值,则对应的随机变量服从正态分布,在一定范围内,对应于不同X值,Y总体变异程度相同,linear 线性,(四)回归方程有统计学意义吗? 总体回归系数的统计推断:,就总体而言,这种回归关系是否存在?即总体回归方程是否成立?,由于样本回归系数b与总体回归系数存在抽样误差,即:一般情况下, b ,因此需要考虑抽样误差对统计推断是否存在重大影响?,假设检验,回归模型的假设检验(model test):,回归系数的假设检验:,目的:检验求得的回归方程在总体中是否成立; 方法:单因素方差分析。,目的:即检验总体回归体系数是否为0(=0); 方法:t 检验。,1. 回归模型的假设检验方差分析,SS总= SS回归+ SS残差,v总= v回归+ v残差,变异的分解:,回归方程假设检验的基本思想:,如果总体中自变量X对因变量Y没有贡献,则由样本所得的回归均方与残差均方应相近; 反之,如果总体中自变量X对因变量Y有贡献,回归平方和反应的就不仅仅是随机误差,即回归均方必然要远大于残差均方; 依此,可计算检验统计量F值作出判断。,问:所求得的回归方程在总体中是否成立?,均方:MS=SS/v,回归均方:MS回归=SS回归/v回归 残差均方: MS残差=SS残差/v残差,检验统计量:,查F界值表(P572),确定单侧临界值Fa(v回归, v残差), 求概率值 P,下结论,1. 建立假设,确定检验水准 H0 :总体回归方程不成立, 即总体中自变量X对因变量Y没有贡献; H1 :总体回归方程成立, 即总体中自变量X对;因变时Y有贡献。 =0.05 (单侧),查F 界值表(P572):a =0.05,v回归=1、 v残差=n-2=22,得:F(k-1, n-k)= F(1,22) =4.30,3. 确定P值,作出推断结论: 由于F=41.3764.30,则P0.05,故拒绝H0,接受H1,可认为在a =0.05 的显著水平上,NO浓度与车流量之间的回归方程具有统计学意义。,2. 计算检验统计量F值:,2. 回归系数的假设检验 t 检验,=0,说明Y与X之间并不存在线性关系 0,说明Y与X之间存在线性关系,即:对于X 的任何值,总体均数 YX 没有任何改变,故建立Y与的直线回归方程就没有任何意义了,故是否为0,涉及到所建立的回归方程是否有意义的问题。然而从=0的总体抽得样本,计算出的回归系数b很可能不为零,需要对是否等于0进行假设检验t检验,t 检验:,检验过程:,注意:,1.在简单线性回归模型中,对回归模型的方差分析等价于对回归系数的t 检验,即有:,2.对于服从双变量正态分布的同样一组资料,同时作相关分析和回归分析,则相关系数的 t检验与回归系数数的t 检验等价,即有:,(五)总体回归系数的区间估计:,已知b为回归系数的样本估计值,Sb为样本回归系数的标准误, 则总体回归系数的双侧1-置信区间为:,上例题中b=0.1584,Sb=0.0246,v=22,查t 界值表得:t0.05/2,22=2.074;则其总体回归系数的双侧95置信区间为:,b t/2,v Sb,0.1584 2.074 0.0246=(0.1074,0.2095),【电脑实现】 SPSS,线性回归分析: 1. 数据录入,2.线性回归分析的步骤:,3. 结果及结果输出:,(六)回归方程的解释: 车流量对NO浓度的影响有多大?,决定系数:回归平方和与总平方和之比。 0R21 反映了自变量X对回归效果的贡献,即Y的总变异中回归关系所能解释的百分比(variance account formula,VAF); 反映了回归模型的拟合效果,可作为反应拟合优度(goodness of fit)的指标。,上例题:SS总=0.0812, SS回归=0.0530 R2= SS回归/ SS总=0.0530/0.0812=0.6527=65.27% 解释: 说明空气中NO浓度总变异的65.27%与车流量有关。,(七)回归方程的统计应用:,定量描述两变量之间的依存关系。 利用回归方程进行统计预测。 利用回归方程进行统计控制。,1. 统计预测:将X值作预报因子,固定总体中X为某定值Xi时, 估计个体Y值的容许区间,即Y值的波动范围。,例:当车流量为1300辆,求空气中一氧化氮95%的容许区间。,答:,已知回归方程,X=1.300时:,故空气中NO的98%容许区间为:,2. 均数置信区间:当X值为某定值,并给定置信度1- ,考察Y的总体均数的分布时,可估计Y的总体均数 YX的1-置信区间。,例:当车流量为1300辆,求空气中一氧化氮95%的置信区间。,答:,已知回归方程,X=1.300时:,故空气中NO的95%置信区间为:,均数的置信区间和个体容许区间的不同:,2. 统计控制: 例: 该城市为降低空气中NO的含量,拟对车流量进行适当的控制,根据空气污染指数分级,要求空气中氮氧化合物含量不超过0.1000.15010-6 。,已知回归方程,答:,故该城市单位时间内车流量应控制在1500辆以内,最多不超过1800辆,否则会导致轻度污染的发生。,简单线性回归分析的注意事项:,1. 要注意实际意义; 2. 绘制散点图观察两变量的关系以及找出异常点; 3. 注意自变量和因变量的变化范围。,小 结,简单线性回归是指只包含一个自变量,且呈线性变化趋势的回归模型,用于描述因变量的总体均数与自变量之间的线性关系,即两变量间的依存变化关系。 简单线性回归的基本步骤: 绘制散点图, 在最小二乘法原则下建立线性回归方程,即估计回归系数与截距; 对回归方程或回归系数进行假设检验; 列出回归方程,绘制回归直线; 统计解释及应用。,线性回归模型的适用条件为:线性、独立、正态和等方差,简称LINE。 决定系数反映了回归平方和在总平方和中所占的比例,常用来反映回归的实际效果。 线性回归常用于统计预测和统计控制。 当两变量变化趋势为非线性时,可考虑拟合非线性回归议程,常用的曲线类型包括指数曲线,多项式曲线、双典线和logistic曲线等。 注意线性相关与线性回归的区别与联系。,相关分析是用来描述两变量的相关关系,当两变量满足双变量正态分布时,可以计算Pearson积差相关系数,如果有任何一个变量不满足正态分布或为等级资料,需计算Spearman秩相关系数。 回归分析是用来刻画两变量的依存关系,它要求资料满足LINE(线性、独立、正态和等方差),二者之间既有联系又有区别。,案例讨论,案例10-1:年龄与身高预测研究。 某地调查了418岁男孩与女孩身高,数据见下表,试描述男孩与女孩身高与年龄间的关系,并预测10.5岁、16.5岁、19岁与20岁男孩与女孩的身高。,表10-5 男孩身高对年龄的简单线性回归分析结果,采用SPSS对身高与年龄进行回归分析,结果如下表所示。,表12-6 女孩身高对年龄的简单线性回归分析结果,经拟合简单线性回归模型,t 检验结果提示回归方程有非常显著的统计学意义。结果提示,拟合效果非常好,故可认为: (1)男孩与女孩的平均身高随年龄线性递增,年龄每增长1岁,男孩与女孩身高分别平均增加5.27,4.53,男孩

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论