




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十一章简单回归分析Simplelinearregressionanalysis本章内容
第一节简单线性回归
第二节线性回归的应用第三节残差分析
第四节非线性回归
双变量计量资料:每个个体有两个变量值
总体:无限或有限对变量值样本:从总体随机抽取的n对变量值
(X1,Y1),(X2,Y2),…,(Xn,Yn)
目的:研究X和Y的数量关系
方法:回归与相关简单、基本——直线回归、直线相关第一节简单线性回归
英国人类学家F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家KarlPearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现:历史背景:
儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:。
也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”
“回归”已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。线性回归的概念及其统计描述直线回归的概念
目的:研究应变量Y对自变量X的数量依存关系。特点:统计关系。X值和Y的均数的关系,不同于一般数学上的X和Y的函数关系
为了直观地说明直线回归的概念,以14名健康妇女体重(X)与基础代谢(Y)数据(表10-1)进行回归分析,得到图11-1所示散点图(scatterplot)
编号基础代谢(kJ/d)体重(kg)编号基础代谢(kJ/d)体重(kg)14175.650.783970.648.624435.053.793983.244.633460.237.1105050.158.644020.851.7115355.571.053987.447.8124560.659.764970.662.8134874.462.175359.767.3145029.261.5
在定量描述健康妇女体重(X)与基础代谢(Y)数据的数量上的依存关系时,将体重称为自变量(independentvariable),用X表示;基础代谢称为应变量(dependentvariable),用Y表示
图11-114例中年健康妇女基础代谢与体重的散点图
由图11-1可见,基础代谢随体重的增加而减低且呈直线趋势,但并非所有点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linearregression),其方程叫直线回归方程,以区别严格意义的直线方程。回归是回归分析中最基本、最简单的一种,故又称简单回归。
在应用中,线性回归中的自变量还可以精确测量和严密控制的指标,但因变量必须是随机变化的。如某研究者应用单向环状免疫扩散法,在固定IgG浓度下觉得琼脂免疫板上沉淀环直径数据见表10-2。No.12345IgG(浓度)(IU/ml)12345沉淀环直径(mm)Y4.05.56.27.78.5
表11-2IgG浓度与沉淀环直径的散点图
图11-2IgG浓度与沉淀环直径的散点图样本线回归方程
为各X处Y的总体均数的估计。简单线性回归模型1.a为回归直线在Y
轴上的截距a>0,表示直线与纵轴的交点在原点的上方a<0,则交点在原点的下方a=0,则回归直线通过原点2.b为回归系数,即直线的斜率
b>0,直线从左下方走向右上方,Y随X增大而增大;
b<0,直线从左上方走向右下方,Y随X增大而减小;
b=0,表示直线与X轴平行,X与Y无直线关系b的统计学意义是:X
每增加(减)一个单位,Y
平均改变b个单位
回归模型的前提假设线性回归模型的前提条件是:线性(linear)独立(independent)正态(normal)等方差(equalvariance)
残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。原则:最小二乘法(leastsumofsquares),即可保证各实测点至直线的纵向距离的平方和最小回归参数的估计
——最小二乘原则
回归参数的估计方法
本例:n=14
图11-114例中年健康妇女基础代谢与体重的散点图解题步骤3、计算有关指标的值4、计算回归系数和截距5、列出回归方程
此直线必然通过点(,)且与纵坐标轴相交于截距a。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读数的值代入回归方程得到一个点的坐标,连接此点与点(,)也可绘出回归直线。绘制回归直线总体回归系数β的的统计推断
1、t检验法对回归系数作检验
2、回归方程的假设检验
建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有?1.方差分析
Y的离均差,总变异残差回归的变异数理统计可证明:上式用符号表示为
式中
上述三个平方和,各有其相应的自由度,并有如下的关系:
如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:式中t检验
(1)方差分析
方差分析表
总体回归系数β的的统计推断
t检验法例11-3对例11-1中的样本回归系数作检验注意:
总体回归系数的可信区间
利用上述对回归系数的t检验,可以得到β的1-α双侧可信区间为
本例b=61.4229,自由度=12,t0.05,12=2.179,Sb=4.8810,代入公式)得参数β的95%置信区间为
=(50.79~72.06)第二节线性回归的应用(估计和预测)
反映其抽样误差大小的标准误为例11-1中,第一观测值X1=50.7,
165.1311,1144.5771,代入(11.8)式获得第一观测点X1对应的标准误为Y的总体均数的95%置信区间为
以上是给定某一X值时所对应的总体均数的置信区间。当同时考虑X的所有可能取值时,总体均数的点估计就是根据样本算得的回归直线(1-α)置信区间的上下限连起来形成一个弧形区带,称为回归直线的(1-α)置信带(confidenceband)。同样,因为其标准误是X的函数,所以在均数()点处置信带宽度最小,越远离该均数点,置信带宽度越大。图11-4中,左图显示位于最小二乘回归线上下两侧的两条弧形虚线为总体回归线的(1-α)置信区带。右图的实线表示可能的总体回归线,它们落在弧形虚线所确定的置信带内。(1-α)置信带的意义是:在满足线性回归的假设条件下,可以认为真实的回归直线落在两条弧形曲线所形成的区带内,置信度为(1-α)图11-14总体回归系数置信区带例11-1中,第一观测值X1=50.7,
165.1311,1144.5771,代入(11.8)式获得第一观测点X1对应的标准误为Y95%的预测区间为
PICI图11-14总体回归系数置信区带和预测带决定系数(coefficientofdetermination)
定义为回归平方和与总平方和之比,计算公式为:
取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。
第三节残差分析
残差(residual)是指观测值Yi与回归模型拟合值之差残差分析(residualanalysis)旨在通过残差深入了解数据与模型之间的关系,评价实际资料是否符合回归模型假设,识别异常点等。例如,第一数据点的残差e1=4175.6-4220.784=-45.184,如此类推,计算出各数据点的残差值,将残差减去其均数,除以其标准差,便得标准化残差。若以反应变量取值Yi为横坐标,以标准化残差为纵坐标,构成的散点图如图11-7所示。类似地,也可以自变量取值Xi为横坐标,以标准化残差为纵坐标,构成的散点图。这类散点图统称为标准化残差图。
图11-8给出的是以自变量取值为纵坐标,以残差为横坐标的残差图的常见类型。其中,图(e)显示残差呈随机分布;图(a)、(b)和(f)表示残差不满足方差齐性条件;图(c)显示存在非线性关系;图(d)显示有的点处于
2倍标准差以外,可能是异常点。图11-8不同类型的标准化残差图第四节非线性回归非线性回归要比线性回归更能充分地表达变量间的关系。当今线性回归之所以比非线性回归应用甚多,原因在于无论从数学理论还是计算方法,线性回归都比非线性回归模型简单得多。通过自变量的变换实现线性化实践中有两类非线性关系,一类是通过自变量X的适当变换可线性化的,另一类是不可能通过自变量X的变换实现线性化的X数据变换不能线性化的关系
变换自变量实现线性回归步骤
1.将观测数据(Xi,Yi),i=1,2,…,n作散点图,观察散点分布特征类似于何种函数类型;2.按照所选定的函数进行相应的变量变换;3.对变换后的数据用常规最小二乘法(OLS)作线性模型的参数估计。4.一般拟合多个相近的模型,然后通过对各个模型的拟合优度评价挑选较为合适的模型。例11-2某研究者用免疫球蛋白A(IgA,ug/ml)的不同浓度做火箭电泳,测得电泳高度(nm)如表11-4所示。欲用合适的回归模型描述火箭高度随IgA浓度的变化规律
IgA(μg/ml)火箭电泳高度(nm)X*=lnX0.27.6-1.60940.412.3-0.91630.615.7-0.51080.818.2-0.22311.018.70.00001.221.40.18231.422.60.33651.623.80.4700表11-4免疫球蛋白A不同浓度下的火箭电泳高度由结果可见:在所拟合的三种模型中,以x对数函数回归的效果最佳,该模型拟合的残差均方最小,决定系数最大模型名称回归方程F值P值R2值简单线性92.440.0000.939对数函数763.500.000.992二次函数185.170.0000.987值得一提的是,本节只涉及对自变量X进行变换,然后以变换后的数据用标准最小二乘(OLS)法求解模型的参数估计与模型评价。当涉及到对反应变量y实施非线性变换[如Z=ln(Y)]时,因为OLS只保证变换后的Z,即ln(Y)的残差平方和最小,并不能保证原变量Y的残差平方和也最小,所以在此情况下,我们建议用统计软件来完成非线性拟合,例如,用SAS系统中的PROCNLIN程序产生非线性模型参数的最小二乘估计。
直线回归应用的注意事项直线回归用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。两个变量的选择一定要结合专业背景,不能把毫无关联的两
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 如何提高信息系统项目管理师考试中的回答准确性试题及答案
- 西方立法机关的功能与作用试题及答案
- 软考网络工程师学习资源分享试题及答案
- 公共政策危机沟通策略研究试题及答案
- 计算机三级软件测试在政策中的应用试题及答案
- 机电工程的职业发展路径试题及答案
- 网络安全态势感知技术试题及答案
- 网络工程师全面准备试题及答案
- 前沿公共政策研究热点试题及答案
- 软件设计师考试心理调适方法与试题与答案
- 消防水管道改造应急预案
- 2021城镇燃气用二甲醚应用技术规程
- 【保安服务】服务承诺
- 07第七讲 发展全过程人民民主
- 弱电智能化系统施工方案
- 对外派人员的员工帮助计划以华为公司为例
- 2020-2021学年浙江省宁波市镇海区七年级(下)期末数学试卷(附答案详解)
- GB/T 9162-2001关节轴承推力关节轴承
- GB/T 34560.2-2017结构钢第2部分:一般用途结构钢交货技术条件
- 阅读绘本《小种子》PPT
- 医院清洁消毒与灭菌课件
评论
0/150
提交评论