版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章双变量回归与相关LinearRegressionandCorrelation1第九章双变量回归与相关双变量计量资料:每个个体有两个变量值
总体:无限或有限对变量值样本:从总体随机抽取的n对变量值
(X1,Y1),(X2,Y2),…,(Xn,Yn)
目的:研究X和Y的数量关系
方法:回归与相关简单、基本——直线回归、直线相关2第九章双变量回归与相关
Content
1.Linearregression2.Linearcorrelation3.Rankcorrelation4.Curvefitting
3第九章双变量回归与相关
十九世纪英国人类学家F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家KarlPearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现:历史背景:4第九章双变量回归与相关
儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。5第九章双变量回归与相关
目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。6第九章双变量回归与相关第一节直线回归7第九章双变量回归与相关一、直线回归的概念
目的:研究应变量Y对自变量X的数量依存关系。特点:统计关系。X值和Y的均数的关系,不同于一般数学上的X和Y的函数关系。8第九章双变量回归与相关
例9-1
某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。9第九章双变量回归与相关
表9-18名正常儿童的年龄(岁)与尿肌酐含量(mmol/24h)
10第九章双变量回归与相关11第九章双变量回归与相关
在定量描述儿童年龄与其尿肌酐含量数量上的依存关系时,将年龄称为自变量(independentvariable),用X表示;尿肌酐含量称为应变量(dependentvariable),用Y表示。12第九章双变量回归与相关
由图9-1可见,尿肌酐含量Y
随年龄X增加而增大且呈直线趋势,但并非8个点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linearregression),其方程叫直线回归方程,以区别严格意义的直线方程。双变量直线回归是回归分析中最基本、最简单的一种,故又称简单回归。13第九章双变量回归与相关直线回归方程的一般表达式为
为各X处Y的总体均数的估计。14第九章双变量回归与相关1.a为回归直线在Y
轴上的截距。a>0,表示直线与纵轴的交点在原点的上方;a<0,则交点在原点的下方;a=0,则回归直线通过原点。a=0a<0a>0XY15第九章双变量回归与相关b>0,直线从左下方走向右上方,Y随X增大而增大;
b<0,直线从左上方走向右下方,Y随X增大而减小;
b=0,表示直线与X轴平行,X与Y无直线关系。XY2.b为回归系数,即直线的斜率。b的统计学意义是:X
每增加(减)一个单位,Y
平均改变b个单位。b>0b<0b=016第九章双变量回归与相关
17第九章双变量回归与相关18第九章双变量回归与相关二、直线回归方程的求法
残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。原则:最小二乘法(leastsumofsquares),即可保证各实测点至直线的纵向距离的平方和最小(X,Y)19第九章双变量回归与相关
20第九章双变量回归与相关21第九章双变量回归与相关
例9-1
某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。22第九章双变量回归与相关
表9-18名正常儿童的年龄(岁)与尿肌酐含量(mmol/24h)
23第九章双变量回归与相关解题步骤24第九章双变量回归与相关25第九章双变量回归与相关26第九章双变量回归与相关
此直线必然通过点(,)且与纵坐标轴相交于截距a。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读数的X值代入回归方程得到一个点的坐标,连接此点与点(,)也可绘出回归直线。27第九章双变量回归与相关28第九章双变量回归与相关三、直线回归中的统计推断29第九章双变量回归与相关(一)回归方程的假设检验
建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有?30第九章双变量回归与相关31第九章双变量回归与相关32第九章双变量回归与相关1.方差分析
33第九章双变量回归与相关(X,Y)34第九章双变量回归与相关数理统计可证明:35第九章双变量回归与相关上式用符号表示为
式中
36第九章双变量回归与相关37第九章双变量回归与相关上述三个平方和,各有其相应的自由度,并有如下的关系:
38第九章双变量回归与相关
如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F39第九章双变量回归与相关式中40第九章双变量回归与相关2.t检验41第九章双变量回归与相关
例9-2
检验例9-1数据得到的直线回归方程是否成立?
42第九章双变量回归与相关(1)方差分析43第九章双变量回归与相关
表9-2方差分析表
列出方差分析表如表9-2。44第九章双变量回归与相关(2)t检验45第九章双变量回归与相关注意:
46第九章双变量回归与相关(二)总体回归系数的可信区间
利用上述对回归系数的t检验,可以得到β的1-α双侧可信区间为47第九章双变量回归与相关
例9-3
根据例9-1中所得b=0.1392,估计其总体回归系数的双侧95%可信区间。48第九章双变量回归与相关(0.1392-2.447×0.0304,0.1392+2.447×0.0304)=(0.0648,0.2136)49第九章双变量回归与相关(三)利用回归方程进行估计和预测
50第九章双变量回归与相关(9-15)
(9-14)
反映其抽样误差大小的标准误为51第九章双变量回归与相关(9-16)
(9-17)
52第九章双变量回归与相关两条实曲线——总体均数的可信区间;两条虚曲线——个体Y值的预测区间,范围更宽。二者都是中间窄,两头宽;都在X=处最窄。53第九章双变量回归与相关
例9-4
用例9-1所得直线回归方程,计算当X0=12时,的95%可信区间和相应个体值的95%预测区间。54第九章双变量回归与相关计算步骤例9-1、例9-2已计算出
55第九章双变量回归与相关56第九章双变量回归与相关第二节直线相关57第九章双变量回归与相关
直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布(bivariatenormaldistribution)资料。其性质可由图9-6散点图直观的说明。
目的:研究两个变量X,Y数量上的依存(或相关)关系。
特点:统计关系一、直线相关的概念58第九章双变量回归与相关二、相关系数的意义与计算
1.意义:相关系数(correlationcoefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。相关系数没有单位,其值为-1r1。r值为正表示正相关,r值为负表示负相关,r的绝对值等于1为完全相关,r=0为零相关。59第九章双变量回归与相关60第九章双变量回归与相关2.计算:样本相关系数的计算公式为
(9-18)
61第九章双变量回归与相关由例9-1算得,按公式(9-18)
例9-5
对例9-1数据(见表9-1),计算8名儿童的尿肌酐含量与其年龄的相关系数。62第九章双变量回归与相关三、相关系数的统计推断(一)相关系数的假设检验(9-19)63第九章双变量回归与相关
例9-6
对例9-5所得r值,检验尿肌酐含量与年龄是否有直线相关关系?64第九章双变量回归与相关检验步骤本例n=8,r=0.8818,按公式(9-19)65第九章双变量回归与相关(二)总体相关系数的可信区间
66第九章双变量回归与相关具体步骤如下67第九章双变量回归与相关
例9-7对例9-5所得r值,估计总体相关系数的95%可信区间。
再按公式(9-22)将z作反变换,得到年龄与尿肌酐含量的总体相关系数95%可信区间为(0.4678,0.9971)。
68第九章双变量回归与相关四、决定系数(coefficientofdetermination)
定义为回归平方和与总平方和之比,计算公式为:(9-23)
取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。
69第九章双变量回归与相关70第九章双变量回归与相关五、直线回归与相关应用的注意事项
71第九章双变量回归与相关
1.根据分析目的选择变量及统计方法
直线相关用于说明两变量之间直线关系的方向和密切程度,X与Y没有主次之分;直线回归则进一步地用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析。72第九章双变量回归与相关73第九章双变量回归与相关2.进行相关、回归分析前应绘制散点图—第一步
(1)
散点图可考察两变量是否有直线趋势;(2)
可发现离群点(outlier)。
散点图对离群点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。74第九章双变量回归与相关3.资料的要求
直线相关分析要求X与Y服从双变量正态分布;直线回归要求至少对于每个X相应的Y要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量;*对于双变量正态分布资料,根据研究目的可选择由X估计Y或者由Y估计X,一般情况下两个回归方程不相同)。75第九章双变量回归与相关
反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数或相关系数的绝对值,而不是假设检验的P值。
P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围。4.结果解释及正确应用
76第九章双变量回归与相关第三节秩相关
(非参数统计方法)
77第九章双变量回归与相关适用条件:
双变量计量资料:①资料不服从双变量态分布;②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料;原始数据(一个或两个变量值)用等级表示的资料。78第九章双变量回归与相关一、Spearman秩相关
1.意义:等级相关系数rs用来说明两个变量间直线相关关系的密切程度与相关方向。79第九章双变量回归与相关3.计算公式(9-25)
(9-26)
80第九章双变量回归与相关81第九章双变量回归与相关表9-3某省1995年到1999年居民死因构成与WYPLL构成82第九章双变量回归与相关检验步骤83第九章双变量回归与相关二、相同秩较多时rs的校正公式中Tx(或TY)=Σ(t3-t)/12,t为X(或Y)中相同秩的个数。显然当Tx=TY=0时,公式(9-27)与公式(9-25)相等。
(9-27)
84第九章双变量回归与相关、(9-18)Pi→X
Qi→Y85第九章双变量回归与相关第六节
曲线拟合
(curvefitting)86第九章双变量回归与相关
医学现象中并非所有的两变量间关系都表现为前面所述的直线形式,其较为典型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 真心承诺爱情保证书范文
- 房屋买卖合同的起草与权益保护
- 补充装修合同协议书范本
- 钢琴音乐比赛用琴合同
- 培训班合作经营合同模板
- 商标许可授权合同样本
- 设计专利权买卖合同
- 房屋装修买卖合同
- 预制箱梁分包合同范例
- 保洁服务公司合同法律风险
- 2024年磁共振成像装置项目实施方案
- 《高一数学三角函数诱导公式》课件
- 《设备润滑技术》课件
- 2024年湖北武汉城投集团招聘笔试参考题库含答案解析
- 第7课《珍视亲情+学会感恩》第1框《浓浓亲情+相伴一生》【中职专用】《心理健康与职业生涯》(高教版2023基础模块)
- 《感谢为我们服务的人》班会课件
- 高质量的幼儿园教育
- 小学体育-轻度损伤的自我处理教学课件设计
- 第一章-公路概论课件
- 基于PLC的水箱温度控制系统
- 十三项核心制度-上海第十人民医院
评论
0/150
提交评论