版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1
双变量回归与相关2资料特点:每个观察对象有两个变量。概念3类似上例的问题:年龄-身高;肺活量-体重;药物剂量-动物死亡率双变量资料统计资料单变量资料:X双变量资料:X,Y多变量资料:X1,X2,…,XK,Y4相关与回归是研究两个或多个变量之间相互关系的一种分析方法。数据结构编号YX1……XK12n5两变量(X,Y)无关系有关系函数关系相关(回归)关系圆周长:y=2πr直线关系曲线关系直线相关与回归曲线拟合6回归:是研究变量之间在数量上依存关系的一种方法。相关:是研究随机变量之间相互联系密切程度和方向的方法。直线相关与回归:只涉及两个变量,而且分析是否呈直线关系,是回归和相关分析中最简单的一种。又称简单相关和回归。概念:7直线相关与回归的一般步骤:绘制散点图直线相关分析直线回归分析求相关系数相关系数假设检验结论求回归系数和截距列出回归方程回归系数假设检验8一、直线回归(linearregression)1.直线回归方程
:应变量Y的平均估计值a:截距(intercept)b:回归系数(regressioncoefficient)注意直线回归方程与函数方程的不同9
应用条件线性(linear)、独立性(independent)、正态性(normal)、等方差(equalvariance)——“LINE”。线性——自变量与应变量的关系是线性的。用散点图判断。独立性——任意两个观察值互相独立。正态性——在任意的自变量X的取值处,应变量y均服从正态分布。等方差——在任意的自变量X的取值处,应变量y的方差均相同。1011例11220名糖尿病人的血糖水平与胰岛素水平的散点图SPSS13回归直线的求法原理(最小二乘法)各散点距离回归直线的纵向距离(残差)平方和为最小而得到直线。14计算:回归直线必通过点1516171819
3.直线回归的假设检验即推断总体回归系数(
)是否为零即:SS总=SS回归+SS残余——剩余或残差(residual)(1)方差分析20查附表3,F0.01(1,18)=8.28P<0.01(2)t检验t=(b-0)/sbν=n-221
t=(-0.4585-0)/0.0699=-6.56
=18,t0.01(18)
=2.878P<0.01F=t2=(-6.56)2=43.0322234.直线回归中的区间估计(1)总体回归系数β的区间估计:例:上例中,b=-0.4585,Sb=0.0699,t0.05,18=2.101∴β的95%可信区间:242526(2)的估计:即总体中当X为某定值X0的条件下Y的均数。27即:11.9182.101×0.3396=(11.08,12.76)例:用例1所求直线回归方程,试计算当X0=15mU/L时,的95%可信区间。28的(1-α)可信区间图29(3)个体Y值的预测区间(容许区间):即总体中当X为某定值X0时,个体Y值的波动范围。注意:SY并非是样本观察值Y的标准差30个体Y值的(1-α)容许区间图31例:例1中,当X=15,求个体Y值的预测区间(
=0.05)。325.直线回归方程的应用(1)预测:
即把预报因子(自变量X)代入回归方程对预报量(应变量Y)进行估计。
1)点预测:
2)区间预测:33区间预测:当X是已知时,按一定概率估计应变量所在范围。可按求个体Y值预测区间方法计算。34例:例1资料中,当胰岛素浓度X=15mU/L时,试估计血糖浓度(
=0.05)。35(2)控制:
指当要求应变量Y在一定范围内波动时,如何控制自变量X的取值。例:已知血糖正常范围为(4.44~6.66mmol/L),在前例资料的基础上,问欲将血糖水平控制在正常范围内时,血中胰岛素应维持在什么范围内(
=0.05)?36解得:X(33.95,38.79)mU/L37383940双变量资料的相关分析方法选择直线相关(Pearson相关)——双变量正态等级相关(Spearman相关)——非双变量正态或等级资料。X2检验——分类资料或等级资料411.相关系数(
,r)
表示两变量直线相关的密切程度和方向。相关系数波动范围:-1r1(1)密切程度:
|r|1,相关越密切;|r|0,相关越弱。
r=1或-1,称完全相关;
r=0,称零相关,表示不存在直线相关关系,但不排除存在某种曲线关系的可能性。(2)方向:
r>0,正相关;r<0,负相关。
二、直线相关(linearcorrelation)42432.相关分析的步骤(1)绘制散点图观察两变量间是否呈直线趋势20名糖尿病人的血糖水平与胰岛素水平的散点44(2)计算相关系数计算例1资料的相关系数Pearson相关系数积差法相关系数453.相关系数的假设检验例1资料:H0:
=0;H1:≠0;
=0.05
查表得:P<0.01(结果同回归系数检验)ct检验查表法:P.719r界值表。46三、应用直线回归时注意事项1)应有实际意义;2)分析前应绘制散点图;3)用残差图考察数据是否符合模型假设条件4)应在实际回归范围内绘制回归直线;5)结果的解释及正确应用4748残差分析——模型诊断通常以标准化残差(standardizedresidual)为纵坐标,以为横坐标,作残差图。4950ABCDEF残差呈随机分布残差不满足方差齐性条件存在非线性关系有异常点51四、等级相关
(秩相关rankcorrelation)1.适用于下列资料:(1)不服从双变量正态分布的资料(如二项分布);(2)总体分布型未知;(3)原始数据是用等级表示。2.等级相关系数(rs)意义不用原始数据计算,而是根据数值大小的秩次进行计算。其意义同直线相关系数。52
3.等级相关系数的计算(1)按直线相关系数公式计算,只是用秩次代替原始观察值。(2)Spearman公式法:53
例为研究饮水中氟含量与氟中毒患病率之间的关系,测定了9个居民点井水中的氟含量X(mg/L),并同时通过体检得到这些居民点中常住居民的氟中毒患病率Y(%),资料如下表:54554.等级相关系数的假设检验
H0:
s=0;H1:s
≠0;
=0.05(1)查表法:n50时,查rs界值表(P.721)进行假设检验。查表得:rs0.001(9)=0.933,P<0.00156(2)计算法:以ν=9-2=7查t界值表,得P<0.001SPSS57下面是300名肝硬化患者的有关资料。编号X1(病程,天)X2(出血次数)X3(血型)X4(性别)X5(腹水)X
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 矿产资源招投标合同操作流程
- 农作物种植合同搅拌站租赁合同
- 专业讲师聘用协议书
- 机场安保清洁服务合同样本
- 无担保借款协议书
- 锂电池涂覆材料行业分析研究报告
- 关于学生工作实习报告模板锦集九篇
- 辽宁省葫芦岛市(2024年-2025年小学五年级语文)人教版小升初真题(下学期)试卷及答案
- 《世界经济地理》课件2
- 《怎样挑选羽毛球》课件
- 道亨送电线路三维设计平台使用培训ppt模板
- 民族式摔跤竞赛规则
- 不合理处方登记表
- 国内外利用活性炭处理硫化氢的原理
- 07版监理收费标准插入法计算器
- 重庆市七年级数学上学期期中试题新人教版
- 08S305-小型潜水泵选用及安装图集
- 吉林省长春市东北师大附中2019-2020上学期——九年级数学大练习题试卷
- 新能源汽车充电桩运营平台建设商业计划书
- 图形创意-表现手法(课堂PPT)课件
- 北京某进修护理汇报ppt课件
评论
0/150
提交评论