研-统计8双变量回归与相关_第1页
研-统计8双变量回归与相关_第2页
研-统计8双变量回归与相关_第3页
研-统计8双变量回归与相关_第4页
研-统计8双变量回归与相关_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Eg:某医师收集并测定95例糖尿病患者的体重指数BMI(kg/cm2)、HOMA-R指数、胰岛素与瘦素比值A/L等指标,试估计这些指标之间的相关性?分析年龄与冠状动脉粥样硬化等级之间的相关关系。

年龄(岁)冠状动脉硬化等级合计

++++++203040》5070224227249316231379201514

98635958合计122894126278例某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h),估计年龄与尿肌酐含量间有无关系,是否可由年龄推算尿肌酐含量。双变量回归与相关linearregressionandcorrelation回归分析与相关分析双变量间关系:年龄~身高、肺活量~体重、药物剂量与动物死亡率等。

依存关系:应变量(dependentvariable)Y随自变量(independentvariable)X变化而变化。——

回归分析

互依关系:应变量Y与自变量X间的彼此关系

———

相关分析双变量计量资料:每个个体有两个变量值

总体:无限或有限对变量值样本:从总体随机抽取的n对变量值

(X1,Y1),(X2,Y2),…,(Xn,Yn)

目的:研究X和Y的数量关系

方法:回归与相关简单、基本——直线回归、直线相关“一因一果”,即一个自变量与一个依变量一元回归分析; 研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。 一元回归分析又分为直线回归分析与曲线回归分析两种; 多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。第一节直线回归(linearregression线性回归)1.直线回归的概念:直线回归是分析两变量间线性依存变化的数量关系。“回归”的由来英国统计学家F·Galton

和他的学生、现代统计学的奠基者之一K·Pearson在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇中父亲的身高作为自变量X,而取他们的一个成年儿子的身高作为应变量Y,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:。也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。3.函数关系与回归关系函数关系:确定。例如园周长与半径:y=2πr回归关系:不确定。例如血压和年龄的关系,直线回归的任务就是找出一条最能描述变量间非确定性数量关系的一条直线,此直线为回归直线,相应的直线方程称为直线回归方程(linearregressionequation)。

4.直线回归方程的一般表达式为

为各X处Y的总体均数的估计。a为回归直线在y轴上的截距0yxa>0a=0a<0a0yxb>0b=0b<0

b为回归系数,即回归直线的斜率;其统计学意义是x增加(减)一个单位,y平均变动b个单位

b=0

a:截距(intercept),直线与Y轴交点的纵坐标(X=0)。b:斜率(slope),回归系数(regressioncoefficient)。意义:X每改变一个单位,Y平均改变b个单位。

b>0,Y随X的增大而增大(减少而减少)——斜上;

b<0,Y随X的增大而减小(减少而增加)——斜下;

b=0,Y与X无直线关系——

水平。

|b|越大,表示Y随X变化越快,直线越陡峭。

,a与b分是与相应的样本估计值5.直线回归方程参数的计算y=a+bx

^

最小二乘法原则(leastsquaremethod):使各实际散点(Y)到直线()的纵向距离的平方和最小。即使(残差或剩余值)最小。Yi(Y的估计值)

=a+bXi

Yi估计值i残差i=Yi–估计值i残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。因为直线一定经过“均数”点例9-1

某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。

表9-18名正常儿童的年龄(岁)与尿肌酐含量(mmol/24h)

(1)

由原始数据作散点图,观察两变量间的趋势8名正常儿童的年龄(岁)与尿肌酐含量(mmol/24h)可在自变量实测范围内远端取易于读数的X值代入回归方程得到一个点的坐标,连接此点与点(,)也可绘出回归直线。6、直线回归中的统计推断(一)回归方程的假设检验建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有存在?1.方差分析

X或如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F目的:推断总体回归系数是否为0,确定所求得的回归方程是否成立。2.t检验即各实际点与回归线纵轴方向的离散程度,即标准估计误差例9-2

检验例9-1数据得到的直线回归方程是否成立?

(1)方差分析

表9-2方差分析表

列出方差分析表如表9-2。决定系数(coefficientofdetermination):回归平方和与总平方和之比,取值在0到1之间且无单位,其大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。(2)t检验(二)总体回归系数的可信区间

利用上述对回归系数的t检验,可以得到β的1-双侧可信区间为

例9-3

根据例9-1中所得b=0.1392,估计其总体回归系数的双侧95%可信区间。(0.1392-2.447×0.0304,0.1392+2.447×0.0304)=(0.0648,0.2136)(三)利用回归方程进行估计和预测

(9-15)

(9-14)

反映其抽样误差大小的标准误为(9-16)

(9-17)

例9-4用例9-1所得直线回归方程,计算当X0=12时,的95%可信区间和相应个体值的95%预测区间。计算步骤例9-1、例9-2已计算出

95%µ的可信区间与个体Yi的预测范围有关数据编号XYY_hat均数标准误个值标准误均数下限均数上限个值下限个值上限1133.543.4710.12710.23443.16023.78242.89774.04492113.013.1930.08320.21382.98923.39662.66973.7161393.092.9150.07130.20952.74013.08892.40203.4270462.482.4970.12710.23442.18582.80801.92333.0705582.562.7750.08320.21382.57162.97902.25213.29856103.363.0540.07130.20952.87933.22812.54123.56627123.183.3320.10310.22233.07993.58432.78823.8760872.652.6360.10310.22232.38392.88832.09223.1800直线回归方程的应用描述两变量的依存数量关系;利用回归方程进行预测:由易测的变量值估算难算的变量值(由x估计y);X:汽车流量(辆/小时),y:NOx(mg/M3)y=-1.674+0.0001838x

^利用回归方程进行控制:即利用回归方程进行逆估计(由y估计x)。第二节直线相关

(linearcorrelation)

简单相关(simplecorrelation),用于双变量正态分布资料。进行直线相关分析的基本任务在于根据x、y的实际观测值计算表示两个相关变量x与y线性相关程度和性质的统计指标—相关系数r,并进行显著性检验。

1.直线相关的概念

直线相关是研究两变量x、y之间协同变化的线性关系

的分析方法。体重(kg),x肺活量(),YL十名女中学生体重与肺活量散点图2.对资料的要求

x、y都是正态分布资料的随机变量。3.相关系数

(correlationcoefficient,r)

表示方法:

-1r

1*意义:描述两个变量直线相关的方向与密切程度的指标。正相关负相关0<r<1-1<r<0相关系数示意:r=1r=-1完全正相关完全负相关相关系数示意r=0r=0r=0零相关零相关零相关计算方法:__(x-x)(y-y)l

xyr=————————————=——————___________________________(x-x)2(y-y)2

l

xx·l

yy__(x)(y)l

xy=(x-x)(y-y)=xy-—————n__(x)2lxx=(x-x)2=x2-————n_(y)2lyy=(y-y)2=y2-————n_10名女中学生的体重(x)与肺活量(y)的直线相关计算编号XYX2Y2XY

(1)(2)(3)(4)(5)(6)

1351.6012252.560056.002371.6013692.560059.203372.4013695.760088.804402.1016004.410084.005402.6016006.7600104.006422.5017646.2500105.007422.6517647.0225111.308432.7518497.5625118.259442.7519367.5625121.00452.2020254.840099.00∑40523.151650155.2875946.55___________________________(x-x)2(y-y)2

l

xx·l

yy计算:__(x-x)(y-y)l

xyr=————————————=——————__(x)(y)l

xy=(x-x)(y-y)=xy-—————n__=8.975(x)2lxx=(x-x)2=x2-————n_=98.5

(y)2lyy=(y-y)2=y2-————n_=1.69525r=8.975√98.51.69525=0.69454.相关系数的假设检验目的:检验r

是否来自总体相关系数=0

的 总体,推断两变量的相关关系是否成立。r-0rt=———=——————,Sr

1-r2———n-2________=n-2Sr为相关系数的标准误公式:

检验假设:H0:=0,H1:0,=0.05r-0rt=———=——————,Sr

1-r2———n-2________=n-2t=0.6945(1-0.69452)/(10-2)√=2.730=n–2=10–2=8P<0.05结论:可认为该地女中学生的体重与肺活量有正相关关系由例9-1算得,按公式(9-18)

例9-5

对例9-1数据(见表9-1),计算8名儿童的尿肌酐含量与其年龄的相关系数。例9-6对例9-5所得r值,检验尿肌酐含量与年龄是否有直线相关关系?检验步骤本例n=8,r=0.8818,按公式(9-19)决定系数(coefficientofdetermination)

定义为回归平方和与总平方和之比,计算公式为:(9-23)

取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。

五、直线回归与相关应用的注意事项

1.根据分析目的选择变量及统计方法直线相关用于说明两变量之间直线关系的方向和密切程度,X与Y没有主次之分(反映两变量的相互关系)。直线回归则进一步地用于定量刻画应变量Y对自变量X在数值上的依存关系(反映两变量的依存关系),其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析。2.进行相关、回归分析前应绘制散点图

(1)

散点图可考察两变量是否有直线趋势;(2)

可发现离群点(outlier)。

散点图对离群点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论