回归系数的假设检验_第1页
回归系数的假设检验_第2页
回归系数的假设检验_第3页
回归系数的假设检验_第4页
回归系数的假设检验_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归系数的假设检验前面所求得的回归方程是否成立,即X、Y是否有直线关系,是回归分析要考虑的首要问题。我们知道即使X、Y的总体回归系数卩为零,由于抽样误差,其样本回归系数b也不一定为零。因此需作p是否为零的假设检验,可用方差分析或t检验。应变量Y的平方和划分示意图任一点P的纵坐标被回归直线与均数卩截成三段:第一段(丫-Y),表示实测点P与回归直线的纵向距离,即实际值Y与估计值V之差•称为剩余或残差。第二段(P-P),即Y估计值P与均数V之差•它与回归系数的大小有关。|b|值趣大ta-y)也趣大,反之亦然。当b=0时,&-Y)亦为零,则(y-r)=(r-F),也就是回归直线不能使残差(K-X)减小。第三段V,是应变量Y的均数。依变量y的总变异(),-刃由y与X间存在直线关系所引起的变异(y-V)与偏差(y-刃两部分构成,即(y-55)=(y-y)+(>->)上式两端平方,然后对所有的n点求和,则有力(y-齐=工[6-亍)+(〉T,)F=艺($-刃'+》(y-疔+2艺($-刃(y-$)由于y=a+bx=y+b(x-x),所以y-y=b(x-x)于是 Z(y-刃0一可(y-勿=■左)[()'_彳)_'Xx-左)]=刃心-可(y-刃-D(x-X)-b(x-X)=0所以有 -刃‘=刃'+Z(-v->')2ZCV-.V)2反映了y的总变异程度,称为y的总平方和•记为SS、.;》(•*疔反映了由于y与X间存在直线关系所引起的y的变异程度,称为回归平方和,记为SSr;z(.v--v)2反映了除y与X存在直线关系以外的原因,包括随机误差所引起的y的变异程度,称为离回归平方和或剩余平方和,记为ssr。总变异ss总是由回归关系引起的ss回和与回归无关的其它各种因素产生的ss剩所构成。若回归直线与各实测点十分吻合,则ss回将明显大于ss剩,当全部实测值都在回归直线上时,ss总二ss回,ss剩=o,反之,若回归直线拟合不好rss回相对较小,SS剩则相对増大。可见SS回/SS剩反映了回归的效果。上式又可表示为:SS、.=SSK+ss「这表明y的总平方和划分为回归平方和与离回归平方和两部分。与此相对应・y的总自由度仏也划分为回归自由度叭与离回归自由度叭两部分,即^fy=百r+r在直线回归分析中,回归自由度等于自变量的个数,即妙r=1;y的总自由度仏="-1;离回归自由度dfr=n-20于是:离回归均方MSr=SS「/dfrt回归均方MSr=SSr/dfR(1).方差分析法:具体计算如下:建立无效假设:Ho:p=0,即胆固醇与年龄之间无直线关系H!:p#0,即胆固醇与年龄之间有直线关系a=0.052、 计算SS总=88.8081df总=19SS0=bIXy=0.141(453.7385)=63.9771df0=1SS剩二SS总—SS回=88.8081-63.9771=24.8310df剩T8方差分析结果表

变异来源SSdfMSF总变异88.808119回归63.9771163.977146.377剩余24.8310181.3795查表确定p值Fo.o5(i,i8)=4.41,Fo.oi(i,i8)=8.29P<0.01故按a=0.05水准拒绝无效假设,接受备择假设。结论:可以认为高血脂病人治疗前胆固醇与年龄由直线关系。(2\t检验基本思想与样本均数与总体均数比较的t检验类似,而检验统计量t值的计算按下式完成:b-0Sbb-0Sb本例n=20fSS剩=1.3795,lxx=3216.95,b=0.14124.831s、,=2。一2心

S,="745J3216.95=0.02070.141S,="745J3216.95=0.02070.1411~0.0207=6.812按df=18,查t界值表,to.o5(i8)=2.101,to.oi(i8)=2.878,按a=0.05水准f拒绝H。,接受Hir结论同上。直线回归方程的应用统计预测:1、总体回归系数0的区间估计根据参数估计原理,回归系数b是总体回归系数p的点估计,正像样本均数%不一定恰好等于总体均数“一样,需要对总体回归系数P迸行区间估计。SQ式中Sb为回归系数的标准误;n-2为自由度。回归方程为孑=2.661+0.14U根据资料的样本回归系数b=0.141估计总体回归系数p的95%可信区间。已知6=0.141, Sg0・0207, v=20—2=1&to.o5(i8)=2.101则总体回归系数卩的95%可信区间为(0.141-2.101x0.0207,0.141+2.101x0.0207)=(0.0975,0.1977)2、冷的区间估计b是指总体中自变量X为某一定值X。时・P的总体均数。对心的估计可计算可信区间:(P-仏T)»P+匕”_2)»)式中S”即卩的标准误,可按下式计算:片=险点+£二春式中SY.X为剩余标准差。当X。二文时,S严Syx灯,此时,可信区间的范国最窄,预测精度相对较高。试计算当Xo=5O岁时,心的95%可信区间。已知尢=39.45,^(X-X)2=3216.95,sy,x=1.175r=2.661+0.141x50=9.71S. =1.175p-+('0_39來)'=0.3418(〃〃加//乙)r V20 3216.95v=20—2=1&to.o5(i8)=2.101当Xo=5O时•冷的95%可信区间为(9.71-2.101x0.3418,9.71+2.101x0.3418)=(8.99,10.43)mmol/L即当年龄为50岁时,估计其胆固醇的的总体均数心在(8.99,10.43)mmol/L范圉内的可能性为95%0

胆固醇4.00-12.00-10.00-8.00-6.00-20 30 40 50 60胆固醇4.00-12.00-10.00-8.00-6.00-20 30 40 50 60年龄3、个体Y值的容许区间总体中,X为一定值时,个体Y值的波动范国,可按下式求岀:式中SY为X取一定值时,个体Y值的标准差,其计算公式为SY=Syxb+1+ryX\H工(X-X),试计算当Xo=5O时,个体Y值的95%容许区间。已知Y=9.71,to.05(18)=2・101 fSy.x=1.175Sy=1.175』+丄+('0_'9來)]=1.2230' V20 3216.95故当Xo=5O岁时,个体Y值的95%容许区间为:(9.71-2.101x1.2230,9.71+2.101x1.2230)=(7.14,12.28)mmol/L即当年龄为50岁时•总体中有95%的个体Y值波动在(7.14,12.28)mmol/L的范国内。用回归方程逬行统计控制控制是指党要求Y值在一定的范国内波动时,如何il过控制X的范国来实现统计控制的目标,所以统计控制是利用回归方程迸行的逆估计。如:为使一名糖尿病人的血糖维持在正常范圉(4.44・6.66mol/L),如何控制血中胰岛素水平?这可以对回归的逆运算来实现。例如:资料已建立了有胰岛素估计血糖平均水平的直线回归方程•问:欲将血糖水平控制在正常范圉的上限6.66mol/L以内时,血中胰岛素应维持在什么水平上?X=18.7957-0.4585X,n=20,5;=1.6324•取a=0.05,本例当个体y值取6.66mol/L时的x值,故取单侧toa㈣=1.734,所得方程为:6.66=y+r005US)S\=(1&7957—0.4585)+1.734x1.6324=21.6262—0.4585兀由此式解得x=32.64(mu/L),即如要将一名糖尿病人的血糖控制在6.66mol/L以内,胰岛素水平可维持在32.64(mu/L)以上。又例:某市环境监测站在某交通点连续测定30天,每天定时采样3次,发现大宅中NO2浓度Y(mg/m3)与当时的汽车流量X(辆/小时)呈直线关系根据90对观测数据求得回归方程f=-0.064866+0.000133%,剩余标准差0.032522。若NO2最大容许浓度为0・15吨/计,则汽车流量应如何控制?设a=0.05e本例S"=0.032522,a=0.05fv=90-2=88,查表得单侧fo.o5(88)=1.6624。由于本例未给出每小时汽车流

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论