第七章直线回归与相关分析_第1页
第七章直线回归与相关分析_第2页
第七章直线回归与相关分析_第3页
第七章直线回归与相关分析_第4页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章

直线回归与相关分析回归和相关的概念直线回归分析直线相关可直线化的线性回归分析

橄榄球状的散点图,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。为了研究父亲与成年儿子身高之间的关系,卡尔·皮尔逊测量了1078对父子的身高。把1078对用散点图进行描述。许多现象之间都有相互联系,例如:身高与体重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之间的关系密切得多,而体重和身高的关系则介与二者之间。另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。两个变量之间的关系:(1)依存关系:因变量(dependentvariable)y随自变量(independentvariable)

x变化而变化,即因果关系。

——回归分析(2)互依关系:变量y与变量x间是平行关系。

——

相关分析回归与相关的分类回归的分类:依据变量多少:一元回归和多元回归依据线性关系:线性回归和非线性回归相关的分类:简单相关:仅有两变量之间的相关复相关:一变量与多变量之间的相关,偏相关:其余变量不变的情况下两变量之间的相关直线回归方程的建立直线回归的数学模型和基本假定直线回归的假设检验直线回归的区间估计直线回归的应用及注意问题第一节

直线回归直线回归的任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回归方程。一、直线回归方程一般表达式:a:截距(intercept),直线与y轴交点的纵坐标,回归截距。b:斜率(slope),回归系数(regressioncoefficient)。意义:x每改变一个单位,y平均改变b个单位。

b>0,y随x的增大而增大(减少而减少)——斜上;

b<0,y随x的增大而减小(减少而增加)——斜下;

b=0,y与x无直线关系——水平。|b|越大,表示y随x变化越快,直线越陡峭。是与x值相对应的依变量0xya>0,b>0a<0,b>0a>0,b<0a=0b=0回归方程参数a、b的计算

最小二乘法原则(leastsquaremethod):使各散点到直线的纵向距离的平方和(离差平方和)最小。即使最小。直线一定经过“均数”点!!!SSxyx与y的离均差乘积和编号xy

x2y2

xy11.213.901.464115.21004.719021.304.501.690020.25005.850031.394.201.932117.64005.838041.424.832.016423.32896.858651.474.162.160917.30566.115261.564.932.433624.30497.690871.684.322.822418.66247.257681.724.992.958424.90018.582891.984.703.920422.09009.3060102.105.204.410027.040010.9200合计15.8345.7325.8083210.731973.1380回归参数计算的实例

散点图用x估计y,存在随机误差,必须根据回归的数学模型对随机误差进行估计,并对回归方程进行检验。二、直线回归的数学模型和基本假设x引起y的变异y的随机误差y总体平均数总体回归截距,y不依赖x变化的部分总体回归系数,y依赖x变化的部分随机误差,是,也称为回归估计误差、残差x引起y的变异y的随机误差样本平均数样本回归截距样本回归系数随机误差直线回归分析必须符合的假设:x是没有误差的固定变量,y是随机变量,其误差是随机误差x的任一值都对应着一个y总体,且是正态分布,其平均数为:,方差为:。随机误差ε是独立的,且是正态分布。三、直线回归的假设检验由样本建立的方程是否有意义呢?即用a、b、e对α、β、ε的估计是否有意义?涉及两个问题的计算:1.离差平方和2.自由度直线回归的变异来源y(x,y)实际值与估计值之差,剩余或残差。估计值与均值之差。1.离差平方和的分解与计算:y的离均差,反映了y的总变异程度。y总变异的平方和,记作SSy误差因素引起的平方和,称为离回归平方和,记作Qx引起y的变异平方和,称为回归平方和,记作U2.自由度的分解与计算:3.方差的计算:U=bSP

=-2.5317×(-139.6937)=353.6628Q=SSy

-U=377.2688-353.6628=23.6060【例7.2】计算例7.1资料的回归平方和、离回归平方和以及回归估计标准误。根据前面计算结果,可得:对两个样本是否存在线性关系进行F检验:4.F检验:H0:黏虫孵化历期平均温度x与历期天数y之间不存在线性关系

HA:两变量间有线性关系变异来源df

SS

s2

F

F0.05

F0.01

回归1353.6628353.6628

89.89**5.9913.74

离回归623.60603.9343

总变异7377.2688【例7.3】用F检验的方法检验例7.1资料直线回归关系的显著性:t检验的结果与F检验结果是一样的:5.t检验:【例7.4】用t检验的方法检验例7.1资料直线回归关系的显著性:否定H0:β=0,接受HA:β≠0,认为黏虫孵化历期平均温度与历期天数间有真实直线回归关系。同一概率值F(单尾)值(df1=1,df2=n-2)t值(两尾)(df=n-2)三、直线回归的区间估计1.回归截距和回归系数的置信区间

【例7.5】计算例7.1资料回归截距和回归系数的95%置信区间95%的样本回归截距落在该区间内95%的样本回归系数落在该区间内2.

μy/x的置信区间和单个y的预测区间不受随机误差的影响【例7.6.1】黏虫孵化历期平均温度为15℃时,历期平均天数为多少天(取95%置信概率)?受随机误差的影响【例7.6.2】某年的历期平均温度为15℃时,该年的历期天数为多少天(取95%置信概率)?3.μy/x和单个y观测值置信区间图示【例7.7】制作例7.1资料μy/x的95%置信区间和单个y的95%预测区间图。

x=时,和sy的估计值取最小值,即μy/x和单个y的估计区间最小。(1)x(2)μy/x的95%置信区间的计算y的95%预测区间的计算(3)(4)(5)[L1,L2](6)sy(7)t0.05sy(8)[L1,L2]1226.71.473.623.130.32.476.020.632.71324.11.243.021.127.22.345.718.429.91421.61.032.519.124.12.245.516.127.11519.10.862.117.021.22.165.313.824.41616.50.741.814.718.32.125.211.421.71714.00.701.712.315.72.105.18.919.21811.50.771.99.613.32.135.26.316.7198.90.912.2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论