第10章 直线回归与相关分析_第1页
第10章 直线回归与相关分析_第2页
第10章 直线回归与相关分析_第3页
第10章 直线回归与相关分析_第4页
第10章 直线回归与相关分析_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章直线回归与相关分析&10.1回归和相关分析概述&10.2直线回归分析&10.3直线相关分析&10.1回归和相关分析概述一、变量间的关系分为两类:函数关系:完全确定性的关系——可用精确的数学式来表示;统计关系:不存在完全确定性的关系——不能用精确的数学式来表示。统计关系这一类变量间的关系就是统计学中回归分析与相关分析所要讨论的问题。常用x、y来表示两个变量,(x,y)的各对观察值用(x1,y1),(x2,y2),…,(xn,yn)表示。在统计上,x和y变量的关系有两种理论模型:回归模型和相关模型。回归模型(因果关系)中:x表示原因的变量;y是表示结果的变量。回归分析目的:导出由x来预测或控制y的回归方程,即确定当自变量x为某一值时依变量y将会在什么范围内变化。二、回归、相关分析的任务与类型在相关模型中,其x和y变量是平行变化关系,不能区别哪一个是自变量,哪一个是依变量。相关分析目的:确定两个变量在数量关系上的密切程度和性质。不能用一个或多个变量去预测、控制另一个变量的变化。回归分析的类型:一元回归分析(直线和曲线回归分析);多元回归分析(多元线性回归分析和曲面回归分析)。相关分析的类型:直线相关分析;复相关分析。偏相关分析。三、两个变数资料的散点图对具有统计关系的两个变数的资料进行初步考察的简便而有效的方法,是将这两个变数的n对观察值(x1,y1)、(x2,y2)、…、(xn,yn)分别以坐标点的形式标记于同一直角坐标平面上,获得散点图(scatterdiagram)。例如:根据散点图可初步判定双变数X和Y间的关系:①X和Y相关的性质(正或负)和密切程度②X和Y的关系是直线型的还是非直线型的③是否有一些特殊的点表示着其他因素的干扰&10.2直线回归分析一、直线回归方程的建立二、直线回归的显著性检验三、直线回归的区间估计一、直线回归方程的建立设变量x与y间存在直线关系,根据n对观察值所描出的散点图如下。图9—2直线回归散点图总体直线回归方程:y=α+βx实际观察值可表示为:

yi=α+βxi+

i(i=1,2,…,n)

i为随机误差,与α、β相互独立,且服从N(0,

2)。这就是直线回归的数学模型根据样本实际观察值对α、β以及误差方差

2作出估计,即建立样本回归方程并估计出误差的大小。设样本直线回归方程为:总体直线回归方程:y=α+βx其中a是

的估计值,称为回归截距;b是β的估计值,称为回归系数,表示自变量每改变一个单位数时,依变量y平均改变的单位数(b>0时,增加;b<0时,减少)是

+βxi的估计值回归方程的基本条件(性质):

性质1最小;性质2;性质3回归直线通过点。利用最小二乘法,即Q最小的方法求a与b的值。根据微积分学中求极值的原理,将Q对a与b求偏导数并令其等于0:整理后可得:上式叫做a与b的正规方程组。简记为:解之可得:x与y的离均差乘积和,简称为乘积和,记为SPxy。记ssx=∑x2-(∑x)2/n,则a、b是α、β的最小二乘估计也是无偏估计。例[9.1]一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬旬平均温度累积值(x,旬.度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于表9.1。试计算其直线回归方程。表9.1累积温和一代三化螟盛发期的关系SAS分析解:上述方程中回归系数b和回归截距a的意义为:b=-1.1当3月下旬至4月中旬的积温(x)每提高1旬·度时,一代三化螟的盛发期平均将提早1.1天;a=48.5若积温为0,则一代三化螟的盛发期将在6月27—28日(x=0时,=48.5;因y是以5月10日为0,故48.5为6月27—28日)。由于x变数的实测区间为[31.7,44.2],在应用=48.5-1.1x于预测时,需限定x的区间为[31.7,44.2];如要在x<31.7或>44.2的区间外延,则必须有新的依据。二、直线回归的显著性检验回归关系的假设测验:对于样本的回归方程,必须测定其来自无直线回归关系总体的概率大小。只有当这种概率小于0.05或0.01时,我们才能冒较小的危险确认其所代表的总体存在着直线回归关系。这就是回归关系的假设测验。回归关系的假设测验有两种方法:t测验或F测验1、回归系数显著性检验──t检验对直线回归系数b的假设检验为:HO:β=0;HAβ≠0。在HO成立的条件下,回归系数b服从t分布。其中,为回归系数标准误。[例9.3]试测验例9.1资料回归关系的显著性。已算得b=-1.0996,SSx=144.6356,sy/x=3.266,故有:

查附表4,t0.05,7=2.36,t0.01,7=3.50。|t|=4.05>t0.01,7=3.50,接受HA:≠0结论:认为积温和一代三化螟盛发期是有真实直线回归关系的。或者说此b=-1.0996是极显著的。2.回归关系显著性检验──F检验图9-4的分解图直线回归的变异来源上式中:回归平方和,它是由x的不同而引起的.df回归=1

df离回归=n-2离回归平方和:Df总=n-1

总平方和:已算得SSX=144.6356SSy=249.5556SP=-159.044解:回归平方和离回归平方和:[例9.4]试用F测验法检测例9.1资料回归关系的显著性。表9.3例9.1资料回归关系的方差分析结论:表明积温和一代三化螟盛发期是有真实直线回归关系的,即β≠0(准确地说,在β=0的总体中获得现有回归样本的概率小于0.01)。统计学已证明,在直线回归分析中F检验与t检验法是等价的,可任选一种进行检验。特别要指出的是:利用直线回归方程进行预测或控制,一般只能内插,不要轻易外延。离回归标准差:统计意义:p162三、直线回归的区间估计1.直线回归的抽样误差在直线回归总体中抽取若干个样本时,由于,各样本的a、b值都有误差。因此,由=a+bx给出的点估计的精确性,决定于SY/X和a、b的误差大小。比较科学的方法:给出对其总体的等的置信区间。、2.回归截距的置信区间a的标准误为:总体回归截距α有95%可靠度的置信区间为:

3.回归系数的置信区间b的标准误为:总体回归系数β有95%可靠度的置信区间为:

4.条件总体平均数的置信区间:样本估计值的标准误为:的置信区间:5.条件总体预测值的置信区间:单个预测值的估计标准误为:Y(P)的置信区间:[例9.6]测定迟熟早籼广陆矮4号在5月5日至8月5日播种时(每隔10天播一期),播种至齐穗的天数(x)和播种至齐穗的总积温(y,日·度)的关系列于表9.5,试计算:(1)回归方程及其显著性测验;(2)其回归截距和回归系数95%可靠度的置信区间。

表9.5广陆4号播种至齐穗天数(x)和总积温(y)的关系(1)(2)其回归截距和回归系数95%可靠度的置信区间。例[9.1]一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬旬平均温度累积值(x,旬.度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于表9.1。表9.1累积温和一代三化螟盛发期的关系(1)计算其直线回归方程,并进行回归显著性测验。(2)当3月下旬至4月中旬的积温为40旬·度时,历年的一代三化螟平均盛发期在何时(取95%可靠度)?(3)某年3月下旬至4月中旬的积温为40旬·度,试估计该年的一代三化螟盛发期在何时(取95%可靠度)?(2)当3月下旬至4月中旬的积温为40旬·度时,历年的一代三化螟平均盛发期在何时(取95%可靠度)?(3)某年3月下旬至4月中旬的积温为40旬·度,试估计该年的一代三化螟盛发期在何时(取95%可靠度)?进行直线相关分析的基本任务在于根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量——相关系数r并进行显著性检验。&10.3直

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论