版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章方差分析及回归分析§3一元线性回归分析确定性关系:当自变量给定一个值时,就确定应变量的值与之对应。如:在自由落体中,物体下落的高度h与下落时间t之间有函数关系:
变量与变量之间的关系
§3一元线性回归分析例1:人的体重y与身高x之间存在着一定的关系。一般来说,身高越高则体重也越重,但高度相同的人,体重不一定完全相同.例3:消费y
和收入x是有关的,一般来说,收入高的人消费也相对比较高。但同样收入的人,消费不会完全相同.
例2:人的脚掌的长度x与身高y两者也有一定联系,通常脚掌长的人身高也较高,但同样脚掌长度的人身高并不完全相同.相关关系:
这种变量之间既有关联但又不存在确定性数值对应的相互关系,称为相关关系。
相关关系可以归结为两点:一是变量之间存在着关系;二是这种关系又是非确定的,或者说只存在统计规律性。回归分析——研究相关关系的最基本,应用最广泛的方法。(一)一元线性回归相关关系可以这样来描述:当变量X变化时会引起Y相应的变化,但又不能由X的值来确定Y的值。如果当X取一个可能取值x时,Y相应地服从与x有关的一个概率分布,则认为两变量具有相关关系。当自变量取确定的x时,若随机变量Y的期望E(Y)存在,其值与x有关,记为.回归问题的本质是研究,以此来反映Y与X之间的关系,而不是研究Y与X之间的直接关系,这一点应严加区别。现在,我们需要研究两变量x和Y
之间的相关关系。这里,x(自变量)通常是可以控制和可以测量的“普通”变量,Y(响应变量)的值不能根据x
的值完全确定,而遵循一定的分布而取值,是随依赖于x
的一个随机变量。在实际问题中,回归函数μ(x)一般是未知的,需要根据试验数据去估计。由此来推断μ(x),这样的问题称为Y关于x
的回归问题.例1:为研究某化学反应过程中温度(摄氏)对产品得率(%)的影响,测得数据如下:温度(x)100110120130140150160170180190得率(y)45515461667074788589试找出:温度x与产品得率Y之间的关系.描述两个定量变量间关系的一个最直观的方法是绘制两变量的散点图。散点图包括横轴和纵轴。横轴(x轴)代表一个变量,纵轴(y轴)代表另一个变量。图中的点表示两个变量的一对观测。散点图
得率温度为了解释散点图,首先要看它的整体轮廓。它的轮廓可以反映出两个变量间关系的方向、线性关系和关系的强弱。散点图的最大优点是它没有丢失任何数据信息并简化了数据,并且易于制作和解释。正相关、负相关关系:若两个变量的变化趋向相一致,则称两个变量是正相关;若一个变量有向上的趋向,而另一个变量有向下的趋向,则称这两个变量呈负相关。用散点图可显示两个定量变量间关系的方向、线性关系以及关系的强弱程度。如果散点图中的点都在一条直线的附近,则称变量间呈强线性关系;若点较为分散的落在一条直线周围,则称变量间呈弱线性关系散点图有助于粗略了解这两个变量之间的关系。若此关系近似是线性关系,则称此问题为一元线性回归问题。——一元线性回归模型一元线性回归要解决的问题:(二)求回归函数的估计,即求a,b的估计现在的问题是:选择一条直线y=a+bx去拟合n个样本点。即求a,b,使得y=a+bx最接近于所给出的n个数据对。
采用最小二乘法——称之为正规方程组正规方程组的矩阵形式正规方程系数行列式在误差为正态分布假定下,最小二乘估计等价于极大似然估计。事实上,似然函数例2K.Pearson收集了大量父亲身高与儿子身高的资料。其中十对如下:父亲身高x(吋)60626465666768707274儿子身高y(吋)63.665.26665.566.967.167.468.370.170求Y关于x的线性回归方程。备注:“回归一词”是英国统计学家F.Galton在1886年研究遗传现象时引进的。他和他的学生――英国著名统计学K.Pearson研究了儿子身高y与父母亲平均身高x之间的关系。他们收集了1078对夫妇与儿子(每对夫妇只取一个成年儿子)的身高数据,并用一条直线描述y与x之间的关系:人们通常的看法是,双亲的身体高,其子身体也高;父母亲的身高偏矮,儿子的身高也偏矮。但Galton的研究发现,如果双亲平均身高属高个类(高于1078对夫妇平均身高),其子比他们更高的概率就比较小,即儿子以较大的概率比双亲个子矮;反过来,如果双亲平均身高属矮个类,儿子则以较大的概率比双亲个子高。所以平均身高偏高或偏矮的夫妇,其子的身高都有“向中心(父母辈的平均身高)回归”的现象。基于这一事实,Galton把他们所求出的描述儿子身高与双亲身高关系的直线叫做回归直线。虽然“回归”这一现象并没有普遍性,但人们习惯上一直沿用这个术语。
(三)误差方差的估计误差方差估计的意义:误差方差的大小对模型的好坏有很大的影响。自变量对因变量影响的大小是同误差对因变量的影响相比较的。(c)如果自变量对因变量的影响不能显著的超过误差对因变量的影响,就很难从这样的模型中提炼出有效的、有足够精度的信息。
例3:求例2中误差方差的无偏估计。(四)线性假设的显著性检验采用最小二乘法估计参数a和b,并不需要事先知道Y与x之间一定具有相关关系,即使是平面图上一堆完全杂乱无章的散点,也可以用公式求出回归方程。因此μ(x)是否为x的线性函数,一要根据专业知识和实践来判断,二要根据实际观察得到的数据用假设检验方法来判断。若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明Y与x不是线性关系,回归方程无意义。回归效果不显著的原因可能有以下几种:(1)影响Y取值的,除了x,还有其它不可忽略的因素;(2)E(Y)与x的关系不是线性关系,而是其它关系;(3)Y与x不存在关系。例4:检验例2中回归效果是否显著,取α=0.05。(五)回归系数b的置信区间当回归效果显著时,常需要对回归系数b作区间估计。(六)回归函数μ(x)=a+bx函数值的点估计和置信区间(七)Y的观察值的点预测和预测区间注:在预测时,一定要落在已有的的数据范围内部,否则预测常常没有意义。
例5,在例1中F.Galton曾断言“儿子身高会受到父亲身高的影响,但身高偏离父代平均水平的父亲,其儿子身高的影响有回归到子代平均水平的趋势。”试问例1这组数据能证实这一论断吗(α=0.05)?并给出x=69吋时,y的预测区间。(1)回归到平均水平的趋势,即检验
例6合金钢的强度y与钢材中碳的含量x有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了解y与x之间的关系。其中x:碳含量(%)y:钢的强度(kg/mm2)数据见下:x0.030.040.050.070.090.100.120.150.170.20y40.539.541.041.543.042.045.047.553.056.0((1)画出散点图;(2)设μ(x)=a+bx,求a,b的估计;(3)求误差方差的估计,画出残差图;(4)检验回归系数b是否为零(取α=0.05);(5)求回归系数b的95%置信区间;(6)求在x=0.06点,回归函数的点估计和95%置信区间;(7)求在x=0.06点,Y的点预测和95%区间预测。
0.030.050.070.090.110.130.150.170.1956545250484644424038(1)合金钢的强度y与钢材中碳的含量x的散点图
0.030.050.070.090.110.130.150.170.19
0.030.050.070.090.110.130.150.170.1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论