相关与回归课件_第1页
相关与回归课件_第2页
相关与回归课件_第3页
相关与回归课件_第4页
相关与回归课件_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、简单回归授课人:马海燕 相关与回归相关与回归是双变量分析直线相关与回归(最简单的相关与回归)一、直线回归 直线回归(linear regreSSion)是用直线回归方程表示两个数量变量间依存关系的统计分析方法,属双变量分析的范畴。用一个直线方程来定量地描述它们之间的数量依存关系,这就是直线回归分析。 直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变量而变化的,因此分别称为因变量(dependent variable)和自变量(independent variable),习惯上分别用y和x来表示。其中x可以是规律变化的或人为选定的一些数值(非随机变量),也可以是随机变量,前者称为I型

2、回归,后者称为II型回归。 二、直线回归分析的应用条件1.两变量的变化趋势呈直线趋势(linear);2.因变量y属于正态随机变量(normal distribution);3.对于I型要求对于每个选定的X,y都有一个正态分布的总体,并且这些总体的方差都相等(equal variance);对于II型回归,要求x、y服从双变量正态分布。 三、直线回归分析的一般步骤1.将n个观察单位的变量对(x,y)在直角坐标系中绘制散点图,若呈直线趋势,则可拟合直线回归方程。2.求回归方程的回归系数和截矩。3.写出回归方程 ,画出回归直线。4.对回归方程进行假设检验。 四、直线回归方程及其求法(一)方程的形式

3、及意义: 直线回归方程的一般形式为 其中b称为回归系数(coefficient of regression),含义为当x每变化1个单位时,因变量Y平均变化的单数;a称为截矩(intercept),为回归直线或其延长线与y轴交点的纵坐标。 (二)直线回归方程的求法: 方程中的a 和b是两个待定常数,根据样本实测(x,y)计算a 和b的过程就是求回归方程的过程。为使方程能较好地反映各点的分布规律,应该使各实测点到回归直线的纵向距离的平方和最小,这就是最小二乘法(least square method)原理。 To find a straight line to best fit the point

4、s. Residual: Fitness of the regression line: Principle of least squares: To find a straight line that minimizes the sum of squared residuals. Calculate the regression equation of the height of son Y on the height of father X . 1.先求 b:式中lxy为X、Y的离均差积和,lxx为X的离均差平方和; 2.再求a: 五、直线回归方程的假设检验 回归系数的检验亦即是回归关系的

5、检验,又称回归方程的检验,其目的是检验求得的回归方程在总体中是否成立,即是否样本代表的总体也有直线回归关系。即使X、Y的总体回归系数为零,由于抽样误差的原因,其样本回归系数b也不一定为零,因此,需作是否为零的假设检验 (一)方差分析 其基本思想是将应变量Y的总变异SS总分解为SS回归和SS剩余,然后利用F检验来判断回归方程是否成立。 SS总即 ,为Y的离均差平方和(total sum of squares),反映未考虑X与Y的回归关系时Y的变异。 P(X,Y) 应变量Y的平方和划分示意图 X Y 称为剩余或残差 与回归系数的大小有关 上式用符号表示为: SS总=SS回+SS剩 SS回即 ,为回

6、归平方和(regression sum of squares),它反映在Y的总变异SS总中由于X与Y的直线关系而使Y变异减小的部分,也就是在总平方和中可以用X解释的部分。SS回越大,说明回归效果越好,即SS总中可用X与Y线性关系解释的变异越多。 SS剩即 ,为剩余平方和(residual sum of squares),它反映X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和SS总中无法用X解释的部分。 方差分析时的步骤与一般假设检验相同。统计量F的计算 。总=回+剩 总=n-1, 回=1, 剩=n-2 (二)t检验其基本思想是利用样本回归系数b与总体均数回归系数进行比较来判断回

7、归方程是否成立,实际应用中因为回归系数b的检验过程较为复杂,而相关系数r的检验过程简单并与之等价,故一般用相关系数r的检验来代替回归系数b的检验。 统计量t的计算公式为Sb为样本回归系数的标准误;SY.X为剩余标准差(residual standard deviation),它是指扣除了X对Y的线性影响后,Y的变异,可用以说明估计值 的精确性。 说明:两种检验方法是等价的,F=t2 六、直线回归的区间估计根据参数估计原理,回归系数b是总体回归系数的点估计,正像样本均数不一定恰好等于总体均数一样,需要对总体回归系数进行区间估计。 (二) 的区间估计 指总体中自变量X为某一定值X0时,的总体均数。

8、对 的估计可计算可信区间: (三)个体Y值的容许区间总体中,X为一定值时,个体Y值的波动范围 七、直线回归方程的应用(一)定量描述两变量之间的依存关系对回归系数b进行假设检验时,若 ,可认为两变量间存在直线回归关系,则直线回归方程即为两个变量间依存关系的定量表达式。 (二)利用回归方程进行预测 把预报因子(即自变量x)代入回归方程对预报量(即因变量Y)进行估计,即可得到个体Y值的容许区间。 (三)利用回归方程进行统计控制 规定Y值的变化,通过控制X的范围来实现统计控制的目标,所以统计控制是利用回归方程进行的逆估计。 某市环境监测站在某交通点连续测定30天,每天定时采样3次,发现大气中NO2浓度

9、Y(mg/m3)与当时的汽车流量X(辆/小时)呈直线关系,根据90对观测数据求得回归方程 ,剩余标准差 。若NO2最大容许浓度为0.15mg/m3,则汽车流量应如何控制?设=0.05。 =0.05,=90-2=88,查表得单侧t0.05(88)=1.6624。由于本例未给出每小时汽车流量的均数及 ,且样本含量较大,故以 代替 ,计算个体Y值单侧95%容许区间的上限:解得X=1209,即只要把汽车流量控制在1209辆/小时以下,那么就有95%可能使NO2不超过最大容许浓度0.15mg/m3。 (四)应用直线回归的注意事项1.作回归分析要有实际意义,不能把毫无关联的两种现象,随意进行回归分析,忽视

10、事物现象间的内在联系和规律;如对儿童身高与小树的生长数据进行回归分析既无道理也无用途。 (四)应用直线回归的注意事项2直线回归分析的资料,一般要求应变量Y是来自正态总体的随机变量,自变量X可以是正态随机变量,也可以是精确测量和严密控制的值。若稍偏离要求时,一般对回归方程中参数的估计影响不大,但可能影响到标准差的估计,也会影响假设检验时P值的真实性。 (四)应用直线回归的注意事项3进行回归分析时,应先绘制散点图(scatter plot)。若提示有直线趋势存在时,可作直线回归分析;一般说,不满足线性条件的情形下去计算回归方程会毫无意义,最好采用非线性回归方程的方法进行分析。 (四)应用直线回归的注意事项4绘制散点图后,若出现一些特大特小的离群值(异常点),则应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除。 5回归直线不要外延。 残差分析(检验应用条件)线性相关于回归的联系与区别1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论