统计学:第六章 相关分析和回归分析_第1页
统计学:第六章 相关分析和回归分析_第2页
统计学:第六章 相关分析和回归分析_第3页
统计学:第六章 相关分析和回归分析_第4页
统计学:第六章 相关分析和回归分析_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Chapter6相关分析和回归分析子代与父代一样吗?Galton被誉为现代回归和相关技术的创始人。1875年,Galton利用豌豆实验来确定尺寸的遗传规律。他挑选了7组不同尺寸的豌豆,并说服他在英国不同地区的朋友每一组种植10粒种子,最后把原始的豌豆种子(父代)与新长的豌豆种子(子代)进行尺寸比较当结果被绘制出来之后,他发现并非每一个子代都与父代一样,不同的是,尺寸小的豌豆会得到更大的子代,而尺寸大的豌豆却得到较小的子代。Galton把这一现象叫做“返祖”(趋向于祖先的某种平均类型),后来又称之为“向平均回归”。案例分析相关关系与因果关系一家研究机构有一项惊人的发现:统计数据显示,脚长的儿童拼写能力比脚短的儿童强。原来他们调查的是一群年龄不同的儿童,脚长的儿童比脚短的儿童年龄大!赶快回去量一下儿子的脚长我要把脚拉长一点!本章重点相关分析与回归分析的联系与区别相关系数与回归系数的计算与换算一元线性回归第一节相关分析

一、相关的概念和种类(correlation)二、相关关系的判断三、相关关系的测定一、相关的概念和种类

世界是普遍联系的有机整体,现象之间存在着相互依存、相互制约的关系。比如:价格上升,供应量增加,而消费量减少;投入的学习时间一般影响学习成绩的好坏;降低利率会引起存款下降而股价上涨等等,每一个现象的运动、变化和发展都与周围的现象相互联系、相互影响。是一一对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,

y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上

xy

函数关系与相关关系(一)函数关系函数关系的例子1、某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)2、圆的面积(S)与半径之间的关系可表示为S=R2

3、企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3

变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量x取某个值时,变量y的取值可能有几个不必确定哪个为因变量,哪个为自变量各观测点分布在直线周围

xy(二)相关关系相关关系的例子商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系现象间的依存关系大致可以分成两种类型:函数关系指现象间所具有的严格的确定性的依存关系相关关系指客观现象间确实存在,但数量上不是严格对应的依存关系函数关系与相关关系之间并无严格的界限:有函数关系的变量间,由于有测量误差及各种随机因素的干扰,可表现为相关关系;对具有相关关系的变量有深刻了解之后,相关关系有可能转化为或借助函数关系来描述。⒈按涉及变量的多少分为相关关系的种类⒉按照表现形式不同分为⒊按照变化方向不同分为一元相关多元相关直线相关曲线相关负相关正相关相关关系的分类定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度二、相关关系的测定简单相关表适用于所观察的样本单位数较少,不需要分组的情况分组相关表适用于所观察的样本单位数较多标志变异又较复杂,需要分组的情况将现象之间的相互关系,用表格的形式来反映。相关表相关表序号

广告(万)

利润(万)123456232458101520305550合计24180表6.1某企业六个月的广告和利润正相关负相关曲线相关不相关xyxyxyxy又称散点图,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。相关图相关图图6.1某企业六个月的广告和利润在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标,用r

表示相关系数序号

广告支出增加收入1210-2-204044002315-1-151512253220-2-10204100443000000555512525162568504208016400合计2418000180261750【例6-1】某公司广告支出和收入增加相关关系如表计算相关系数得:

【说明】(1)参与相关分析的两个变量是对等的,不分自变量和因变量(2)相关系数仅反映两个变量的线性相关程度(3)相关系数有正负号反映相关关系的方向,正号反映正相关,负号反映负相关(4)相关系数的大小介于[-1,1]之间,0为完全不相关,1、-1为完全相关,越靠近1、-1说明相关程度越高相关系数r的取值范围:-1≤r≤1r>0为正相关,r<0为负相关;|r|=0表示不存在线性关系;|r|=1表示完全线性相关;0<|r|<1表示存在不同程度线性相关:|r|≤0.3为相关关系微弱;0.3<|r|≤0.5为低度线性相关;0.5<|r|≤0.8为显著线性相关;0.8<|r|≤1.0为高度线性相关。是相关系数的平方,用表示;用来衡量回归方程对y的解释程度。判定系数取值范围:

越接近于1,表明x与y之间的相关性越强;越接近于0,表明两个变量之间几乎没有直线相关关系.判定系数▲课堂练习现场随机抽取30位同学的身高体重资料,计算相关系数。第二节一元回归分析一、回归分析的概念和种类(Regression)二、回归分析与相关分析的关系三、一元线性回归

一、回归分析的概念和种类

“回归(Regression)”名称的由来归功于英国统计学家F.Galton(1822—1911年)。F.Galton和他的学生、现代统计学的奠基者之一K.Pearson(1856—1936年)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇的平均身高作为解释变量X,而取他们的一个成年儿子的身高作为被解释变量Y,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出的回归直线方程为。这种趋势及回归方程表明父母身高X每增加一个单位时,其成年儿子的身高Y也平均增加0.516个单位。

这个结果表明,虽然高个子父辈有生高个子儿子的趋势,但父辈身高增加一单位,儿子身高仅增加半个单位左右。平均来说,一群高个子父辈的儿子们的平均身高要低于他们父辈的平均身高,他们儿子的身高没有比他们更高,高个子父辈偏离其父辈平均身高的一部分被其子代拉回来了,即子代的平均高度向中心回归了。但是,低个子父辈的儿子们虽然仍为低个子,平均身高却比他们的父辈增加了,即父辈偏离中心的部分在子代被拉回来一些。就是说,子代的平均高度没有比他们的父辈更低。

正是因为子代的高有回到父辈平均身高的这种趋势,才使人类的身高在一定时间内相对稳定,没有出现父辈个子高其子女更高,父辈个子矮其子女更矮的两极分化现象。F.Galton用他最有说服力且最风趣的一段话来概括了这个结论:孩子的遗传一部分来自父母,一部分来自祖先。家谱向前推得越远,其祖先越多样越不同,直到他们成为从一个大种族随机抽取的多样性的样本为止。这个规律解决了为何天才无法全部遗传给其后代的问题..这个规律是公正的;无论好的方面还是坏的方面的遗传都会打相同的折扣。

如果它使一些有天赋的父母期待其子女也很有天赋的愿望化为泡影,那么它同样也会使另一些父母减少担心,因为他们的子女同样也不会全部继承他们的缺陷和疾病。这生动地说明了生物学中“种”的概念的稳定性。正是为了描述这种有趣的现象,F.Galton引进了“回归(regression)”这个词来描述父辈身高X与子代身高Y的关系回归分析的概念

回归分析是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定一个相应的数学表达式,以便从一个已知量来推测另一个未知量,为估计预测提供一个重要的方法。回归分析的种类一元回归(简单回归)多元回归(复回归)线性回归非线性回归一元线性回归SimpleLinearregression按自变量的个数分⒈按回归曲线的形态分⒉回归分析与相关分析理论和方法具有一致性;无相关就无回归,相关程度越高,回归越好;相关系数和回归系数方向一致,可以互相推算。联系:相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;相关分析中x、y均为随机变量,回归分析中只有y为随机变量;相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。回归分析与相关分析区别:一元线性回归模型对于经判断具有线性关系的两个变量y与x,构造一元线性回归模型为:假定E(

)=0,有总体一元线性回归方程:一元线性回归方程的几何意义截距斜率一元线性回归方程的可能形态

为正

为负

为0总体一元线性回归方程:样本一元线性回归方程:以样本统计量估计总体参数斜率(回归系数)截距截距a

表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b

表明自变量x每变动一个单位,因变量y平均变动b个单位。(估计的回归方程)(一元线性回归方程)随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。参数的最小二乘估计

(methodofleastsquares)德国科学家KarlGauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数

使因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法。即用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小KarlGauss的最小化图xy(xn,yn)(x1,y1)

(x2,y2)(xi,yi)ei=yi-yi^

参数的最小二乘估计

(

和的计算公式)

根据最小二乘法,可得求解和的公式如下

如前例,如果要建立增加收入关于广告投入的回归方程,则

即回归方程为如要预测当广告支出为5时增加的收入,则练习以政治为因变量拟合线性回归方程;以语文为因变量拟合线性回归方程;比较两条回归方程,两者互为反函数吗?语文78659283705589政治69728676785080表7位学生的语文和政治成绩最小二乘法估计的优良性质残差之和为零所拟合直线通过样本散点图的重心误差项与解释变量不相关a与b分别是总体回归系数的无偏估计量a与b均为服从正态分布的随机变量b与r的关系:r>0r<0r=0b>0b<0 b=0练习相关系数和回归系数

有x、y两个相关变量,如果x的标准差是y的标准差的两倍,而x的方差是x与y的协方差的三倍,求相关系数r和回归系数b

回归估计标准差是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值代表性的强弱;其值越小,回归方程的代表性越强,用回归方程估计或预测的结果越准确。在大样本条件下,可用公式计算:误差平方和回归平方和总离差平方和总离差平方和(TotalDeviationSumofSquares)

——观测值与其平均值的偏差平方和回归平方和(RegressionSumofSquares)

——回归值与观测值的平均值之差的平方和,它反映了自变量的变化所引起的对y的波动,它的大小反映了自变量x的重要程度。误差平方和(ResidualSumofSquares)——是y的实际值与回归值之差的平方和,它由实验误差以及未加控制的因素引起,他的大小反映了实验误差及其他随机因素对实验结果的影响。

判定系数

在总的离差平方和中的回归平法和所占的比重越大,则线性回归效果就越好,这说明回归直线与样本观测值拟合优度(Goodnessoffit)就越好。判定系数与相关系数的关系判定系数与相关系数的区别:判定系数无方向性,相关系数则有方向,其方向与样本回归系数b相同;判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向;相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的度量值。判定系数和估计标准误判定系数和估计标准误差之间有如下的数量联系证明上面的式子第三节多元回归分析一、多元回归(复回归)

二、非线性回归

一、多元线形回归除了一元回归以外,还可以建立一个因变量和多个自变量的多元回归方程,如以n元线性回归为例,可以建立以下方程:跟一元回归一样,要求的上述回归方程,只要求出相应的系数即可,如何求这些系数呢?可以回忆一下一元线性回归方程的系数求解过程。可以推断,二元线性回归方程的系数满足一样的形式:[例]在一项小麦产量与施肥量及降雨量的关系调查中,假设得出7个实验观察值,如下表:施肥量X1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论