![统计学之相关分析的意义与任务课件_第1页](http://file4.renrendoc.com/view/a01ee2cc110c387ea4558abf72a2ee5d/a01ee2cc110c387ea4558abf72a2ee5d1.gif)
![统计学之相关分析的意义与任务课件_第2页](http://file4.renrendoc.com/view/a01ee2cc110c387ea4558abf72a2ee5d/a01ee2cc110c387ea4558abf72a2ee5d2.gif)
![统计学之相关分析的意义与任务课件_第3页](http://file4.renrendoc.com/view/a01ee2cc110c387ea4558abf72a2ee5d/a01ee2cc110c387ea4558abf72a2ee5d3.gif)
![统计学之相关分析的意义与任务课件_第4页](http://file4.renrendoc.com/view/a01ee2cc110c387ea4558abf72a2ee5d/a01ee2cc110c387ea4558abf72a2ee5d4.gif)
![统计学之相关分析的意义与任务课件_第5页](http://file4.renrendoc.com/view/a01ee2cc110c387ea4558abf72a2ee5d/a01ee2cc110c387ea4558abf72a2ee5d5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本资料来源本资料来源第七章相关分析§1相关分析的意义和任务§2简单线性相关§3回归分析§4估计标准误差第七章相关分析§1相关分析的意义和任务§1相关分析的意义与任务一、函数关系与相关关系例如:半径与圆面积的关系工资水平与社会商品零售额的关系良种比重与收获量的关系沸点(100度)(a+b)2=a2+2ab+b2砖头的抗压强度与抗折强度函数关系函数关系函数关系相关关系(因果)相关关系(因果)相关关系§1相关分析的意义与任务函数关系函数关系函数关系相关关现象之间的关系一般可以区分为两种不同的类型:函数关系:当一个或几个变量取一定值时,另一个变量有确定值与之相对应,这种关系称为确定性的函数关系。
[在函数关系中,一般把作为影响因素的变量称为自变量(x);把发生对应变化(结果)的变量称为因变量(y)。]相关关系:当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。现象之间的关系一般可以区分为两种不同的类型:函数关系:当一个函数关系与相关关系是两种不同类型的关系,但两者之间并不存在严格的界限。由于在观察或实验中出现的误差,函数关系也就通过相关关系反映出来;而当对现象之间的内在联系和规律性了解得更加清楚的时候,相关关系就可能转化为函数关系。在相关关系中,通常存在一定的因果关系。但也应该知道,在相关关系中,有时两个变量之间只存在相互联系而并不存在明显的因果关系。函数关系与相关关系是两种不同类型的关系,但两者之间并不存在严二、相关关系的种类按相关的程度划分为:完全相关(函数关系)、不完全相关和不相关;按相关的方向划分为:正相关和负相关;按相关的形式划分为:线性相关(直线关系)和非线性相关;按所研究的变量多少可分为:单相关、复相关和偏相关。二、相关关系的种类按相关的程度划分为:完全相关(函数关系)、按相关程度划分为:完全相关:当一个现象的数量变化完全由另一个现象的数量变化所决定时,这两种现象间的关系就为完全相关(函数关系)。如:半径与圆面积之间的关系。不相关:当两个现象彼此互不影响,其数量变化各自独立时,这两种现象间的关系就为不相关。如:股票价格与人的平均寿命之间的关系。不完全相关:当现象之间的关系介于完全相关和不相关之间时,这两种现象间的关系就为不完全相关。如:居民的收入水平与恩格尔系数之间的关系。按相关程度划分为:完全相关:当一个现象的数量变化完全由另一个按相关的方向划分为:正相关:当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关。如:职工的工资水平应随劳动生产率的提高而增加。负相关:当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关。如:随着销售额的增加,流通费用率下降按相关的方向划分为:正相关:当一个现象的数量由小变大,另一个按相关的形式划分为:线性相关:当两种相关现象之间的关系大致呈现为线性关系时,称之为线性相关(直线相关)。如:人们的消费水平与收入水平之间的关系。非线性相关:当两种相关现象之间近似于某种曲线方程的关系时,则这种相关关系称为非线性关系。如:产品的平均成本与产品产量之间的关系。按相关的形式划分为:线性相关:当两种相关现象之间的关系大致呈按所研究的变量多少划分为:单相关:两个现象的相关,即一个变量对另一个变量的相关关系。如:投资额与国内生产总值之间的关系。复相关:当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。如:某种商品的销售额与其价格水平和人们收入水平之间的相关关系。偏相关:在某一现象与多种现象相关的场合,假定其它变量不变时,其中两个变量的相关关系称为偏相关。如:在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。按所研究的变量多少划分为:单相关:两个现象的相关,即一个变量三、相关分析与回归分析:这是两种研究现象相关关系的基本方法。(一)、相关分析所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。(二)、回归分析所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。三、相关分析与回归分析:这是两种研究现象相关关系的基本方法。回归(Regression):
回归一词,最初是英国生物学家F.Golton在研究遗传学的论文中所采用的词汇(1877年)。他在研究中发现,具有较高身躯的双亲,或具有较矮身躯的双亲,其子女的身高均表现出退回(即回归)到人的平均身高的趋势。他在这一研究中所建立的数学公式被称为回归方程式,其涵义应是关系方程式或估计方程式,但基于历史的原因,通常仍沿用回归方程式这一提法。回归(Regression):回归一词(三)、相关分析与回归分析的联系相关分析与回归分析不仅具有共同的研究对象,而且在具体应用时,常常必须相互补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式。回归分析需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。因此,相关分析与回归分析被合称为广义的相关分析。(三)、相关分析与回归分析的联系相关分析与回归分析不仅具有共(四)、相关分析与回归分析的区别:研究目的不同:相关分析是研究变量之间相关的方向、相关程度和相关形式。回归分析是研究变量之间相互关系的具体形式,即:当一个变量发生数量上的变化时,另一个变量平均会发生什么样的变化。研究方法不同:相关分析是通过计算相关系数或相关指数来判断变量之间的相关关系。回归分析是通过数学模型来确定变量之间的具体的数量关系。变量的性质不同:在相关分析中,不用确定谁是自变量,谁是因变量,且所有变量都是随机变量。在回归分析中,必须事先确定在具有相关关系的变量中,谁是自变量和谁是因变量。一般来说,自变量是给定的非随机变量(一般变量),因变量是随机变量。(四)、相关分析与回归分析的区别:研究目的不同:相关分析四、相关表和相关图(一)、居民消费和收入的相关表消费支出15203040425360657078可支配收入18254560627588929998单位:百元四、相关表和相关图(一)、居民消费和收入的相关表消费支出15可支配收入消费支出(二)、消费与收入的相关图可支配收入消费支出(二)、消费与收入的相关图§2简单线性相关分析相关系数:用于判断线性相关关系。用积差法进行计算。相关指数:用于判断所有相关关系,包括线性和非线性的相关关系。但要用回归系数b判别其相关方向。§2简单线性相关分析相关系数:用于判断线性相关关系。用一、相关系数(r):相关系数是在直线相关的条件下,说明两个现象之间相关关系密切程度的统计指标。相关系数的取值范围,是在-1和+1之间。计算结果r>0为正相关,r<0为负相关。相关系数的数值越接近于1(+1或-1),表示相关关系越强。越接近于0,相关关系越弱。如果r=0,则表明两个现象之间完全没有直线相关关系。(但并不表明两个现象之间没有非线性相关)相关系数的绝对值r
在0.3以下是无直线相关,在0.3—0.5是低度直线相关,在0.5—0.8是显著相关,0.8以上是高度相关。一、相关系数(r):相关系数是在直线相关的条件下,说明两个现计算相关系数的方法(积差法):·
···········(xy)ⅠⅡⅢⅣ计算相关系数的方法(积差法):·根据计算结果可以知道:在第一、三象限中,∑(x-x)(y-y)>0,为正值;在第二、四象限中,∑(x-x)(y-y)<0,为负值;根据计算结果可以知道:在第一、三象限中,
但∑(x-x)(y-y)的大小受变量值个数多少的影响,同样的两个现象会因为变量值个数的多少而出现计算结果的不一致。因此,需要消除计算结果受变量值个数多少的影响。方法就是:将计算结果除以变量值的个数n。但∑(x-x)(y-y)的大小受变量值协方差的作用:显示x与y是正相关,还是负相关。相关系数的正负完全取决于协方差的正负。显示x与y相关程度的大小。协方差的绝对值小,表示相关程度低;协方差的绝对值大,表示相关程度高。协方差的作用:显示x与y是正相关,还是负相关。相关系
但x与y的协方差是名数,不同现象的变异情况不同,相关程度不能直接以协方差大小加以比较。需要以x与y的标准差加以标准化,使协方差化为无名数,使相关系数可以比较不同现象相关程度的高低。而且以x与y的标准差加以标准化以后,使相关系数的绝对值不超过1。但x与y的协方差是名数,不同现象的变异情况不统计学之相关分析的意义与任务举例说明相关系数的计算:编号xyxyx2y21541926420381274832659127692287962689725910227101022811106311212331131293414138381515836合计15164234463216365412311例:观察收入水平提高对用于食品支出的影响。设:收入水平为x,食品支出为y。举例说明相关系数的计算:编号xyxyx2y215419264根据资料做散点图:收入水平食品支出根据资料做散点图:收入水平食品支出
从计算结果可以知道,收入水平与用于食品的支出成高度的正相关。从计算结果可以知道,收入水平与用于食品的支出§3一元线性回归分析在相关分析中,已知两个变量之间有直线相关关系。就需要确定一个数学表达式反映因变量与自变量之间的关系。有了这种数学表达式就便于进行解析,当有了自变量的一定数值,就可以估计因变量的数值平均来说将会有怎样的变动。这样的数学表达式称为回归方程式。由于变量之间关系的复杂性,回归方程式也有多种类型和形式。一元线性回归方程式是指一个自变量且相关形式为直线。§3一元线性回归分析在相关分析中,已知两个变量之间有举例说明其研究方法:编号xyxyx2yc1541919.722642021.523812724.584832624.945912726.386922826.567962627.288972527.4691022728.36101022828.36111063129.0812123313222141383834.84151583638.44合计151642344632163654422.88举例说明其研究方法:编号xyxyx2yc1541919.72设:x(自变量)为人均月收入水平,
y(因变量)为人均月食品支出额。从前面的相关分析中,已经看出两个变量之间是线性趋势,因此,可以通过一个线性方程式来表达这种关系:a、b是回归方程的待定参数,其中b称为回归系数。设:x(自变量)为人均月收入水平,
y(因变对研究线性关系来说,回归方程式应当满足这样的要求:
根据方程所确定的估计值应能代表所有观察值y的全体,而按照求出的估计直线与各观察点之间应达到最大限度的接近,也就是说,用这条直线来代表y与x的关系,它和实际数据的误差比任何其他直线都小,这样一来,根据回归方程所求的直线就是反映y与x之间的关系的较为合理的一条直线。对研究线性关系来说,回归方程式应当满足这样的要求:利用最小二乘法估计待定系数a和b:
a:是截距,表示当x等于0时,y=a;
b:是斜率,表示x每增加一个单位时,y所平均增加的数值。也是回归系数,它与相关系数r
的取值方向一致:
b为正值时,r为正,表示正相关;
b为负值时,r为负,表示负相关。利用最小二乘法估计待定系数a和b:a:是截距,表示当x等于一元线性回归方程的具体求法:一元线性回归方程的具体求法:a=9.99元,表示当没有任何收入时,人均用于
食品的支出需要9.99元。
b=0.18元,表示每增加一元的收入,人均用于
食品的支出平均会增加0.18元。b为
正值,表示收入水平与食品支出的
关系为正相关。将人均收入水平(x)代入回归方程式,计算得到估计值,将其结果填入统计表。我们可以看到因变量(y)的观察值和估计值并不一致,存在差异。这个差异的大小就是衡量直线方程式对所有观察点的代表性的标准。a=9.99元,表示当没有任何收入时,人均用于
§4估计标准误差与相关指数
回归方程反映了因变量与自变量之间的变动关系。但它本身并不能反映拟合程度的好坏,在建立方程之后,需要进一步分析估计直线的代表性,所有观察点与估计值之间的离差程度等,这就需要建立一些指标来加以测定。§4估计标准误差与相关指数回归方程一、离差平方和的分解
所有观察值y是上下波动的,y取值的这种波动的现象称为变差。产生变差的原因是:受自变量变动的影响,即x取值的不同;其他因素的影响。为了分析这两个方面的影响,需要对总变差进行分解,即:一、离差平方和的分解所有观察值y是上下xy0xy0统计学之相关分析的意义与任务总变差的分解:
:根据线性方程,可以把它看作是由于x的变动所引起。因此,反映了在y的总变差中由于x与y的线性依存关系而引起y的变化部分,即总变差的变化中被判明或已经解释了的部分,称为回归变差,记作U。
:是每个观察点距回归直线离差的平方和。根据最小二乘法原理,这个量是在所有的直线中与观察点距离平方和最小的一个,它反映的是除了x对y的线性关系影响之外的一切因素对y的影响部分,称为剩余变差,或未解释的变差,记为Q。总变差的分解::根据线性方程,可以y0y0二、估计标准误差:二、估计标准误差:从定义上看,它是观察值y与估计值y的平均离差。在回归分析中,Sq则反映了所有观察值y对估计值y的平均差异程度。从回归方程的意义中知道,对给定的自变量x值,观察值y并非总在回归直线上,而是分布在它的周围,这样就必然形成一定的离差。从直观上看,它反映的是观察值y与估计值y之间的离差,而在它的背后则是反映由自变量x来估计因变量y时所产生的误差。若是这个离差的值愈小,即按照给定的x值来估计y的误差愈小,因而y的准确程度愈高;相反,若是这个离差的值愈大,从直观上看就是各观察点离开直线愈远,这时按给定的x值来估计y值,其误差就愈大,因而y的准确程度降低。从这个意义上说,这个标准离差通称为回归估计标准误差。从定义上看,它是观察值y与估计值y的平均离差。在回归分析中,回归估计标准误差的计算公式:说明:观察值y与估计值y的平均差异程度是1.91元。回归估计标准误差的计算公式:说明:观察值y与估计值y的平均差根据正态分布的性质:趋势值(预测值)落在下列区间的概率是:落在y±Sq的区间内约占总次数的68.27%;落在y±2Sq的区间内约占总次数的95.45%;落在y±3Sq的区间内约占总次数的99.73%;根据正态分布的性质:趋势值(预测值)落在下列区间的概率是:三、判定系数与相关系数回归变差U,从意义上讲,就是在影响总变差的因素当中已被查明或已被解释了的部分,也就是自变量x影响的部分。当Q的数值愈小,而U的数值愈大,即表明总变差中已被判明或被解释了的因素(x)占的比率大,在图形上表现为所有观察点离回归直线愈近,因而也就表示x与y的关系愈密切。如果所有观察点全在回归直线上,则y=y,即总变差等于回归变差,剩余变差等于零。这时产生的总变差完全是由x的变动所引起的,这就是完全相关。但在一般情况下,对相关关系,除自变量的影响而外,还有其他未判明的因素起作用,其观察点的分布不是在回归直线上,而是分布在它的周围,并表现出上下波动的状况。三、判定系数与相关系数回归变差U,从意义上讲,就是在影响总变在这种情况下,关系的密切程度主要根据U对总变差的比率大小而异:若U对总变差的比率逐渐增大,则相关关系随之增加,并逐渐趋于完全相关;若U对总变差的比率逐渐减少,则相关关系随之减小,并逐渐趋近于零相关。由此可见,通过比较U与总变差的关系及其比率的变动,可以反映已判明因素在总变差中所占比率的大小,反映x与y之间的密切程度。现在以总变差为基数,计算U对总变差的比率,并以R2表示。在这种情况下,关系的密切程度主要根据U对总变差的比率大小而判定系数(相关指数、可决系数)(R)判定系数是反映相关关系密切程度的重要指标,不论是线性相关或非线性相关都可以运用。在非线性中常用R表示,以与线性相关系数r相区别。判定系数R只能取正值,判别相关方向要靠回归系数b。判定系数(相关指数、可决系数)(R)判定系数是反映相关关系密本资料来源本资料来源第七章相关分析§1相关分析的意义和任务§2简单线性相关§3回归分析§4估计标准误差第七章相关分析§1相关分析的意义和任务§1相关分析的意义与任务一、函数关系与相关关系例如:半径与圆面积的关系工资水平与社会商品零售额的关系良种比重与收获量的关系沸点(100度)(a+b)2=a2+2ab+b2砖头的抗压强度与抗折强度函数关系函数关系函数关系相关关系(因果)相关关系(因果)相关关系§1相关分析的意义与任务函数关系函数关系函数关系相关关现象之间的关系一般可以区分为两种不同的类型:函数关系:当一个或几个变量取一定值时,另一个变量有确定值与之相对应,这种关系称为确定性的函数关系。
[在函数关系中,一般把作为影响因素的变量称为自变量(x);把发生对应变化(结果)的变量称为因变量(y)。]相关关系:当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。现象之间的关系一般可以区分为两种不同的类型:函数关系:当一个函数关系与相关关系是两种不同类型的关系,但两者之间并不存在严格的界限。由于在观察或实验中出现的误差,函数关系也就通过相关关系反映出来;而当对现象之间的内在联系和规律性了解得更加清楚的时候,相关关系就可能转化为函数关系。在相关关系中,通常存在一定的因果关系。但也应该知道,在相关关系中,有时两个变量之间只存在相互联系而并不存在明显的因果关系。函数关系与相关关系是两种不同类型的关系,但两者之间并不存在严二、相关关系的种类按相关的程度划分为:完全相关(函数关系)、不完全相关和不相关;按相关的方向划分为:正相关和负相关;按相关的形式划分为:线性相关(直线关系)和非线性相关;按所研究的变量多少可分为:单相关、复相关和偏相关。二、相关关系的种类按相关的程度划分为:完全相关(函数关系)、按相关程度划分为:完全相关:当一个现象的数量变化完全由另一个现象的数量变化所决定时,这两种现象间的关系就为完全相关(函数关系)。如:半径与圆面积之间的关系。不相关:当两个现象彼此互不影响,其数量变化各自独立时,这两种现象间的关系就为不相关。如:股票价格与人的平均寿命之间的关系。不完全相关:当现象之间的关系介于完全相关和不相关之间时,这两种现象间的关系就为不完全相关。如:居民的收入水平与恩格尔系数之间的关系。按相关程度划分为:完全相关:当一个现象的数量变化完全由另一个按相关的方向划分为:正相关:当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关。如:职工的工资水平应随劳动生产率的提高而增加。负相关:当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关。如:随着销售额的增加,流通费用率下降按相关的方向划分为:正相关:当一个现象的数量由小变大,另一个按相关的形式划分为:线性相关:当两种相关现象之间的关系大致呈现为线性关系时,称之为线性相关(直线相关)。如:人们的消费水平与收入水平之间的关系。非线性相关:当两种相关现象之间近似于某种曲线方程的关系时,则这种相关关系称为非线性关系。如:产品的平均成本与产品产量之间的关系。按相关的形式划分为:线性相关:当两种相关现象之间的关系大致呈按所研究的变量多少划分为:单相关:两个现象的相关,即一个变量对另一个变量的相关关系。如:投资额与国内生产总值之间的关系。复相关:当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。如:某种商品的销售额与其价格水平和人们收入水平之间的相关关系。偏相关:在某一现象与多种现象相关的场合,假定其它变量不变时,其中两个变量的相关关系称为偏相关。如:在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。按所研究的变量多少划分为:单相关:两个现象的相关,即一个变量三、相关分析与回归分析:这是两种研究现象相关关系的基本方法。(一)、相关分析所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。(二)、回归分析所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。三、相关分析与回归分析:这是两种研究现象相关关系的基本方法。回归(Regression):
回归一词,最初是英国生物学家F.Golton在研究遗传学的论文中所采用的词汇(1877年)。他在研究中发现,具有较高身躯的双亲,或具有较矮身躯的双亲,其子女的身高均表现出退回(即回归)到人的平均身高的趋势。他在这一研究中所建立的数学公式被称为回归方程式,其涵义应是关系方程式或估计方程式,但基于历史的原因,通常仍沿用回归方程式这一提法。回归(Regression):回归一词(三)、相关分析与回归分析的联系相关分析与回归分析不仅具有共同的研究对象,而且在具体应用时,常常必须相互补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式。回归分析需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。因此,相关分析与回归分析被合称为广义的相关分析。(三)、相关分析与回归分析的联系相关分析与回归分析不仅具有共(四)、相关分析与回归分析的区别:研究目的不同:相关分析是研究变量之间相关的方向、相关程度和相关形式。回归分析是研究变量之间相互关系的具体形式,即:当一个变量发生数量上的变化时,另一个变量平均会发生什么样的变化。研究方法不同:相关分析是通过计算相关系数或相关指数来判断变量之间的相关关系。回归分析是通过数学模型来确定变量之间的具体的数量关系。变量的性质不同:在相关分析中,不用确定谁是自变量,谁是因变量,且所有变量都是随机变量。在回归分析中,必须事先确定在具有相关关系的变量中,谁是自变量和谁是因变量。一般来说,自变量是给定的非随机变量(一般变量),因变量是随机变量。(四)、相关分析与回归分析的区别:研究目的不同:相关分析四、相关表和相关图(一)、居民消费和收入的相关表消费支出15203040425360657078可支配收入18254560627588929998单位:百元四、相关表和相关图(一)、居民消费和收入的相关表消费支出15可支配收入消费支出(二)、消费与收入的相关图可支配收入消费支出(二)、消费与收入的相关图§2简单线性相关分析相关系数:用于判断线性相关关系。用积差法进行计算。相关指数:用于判断所有相关关系,包括线性和非线性的相关关系。但要用回归系数b判别其相关方向。§2简单线性相关分析相关系数:用于判断线性相关关系。用一、相关系数(r):相关系数是在直线相关的条件下,说明两个现象之间相关关系密切程度的统计指标。相关系数的取值范围,是在-1和+1之间。计算结果r>0为正相关,r<0为负相关。相关系数的数值越接近于1(+1或-1),表示相关关系越强。越接近于0,相关关系越弱。如果r=0,则表明两个现象之间完全没有直线相关关系。(但并不表明两个现象之间没有非线性相关)相关系数的绝对值r
在0.3以下是无直线相关,在0.3—0.5是低度直线相关,在0.5—0.8是显著相关,0.8以上是高度相关。一、相关系数(r):相关系数是在直线相关的条件下,说明两个现计算相关系数的方法(积差法):·
···········(xy)ⅠⅡⅢⅣ计算相关系数的方法(积差法):·根据计算结果可以知道:在第一、三象限中,∑(x-x)(y-y)>0,为正值;在第二、四象限中,∑(x-x)(y-y)<0,为负值;根据计算结果可以知道:在第一、三象限中,
但∑(x-x)(y-y)的大小受变量值个数多少的影响,同样的两个现象会因为变量值个数的多少而出现计算结果的不一致。因此,需要消除计算结果受变量值个数多少的影响。方法就是:将计算结果除以变量值的个数n。但∑(x-x)(y-y)的大小受变量值协方差的作用:显示x与y是正相关,还是负相关。相关系数的正负完全取决于协方差的正负。显示x与y相关程度的大小。协方差的绝对值小,表示相关程度低;协方差的绝对值大,表示相关程度高。协方差的作用:显示x与y是正相关,还是负相关。相关系
但x与y的协方差是名数,不同现象的变异情况不同,相关程度不能直接以协方差大小加以比较。需要以x与y的标准差加以标准化,使协方差化为无名数,使相关系数可以比较不同现象相关程度的高低。而且以x与y的标准差加以标准化以后,使相关系数的绝对值不超过1。但x与y的协方差是名数,不同现象的变异情况不统计学之相关分析的意义与任务举例说明相关系数的计算:编号xyxyx2y21541926420381274832659127692287962689725910227101022811106311212331131293414138381515836合计15164234463216365412311例:观察收入水平提高对用于食品支出的影响。设:收入水平为x,食品支出为y。举例说明相关系数的计算:编号xyxyx2y215419264根据资料做散点图:收入水平食品支出根据资料做散点图:收入水平食品支出
从计算结果可以知道,收入水平与用于食品的支出成高度的正相关。从计算结果可以知道,收入水平与用于食品的支出§3一元线性回归分析在相关分析中,已知两个变量之间有直线相关关系。就需要确定一个数学表达式反映因变量与自变量之间的关系。有了这种数学表达式就便于进行解析,当有了自变量的一定数值,就可以估计因变量的数值平均来说将会有怎样的变动。这样的数学表达式称为回归方程式。由于变量之间关系的复杂性,回归方程式也有多种类型和形式。一元线性回归方程式是指一个自变量且相关形式为直线。§3一元线性回归分析在相关分析中,已知两个变量之间有举例说明其研究方法:编号xyxyx2yc1541919.722642021.523812724.584832624.945912726.386922826.567962627.288972527.4691022728.36101022828.36111063129.0812123313222141383834.84151583638.44合计151642344632163654422.88举例说明其研究方法:编号xyxyx2yc1541919.72设:x(自变量)为人均月收入水平,
y(因变量)为人均月食品支出额。从前面的相关分析中,已经看出两个变量之间是线性趋势,因此,可以通过一个线性方程式来表达这种关系:a、b是回归方程的待定参数,其中b称为回归系数。设:x(自变量)为人均月收入水平,
y(因变对研究线性关系来说,回归方程式应当满足这样的要求:
根据方程所确定的估计值应能代表所有观察值y的全体,而按照求出的估计直线与各观察点之间应达到最大限度的接近,也就是说,用这条直线来代表y与x的关系,它和实际数据的误差比任何其他直线都小,这样一来,根据回归方程所求的直线就是反映y与x之间的关系的较为合理的一条直线。对研究线性关系来说,回归方程式应当满足这样的要求:利用最小二乘法估计待定系数a和b:
a:是截距,表示当x等于0时,y=a;
b:是斜率,表示x每增加一个单位时,y所平均增加的数值。也是回归系数,它与相关系数r
的取值方向一致:
b为正值时,r为正,表示正相关;
b为负值时,r为负,表示负相关。利用最小二乘法估计待定系数a和b:a:是截距,表示当x等于一元线性回归方程的具体求法:一元线性回归方程的具体求法:a=9.99元,表示当没有任何收入时,人均用于
食品的支出需要9.99元。
b=0.18元,表示每增加一元的收入,人均用于
食品的支出平均会增加0.18元。b为
正值,表示收入水平与食品支出的
关系为正相关。将人均收入水平(x)代入回归方程式,计算得到估计值,将其结果填入统计表。我们可以看到因变量(y)的观察值和估计值并不一致,存在差异。这个差异的大小就是衡量直线方程式对所有观察点的代表性的标准。a=9.99元,表示当没有任何收入时,人均用于
§4估计标准误差与相关指数
回归方程反映了因变量与自变量之间的变动关系。但它本身并不能反映拟合程度的好坏,在建立方程之后,需要进一步分析估计直线的代表性,所有观察点与估计值之间的离差程度等,这就需要建立一些指标来加以测定。§4估计标准误差与相关指数回归方程一、离差平方和的分解
所有观察值y是上下波动的,y取值的这种波动的现象称为变差。产生变差的原因是:受自变量变动的影响,即x取值的不同;其他因素的影响。为了分析这两个方面的影响,需要对总变差进行分解,即:一、离差平方和的分解所有观察值y是上下xy0xy0统计学之相关分析的意义与任务总变差的分解:
:根据线性方程,可以把它看作是由于x的变动所引起。因此,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业改造合同范本
- 2025年中国智能化节能装置行业市场需求预测及投资战略规划报告
- 中介房子销售合同范例
- 农村电厂维修合同范本
- 业主委托拍摄合同范例
- 出售移动厂房合同范本
- 供应发票合同范本
- 中国一次性注射器市场全面调研及行业投资潜力预测报告
- 产品外销合同范本
- 冷库销售安装合同范本
- 政治校本课程
- 川2020J146-TJ 建筑用轻质隔墙条板构造图集
- (完整)读歌词猜歌名
- 八年级下开学第一课主题班会
- 初中英语人教版 八年级上册 单词默写表 汉译英
- pcs-9611d-x说明书国内中文标准版
- GB/T 1634.1-2004塑料负荷变形温度的测定第1部分:通用试验方法
- 无人机航拍技术理论考核试题题库及答案
- T∕CMATB 9002-2021 儿童肉类制品通用要求
- 工序劳务分包管理课件
- 暖通空调(陆亚俊编)课件
评论
0/150
提交评论