




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9章相关与回归分析9.1
相关与回归的基本概念9.2
简单线性相关与回归分析9.3
多元线性相关与回归分析*9.4非线性相关与回归分析*第9章相关与回归分析9.1相关1学习目标理解相关分析的涵义会计算相关系数及其特点理解相关分析与回归分析的关系掌握一元回归模型,回归系数的求解掌握常用的模型检验方法会做题目学习目标理解相关分析的涵义29.1相关与回归的基本概念一、变量间的相互关系二、相关关系的类型三、相关分析与回归分析9.1相关与回归的基本概念一、变量间的相互关系3
一、变量间的相互关系
◆确定性的函数关系◆不确定性的统计关系—相关关系
◆没有关系
变量间关系的图形描述:坐标图(散点图)
一、变量间的相互关系45某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)圆的面积(S)与半径之间的关系可表示为S=r2
企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3
函数关系的例子5某种商品的销售额(y)与销售量(x)之间的关系可表示为y56(相关关系)(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;(3)当变量x取某个值时,变量y的取值可能有几个;(4)各观测点分布在直线周围。xy6(相关关系)(1)变量间关系不能用函数关系精确表达;67商品的消费量(y)与居民收入(x)之间的关系商品的消费量(y)与物价(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系相关关系的例子7商品的消费量(y)与居民收入(x)之间的关系相关关系的7相关关系的类型●
从涉及的变量数量看
简单相关多重相关(复相关)●
从变量相关关系的表现形式看
线性相关——散布图接近一条直线(左图)
非线性相关——散布图接近一条曲线(右图)相关关系的类型●
从涉及的变量数量看8●
从变量相关关系变化的方向看正相关——变量同方向变化
A
如收入与消费的关系。
(A)负相关——变量反方向变化。如物价与消费的关系。(B)●从变量相关的程度看
完全相关(B)
不完全相关(A)C
不相关(C)
相关关系的类型B●
从变量相关关系变化的方向看相关关系的类型B910
按相关关系涉及的变量多少划分分为单相关、复相关和偏相关。两个变量之间的相关,称为单相关。当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。例如,某种商品的需求与其价格水平以及收入水平之间的相关关系便是一种复相关。在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。10 按相关关系涉及的变量多少划分分为单相关、复相关和偏相关1011定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。相关关系的判断与测度11定性分析是依据研究者的理论知识和实践经验,对客观现象之间1112
1.相关表:将自变量x的数值按照从小到大的顺序,并配合因变量y的数值一一对应而平行排列的表。
例:为了研究分析某种劳务产品完成量与其单位产品成本之间的关系,调查30个同类服务公司得到的原始数据如表。 整理后有121.相关表:将自变量x的数值按照从小到大的顺序,并配合12132.相关图:又称散点图。将x置于横轴上,y置于纵轴上,将(x,y)绘于坐标图上。用来反映两变量之间相关关系的图形。132.相关图:又称散点图。将x置于横轴上,y置于纵轴上,将13相关分析与回归分析回归的古典意义:
高尔顿遗传学的回归概念
父母身高与子女身高的关系:
无论高个子或低个子的子女都有向人的平均身高回归的趋势相关分析与回归分析回归的古典意义:14Pearson研究父母身高与子女身高的关系说明:高个子父亲有生高个子的趋势,父辈身高增加一个单位,儿子身高仅增加半个单位;反之也是。
Pearson研究父母身高与子女身高的关系15
回归的现代意义一个因变量对若干解释变量依存关系的研究回归的目的(实质):
由固定的自变量去估计因变量的平均值样本总体自变量固定值估计因变量平均值回归的现代意义一个因变量对若干解16
相关分析与回归分析的联系●共同的研究对象:都是对变量间相关关系的分析●只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义●相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析●相关分析中相关系数的确定建立在回归分析的基础上相关分析与回归分析的联系●共同的研究对象:都是17
(二)简单线性相关系数及检验
●总体相关系数
对于所研究的总体,表示两个相互联系变量相关程度的总体相关系数为:
总体相关系数反映总体两个变量X和Y的线性相关程度。
特点:对于特定的总体来说,X和Y的数值是既定的总体相关系数是客观存在的特定数值。(二)简单线性相关系数及检验●总体相关18有关相关系数的注意点1.相关系数只是一个数,没有单位,他不受下列情况影响:交换两个变量;对一个变量的所有值都增加同一个数量把一个变量的所有值都乘以一个正数2.如=0.8并不意味着80%的点都紧密的围绕在一条直线的周围,也不表示其线性程度是=0.4的两倍。有关相关系数的注意点1.相关系数只是一个数,没有单位,他不受193.相关系数只反映变量间的线性相关程度,不能说明非线性相关关系。4.相关系数不能确定变量的因果关系,也不能说明相关关系具体接近于哪条直线。3.相关系数只反映变量间的线性相关程度,不能说明非线性相关关20
●
样本相关系数
通过X和Y的样本观测值去估计样本相关系数变量X和Y的样本相关系数通常用表示特点:样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的,是对总体相关系数的估计,它是个随机变量。●样本相关系数通过X和Y21
相关系数的特点:
相关系数的取值在-1与1之间。当r=0时,表明X与Y没有线性相关关系。当时,表明X与Y存在一定的线性相关关系:
若表明X与Y为正相关;
若表明X与Y为负相关。当时,表明X与Y完全线性相关:
若r=1,称X与Y完全正相关;若r=-1,称X与Y完全负相关。相关系数的特点:相关系数的取值在22通常判断的标准是:|r|<0.3称为微弱相关0.3≤|r|<0.5称为低度相关0.5≤|r|<0.8称为中度相关
0.8≤|r|<1称为高度相关或强相关通常判断的标准是:23总体相关系数与样本相关系数的关系:1.如果我们观测了变量对(x,y)的所有取值,此时计算出来的相关系数称为总体相关系数,记为ρ。2.ρ反映了两变量之间的真是相关程度。3.样本相关系数r是总体相关系数ρ的估计值,但是这个估计是有误差的。总体相关系数与样本相关系数的关系:2425样本相关系数的定义公式实质简化为:25样本相关系数的定义公式实质简化为:25相关系数的缺点:接近1的程度与样本容量n有关。当n较小,相关系数的绝对值容易接近1,,当n较大,相关系数的绝对值容易偏小。所以,我们仅凭相关系数较大就说变量x和y之间有密切的关系,就显得不对了。相关系数的缺点:26可以查询相关系数的检验表|r|大于表中α=0.05相应值,但小于α=0.01相应的值,称x与y有显著的线性关系;|r|大于α=0.01相应的值,称x与y有高度显著的线性关系;|r|小于表中α=0.05相应值,称x与y没有显著的线性关系;可以查询相关系数的检验表|r|大于表中α=0.05相应值,但2728
例:下表是有关15个地区某种食物需求量和地区人口增加量的资料。28例:下表是有关15个地区某种食物需求量和地区人口增加量28292929309.2一元线性回归9.2.1相关分析与回归分析的关系1.相关分析就是用一个指标来表明现象间相互依存关系的密切程度。广义的相关分析包括相关关系的分析(狭义的相关分析)和回归分析。2.回归分析是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种统计分析方法。309.2一元线性回归9.2.130回归分析与相关分析的关系1.区别
(1)相关分析所研究的两个变量是对等关系。
回归分析所研究的两个变量不是对等关系,必须根据研究目的,确定自变量和因变量。
(2)相关分析只能计算一个相关系数,改变自变量和因变量的地位不影响相关系数的数值。回归分析可以根据研究目的分别建立两个不同的回归方程。
(3)相关分析中两个变量都必须是随机变量。回归分析中自变量是给定的变量,因变量是随机变量回归分析与相关分析的关系31
(1)相关分析是回归分析的基础和前提。如果缺少相关分析,没有从定性上说明现象间是否存在相关关系及相关关系的密切程度,就无法进行回归分析。
(2)回归分析是相关分析的深入和继续。仅仅说明现象间具有密切的相关关系是不够的,只有进行回归分析,拟合回归方程,才可能进行深入分析和回归预测,相关分析才有实际应用价值。2.回归分析与相关分析的联系2.回归分析与相关分析的联系32回归模型的类型33线性回归一个自变量两个及两个以上自变量回归模型多元回归一元回归非线性回归线性回归非线性回归重点介绍回归模型的类型33线性回归一个自变量两个及两个以上自变量回归3334当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归。对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系。34当只涉及一个自变量时称为一元回归,若因变量y与自变量3435
标准的一元线性回归模型
(一)总体回归函数
Yi=α+βXi+ui
u
i是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。
(二)样本回归函数:
(i=1,2,...n)
ei称为残差,在概念上,ei与总体误差项ui相互对应;n是样本的容量。35标准的一元线性回归模型3536一元线性回归模型(概念要点)对于只涉及一个自变量的简单线性回归模型可表示为其中X为自变量,Y为因变量。
α为回归常数,β为回归系数。误差项ε
是随机变量,不可以观测的一般假设是不能由X和Y之间的线性关系所解释的变异所以我们可以得到36一元线性回归模型(概念要点)3637样本回归函数与总体回归函数区别1、总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。2、总体回归函数中的α和β是未知的参数,表现为常数。而样本回归函数中的是随机变量,其具体数值随所抽取的样本观测值不同而变动。3、总体回归函数中的ui是Yi与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的ei是Yi与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出ei的具体数值。37样本回归函数与总体回归函数区别1、总体回归线是3738简单线性回归中估计的回归方程为其中:是估计的回归直线在Y轴上的截距,是直线的斜率,它表示对于一个给定的X的值,是Y的估计值,也表示X每变动一个单位时,Y的平均变动值。
用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程。总体回归参数和
是未知的,必需利用样本数据去估计38简单线性回归中估计的回归方程为其中:是估计的回归直线3839模型参数的估计使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即用最小二乘法拟合的直线来代表X与Y之间的关系与实际数据的误差比其他任何直线都小。39模型参数的估计使因变量的观察值与估计值之间的离差平方和达3940最小二乘法(图示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}残差平方和从整体上刻画了n
个样本点到回归直线距离的大小40最小二乘法(图示)xy(xn,yn)(x1,y14041
设
将Q对求偏导数,并令其等于零,可得:
加以整理后有:
(一)回归参数的点估计41(一)回归参数的点估计4142最小二乘法(
和的计算公式)
解方程组可得求解和的标准方程如下:42最小二乘法(和的计算公式)解方程组可42可以变形为可见回归直线是经过点,即回归直线通过样本的重心。可以变形为43最小二乘估计的性质一,无偏性二,正态性最小二乘估计的性质一,无偏性44同样我们可以得到一个很有用的性质即残差的平均值为0,残差以自变量x的加权平均值为0.同样我们可以得到一个很有用的性质4546例:现以前例的资料配合回归直线,计算如下:46例:现以前例的资料配合回归直线,计算如下:4647474748
上式中b表示人口增加量每增加(或减少)1千人,该种食品的年需求量平均来说增加(或减少)0.5301十吨即5.301吨。48上式中b表示人口增加量每增加(或减少)1千人,该种食48499.2.3回归直线的拟合程度估计的精度取决于回归直线对观测数据的拟合程度。所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣最常用的数量尺度是样本决定系数(又称决定系数)。它是建立在对总离差平方和进行分解的基础之上的。499.2.3回归直线的拟合程度估计4950(一)离差的分解1.因变量Y的取值是不同的,Y取值的这种波动称为变差。变差来源于两个方面:由于自变量X的取值不同造成的;除X以外的其他因素(如X对Y的非线性影响、测量误差等)的影响。2.对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示。50(一)离差的分解1.因变量Y的取值是不同的,Y5051离差平方和的分解xy{}}离差分解图51离差平方和的分解xy{}}离差分解图5152离差平方和的分解2.两端平方后求和有从图上看有SST=SSR+SSE总变差平方和(SST){回归平方和(SSR){残差平方和(SSE){52离差平方和的分解2.两5253总平方和(SST)反映因变量y
的波动程度回归平方和(SSR)SSR是由回归方程所决定的,是由自变量x的波动引起的残差平方和(SSE)反映除X以外的其他因素对Y
取值的影响。所以,SSR越大,回归效果越好53总平方和(SST)53回归方程的显著性检验一、t检验二、F检验三、相关系数的显著性检验回归方程的显著性检验一、t检验54
是否真正描述了变量y和x之间的统计规律,需运用统计方法对回归方程进行检验。注意:正态性假设
是否真正551.回归系数显著性t检验1.回归系数显著性t检验56t-检验
若原假设成立,则因变量y与x没有真正的线性关系。在原假设成立的条件下,有构造t统计量即回归函数的最小二乘估计除以其标准差的样本估计值。t-检验57判定标准:1.认为y对x的一元线性回归成立;2.认为y对x的一元线性回归不成立。判定标准:58回归方程显著性的F检验回归方程显著性的F检验59601.回归方程的显著性检验(1)检验自变量和因变量之间的线性关系是否显著(2)具体方法是将回归离差平方和(SSR)同残差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,两个变量之间存在线性关系如果不显著,两个变量之间不存在线性关系601.回归方程的显著性检验6061第一步:提出假设H0:第二步:计算检验统计量F第三步:确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F第四步:作出决策:若F>F,拒绝H0;若F<F,接受H061第一步:提出假设第二步:计算检验统计量F第三步:确定显著61一元线性回归方差分析表方差来源自由度平方和均方F-值回归1SSRSSR/1残差n-2SSESSE/(n-2)总和n-1SST一元线性回归方差分析表方差来源自由度平方和62相关系数显著性的t检验相关系数显著性的t检验63
相关系数的检验
为什么要检验?
样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。检验的依据:
如果X和Y都服从正态分布,在总体相关系数的假设下,与样本相关系数r有关的t统计量服从自由度为n-2的t分布:
相关系数的检验为什么要检64
相关系数的检验方法给定显著性水平,查自由度为n-2的临界值若,表明相关系数r在统计上是显著的,应否定而接受的假设;反之,若,应接受的假设。
相关系数的检验方法给定显著性水平65相关系数显著性检验与相关程度强弱的关系注意:
相关系数t检验只是表示总体相关系数ρ显著不为0,并不能表示相关程度高。如:r=0.8,显著性检验没有通过r=0.1,显著性检验通过。关键:样本容量n的大小相关系数显著性检验与相关程度强弱的关系注意:6667对前例计算的相关系数进行显著性检(0.05)提出假设:H0:;H1:0计算检验的统计量根据显著性水平=0.05,查t分布表得
t(n-2)=2.160由于t=48.385>t(15-2)=2.160,拒绝H0,该种食物需求量和地区人口增加量之间的相关关系显著。67对前例计算的相关系数进行显著性检(0.05)根据显著67三种检验的关系对于一元线性回归,三种检验是一致的,所以对一元线性回归实际只需要做一种检验就可以了。但是对于多元回归,三种检验所考虑问题不同,并不等价,是三种不同的检验。三种检验的关系对于一元线性回归,三种检验是一致的,所以对一元6869样本决定系数(判定系数r2)回归平方和占总离差平方和的比例:反映回归直线与样本观测值的拟合程度取值范围在[0,1]之间r21,说明因变量不确定的绝大部分能由回归方程解释,回归方程拟合的越好;r20,说明回归方程拟合的越差判定系数等于相关系数的平方,即r2=(r)269样本决定系数(判定系数r2)回归平方和占总离差平方和69709.2.5回归预测根据自变量X的取值估计或预测因变量Y的取值估计或预测的类型点估计y的平均值的点估计y的个别值的点估计区间估计*y的平均值的置信区间估计y的个别值的预测区间估计709.2.5回归预测根据自变量X的取值估计或预70712.点估计值3.在点估计条件下,平均值的点估计和个别值的点估计是一样的,但在区间估计中则不同对于自变量X的一个给定值x0
,根据回归方程得到因变量Y的一个估计值点估计712.点估计值对于自变量X的一个给定值x0,根据回归方71721.利用估计的回归方程,对于自变量X的一个给定值X0
,求出因变量Y的平均值的一个估计值,就是平均值的点估计。2.当给出的X0属于样本内的数值时,计算出的,称为内插检验或事后预测。如果给出的X0在样本之外,则计算出的
称为外推预测或事前预测。727273
根据回归方程,可以给出自变量的某一数值来估计或预测因变量平均可能值。例如,前例中当人口增长量为400千人时,该食品的年需求量为73根据回归方程,可以给出自变量的某一数值来估计或预73(二)预测误差模型本身误差因素造成回归系数估计值与真值不一致自变量设定值与实际值的误差未来时期回归系数变化(二)预测误差7475本章小结相关分析一元线性回归分析1.一元线性回归模型2.模型参数估计、总体方差估计3.拟合优度4.回归模型检验(回归方程检验、回归系数检验)
5.回归模型预测作业:75本章小结相关分析75
第9章相关与回归分析9.1
相关与回归的基本概念9.2
简单线性相关与回归分析9.3
多元线性相关与回归分析*9.4非线性相关与回归分析*第9章相关与回归分析9.1相关76学习目标理解相关分析的涵义会计算相关系数及其特点理解相关分析与回归分析的关系掌握一元回归模型,回归系数的求解掌握常用的模型检验方法会做题目学习目标理解相关分析的涵义779.1相关与回归的基本概念一、变量间的相互关系二、相关关系的类型三、相关分析与回归分析9.1相关与回归的基本概念一、变量间的相互关系78
一、变量间的相互关系
◆确定性的函数关系◆不确定性的统计关系—相关关系
◆没有关系
变量间关系的图形描述:坐标图(散点图)
一、变量间的相互关系7980某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)圆的面积(S)与半径之间的关系可表示为S=r2
企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3
函数关系的例子5某种商品的销售额(y)与销售量(x)之间的关系可表示为y8081(相关关系)(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;(3)当变量x取某个值时,变量y的取值可能有几个;(4)各观测点分布在直线周围。xy6(相关关系)(1)变量间关系不能用函数关系精确表达;8182商品的消费量(y)与居民收入(x)之间的关系商品的消费量(y)与物价(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系相关关系的例子7商品的消费量(y)与居民收入(x)之间的关系相关关系的82相关关系的类型●
从涉及的变量数量看
简单相关多重相关(复相关)●
从变量相关关系的表现形式看
线性相关——散布图接近一条直线(左图)
非线性相关——散布图接近一条曲线(右图)相关关系的类型●
从涉及的变量数量看83●
从变量相关关系变化的方向看正相关——变量同方向变化
A
如收入与消费的关系。
(A)负相关——变量反方向变化。如物价与消费的关系。(B)●从变量相关的程度看
完全相关(B)
不完全相关(A)C
不相关(C)
相关关系的类型B●
从变量相关关系变化的方向看相关关系的类型B8485
按相关关系涉及的变量多少划分分为单相关、复相关和偏相关。两个变量之间的相关,称为单相关。当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。例如,某种商品的需求与其价格水平以及收入水平之间的相关关系便是一种复相关。在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。10 按相关关系涉及的变量多少划分分为单相关、复相关和偏相关8586定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。相关关系的判断与测度11定性分析是依据研究者的理论知识和实践经验,对客观现象之间8687
1.相关表:将自变量x的数值按照从小到大的顺序,并配合因变量y的数值一一对应而平行排列的表。
例:为了研究分析某种劳务产品完成量与其单位产品成本之间的关系,调查30个同类服务公司得到的原始数据如表。 整理后有121.相关表:将自变量x的数值按照从小到大的顺序,并配合87882.相关图:又称散点图。将x置于横轴上,y置于纵轴上,将(x,y)绘于坐标图上。用来反映两变量之间相关关系的图形。132.相关图:又称散点图。将x置于横轴上,y置于纵轴上,将88相关分析与回归分析回归的古典意义:
高尔顿遗传学的回归概念
父母身高与子女身高的关系:
无论高个子或低个子的子女都有向人的平均身高回归的趋势相关分析与回归分析回归的古典意义:89Pearson研究父母身高与子女身高的关系说明:高个子父亲有生高个子的趋势,父辈身高增加一个单位,儿子身高仅增加半个单位;反之也是。
Pearson研究父母身高与子女身高的关系90
回归的现代意义一个因变量对若干解释变量依存关系的研究回归的目的(实质):
由固定的自变量去估计因变量的平均值样本总体自变量固定值估计因变量平均值回归的现代意义一个因变量对若干解91
相关分析与回归分析的联系●共同的研究对象:都是对变量间相关关系的分析●只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义●相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析●相关分析中相关系数的确定建立在回归分析的基础上相关分析与回归分析的联系●共同的研究对象:都是92
(二)简单线性相关系数及检验
●总体相关系数
对于所研究的总体,表示两个相互联系变量相关程度的总体相关系数为:
总体相关系数反映总体两个变量X和Y的线性相关程度。
特点:对于特定的总体来说,X和Y的数值是既定的总体相关系数是客观存在的特定数值。(二)简单线性相关系数及检验●总体相关93有关相关系数的注意点1.相关系数只是一个数,没有单位,他不受下列情况影响:交换两个变量;对一个变量的所有值都增加同一个数量把一个变量的所有值都乘以一个正数2.如=0.8并不意味着80%的点都紧密的围绕在一条直线的周围,也不表示其线性程度是=0.4的两倍。有关相关系数的注意点1.相关系数只是一个数,没有单位,他不受943.相关系数只反映变量间的线性相关程度,不能说明非线性相关关系。4.相关系数不能确定变量的因果关系,也不能说明相关关系具体接近于哪条直线。3.相关系数只反映变量间的线性相关程度,不能说明非线性相关关95
●
样本相关系数
通过X和Y的样本观测值去估计样本相关系数变量X和Y的样本相关系数通常用表示特点:样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的,是对总体相关系数的估计,它是个随机变量。●样本相关系数通过X和Y96
相关系数的特点:
相关系数的取值在-1与1之间。当r=0时,表明X与Y没有线性相关关系。当时,表明X与Y存在一定的线性相关关系:
若表明X与Y为正相关;
若表明X与Y为负相关。当时,表明X与Y完全线性相关:
若r=1,称X与Y完全正相关;若r=-1,称X与Y完全负相关。相关系数的特点:相关系数的取值在97通常判断的标准是:|r|<0.3称为微弱相关0.3≤|r|<0.5称为低度相关0.5≤|r|<0.8称为中度相关
0.8≤|r|<1称为高度相关或强相关通常判断的标准是:98总体相关系数与样本相关系数的关系:1.如果我们观测了变量对(x,y)的所有取值,此时计算出来的相关系数称为总体相关系数,记为ρ。2.ρ反映了两变量之间的真是相关程度。3.样本相关系数r是总体相关系数ρ的估计值,但是这个估计是有误差的。总体相关系数与样本相关系数的关系:99100样本相关系数的定义公式实质简化为:25样本相关系数的定义公式实质简化为:100相关系数的缺点:接近1的程度与样本容量n有关。当n较小,相关系数的绝对值容易接近1,,当n较大,相关系数的绝对值容易偏小。所以,我们仅凭相关系数较大就说变量x和y之间有密切的关系,就显得不对了。相关系数的缺点:101可以查询相关系数的检验表|r|大于表中α=0.05相应值,但小于α=0.01相应的值,称x与y有显著的线性关系;|r|大于α=0.01相应的值,称x与y有高度显著的线性关系;|r|小于表中α=0.05相应值,称x与y没有显著的线性关系;可以查询相关系数的检验表|r|大于表中α=0.05相应值,但102103
例:下表是有关15个地区某种食物需求量和地区人口增加量的资料。28例:下表是有关15个地区某种食物需求量和地区人口增加量103104291041059.2一元线性回归9.2.1相关分析与回归分析的关系1.相关分析就是用一个指标来表明现象间相互依存关系的密切程度。广义的相关分析包括相关关系的分析(狭义的相关分析)和回归分析。2.回归分析是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种统计分析方法。309.2一元线性回归9.2.1105回归分析与相关分析的关系1.区别
(1)相关分析所研究的两个变量是对等关系。
回归分析所研究的两个变量不是对等关系,必须根据研究目的,确定自变量和因变量。
(2)相关分析只能计算一个相关系数,改变自变量和因变量的地位不影响相关系数的数值。回归分析可以根据研究目的分别建立两个不同的回归方程。
(3)相关分析中两个变量都必须是随机变量。回归分析中自变量是给定的变量,因变量是随机变量回归分析与相关分析的关系106
(1)相关分析是回归分析的基础和前提。如果缺少相关分析,没有从定性上说明现象间是否存在相关关系及相关关系的密切程度,就无法进行回归分析。
(2)回归分析是相关分析的深入和继续。仅仅说明现象间具有密切的相关关系是不够的,只有进行回归分析,拟合回归方程,才可能进行深入分析和回归预测,相关分析才有实际应用价值。2.回归分析与相关分析的联系2.回归分析与相关分析的联系107回归模型的类型108线性回归一个自变量两个及两个以上自变量回归模型多元回归一元回归非线性回归线性回归非线性回归重点介绍回归模型的类型33线性回归一个自变量两个及两个以上自变量回归108109当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归。对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系。34当只涉及一个自变量时称为一元回归,若因变量y与自变量109110
标准的一元线性回归模型
(一)总体回归函数
Yi=α+βXi+ui
u
i是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。
(二)样本回归函数:
(i=1,2,...n)
ei称为残差,在概念上,ei与总体误差项ui相互对应;n是样本的容量。35标准的一元线性回归模型110111一元线性回归模型(概念要点)对于只涉及一个自变量的简单线性回归模型可表示为其中X为自变量,Y为因变量。
α为回归常数,β为回归系数。误差项ε
是随机变量,不可以观测的一般假设是不能由X和Y之间的线性关系所解释的变异所以我们可以得到36一元线性回归模型(概念要点)111112样本回归函数与总体回归函数区别1、总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。2、总体回归函数中的α和β是未知的参数,表现为常数。而样本回归函数中的是随机变量,其具体数值随所抽取的样本观测值不同而变动。3、总体回归函数中的ui是Yi与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的ei是Yi与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出ei的具体数值。37样本回归函数与总体回归函数区别1、总体回归线是112113简单线性回归中估计的回归方程为其中:是估计的回归直线在Y轴上的截距,是直线的斜率,它表示对于一个给定的X的值,是Y的估计值,也表示X每变动一个单位时,Y的平均变动值。
用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程。总体回归参数和
是未知的,必需利用样本数据去估计38简单线性回归中估计的回归方程为其中:是估计的回归直线113114模型参数的估计使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即用最小二乘法拟合的直线来代表X与Y之间的关系与实际数据的误差比其他任何直线都小。39模型参数的估计使因变量的观察值与估计值之间的离差平方和达114115最小二乘法(图示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}残差平方和从整体上刻画了n
个样本点到回归直线距离的大小40最小二乘法(图示)xy(xn,yn)(x1,y1115116
设
将Q对求偏导数,并令其等于零,可得:
加以整理后有:
(一)回归参数的点估计41(一)回归参数的点估计116117最小二乘法(
和的计算公式)
解方程组可得求解和的标准方程如下:42最小二乘法(和的计算公式)解方程组可117可以变形为可见回归直线是经过点,即回归直线通过样本的重心。可以变形为118最小二乘估计的性质一,无偏性二,正态性最小二乘估计的性质一,无偏性119同样我们可以得到一个很有用的性质即残差的平均值为0,残差以自变量x的加权平均值为0.同样我们可以得到一个很有用的性质120121例:现以前例的资料配合回归直线,计算如下:46例:现以前例的资料配合回归直线,计算如下:12112247122123
上式中b表示人口增加量每增加(或减少)1千人,该种食品的年需求量平均来说增加(或减少)0.5301十吨即5.301吨。48上式中b表示人口增加量每增加(或减少)1千人,该种食1231249.2.3回归直线的拟合程度估计的精度取决于回归直线对观测数据的拟合程度。所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣最常用的数量尺度是样本决定系数(又称决定系数)。它是建立在对总离差平方和进行分解的基础之上的。499.2.3回归直线的拟合程度估计124125(一)离差的分解1.因变量Y的取值是不同的,Y取值的这种波动称为变差。变差来源于两个方面:由于自变量X的取值不同造成的;除X以外的其他因素(如X对Y的非线性影响、测量误差等)的影响。2.对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示。50(一)离差的分解1.因变量Y的取值是不同的,Y125126离差平方和的分解xy{}}离差分解图51离差平方和的分解xy{}}离差分解图126127离差平方和的分解2.两端平方后求和有从图上看有SST=SSR+SSE总变差平方和(SST){回归平方和(SSR){残差平方和(SSE){52离差平方和的分解2.两127128总平方和(SST)反映因变量y
的波动程度回归平方和(SSR)SSR是由回归方程所决定的,是由自变量x的波动引起的残差平方和(SSE)反映除X以外的其他因素对Y
取值的影响。所以,SSR越大,回归效果越好53总平方和(SST)128回归方程的显著性检验一、t检验二、F检验三、相关系数的显著性检验回归方程的显著性检验一、t检验129
是否真正描述了变量y和x之间的统计规律,需运用统计方法对回归方程进行检验。注意:正态性假设
是否真正1301.回归系数显著性t检验1.回归系数显著性t检验131t-检验
若原假设成立,则因变量y与x没有真正的线性关系。在原假设成立的条件下,有构造t统计量即回归函数的最小二乘估计除以其标准差的样本估计值。t-检验132判定标准:1.认为y对x的一元线性回归成立;2.认为y对x的一元线性回归不成立。判定标准:133回归方程显著性的F检验回归方程显著性的F检验1341351.回归方程的显著性检验(1)检验自变量和因变量之间的线性关系是否显著(2)具体方法是将回归离差平方和(SSR)同残差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,两个变量之间存在线性关系如果不显著,两个变量之间不存在线性关系601.回归方程的显著性检验135136第一步:提出假设H0:第二步:计算检验统计量F第三步:确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F第四步:作出决策
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高中语文必修3荷花淀 同步练习积累运用
- 前期商场物业合同范本
- 借款居间协议合同范例
- 前置佣金合同范例
- 借人合同范例
- 个人过账协议合同范例
- 专线运输合同范例范例
- 劳务服务中介合同范例
- 代发协议合同范例
- 初中教程购销合同范例
- 《无人机操控技术》 课件 项目 2 无人机模拟操控技术
- 新疆维吾尔自治区示范性普通高中评估指标体系
- 朗格汉斯细胞组织细胞增生症课件
- GB/T 43585-2023一次性卫生棉条
- 湿法静电除尘器WESP技术方案
- 小升初考试必答题(广附系100题)
- 精细化工工艺学-1绪论课件
- 降低会阴侧切率的PDCA
- 港口和航运行业数据安全与隐私保护
- 2021年10月自考03347流体力学试题及答案含评分标准
- 施工现场“五牌一图”制度
评论
0/150
提交评论