版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章相关与回归分析
第7章相关与回归分析7.1
相关分析7.2
一元线性回归分析7.3
线性回归的显著性检验与回归预测7.4多元线性回归分析(自学)实例1:中国妇女生育水平的决定因素是什么?妇女生育水平除了受计划生育政策影响以外,还可能与社会、经济、文化等多种因素有关。1.影响中国妇女生育率变动的因素有哪些?2.各种因素对生育率的作用方向和作用程度如何?3.哪些因素是影响妇女生育率主要的决定性因素?4.如何评价计划生育政策在生育水平变动中作用?5.计划生育政策与经济因素比较,什么是影响生育率的决定因素?6.如果某些地区的计划生育政策及社会、经济、文化等因素发生重大变化,预期对这些地区的妇女生育水平会产生怎样的影响?
据世界卫生组织统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因“吃”致病乃至死亡的人数已高于因饥饿死亡的人数。
(引自《光明日报》刘军/文)问题:
肥胖症和体重超常与死亡人数真有显著的数量关系吗?这些类型的问题可以运用相关分析与回归分析的方法去解决。实例2:全球吃死的人比饿死的人多?相关和回归分析是研究事物的相互关系、测定它们联系的紧密程度、揭示其变化的具体形式和规律性的统计方法,是经济分析、预测和控制的重要工具。相关分析与回归分析相关分析:用一个指标(相关系数)来表明现象间相互依存关系的密切程度的方法回归分析:根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系的方法相关与回归分析是研究变量之间不确定性统计关系的重要方法。相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度。回归分析主要是对存在相关关系的现象间数量变化规律性的测定7.1相关分析7.1.1相关关系的概念7.1.2相关系数7.1.3斯皮尔曼等级相关系数变量之间的关系(函数关系相关关系)设有两个变量x和y,当自变量x取某个数值时,
因变量y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量。我们称这种关系为确定性的函数关系。1、函数关系xy一、函数关系与相关关系2、相关关系xy当一个或几个相互联系的变量取一定数值时,与之相对应的另一个变量的值虽然不确定,但它仍然按某种规律在一定范围内变化,变量间的这种关系,被称为相关关系。变量之间的函数关系和相关关系在一定条件下可以相互转化。⒈出租汽车费用与行驶里程:总费用=行驶里程每公里单价⒉家庭收入与恩格尔系数:家庭收入高,则恩格尔系数低。函数关系(确定性关系)相关关系(非确定性关系)比较下面两种现象间的依存关系相关关系与函数关系的区别函数关系是变量之间的一种严格、完全确定性的关系,即一个变量的数值完全由另一个(或一组)变量的数值所决定、控制。函数关系通常可以用数学公式确切地表示出来。相关关系难以像函数关系那样,用数学公式去准确表达。
相关关系与函数关系的联系由于客观上常会出现观察或测量上的误差等原因,函数关系在实际工作中往往通过相关关系表现出来。当人们对某些现象内部规律有较深刻认识时,相关关系可能变为函数关系。为此,在研究相关关系时,又常常使用函数关系作为工具,用一定的函数关系表现相关关系的数量联系。从涉及的变量数量看
简单相关(单相关,一元相关)多重相关(复相关、多元相关)从变量相关关系的表现形式看
线性相关——散布图接近一条直线(左图)
非线性相关——散布图接近一条曲线(右图)二、相关关系的类型
从变量相关关系变化的方向看正相关——变量同方向变化A
同增同减(A)负相关——变量反方向变化一增一减(B)B从变量相关的程度看
完全相关(B)
不完全相关(A)
不相关(C)C
不完全相关完全相关不相关负相关正相关复相关单相关直线相关曲线相关根据变量间相互关系的表现形式划分根据自变量的多少划分根据相关关系的方向划分根据相关关系的程度划分相关关系的种类相关关系的种类1、不相关。如果变量间彼此的数量变化互相独立,则其关系为不相关。自变量x变动时,因变量y的数值不随之相应变动。例如,产品税额的多少与工人的出勤率、家庭收入多少与孩子的多少之间都不存在相关关系。2、完全相关。如果一个变量的变化是由其他变量的数量变化所唯一确定,此时变量间的关系称为完全相关。即因变量y的数值完全随自变量x的变动而变动,它在相关图上表现为所有的观察点都落在同一条直线上,这种情况下,相关关系实际上是函数关系。所以,函数关系是相关关系的一种特殊情况。3、不完全相关。如果变量间的关系介于不相关和完全相关之间,则称为不完全相关。如妇女的结婚年龄与受教育程度之间的一种关系。大多数相关关系属于不完全相关,是统计研究的主要对象根据相关关系的程度划分1、正相关。指两个因素(或变量)之间的变化方向一致,都是呈增长或下降的趋势。即自变量x的值增加(或减少),因变量y的值也相应地增加(或减少),这样的关系就是正相关。例如,工业总产值增加,企业税利总额也随之增加;家庭消费支出随收入增加而增加等。2、负相关。指两个因素或变量之间变化方向相反,即自变量的数值增大(或减小),因变量随之减小(或增大)。如劳动生产率提高,产品成本降低;产品成本降低,企业利润增加等。根据相关关系的方向划分1、单相关。两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量。2、复相关。三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量。根据自变量的多少划分1、直线相关(或线性相关)。当相关关系的自变量x发生变动,因变量y值随之发生大致均等的变动,从图像上近似地表现为直线形式,这种相关通称为直线(或线性)相关。例如,销售量与销售额之间就呈直线相关关系。2、曲线(或非线性)相关。在两个相关现象中,自变量x值发生变动,因变量y也随之发生变动,这种变动不是均等的,在图像上的分布是各种不同的曲线形式,这种相关关系称为曲线(或非线性)相关。曲线相关在相关图上的分布,表现为抛物线、双曲线、指数曲线等非直线形式。例如,从人的生命全过程看,年龄与医疗费支出呈非线性相关。根据变量间相互关系的表现形式划分三、相关表、相关图在进行详细的定量分析之前,一般可先利用相关表、相关图对现象之间相关关系做大致判断可支配收入5005806008001000消费支出450500520600650表1居民消费和收入的相关表单位:元相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。
例:为了研究分析某种劳务产品完成量与其单位产品成本之间的关系,调查30个同类服务公司得到的原始数据如表。相关表:将自变量x的数值按照从小到大的顺序,并配合因变量y的数值一一对应而平行排列的表。整理后有图1收入消费散点图(单位:元)相关图:又称散点图。将x置于横轴上,y置于纵轴上,将(x,y)绘于坐标图上。用来反映两变量之间相关关系的图形。通过相关图,可以大致看出两个变量之间有无相关关系以及相关的形态、方向和密切程度。相关系数通过相关表和散点图的形状,我们大概可以判断变量之间相关程度的强弱、方向和性质,但并不能得知其相关的确切程度。为精确了解变量间的相关程度,还需作进一步统计分析,求出描述变量间相关程度与变化方向的量数,即相关系数。总体相关系数用ρ(读“柔”)表示,样本相关系数用r表示。一、简单线性相关系数
总体相关系数
对于所研究的总体,表示两个相互联系变量相关程度的总体相关系数为:
总体相关系数反映总体变量X和Y的线性相关程度。
特点:对于特定的总体来说,X和Y的数值是既定的,总体相关系数是客观存在的特定数值。变量X和Y的协方差变量X和Y的方差在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。期望值分别为E(X)=μ与E(Y)=ν的两个实数随机变量X与Y之间的协方差定义为:
样本相关系数通过X和Y的样本观测值去估计样本相关系数变量X和Y的样本相关系数通常用r表示特点:样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的,是对总体相关系数的估计,它是个随机变量。样本相关系数的定义公式实质相关系数取值及其意义r
的取值范围是[-1,1]|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负相关
r=0,不存在线性相关关系-1r<0,为负相关0<r1,为正相关|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加计算相关系数的“积差法”相关系数的计算
表我国人均国民收入与人均消费金额数据
单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148相关系数计算实例【例】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到1981~1993年的样本数据(xi,yi),i=1,2,…,13,数据见表,计算相关系数。计算结果根据样本相关系数的计算公式有人均国民收入与人均消费金额之间的相关系数为0.9987注意:
(1)两变量间存在相关,仅意味着变量间有关联,并不一定是因果关系。 (2)相关系数不是等距的测量单位。
r是一个比值,不是由相等单位度量而来,不能进行加、减、乘、除运算。如r1=0.25,r2=0.5,r3=0.75,不能认为r1=r3-r2或r2=2r1。 (3)相关系数受变量取值区间大小及观测值个数的影响较大。
变量的取值区间越大,观测值个数越多,相关系数受抽样误差的影响越小,结果就越可靠,如果数据较少,本不相关的两列变量,计算的结果可能相关。(4)相关系数在特定情况下使用才具有意义。如高中生身高与体重的相关系数用在儿童身上就没有意义。(5)通过实际观测值计算的相关系数,须经过显著性检验确定其是否有意义二、相关系数的显著性检验2.计算检验的统计量:3.确定显著性水平,并作出决策若t>t,拒绝H0,若t<t,接受H0目的在于检验两个变量之间是否存在显著的线性相关关系采用t检验——检验的步骤为:1.提出假设:H0:;H1:0相关系数的显著性检验(实例)
对前例计算的相关系数进行显著性检(0.05)提出假设:H0:;H1:0计算检验的统计量根据显著性水平=0.05,查t分布表得
t(n-2)=2.201由于t=64.9809>t(13-2)=2.201,拒绝H0,认为人均消费金额与人均国民收入之间的相关关系显著|r|的取值范围|r|的意义0.00-0.19极低相关0.20-0.39低度相关0.40-0.69中度相关0.70-0.89高度相关0.90-1.00极高相关|r|的取值与相关程度参考1:参考2:
若|
t
|大于=5%相应的临界值,小于表上=1%相应的值,称变量x与y之间有显著的线性关系若|
t|大于表上=1%相应的值,称变量x与y之间有十分显著的线性关系若|t|小于表上=5%相应的值,称变量x与y之间没有明显的线性关系经验认为:0.8
|
r|1,高度相关0.5
|
r|0.8,中度相关/0.3
|
r|0.5,弱相关
|
r|0.3,无线性相关
如何判断两个变量的相关性 (1)找出两个变量的正确相应数据。 (2)画出它们的散布图(散点图)。 (3)通过散布图判断它们的相关性。 (4)给出相关系数(r)的解答。 (5)对结果进行评价和检验。例:下表是有关15个地区某种食物需求量和地区人口增加量的资料。相关系数的显著性检验(0.05)提出假设:H0:;H1:0计算检验的统计量根据显著性水平=0.05,查t分布表得
t(n-2)=2.160由于t=48.385>t(15-2)=2.160,拒绝H0,该种食物需求量和地区人口增加量之间的相关关系显著。7.2一元线性回归回归分析的概念总体回归函数与样本回归函数回归系数的普通最小二乘估计回归模型的统计检验什么是回归分析回归的古典意义:高尔顿遗传学的回归概念
父母身高与子女身高的关系:
无论高个子或低个子的子都有向人的平均身高回归趋势
回归的现代意义一个因变量对若干解释变量依存关系的研究回归的目的(实质):由固定的自变量去估计因变量的平均值样本总体自变量固定值估计因变量平均值什么是回归分析从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归模型回答“变量之间是什么样的关系?”方程中运用1个数字的因变量(响应变量)被预测的变量1个或多个数字的或分类的自变量(解释变量)用于预测的变量3. 主要用于预测和估计回归模型的类型一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归相关系数线性回归模型在实际经济分析中,由于经济变量之间的关系往往是非常复杂的,所以直接的精确线性模型是较少的。但是,由于第一,线性模型比较容易研究;第二,现实经济分析中许多非线性问题可以经过简单的数学处理转化为线性模型;第三,非线性模型的分析基础是线性模型。因此,我们首先研究一元线性模型。一元线性回归模型当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归。对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系。描述因变量y如何依赖于自变量x和误差项μ
的方程称为回归模型。一元线性回归模型一元线性回归模型可表示为:
Y=b0+b1X+模型中,Y是X的线性函数部分加上误差项线性部分反映了由于X的变化而引起的Y的变化随机误差项是随机变量反映了除X和Y之间的线性关系之外的随机因素对Y的影响;是不能由X和Y之间的线性关系所解释的影响)0和1称为模型的参数总体回归函数与样本回归函数y的条件分布:y在x取某固定值条件下的分布。对于x的每一个取值,都有y的条件期望与之对应,在坐标图上y的条件期望的点随x而变化的轨迹所形成的直线或曲线,称为回归线。如果把y的条件期望表示为x的某种函数:,这个函数称为回归函数。如果其函数形式是只有一个自变量的线性函数,如,称为一元线性回归函数。
总体回归函数(PRF)
概念:将总体因变量y的条件均值表现为自变量x的某种函数,这个函数称为总体回归函数(简记为PRF)。表现形式:(1)条件均值表现形式(2)个别值表现形式(随机设定形式)μi是个可正可负的随机变量,代表排除在自变量以外的所有因素对y的影响,称为随机误差项
样本回归函数(SRF)y的样本观测值的条件均值随自变量x而变动的轨迹,称为样本回归线。如果把因变量y的样本条件均值表示为自变量x的某种函数,这个函数称为样本回归函数(简记为SRF)。表现形式:线性样本回归函数可表示为或者实际观测值
样本回归函数与总体回归函数的关系
样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。和是对总体回归函数参数的估计。是对总体条件期望的估计残差e在概念上类似总体回归函数中的随机误差u。回归分析的目的:用样本回归函数去估计总体回归函数。
样本回归函数与总体回归函数的关系
——相互区别
●总体回归函数虽然未知,但它是确定的;样本回归线随抽样波动而变化,可以有许多条。●样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。●总体回归函数的参数虽未知,但是确定的常数;样本回归函数的参数可估计,但是随抽样而变化的随机变量。●总体回归函数中的是不可直接观测的;而样本回归函数中的是只要估计出样本回归的参数就可以计算的数值。回归系数估计的思想为什么只能对未知参数作估计?总体参数是未知的、不可直接观测的、不能精确计算的能够得到的只是变量的样本观测值只能通过变量样本观测值选择适当方法去近似地估计回归系数。前提:
u是随机变量其分布性质不确定,必须作某些假定,其估计才有良好性质,其检验才可进行。原则:
使样本参数估计值“尽可能地接近”总体参数真实值一元线性回归的基本假定总体误差项μi的基本假定:假定1:零均值假定。假定2:同方差假定。
假定3:无自相关假定。
假定4:随机扰动与自变量不相关。假定5:正态性假定一元线性回归方程中参数a、b确定的思路:最小平方法基本数学要求:实际观测值样本条件期望残差进一步整理,有:
回归系数的最小二乘估计基本思想:
希望所估计的偏离实际观测值的残差越小越好。可以取残差平方和作为衡量与偏离程度的标准——最小二乘准则估计式:
最小二乘估计的概率分布性质
和都是服从正态分布的随机变量,其期望为方差和标准误差为
结论:
的无偏估计
为什么要估计?
确定所估计参数的方差需要由于不能直接观测,也是未知的对的数值只能通过样本信息去估计。怎样估计?通常情况
的无偏估计近似为:回归估计标准误差是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值代表性的强弱;其值越小,回归方程的代表性越强,用回归方程估计或预测的结果越准确。可从一方面反映回归模型拟合的优劣状况。证明估计标准差越小,则变量间相关程度越高,回归线对Y的解释程度越高。相关系数与估计标准误差的关系:最小二乘法(图示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^表我国人均国民收入与人均消费金额数据
单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148实例【例】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到1981~1993年的样本数据(xi,yi),i=1,2,…,13,数据见表最小二乘法应用实例【例】根据例中的数据,配合人均消费金额对人均国民收入的回归方程
根据求解公式得估计(经验)方程人均消费金额对人均国民收入的回归方程为y=54.22286+0.52638x^练习:对产量与生产费用进行相关分析并建立回归模型企业编号产量x(千克)生产费用y(千元)12345678910111240425055657884100116125130140130150155140150154156170167180175185160017642500302542256084705610000134561562516900196001690022500240251960022500237162722528900278893240030625342255200630077507700975012012138601700019372225002275025900合计10251921101835310505170094解:(1)绘制散点图············(2)计算相关系数(3)建立简单直线回归方程:其中a=124.15(千克)的含义为生产费用的起点值b=0.4027表示产品产量每增加1千克,生产费用平均增加0.4027千元。回归模型检验的种类一般回归模型的检验要经过四级检验:1)经济意义检验2)统计检验3)计量经济学检验4)预测检验统计学中侧重统计检验(拟合优度、t检验、F检验、一、拟合优度的度量样本回归直线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线。所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣最常用的数量尺度是样本决定系数(又称可决系数、判定系数),它是建立在对总离差平方和进行分解的基础之上的。总离差平方和回归平方和残差平方和总离差平方和的分解因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面:由于自变量x的取值不同造成的;除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响。对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示。离差平方和的分解
(图示)xyy{}}离差分解图离差平方和的分解
(三个平方和的关系)2.因为两端平方后求和有从图上看有SST=SSR+SSE总变差平方和(SST){回归平方和(SSR){残差平方和(SSE){证明:离差平方和的分解
(三个平方和的意义)总平方和(SST)反映因变量的n个观察值与其均值的总离差回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和。残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和。样本决定系数
(判定系数r2
)回归平方和占总离差平方和的比例:反映回归直线的拟合程度取值范围在[0,1]之间
r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差判定系数等于相关系数的平方,即r2=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2022年九九重阳节主持词(6篇)
- 寝室违反纪律检讨书(6篇)
- 湖南农业大学东方科技学院《草木染》2023-2024学年第一学期期末试卷
- 湖南科技学院《企业大数据技术与应用》2021-2022学年第一学期期末试卷
- 土地租赁协议书范本(2篇)
- 高二数学课件四川
- 小学财务全年工作计划表
- XX省计划生育条例实施细则
- 2024至2030年中国柠檬树苗行业投资前景及策略咨询研究报告
- 2024至2030年中国顶针切断机行业投资前景及策略咨询研究报告
- 铣槽 12专用夹具
- 认知车站站台平面布局
- 中国平安保险公司薪酬体系
- 现代产业学院建设方案
- 种畜场、奶牛场(小区)布鲁氏菌病净化方案
- 2020年智慧树知道网课《国际私法(华东政法大学)》课后习题章节测试满分答案
- 护理人力资源弹性调配方案
- 5S推进及奖惩制度
- 施工现场临时用电验收记录(新)2页
- (完整word版)北师大版四年级数学上册运算律练习
- 薛法根:少年闰土(学优课堂)
评论
0/150
提交评论