(1.8)-第8章 相关与相关分析_第1页
(1.8)-第8章 相关与相关分析_第2页
(1.8)-第8章 相关与相关分析_第3页
(1.8)-第8章 相关与相关分析_第4页
(1.8)-第8章 相关与相关分析_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

相关与回归相关与相关分析1相关系数的问题2回归分析的原理3总体回归函数和样本回归函数4本章学习内容回归模型的参数估计和检验5回归模型的评价和检验6Excel的应用7相关与相关分析相关关系的概念1相关关系的类型2本节学习内容相关关系的描述3导入【案例1】全球吃死的人比饿死的人多?问题:肥胖症和体重超常与死亡人数真有显著的数量关系吗?导入据世界卫生组织统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。(引自《光明日报》刘军/文)导入【案例2】中国妇女生育率的决定因素是什么?导入影响中国妇女生育率变动的因素有哪些?各种因素对生育率的作用方向和作用程度如何?哪些因素是影响妇女生育率主要的决定性因素?如何评价计划生育政策在生育水平变动中的作用?计划生育政策与经济因素比较,什么是影响生育率的决定因素?如果某些地区的计划生育政策及社会、经济、文化等因素发生重大变化,预期对这些地区的妇女生育水平会产生怎样的影响?这些类型的问题可以运用相关分析与回归分析的方法去解决。变量间关系血压~年龄动物死亡率~毒物剂量体重~身高肺活量~体重相关:“关联性”如何,有无线性联系(方向与程度)血压和年龄关联的程度如何?动物死亡率与毒物剂量关联的程度如何?回归:“依存性”如何,一个变量的变化将引起另一个变量多大的变化?人群中,平均而言,血压如何随年龄变化?毒性实验中,动物死亡率如何随剂量变化?相关关系的概念变量间的相互关系确定性的函数关系——Y=f(X)不确定性的统计关系——相关关系Y=f(X)+ε(ε为随机变量)没有关系变量间关系的图形描述:坐标图(散点图)相关关系的类型从涉及的变量数量看单相关:2个变量复相关(多元相关):3个或3个以上变量从变量相关关系的表现形式看线性相关——散布图接近一条直线非线性相关——散布图接近一条曲线相关关系的类型从变量相关关系变化的方向看正相关——变量同方向变化

同增同减(A)负相关——变量反方向变化一增一减(B)从变量相关的程度看完全相关(B)不完全相关(A)不相关(C)

(A)

(B)

(C)相关关系的类型相关关系分类示意图相关关系的描述相关表:是一种统计表,将一个变量的若干变量值按从小到大的顺序排列,另一变量的值与之对应排列。相关图:又称散点图,将两个变量相对应的变量值用坐标点的形式描绘出来,用于表面相关点分布状况的图形。相关关系的描述【案例3】某地12名一年级女大学生的体(kg)与肺活量(L)数据见下表。相关表:某地12名一年级女大学生的体重与肺活量数据编号体重(kg)肺活量(L)1422.552422.23462.754462.45462.86502.817503.418503.19523.4610522.8511583.512583.31相关关系的描述12名女大学生体重和肺活量的散点图相关关系的描述收缩压和舒张压(mmHg)(665名6至10岁女孩)如何判断收缩压和舒张压之间相关性的强弱?散点图仅能粗略地描述两变量间的关系,如果要精确地描述两变量间的直线关系,应进行相关分析,求相关系数相关系数的问题相关系数的设计思想1相关系数的特点2本节学习内容相关系数的检验3相关系数r的假设检验4直线相关的应用5相关系数的设计思想相关系数的设计思想总体相关系数对于所研究的总体,表示两个相互联系变量相关程度的总体相关系数为:总体相关系数反映总体两个变量X和Y的线性相关程度。特点对于特定的总体来说,X和Y的数值是既定的.总体相关系数是客观存在的特定数值。相关系数的设计思想样本相关系数通过x和y的样本观测值去估计变量x和y的样本相关系数通常用表示特点样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的,是对总体相关系数的估计,它是个随机变量。相关系数的特点相关系数的取值在-1与1之间。当r=0时,表明x与y没有线性相关关系。当时,表明x与y存在一定的线性相关关系:若表明x与y为正相关;若表明x与y为负相关。当时,表明x与y完全线性相关:若r=1,称x与y完全正相关;若r=-1,称x与y完全负相关。相关系数与散点图的关系相关系数与散点图的关系r1>0r2>0

r1<r2使用相关系数的注意事项

x和y都是相互对称的随机变量,所以相关系数只反映变量间的线性相关程度,不能说明非线性相关关系。相关系数不能确定变量的因果关系,也不能说明相关关系具体接近于哪条直线。相关系数的检验为什么要检验?样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。【故事1】儿子与树一年后,相关系数结论:树使儿子快速生长,或儿子使树快速生长?!相关系数的检验为什么要检验?样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。【故事2】游泳与冰激凌一年后,相关系数结论:游泳者喜欢冰淇淋,或买冰淇淋者喜欢游泳?!相关系数的检验儿子树?时间游泳人数买冰淇淋人数?

气温不要把任意两个变量放在一起算相关系数在专业上,两者必须可能存在联系简单相关=直接联系+间接联系简单相关不一定意味着直接联系相关系数r的假设检验r

随样本变化而变化,是一个随机变量

总体相关系数是一个固定的值r≠0→

≠0?

问题:r≠0,

=0吗?假定:X

和Y

服从二元正态分布注:r≠0原因:①由于抽样误差引起,ρ=0 ②存在相关关系,ρ≠0相关系数r的假设检验H0:ρ=0,H1:ρ≠0,α=0.05利用t检验自由度ν=n-2,查t分布表

直线相关的应用相关是研究两个变量间的相互关系,而且这种相互关系是用相关系数反映的。在确实存在相关关系的前提下,如果│r│越大,说明两个变量之间的关联程度越强,已知一个变量对预测另一个变量越有帮助;如果│r│越小,说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。一般说来,当样本量较大(n>100),并对r进行假设检验,有统计学意义时,│r│>0.7时,表示两个变量高度相关;0.4<│r│≤0.7时,表示两个变量之间中度相关;0.2<│r│≤0.4时,表示两个变量低度相关。回归分析的原理相关分析与回归分析的联系1线性回归的概念2本节学习内容回归的现代意义3回归分析的意义4相关分析与回归分析的联系与区别5相关分析与回归分析的联系回归的古典意义:高尔顿遗传学的回归概念父母身高与子女身高的关系:无论高个子或低个子的子女都有向人的平均身高回归的趋势当父辈身高X比人类平均身高高时,则子辈身高Y存在概率:反之,当父辈身高X比人类平均身高矮时,则子辈身高Y存在概率:显然有一种力量将子辈身高拉回人类身高的平均数,即子辈身高有向人类平均身高“回归”的特点。“回归”一词即源于此。线性回归的概念目的:研究应变量Y对自变量X的数量依存关系。特点:统计关系。X值和Y的均数的关系,不同于一般数学上的X和Y的函数关系。当我们知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。Y=f(X)但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归.Y=f(X)+ε回归的现代意义一个因变量对若干解释(自)变量依存关系的研究回归的目的(实质):由固定的自变量去估计因变量的平均值总体样本自变量固定值估计因变量平均值回归分析的意义一方面是“预测”通过建立回归函数或者建立回归函数来预测估计目标变量,比如在市场上运用价格与销量之间的关系,通过定价的不同来预测销售量的变化;另一方面是“因子分析”根据回归分析的结果,得出各个自变量对目标变量产生的影响,求出各个自变量的影响程度,例如市场的需求供给和价格之间的关系,价格与需求成反比,价格与供给成正比,价格对需求和供给的影响恰好是相反的。相关分析与回归分析的联系与区别相关回归联系相关分析是回归分析的基础和前提回归分析则是相关分析的深入和继续依靠回归分析来表现变量之间数量关系的具体形式依靠相关分析来表现变量之间数量变化的相关程度只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义,如果在没有确定变量之间是否相关以及相关方向和程度没有做出正确判断之前,就进行回归分析,很容易造成“伪回归”相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的区别变量不存在自变量和因变量的划分问题,变量之间的关系是对等的必须对变量进行自变量和因变量的划分,变量之间的关系是不对等的所有的变量都必须是随机变量自变量是确定的,因变量才是随机的主要通过相关系数来反映变量之间相关程度的大小,相关系数是唯一确定的对于互为因果的两个变量,则有可能存在多个回归函数回归模型的参数估计和检验回归系数的普通最小二乘估计1一元线性回归的基本假定2回归系数的最小二乘估计3最小二乘估计的概率分布性质4本节学习内容最小二乘估计的性质5回归系数的普通最小二乘估计回归系数估计的思想:为什么对未知参数作估计?参数是未知的、不可直接观测的、不能精确计算的能够得到的只是变量的样本观测值结论:只能通过变量样本观测值选择适当方法去近似地估计回归系数。前提:是随机变量其分布性质不确定,必须作某些假定,其估计才有良好性质,其检验才可进行。原则:使参数估计值“尽可能地接近”总体参数真实值一元线性回归的基本假定假定1:零均值假定。假定2:同方差假定。假定3:无自相关假定。假定4:随机扰动与自变量不相关。假定5:正态性假定回归系数的最小二乘估计基本思想:希望所估计的偏离实际观测值的残差越小越好。可以取残差平方和作为衡量与偏离程度的标准——最小二乘准则最小二乘估计xy(xn,yn)(x1,y1)

(x2,y2)(xi,yi)}ei=yi-yi^残差:点到直线的纵向距离通过使残差平方和

达到最小来求得、

即:

回归系数的最小二乘估计【求解】将Q对和求偏导数并令其等于零,可以得到正规方程组。解得与相关系数符号一致最小二乘估计的概率分布性质和都是服从正态分布的随机变量,其期望为方差和标准误差为结论:最小二乘估计的性质——高斯—马尔可夫定理前提:在基本假定满足时最小二乘估计是因变量的线性函数最小二乘估计是无偏估计,即

在所有的线性无偏估计中,回归系数的最小二乘估计的方差最小。结论:回归系数的最小二乘估计是最佳线性无偏估计回归模型的评价和检验拟合优度1显著性检验2本节学习内容一元线性回归方程的评价和检验拟合优度可决系数估计标准误差显著性检验t检验F检验可决系数基本思想:样本回归直线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线。样本回归拟合优度的度量建立在对因变量总离差平方和分解的基础上

总离差平方和SST回归平方和SSR残差平方和SSE可决系数定义:可决系数对可决系数的理解可决系数可决系数是非负的统计量;可决系数取值范围:;可决系数是样本观测值的函数,可决系数是随抽样而变动的随机变量;在一元线性回归中,可决系数在数值上是简单线性相关系数的平方,可决系数的无偏估计为什么要估计?由于不能直接观测,也是未知的,对的数值只能通过样本信息去估计。怎样估计?可以证明的无偏估计为:式中k为模型中自变量的个数,一元回归中等于1可决系数估计标准误估计标准误是对各观测数据在回归直线周围分散程度的一个度量值,可以证明,是对误差项ε的标准差的无偏估计。估计标准误反映了用估计的回归方程拟合因变量Y时平均误差的大小。各观测数据越靠近回归直线,估计标准误就越小,回归直线对各观测数据的代表性就越好。与R2不同的是,估计标准误是一个有单位的绝对数。显著性检验回归分析中的显著性检验回归分析中的显著性检验包括两方面的内容:对单个自变量回归系数的显著性检验(t检验);对整个回归方程(所有自变量回归系数)显著性的整体检验(F检验)。在一元线性回归模型中,由于只有一个解释变量X,因此,对β1=0的t检验与对整个方程的F检验是等价的。显著性检验回归系数显著性t检验提出假设常用假设:计算统计量

给定显著性水平α,确定临界值检验结果判断若则拒绝原假设,而接受备择假设若则接受原假设,拒绝备择假设显著性检验几点说明为什么要检验回归系数是否等于0?如果总体中的回归系数等于零,说明相应的自变量x对y缺乏解释能力,在这种情况下我们可能需要从回归方程中去掉这个自变量。我们也可以对常数项进行t检验,但大部分情况下我们并不关心常数项的检验结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论