版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、相关与回归分析,第7章,实例1:中国妇女生育水平的决定因素是什么?,妇女生育水平除了受计划生育政策影响以外,还可能与社会、经济、文化等多种因素有关。1、影响中国妇女生育率变动的因素有哪些?2、各种因素对生育率的作用方向和作用程度如何?3、哪些因素是影响妇女生育率主要的决定性因素?4、如何评价计划生育政策在生育水平变动中的作用?5、计划生育政策与经济因素比较,什么是影响生育率的决定因素?6、如果某些地区的计划生育政策及社会、经济、文化等因素发生重大变化,预期对这些地区的妇女生育水平会产生怎样的影响?,据世界卫生组织统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖症和体
2、重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。(引自光明日报刘军/文)问题:肥胖症和体重超常与死亡人数真有显著的数量关系吗?这些类型的问题可以运用相关分析与回归分析的方法去解决。,实例2:全球吃死的人比饿死的人多?,第7章相关与回归分析,7.1相关分析7.2一元线性回归分析7.3线性回归的显著性检验与回归预测7.4多元线性回归分析,学习目标,1、变量间的相关关系与相关系数的计算2、总体回归函数与样本回归函数3、线性回归的基本假定4、一元线性回归参数的估计与检验5、多元线性回归参数的估计与检验6、回归预测的方法,7.1相关与回归的基本
3、概念,一、相关关系的概念二、相关系数三、相关,一、相关关系的概念,确定性的函数关系Y=f(X)不确定性的统计关系相关关系Y=f(X)+(为随机变量)没有关系变量间关系的图形描述:坐标图(散点图),1.变量间的相互关系,2、相关关系的类型,从涉及的变量数量看简单相关多重相关(复相关)从变量相关关系的表现形式看线性相关散布图接近一条直线(左图)非线性相关散布图接近一条曲线(右图),从变量相关关系变化的方向看正相关变量同方向变化A同增同减(A)负相关变量反方向变化一增一减(B)B从变量相关的程度看完全相关(B)不完全相关(A)C不相关(C),总体相关系数对于所研究的总体,表示两个相互联系变量相关程度
4、的总体相关系数为:总体相关系数反映总体两个变量X和Y的线性相关程度。特点:对于特定的总体来说,X和Y的数值是既定的总体相关系数是客观存在的特定数值。,二、相关系数,样本相关系数,通过x和y的样本观测值去估计样本相关系数变量x和y的样本相关系数通常用表示特点:样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的,是对总体相关系数的估计,它是个随机变量。,相关系数的特点:,相关系数的取值在-1与1之间。当r=0时,表明x与y没有线性相关关系。当时,表明x与y存在一定的线性相关关系:若表明x与y为正相关;若表明x与y为负相关。当时,表明x与y完全线性相关:若r=1,称x与y完全正相关;若r=-
5、1,称x与y完全负相关。,使用相关系数的注意事项:,x和y都是相互对称的随机变量,所以相关系数只反映变量间的线性相关程度,不能说明非线性相关关系。相关系数不能确定变量的因果关系,也不能说明相关关系具体接近于哪条直线。,相关系数的检验,为什么要检验?样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。检验的依据:如果x与都服从正态分布,在总体相关系数的假设下,与样本相关系数r有关的t统计量服从自由度为n-2的t分布:,相关系数的检验方法,给定显著性水平,查自由度为n-2的临界值若,表明相关系数r在统计上是显著的,应否定而接受的假设;反之,若,应接受的假设。,三、Spearman
6、等级相关系数,当变量不满足正态分布要求或不是数量型变量时,简单线性相关系数不宜使用,可以用Spearman等级相关系数作相关性分析。对于样本容量为n的变量x和y,如果取值都可以分为n个等级,而且样本的n个单位分别不重复地属于x和y的不同等级,没有两个单位取相同等级的情况,并且用表示样本单位属于x的等级与y的等级的级差。Spearman等级相关系数为:,Spearman等级相关系数的特性,样本等级相关系数的取值范围:时,说明样本等级完全正相关;时,样本等级完全负相关;时,说明样本等级不相关;当时,越接近1,正相关程度越高;当时,越接近-1,负相关程度越高。可以证明:Spearman等级相关系数是
7、简单线性相关系数的特例。,72一元线性回归分析,一、相关分析与回归分析的联系二、总体回归函数与样本回归函数三、回归系数的普通最小二乘估计四、拟合优度度量,一、相关分析与回归分析的联系,回归的古典意义:高尔顿遗传学的回归概念父母身高与子女身高的关系:无论高个子或低个子的子女都有向人的平均身高回归的趋势,回归的现代意义:,一个因变量对若干解释变量依存关系的研究回归的目的(实质):由固定的自变量去估计因变量的平均值,相关分析与回归分析的联系,共同的研究对象:都是对变量间相关关系的分析只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义。相关分析只表明变量间相关关系的性质和程度,
8、要确定变量间相关的具体数学形式依赖于回归分析相关分析中相关系数的确定建立在回归分析的基础上。,二、总体回归函数与样本回归函数,若干基本概念y的条件分布:y在x取某固定值条件下的分布。对于x的每一个取值,都有y的条件期望与之对应,在坐标图上y的条件期望的点随x而变化的轨迹所形成的直线或曲线,称为回归线。如果把y的条件期望表示为x的某种函数:,这个函数称为回归函数。如果其函数形式是只有一个自变量的线性函数,如,称为一元线性回归函数。,总体回归函数(PRF),概念:将总体因变量y的条件均值表现为自变量x的某种函数,这个函数称为总体回归函数(简记为PRF)。表现形式:(1)条件均值表现形式(2)个别值
9、表现形式(随机设定形式),样本回归函数(SRF),概念:y的样本观测值的条件均值随自变量x而变动的轨迹,称为样本回归线。如果把因变量y的样本条件均值表示为自变量x的某种函数,这个函数称为样本回归函数(简记为SRF)。表现形式:线性样本回归函数可表示为或者,样本回归函数与总体回归函数的关系相互联系,样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。和是对总体回归函数参数的估计。是对总体条件期望的估计残差e在概念上类似总体回归函数中的随机误差u。回归分析的目的:用样本回归函数去估计总体回归函数。,样本回归函数与总体回归函数的关系相互区别,总体回归函数虽然未知,但它是确定的;样本回归线随抽
10、样波动而变化,可以有许多条。样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。总体回归函数的参数虽未知,但是确定的常数;样本回归函数的参数可估计,但是随抽样而变化的随机变量。总体回归函数中的是不可直接观测的;而样本回归函数中的是只要估计出样本回归的参数就可以计算的数值。,三、回归系数的普通最小二乘估计,回归系数估计的思想:为什么只能对未知参数作估计?参数是未知的、不可直接观测的、不能精确计算的能够得到的只是变量的样本观测值结论:只能通过变量样本观测值选择适当方法去近似地估计回归系数。前提:u是随机变量其分布性质不确定,必须作某些假定,其估计才有良好性质,其检验才可进行。原则:使参数
11、估计值“尽可能地接近”总体参数真实值,一元线性回归的基本假定,假定1:零均值假定。假定2:同方差假定。假定3:无自相关假定。假定4:随机扰动与自变量不相关。假定5:正态性假定,回归系数的最小二乘估计,基本思想:希望所估计的偏离实际观测值的残差越小越好。可以取残差平方和作为衡量与偏离程度的标准最小二乘准则估计式:,最小二乘估计的概率分布性质,和都是服从正态分布的随机变量,其期望为方差和标准误差为结论:,最小二乘估计的性质高斯马尔可夫定理,前提:在基本假定满足时最小二乘估计是因变量的线性函数最小二乘估计是无偏估计,即在所有的线性无偏估计中,回归系数的最小二乘估计的方差最小。结论:回归系数的最小二乘
12、估计是最佳线性无偏估计,的无偏估计,为什么要估计?确定所估计参数的方差需要由于不能直接观测,也是未知的对的数值只能通过样本信息去估计。怎样估计?可以证明的无偏估计为:,四、拟合优度的度量,基本思想:样本回归直线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线。样本回归拟合优度的度量建立在对因变量总离差平方和分解的基础上总离差平方和回归平方和残差平方和可决系数定义:,对可决系数的理解,可决系数的特点,可决系数是非负的统计量;可决系数取值范围:;可决系数是样本观测值的函数,可决系数是随抽样而变动的随机变量;在一元线性回归中,可决系数在数值上是简单线性相关系数的平方:,,73线性回归的显著性
13、检验与回归预测,一、回归系数显著性t检验二、一元线性回归模型的预测,一、回归系数显著性的t检验,目的:根据样本回归估计的结果对总体回归函数回归系数的有关假设进行检验,以检验总体回归系数是否等于某个特定的数值。思想:是未知的,而且不一定能获得大样本,这时可用的无偏估计代替去估计参数的标准误差:,回归系数显著性的t检验(续),用估计的参数标准误差对估计的参数作标准化变换,所得的t统计量将不再服从正态分布,而是服从t分布:可利用t分布作有关的假设检验。,回归系数显著性t检验的方法,(1)提出假设一般假设:常用假设:(2)计算统计量(3)给定显著性水平,确定临界值(4)检验结果判断若则拒绝原假设,而接
14、受备择假设若则接受原假设,拒绝备择假设,回归系数显著性的P值检验P值的意义,P值的意义:在既定原假设下计算回归系数的t统计量,可求得统计量大于的概率:这里的是t统计量大于值的概率,是尚不能拒绝原假设的最大显著水平,称为所估计的回归系数的P值。,回归系数显著性的P值检验检验方法,回归系数显著性的P值检验方法:将所取显著性水平与P值对比所取的显著性水平(例如取0.05)若比P值更大,就可在显著性水平下拒绝所取的若小于P值,就应在显著性水平下接受,二、一元线性回归模型预测,对平均值的点预测值:y的个别值置信度为1的预测区间:,因变量的区间预测的特点,(1)个别值的预测区间大于平均值的预测区间:y平均
15、值的预测值与真实平均值有误差,主要是受抽样波动影响;y个别值的预测值与真实个别值的差异不仅受抽样波动影响,而且还受随机扰动项的影响(2)对预测区间随变化而变化:时,=0,此时预测区间最窄,越是远离,越大,预测区间越宽。,因变量的区间预测的特点(续),(3)预测区间与样本容量有关:样本容量n越大,越大,预测误差的方差越小,预测区间也越窄。(4)当样本容量趋于无穷大(即n)时,不存在抽样误差,平均值预测误差趋于0,此时个别值的预测误差只决定于随机扰动的方差。,7.4多元线性相关与回归分析,一、多元线性回归模型及假定二、多元线性回归模型的估计三、多元线性回归模型的检验,一、多元线性回归模型及假定,多
16、元总体线性回归函数一般形式条件均值形式,多元线性样本回归函数:一般形式条件均值形式,多元线性回归模型的矩阵表示,多元总体线性回归模型的矩阵表示Y=X+U多元线性样本回归函数的矩阵表示,Y=X,+e,偏回归系数:多元线性回归模型中,回归系数表示当控制其它自变量不变的条件下,第j个自变量的单位变动对因变量均值的影响,这样的回归系数称为偏回归系数。,二、多元线性回归模型的估计,多元回归模型的假定,相同的假定:零均值、同方差、无自相关、随机扰动项与自变量不相关、U正态性增加的假定:各自变量之间不存在线性关系。在此条件下,自变量观测值矩阵X列满秩,Rank(X)=k,方阵,满秩,Rank(,)=k,意义
17、:可逆,,存在,多元回归参数的最小二乘估计,使残差平方和达到最小,其充分必要条件,正规方程组,-,多元线性回归的最小二乘估计式,正规方程组可简记为矩阵形式,存在,参数向量的最小二乘估计为,参数最小二乘估计的性质,可以证明:多元线性回归的最小二乘估计也是最佳线性无偏估计。,例,随机误差项方差的估计,方差未知,需要利用样本回归的残差平方和去估计。,可以证明,,是随机扰动项方差,的无偏估计,三、多元线性回归模型的检验,拟合优度检验多元线性回归离差平方和的分解式,变差,TSS=ESS+RSS(总离差平方和)(残差平方和)(回归平方和)自由度n-1=n-k+k-1,多重可决系数:,修正的可决系数,为什么
18、要修正?可决系数是自变量个数的不减函数,比较因变量相同而自变量个数不同的两个模型的拟合程度时,不能简单地对比多重可决系数。需要用自由度去修正多重可决系数中的残差平方和与回归平方和,相互关系:,回归参数的显著性检验t检验,在多元回归中可以证明,其中:,是矩阵,第j行第j列的元素。,因为,未知,故,也未知。现用,代替对原假设分别作t检验,,可构造统计量,:,回归方程的显著性检验F检验,目的:检验多个变量联合对因变量是否有显著影响方法:在方差分析的基础上利用F检验进行假定:,不全为零,方差分析表,F检验的方法,给定显著性水平,在F分布表中查出自由度为k-1和n-k的临界值,F服从自由度为k-1和n-k的F分布。,F检验:在,成立的条件下,统计量,:,若,则拒绝,说明回归方程中所有自变量联合起来对因变量有显著影响,若,则接受,说明回归方程中所有自变量联合起来对因变量影响不显著,本章小结,1、各种变量相互之间的依存关系:确定性的函数关系、不确定性的相关关系2、变量间的相关关系的程度用相关系数去度量3、现代意义的回归是关于一个变量对另一个或另外多个变量依存关系的研究。回归分析的目的是要用样本回归函数去估计总体回归函数。4、线性回归的各项基本假定5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 动手实践对小学生自然科学兴趣的培养研究
- 作业设计中的数学思维启发
- 《独处材料作文》课件
- 办公环境下实验室内网的配置与管理
- 办公空间中团队协作游戏的实践与效果评估
- 企业研发中心实验室建设规划实践
- 2025年中国压电器件市场供需格局及未来发展趋势报告
- 2025年中国纸巾(湿巾)市场行情动态分析及发展前景趋势预测报告
- 中国条码打印机行业市场发展现状及前景趋势与投资分析研究报告(2024-2030版)
- 营养麦片项目可行性研究报告
- 建筑物放线验线技术报告
- 年产2亿袋板蓝根颗粒剂车间工艺设计
- 下库进出水口拦污栅2X320KN双向门机安装方案
- 压缩固结试验
- 基数词-与序数词PPT优秀课件
- 双壁波纹管出厂合格证(共4页)
- 学校校医室常用药物配备目录及急救小常识
- API-6A-无损检测作业指导书
- 屏式过热器、高温过热器和高温再热器安装作业指导书
- 电子血压计现况及发展前景的研究
- 钢结构专用超薄型防火漆检验报告型式认可证书
评论
0/150
提交评论