现代统计方法回归分析_第1页
现代统计方法回归分析_第2页
现代统计方法回归分析_第3页
现代统计方法回归分析_第4页
现代统计方法回归分析_第5页
已阅读5页,还剩114页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

现代统计方法回归分析第一页,共一百一十九页,2022年,8月28日统计学的几个问题1、自1969年设立诺贝尔经济学奖以来,已有42名学者获奖,而其中有2/3的人是统计学家、计量经济学家、数学家。2、目前的研究趋势是:从一般的逻辑推理发展到重视实证研究;从理论论述发展到数量研究。3、硕士和博士的学位论文,如果没有数量模型和分析,其文章的水平会有问题。第二页,共一百一十九页,2022年,8月28日统计学的几个问题李怀祖在《管理学研究方法论》中提到大量的统计研究方法:描述统计推断统计结构方程建模评估研究第三页,共一百一十九页,2022年,8月28日SEM(StructuralEquationModellingx1x2x3x4x5x6x7ξ1ξ2ξ3η1η2y1y2y3y4ɛ1ɛ4ɛ3ɛ2λx11λx21λx31λx32λx42λx52λx63λx73φ31φ21φ32β1β2r11r12r22r23ψ12λy11λy11λy32λy42第四页,共一百一十九页,2022年,8月28日现代统计方法的种类一、分类分析方法:

1、聚类分析

2、判别分析

3、定性资料分析二、结构简化方法:

1、回归选元法

2、聚类分析

3、主成分分析

4、因子分析

5、对应分析第五页,共一百一十九页,2022年,8月28日现代统计方法的种类三、相关分析方法1、定性资料分析2、回归分析3、典型相关分析4、主成分分析5、因子分析6、对应分析第六页,共一百一十九页,2022年,8月28日现代统计方法的种类四、预测决策方法:1、回归分析2、判别分析3、定性资料分析4、聚类分析第七页,共一百一十九页,2022年,8月28日统计分析方法应用流程现实经济问题提炼具体问题确定欲达目标根据定性理论设计指标变量

搜集整理统计数据

选择统计方法构造理论模型

进行统计计算估计模型参数

修改NOYES应用分类研究结构简化研究相关分析研究预测决策研究第八页,共一百一十九页,2022年,8月28日教材第九页,共一百一十九页,2022年,8月28日统计软件简介SPSSSASS-PLUSMINITABTSPEVIEW第十页,共一百一十九页,2022年,8月28日关于SPSSSPSS(StatisticalPackagefortheSocialScience)即“社会科学统计软件包”,是世界著名的统计分析软件。1968年,3位斯坦福大学的学生开发了最早的SPSS统计软件系统,并基于这一系统于1975年在芝加哥合伙成立了SPSS公司,1984年开发出世界第一个统计分析软件的微机版本。。第十一页,共一百一十九页,2022年,8月28日关于SPSS于2000年正式将英文全称更改为StatisticalProductandServiceSolutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。目前全球拥有25万用户,分布于通信、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等领域。是世界上应用最广泛的专业统计软件第十二页,共一百一十九页,2022年,8月28日关于SASSAS系统全称为StatisticsAnalysisSystem,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。

第十三页,共一百一十九页,2022年,8月28日关于SAS经过多年的发展,SAS已被全世界120多个国家和地区的近三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在96~97年度被评选为建立数据库的首选产品。堪称统计软件界的巨无霸。第十四页,共一百一十九页,2022年,8月28日关于SASSAS系统是一个组合软件系统,它由多个功能模块组合而成它们是:BASESASSAS/STAT(统计分析模块)SAS/GRAPH(绘图模块)SAS/QC(质量控制模块)SAS/ETS(经济计量学和时间序列分析模)SAS/OR(运筹学模块)SAS/IML(交互式矩阵程序设计语言模块SAS/FSP(快速数据处理的交互式菜单系统模块)SAS/AF(交互式全屏幕软件应用系统模块)

第十五页,共一百一十九页,2022年,8月28日关于SAS由于SAS系统是从大型机上的系统发展而来,在设计上也是完全针对专业用户进行设计,因此其操作至今仍以编程为主,人机对话界面不太友好,并且在编程操作时需要用户最好对所使用的统计方法有较清楚的了解,非统计专业人员掌握起来较为困难。而且,SAS极为高昂的价格和只租不卖的销售策略使得实力不足的个人和机构只能对他望而却步。第十六页,共一百一十九页,2022年,8月28日关于S-PLUSS,S-PLUS,R,S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。它的丰富的数据类型(向量、数组、列表、对象等)特别有利于实现新的统计算法,其交互式运行方式及强大的图形及交互图形功能使得我们可以方便的探索数据。目前S语言的实现版本主要就是S-PLUS。

第十七页,共一百一十九页,2022年,8月28日关于S-PLUSS-PLUS基于S语言,并由MathSoft公司的统计科学部进一步完善。作为统计学家及一般研究人员的通用方法工具箱,S-PLUS强调演示图形、探索性数据分析、统计方法、开发新统计工具的计算方法,以及可扩展性。S-plus有微机版本和工作站版本,它是一个商业软件,可以直接用来进行标准的统计分析得到所需结果,但是它的主要的特点是它可以交互地从各个方面去发现数据中的信息,并可以很容易地实现一个新的统计方法。

第十八页,共一百一十九页,2022年,8月28日关于S-PLUS另外Auckland大学的RobertGentleman和

RossIhaka及其他志愿人员开发了一个R系统,其语法形式与S语言基本相同,但实现不同,两种语言的程序有一定的兼容性。R是一个GPL自由软件,现在的版本是1.00版,它比S-PLUS还少许多功能,但已经具有了很强的实用性

第十九页,共一百一十九页,2022年,8月28日关于MINITABMinitab,Minitab同样是国际上流行的一个统计软件包,其特点是简单易懂,在国外大学统计学系开设的统计软件课程中,Minitab与SAS、BMDP并列,根据没有SPSS的份,甚至有的学术研究机构专门教授Minitab之概念及其使用。MiniTabforWindows统计软件比SAS、SPSS等小得多,但其功能并不弱,特别是它的试验设计及质量控制等功能。第二十页,共一百一十九页,2022年,8月28日关于MINITABMiniTab目前的最高版本为V14.1,它提供了对存储在二维工作表中的数据进行分析的多种功能,包括:基本统计分析、回归分析、方差分析、多元分析、非参数分析、时间序列分析、试验设计、质量控制、模拟、绘制高质量三维图形等,从功能来看,Minitab除各种统计模型外,还具有许多统计软件不具备的功能--矩阵运算第二十一页,共一百一十九页,2022年,8月28日关于EViewsEViews,EViews是美国GMS公司1981年发行第1版的MicroTSP的Windows版本,通常称为计量经济学软件包。EViews是EconometricsViews的缩写,它的本意是对社会经济关系与经济活动的数量规律,采用计量经济学方法与技术进行“观察”。计量经济学研究的核心是设计模型、收集资料、估计模型、检验模型、运用模型进行预测、求解模型和运用模型。EViews是完成上述任务得力的必不可少的工具

第二十二页,共一百一十九页,2022年,8月28日关于EViews正是由于EViews等计量经济学软件包的出现,使计量经济学取得了长足的进步,发展成为实用与严谨的经济学科。使用

EViews软件包可以对时间序列和非时间序列的数据进行分析,建立序列(变量)间的统计关系式,并用该关系式进行预测、模拟等等

第二十三页,共一百一十九页,2022年,8月28日关于EViewsEViews。虽然

EViews是由经济学家开发的,并且大多数被用于经济学领域,但并意味着必须限制该软件包仅只用于处理经济方面的时间序列。EViews处理非时间序列数据照样得心应手。实际上,相当大型的非时间序列(截面数据)的项目也能在

EViews中进行处理第二十四页,共一百一十九页,2022年,8月28日关于TSPTSPTM是一种用于经济模型估算和模拟的完整语言。它是一个用于经济估算的世界标准。虽然TSP主要由经济学家开发并发展,但它的设计并没仅把它限制在经济领域。任何由相同变量的重复观测得到的数据,都可用TSP分析

第二十五页,共一百一十九页,2022年,8月28日线性回归分析1第二十六页,共一百一十九页,2022年,8月28日回归分析第一节回归分析的背景第二节一元线性回归分析第三节多元线性回归分析第三节逐步回归分析第四节回归诊断第二十七页,共一百一十九页,2022年,8月28日回归分析的相关背景1、回归分析的由来:英国统计学家F.GALTON(1822-1911)和其学生K.Pearson(1856-1936)观察了1078对夫妇,以每对夫妇的平均身高为X,而取他们成年的儿子的身高为Y,得到如下经验方程:

Y=33.73+0.516X第二十八页,共一百一十九页,2022年,8月28日回归分析的相关背景2、自1969年设立诺贝尔经济学奖以来,已有42名学者获奖,而其中有2/3的人是统计学家、计量经济学家、数学家。由获奖者克莱因发起的国际连接系统使用了7447个方程和3368个外生变量。英国剑桥大学的多部门动态模型有2759个方程和7484个变量。第二十九页,共一百一十九页,2022年,8月28日回归分析的相关背景3、回归分析的几个发展方向:1)、统计学的重要方法与回归的关系密切时间序列分析(BOX-JINKINS)、判别分析、主成分分析、因子分析、典型相关分析2)、回归分析自身的完善和发展自变量选择、稳健回归、回归诊断、投影寻踪、非参数回归第三十页,共一百一十九页,2022年,8月28日回归分析的相关背景3)、新的研究方法为回归分析提供了方法论非参数统计、自助法、刀切法、经验贝叶斯估计4)、各种有偏估计出现:岭估计、压缩估计、主成分估计、STEN

估计、特征根估计、偏最小二乘估计。第三十一页,共一百一十九页,2022年,8月28日一元线性回归分析1、一元线性回归模型2、回归模型的参数估计3、OLSE估计的性质4、回归方程的显著性检验5、回归方程的拟合优度6、残差分析7、回归系数的区间估计第三十二页,共一百一十九页,2022年,8月28日一元线性回归分析模型1、回归模型建模的实践背景2、一元线性回归模型的数学形式:

1)、理论模型:

第三十三页,共一百一十九页,2022年,8月28日一元线性回归模型的数学形式2)、样本回归模型对于n组观测值有:第三十四页,共一百一十九页,2022年,8月28日一元线性回归模型的数学形式3)、模型的矩阵表达:

第三十五页,共一百一十九页,2022年,8月28日回归分析的参数估计(OLSE)OrdinaryLeastSquareEstimation:对于已知n组观测值有:第三十六页,共一百一十九页,2022年,8月28日回归分析的参数估计(OLSE)第三十七页,共一百一十九页,2022年,8月28日回归分析的参数估计(OLSE)由此得回归方程:

第三十八页,共一百一十九页,2022年,8月28日关于ß系数的几种表达方式第三十九页,共一百一十九页,2022年,8月28日关于回归方程估计的几个说明1、回归方程通过样本的中心点2、残差具有如下性质:

第四十页,共一百一十九页,2022年,8月28日回归方程的极大似然估计第四十一页,共一百一十九页,2022年,8月28日回归方程的极大似然估计第四十二页,共一百一十九页,2022年,8月28日OLSE的性质1、线性:

第四十三页,共一百一十九页,2022年,8月28日OLSE的性质2、无偏性第四十四页,共一百一十九页,2022年,8月28日OLSE的性质3、参数的方差:上面的公式表明,参数的准确性除受总体的差异外,还受X值的范围影响,X取值范围越大,参数就越稳定第四十五页,共一百一十九页,2022年,8月28日OLSE的性质Gauss-Markov条件:如果参数的下列条件成立:

第四十六页,共一百一十九页,2022年,8月28日回归方程的检验在得到回归方程后,必须运用统计检验方法分析该方程是否真正描述了Y与X之间的统计规律之后,才能进行分析预测等各种运用,检验的基本假设前提是:第四十七页,共一百一十九页,2022年,8月28日T检验T检验主要用于检验回归系数有效性的统计检验方法1、设置假设:

第四十八页,共一百一十九页,2022年,8月28日T检验2、构造检验统计量:

第四十九页,共一百一十九页,2022年,8月28日T检验3、检验过程:在给定显著性水平,双侧检验临界值为,当,拒绝原假设,反之,接受原假设,即回归方程不成立,第五十页,共一百一十九页,2022年,8月28日T检验4、P值检验法:

P值又称P-Value,基本的检验关系是:

P()=P值其中t为检验统计量,服从t(n-2)的分布判别的标准是:第五十一页,共一百一十九页,2022年,8月28日用P值代替t值的优越性1、直接对比P值与的水平,不用查表2、用P值检验可比性较好。3、P值的意义明确,就是犯拒镇真错误的概率。第五十二页,共一百一十九页,2022年,8月28日F检验1、回归方程平方和分解;见分解图YX第五十三页,共一百一十九页,2022年,8月28日F检验由上图有:SST---SumofsquaresforTotalSSE---SumofsquaresforerrorSSR---SumofsquaresforRegression

第五十四页,共一百一十九页,2022年,8月28日F检验2、回归方程显著性检验1)、设置假设:2)、构造统计量:

第五十五页,共一百一十九页,2022年,8月28日F检验3)、检验标准:

第五十六页,共一百一十九页,2022年,8月28日F检验方差来源自由度平方和均方F值P值回归1SSRSSR/1对比P与残差n-2SSESSE/n-2总和n-1SST第五十七页,共一百一十九页,2022年,8月28日三种检验的关系可以证明,就一元回归方程而言,回归系数检验、相关系数检验和F检验是完全等价的。基本关系是:

第五十八页,共一百一十九页,2022年,8月28日回归方程的拟合优度检验1、检验公式:2、基本意义:表现回归方程总平方和中能够为回归平方和解释部分的比重,该值越大则拟合优度越好。

第五十九页,共一百一十九页,2022年,8月28日但是,当观测值很大时,高度显著的检验结果可能对应较低的决定系数,产生这种结果的原因有:X与Y存在的关系不是线性关系而是非线性的。X与Y的线性相关关系确立,但是误差项方差太大,导致样本决定系数很小。回归方程的拟合优度检验第六十页,共一百一十九页,2022年,8月28日回归系数的区间估计在实际运用中,经常考虑回归系数的区间估计,由公式:1、区间估计的统计量:

第六十一页,共一百一十九页,2022年,8月28日回归系数的区间估计2、概率度公式:第六十二页,共一百一十九页,2022年,8月28日回归系数的区间估计3、区间估计:第六十三页,共一百一十九页,2022年,8月28日回归方程预测与控制1、单值预测:第六十四页,共一百一十九页,2022年,8月28日回归方程预测与控制2、区间预测:1)、因变量新值的区间估计:第六十五页,共一百一十九页,2022年,8月28日回归方程预测与控制2)、因变量新值的平均值的区间估计第六十六页,共一百一十九页,2022年,8月28日一元线性回归模型的估计某地区月人均收入与月食品支出的资料第六十七页,共一百一十九页,2022年,8月28日恩格尔函数计算示例第六十八页,共一百一十九页,2022年,8月28日回归方程误差的估计总体回归方程的误差与样本误差的关系为:根据回归直线得到:

第六十九页,共一百一十九页,2022年,8月28日回归均方误差与标准误差第七十页,共一百一十九页,2022年,8月28日回归方程误差的估计第七十一页,共一百一十九页,2022年,8月28日最小二乘法估计量的性质第七十二页,共一百一十九页,2022年,8月28日最小二乘法估计量的性质第七十三页,共一百一十九页,2022年,8月28日一元线性回归模型的检验回归方程必须通过检验才能实际应用检验内容:

1、统计学检验:拟合程度评价-----可决系数评价显著性检验--------T检验,F检验

2、计量经济学检验----DW,等级相关检验第七十四页,共一百一十九页,2022年,8月28日可决系数的含义1、回归方程平方和分解;见分解图YX第七十五页,共一百一十九页,2022年,8月28日可决系数的含义由上图有:SST---SumofsquaresforTotalSSE---SumofsquaresforerrorSSR---SumofsquaresforRegression

第七十六页,共一百一十九页,2022年,8月28日可决系数的含义由上面的公式有:第七十七页,共一百一十九页,2022年,8月28日可决系数的含义可决系数定义为:很显然,可决系数越大,方程的拟合度就越高。第七十八页,共一百一十九页,2022年,8月28日可决系数的应用第七十九页,共一百一十九页,2022年,8月28日可决系数的应用第八十页,共一百一十九页,2022年,8月28日可决系数的特性:1、具有非负性2、取值范围为:3、可决系数是样本观测值的函数第八十一页,共一百一十九页,2022年,8月28日T检验T检验主要用于检验回归系数有效性的统计检验方法1、设置假设:

第八十二页,共一百一十九页,2022年,8月28日T检验2、构造检验统计量:

第八十三页,共一百一十九页,2022年,8月28日T检验第八十四页,共一百一十九页,2022年,8月28日T检验第八十五页,共一百一十九页,2022年,8月28日T检验第八十六页,共一百一十九页,2022年,8月28日T检验3、检验过程:在给定显著性水平,双侧检验临界值为,当,拒绝原假设,反之,接受原假设,即回归方程不成立,第八十七页,共一百一十九页,2022年,8月28日T检验第八十八页,共一百一十九页,2022年,8月28日T检验第八十九页,共一百一十九页,2022年,8月28日T检验4、P值检验法:

P值又称P-Value,基本的检验关系是:

P()=P值其中t为检验统计量,服从t(n-2)的分布判别的标准是:第九十页,共一百一十九页,2022年,8月28日用P值代替t值的优越性1、直接对比P值与的水平,不用查表2、用P值检验可比性较好。3、P值的意义明确,就是犯拒镇真错误的概率。第九十一页,共一百一十九页,2022年,8月28日回归方程预测与控制1、单值预测:第九十二页,共一百一十九页,2022年,8月28日示例假定某地区居民家庭的人均收入为200元,根据回归方程,有月食品支出预测值:

y=9.99+0.1802xy=9.99+0.1802×200=46.03元第九十三页,共一百一十九页,2022年,8月28日回归方程预测与控制2、区间预测:因变量新值的区间估计:第九十四页,共一百一十九页,2022年,8月28日回归方程预测与控制因变量预测值的估计区间第九十五页,共一百一十九页,2022年,8月28日回归方程预测与控制第九十六页,共一百一十九页,2022年,8月28日由上例有:第九十七页,共一百一十九页,2022年,8月28日回归方程预测与控制第九十八页,共一百一十九页,2022年,8月28日一元线性回归分析1、一元线性回归模型(理论模型与经验模型)2、回归模型的参数估计(OLS估计与残差计算)3、回归方程的显著性检验(t回归系数的t检验)4、回归方程的拟合优度(可决系数,F检验)5、残差分析(回归诊断)6、回归系数的区间估计(单值预测与区间估计)第九十九页,共一百一十九页,2022年,8月28日第三节相关分析相关系数的定义相关系数与可决系数单相关系数的检验第一百页,共一百一十九页,2022年,8月28日相关系数的定义1、相关系数:是在直线相关的前提下,用以测量两个变量之间相关关系的密切程度的统计分析工具。

2、相关系数的含义解释:

1)、相关系数测定的原始公式:

积差法公式:

第一百零一页,共一百一十九页,2022年,8月28日积差法公式的几何解释第一百零二页,共一百一十九页,2022年,8月28日积差法公式的几何解释第一百零三页,共一百一十九页,2022年,8月28日相关系数的测算公式:

样本相关系数的计算第一百零四页,共一百一十九页,2022年,8月28日一元线性回归模型的估计某地区月人均收入与月食品支出的资料第一百零五页,共一百一十九页,2022年,8月28日计算示例(P177)低度相关,显著相关,0.8---1高度相关第一百零六页,共一百一十九页,2022年,8月28日相关系数的基本性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论