《回归分析》 课件 第1章 绪论_第1页
《回归分析》 课件 第1章 绪论_第2页
《回归分析》 课件 第1章 绪论_第3页
《回归分析》 课件 第1章 绪论_第4页
《回归分析》 课件 第1章 绪论_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

缘起与发展变量间的关系研究内容建模思路小结与评注回归分析之绪论应用回归分析李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院

1/47缘起与发展变量间的关系研究内容建模思路小结与评注统计学与回归分析图

1:统计学研究思路示意图李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院2

/

47缘起与发展变量间的关系研究内容建模思路小结与评注目录缘起与发展变量间的关系研究内容建模思路小结与评注李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院3

/

47缘起与发展变量间的关系研究内容建模思路小结与评注缘起与发展变量间的关系研究内容建模思路小结与评注李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院4

/

47缘起与发展变量间的关系研究内容建模思路小结与评注缘起“回归”的概念最早出现在生物遗传学领域,其中作出巨大贡献的两位学者就是达尔文(Darwin)和他的表弟高尔顿(Galton)。

1859年,达尔文发表了《OntheOriginofSpecies》(《物种起源》)一书,开创了生物学发展史上的新纪元,引起了整个人类思想的巨大革命。图

2:Darwin(1809-1882)(左)

Galton(1822-1911)(右)李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院5

/

47缘起与发展变量间的关系研究内容建模思路小结与评注缘起在自然选择理论思想的引导下,达尔文的表弟高尔顿(Galton)先后完成了兔子模型、甜豌豆模型等论证实验,试图对人类遗传规律进行研究。图

3:甜豌豆模型实验(左)兔子模型实验(右)李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院6

/

47缘起与发展变量间的关系研究内容建模思路小结与评注缘起1885

年,通过允诺保密并提供奖金的方式,高尔顿获得了205

对夫妇及其928位成年子女的遗传特征数据,包括身高、眼睛颜色、脾气、艺术才能、疾病等。其中身高数据见下表:图

4:高尔顿实验数据李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院7

/

47缘起与发展变量间的关系研究内容建模思路小结与评注缘起李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院8

/

47缘起与发展变量间的关系研究内容建模思路小结与评注缘起

李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院9

/

47缘起与发展变量间的关系研究内容建模思路小结与评注发展图

5:回归分析发展历程李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院10

/

47研究内容建模思路小结与评注缘起与发展

变量间的关系发展:最小二乘法的提出回归分析中经典的最小二乘法最早出现于天文学与地理测量学领域的研究。1801年,意大利天文学家皮亚齐(Piazzi)发现了第一颗小 行星谷神星,经过40天的跟踪观测后,由于谷神星运行至太 阳背后,使得皮亚齐失去了谷神星的位置。为利用皮亚齐的观测数据寻找谷神星的运行轨道,1805年勒 让德(Legendre)在一本关于计算彗星轨道的书籍中首次发 表了最小二乘法清晰和简明的阐述。1809年,高斯(Gauss)发表了著作《关于绕日行星运动的 理论》。书中声称他自1799年以来就使用最小二乘方法,并 且其提出的正态误差理论也成功地将最小二乘法与概率原理 和正态分布联系起来。李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院11

/

47研究内容建模思路小结与评注缘起与发展

变量间的关系小故事:高斯与勒让德之争图

6:高斯与勒让德之争最小二乘法的提出,曾在高斯与勒让德两位大数学家之间引发了优先权之争,其知名度仅次于牛顿和莱布尼兹之间关于微积分发明的优先权之争。李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院12

/

47缘起与发展变量间的关系研究内容建模思路小结与评注发展图

7:回归分析发展历程李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院13

/

47研究内容建模思路小结与评注缘起与发展

变量间的关系发展:19世纪-20世纪初19世纪80年代1885年,高尔顿完成了人类遗传研究实验,获得了205

对夫妇及其928

位成年子女的遗传特征数据。借由实验中的身高数据,

高尔顿发现,

当父母身高走向极 端,子女的身高不会象父母身高那样极端化,其身高要比父 母们的身高更接近平均身高,即有“回归”到平均数去的趋 势,“回归”的概念由此诞生。20世纪初马尔可夫(Markov)于1900年证明了在经典线性回归的假定下,最小二乘估计量是具有最小方差的性质。李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院14

/

47缘起与发展变量间的关系研究内容建模思路小结与评注发展图

8:回归分析发展历程李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院15

/

47研究内容建模思路小结与评注缘起与发展

变量间的关系发展:20世纪50-70年代20世纪50年代1953年,Box提出“稳健”(Robustness)的概念。James和

Stein

发现,最小二乘估计并不具有不可容许性。20世纪60年代1962年Horel提出了岭回归估计;

1965年,Massy提出了主成分回归估计。在稳健概念的基

上,1964年,Huber提出了基于位置参M估 计量,同年提出极小极大理论也为解决参数估计的效率问题 奠定理论基

。李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院16

/

47研究内容建模思路小结与评注缘起与发展

变量间的关系发展:20世纪50-70年代20世纪70年代1970年,Schweppe

提出加权最小二乘估计方法,并将该方法应用于电力系统的状态估计中。1972年,Nelder放宽对因变量随机误差的正态分布要求,提出广义线性模型;Gallant于1975年提出非线性回归的概念。1978年,Koenker

和Bassett提出分位回归模型以研究自变量 与因变量条件分位数的关系;

AIC、Cp准则也分别于1971、

1973年问世。李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院17

/

47缘起与发展变量间的关系研究内容建模思路小结与评注发展图

9:回归分析发展历程李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院18

/

47研究内容建模思路小结与评注缘起与发展

变量间的关系发展:20世纪80年代-21世纪初20世纪80年代1983年,Wold提出偏最小二乘法,不但放宽n

>p的假定,也使得每一个系数估计更易解释。Baron于1986年提出利用逐步回归的思想实现对变量的选择。最小截尾二乘法LTS(Least

Truncated

Square)、最小中位数 二乘法LMS(LeastMedianSquare)、S估计、MM估计都是这 一时期提出的。李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院19

/

47研究内容建模思路小结与评注缘起与发展

变量间的关系发展:20世纪80年代-21世纪初20世纪90年代Tibshirani于1996年提出了利用Lasso罚函数实现变量选择的思想,解决了高维情况下回归系数的估计问题。21世纪初Fan于2001年提出的SCAD方法以及2007年Zhang提出的MCP 法均属于基于罚函数的变量选择方法,区别在于罚函数形式 不同。Zou于2006年提出的Adaptive

Lasso

法同样可以用于变量选择,该方法下得到的估计具有Oracle性质。李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院20

/

47缘起与发展变量间的关系研究内容建模思路小结与评注缘起与发展变量间的关系研究内容建模思路小结与评注李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院21

/

47缘起与发展变量间的关系研究内容建模思路小结与评注函数关系

李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院22

/

47缘起与发展变量间的关系研究内容建模思路小结与评注函数关系图

10:销售量(万件)与销售额(万元)函数关系图李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院23

/

47缘起与发展变量间的关系研究内容建模思路小结与评注统计关系统计关系书籍单价Y

与书籍页数X

间的关系房屋价格Y

与房屋面积X

间的关系居民消费额Y

与居民收入X

间的关系李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院24

/

47缘起与发展变量间的关系研究内容建模思路小结与评注统计关系−2.50.02.5−440xy图

11:x与y的相关关系李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院25

/

47研究内容建模思路小结与评注缘起与发展

变量间的关系统计关系与函数关系的区别通过上述示例可以发现,统计关系与函数关系的区别在于:函数关系是一种确定性的关系,当其中一个变量给定,另一 个变量的取值确定;统计关系则是一种非确定性的关系,当 一个变量变化时,另一变量的取值有一定的随机性。从研究方法看,客观现象的函数关系可以用数学分析的方法 研究;而研究客观现象的统计关系,则必须借助于统计学中 的相关与回归分析方法。李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院26

/

47缘起与发展变量间的关系研究内容建模思路小结与评注统计关系的刻画

李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院27

/

47研究内容建模思路小结与评注缘起与发展

变量间的关系相关分析与回归分析的区别一是变量的地位不同。在回归分析中,变量有因变量和自变 量之分,因变量处于被解释的地位。研究人员希望讨论自变 量对因变量的影响。在相关分析中,变量的地位平等,研究 变量A和变量B的相关关系与研究变量B和变量A的相关关系 是等价的。二是变量的类型存在差异。回归分析中,

因变量为随机变 量,自变量可以是随机变量也可以是非随机变量,而相关分 析中变量都是随机变量。三是研究目的不完全相同。相关分析的研究目的是为了探究 两类变量间相关关系,而回归分析一方面研究自变量对因变 量的影响并对现象进行解释,另一方面也可实现预测与控制 的功能。李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院28

/

47缘起与发展变量间的关系研究内容建模思路小结与评注缘起与发展变量间的关系研究内容建模思路小结与评注李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院29

/

47缘起与发展变量间的关系研究内容建模思路小结与评注研究内容线性回归分析对回归模型中参数估计方法的研究对回归模型检验与诊断的研究对回归模型选择的研究非线性回归分析参见文献Bates

and

Watts(1988)李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院30

/

47研究内容建模思路小结与评注缘起与发展

变量间的关系研究内容:估计方法19世纪初,最小二乘法的提出在估计回归系数过程中发挥了重要作用。极大似然估计、加权最小二乘估计等方法在不同条件下亦可用于回归模型参数的估计。为解决在假设不满足情况下最小二乘估计量失效的问题,一 些改进的参数估计方法应运而生,比如岭回归估计、主成分 回归估计等。李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院31

/

47研究内容建模思路小结与评注缘起与发展

变量间的关系研究内容:检验与诊断在回归分析中,对模型进行检验与诊断是必要工作之一。估计模型对观测数据的拟合效果是否良好?回归系数在总体 中是否与零有显著差异?这些问题可以通过对参数进行假设 检验来回答。回归模型建立在一些假设基

上,通过检验与诊断判别数据 是否满足基本假设对估计方法的选择与数据处理具有重要意 义。李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院32

/

47研究内容建模思路小结与评注缘起与发展

变量间的关系研究内容:模型选择在实证研究中,研究人员根据研究目标事先确定了因变量与 自变量范围,并不意味着该模型一定具有合理性。针对同一 个因变量,不同的自变量组合可以建立不同的模型。变量选择是依据某种评价准则从众多备选模型中选择最优结 果的过程。常用的经典模型选择准则有AIC、BIC、Cp等,还 有一些基于惩罚函数的新兴的模型选择方法等。李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院33

/

47缘起与发展变量间的关系研究内容建模思路小结与评注缘起与发展变量间的关系研究内容建模思路小结与评注李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院34

/

47缘起与发展变量间的关系研究内容建模思路小结与评注建模思路图

12:回归分析建模思路示意图李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院35

/

47研究内容建模思路小结与评注缘起与发展

变量间的关系建模思路:描述统计例1.2

安斯库姆(Anscombe)曾于1973年构造了四组数据,见下表。请读者分别根据这四组数据建立回归模型,

并对此进行分析。X1Y1X2Y2X3Y3X4Y444.2643.1045.3986.5855.6854.7455.7385.7667.2466.1366.0887.7174.8277.2676.4488.8486.9588.1486.7788.4798.8198.7797.1187.04108.04109.14107.4685.25118.33119.26117.8185.561210.84129.13128.1587.91137.58138.741312.7486.89149.96148.10148.841912.5李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院36

/

47研究内容建模思路小结与评注缘起与发展

变量间的关系建模思路:描述统计

李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院37

/

47研究内容建模思路小结与评注缘起与发展

变量间的关系建模思路:描述统计图

13:安斯库姆数据散点图李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院38

/

47缘起与发展变量间的关系研究内容建模思路小结与评注建模思路图

14:回归分析建模思路示意图李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院39

/

47缘起与发展变量间的关系研究内容建模思路小结与评注建模思路:示例例1.1研究者希望利用回归分析对某地区某行业中产品的产量与生产总成本间的关系进行研究。为实现研究目标,从当地企业中按照某种抽样方法随机抽取了20家企业,获取数据见表1。请利用表中的数据建立产量与生产费用间的回归模型,并进行简要分析。编号产量生产费用编号产量生产费用1782401122370622065971218656332025981312137142066511428189652658731512336462106541625973575216017122425810830818117330921763919973201017968820108307李扬/林存洁/王菲菲/孙韬/廖军回归分析之绪论中国人民大学统计学院40

/

47缘起与发展变量间的关系研究内容建模思路小结与评注建模思路:示例研究目标为对某地区某行业的生产损耗进行影响因素分析根据研究目标设置指

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论