建筑数学-概率4-参数估计与回归分析166607806课件_第1页
建筑数学-概率4-参数估计与回归分析166607806课件_第2页
建筑数学-概率4-参数估计与回归分析166607806课件_第3页
建筑数学-概率4-参数估计与回归分析166607806课件_第4页
建筑数学-概率4-参数估计与回归分析166607806课件_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

清华大学建筑学院

参数估计与回归分析参数估计对于许多要研究的对象(总体)不可能“穷尽”地一一调查测量,只能随机地抽取一部分“样本”,根据样本的数据来估计总体的“真值”。有的情况是知道(分析出)随机变量的分布形态:泊松分布,正态分布等,如何根据样本数据,“估计”出该分布的参数,如泊松分布的λ,正态分布的μ和σ例:设某炸药厂一天中发生着火现象的次数X服从

对于泊松分布,只有一个参数λ要估计。λ的估计值就是样本平均数:验证一下:k=0样本计算p=75/250=0.3;公式计算:0.295k=1样本计算p=90/250=0.36;公式计算:0.360k=2样本计算p=54/250=0.216;公式计算:0.220k=3样本计算p=22/250=0.088;公式计算:0.089e-λ=e-1.22

=0.29523

对于正态分布,有两个参数μ和σ要估计。μ的估计值就是样本平均数,σ的估计值就是样本方差的平方根:

这在讲概率分布时已经提到。对于二项分布有一个参数p要估计:p的估计值就是样本平均数:

“十年一遇”,就是根据历史记录,发生该现象的统计平均是p=0.1

区间估计上面讨论的参数估计,是用样本的数值来估计总体的参数。但是,每一次样本试验得到的参数估计值是不同的。例如我们可以认定某个年龄段(10岁)儿童(男童或女童)的身高(作为总体)满足正态分布,参数均值μ的估计值可以通过100名儿童身高的测量值的平均数得到。但再测量100名儿童,可能得到不同的值。多次做100名儿童身高的测量得到的值尽管各不相同,但都处于某个区间范围之内,把这些值加以平均的到的值(例如6次测量,共600名儿童平均)是否更“可信”一些?比做3次测量是否更可信一些,即“置信度”更高?还有一个问题:对不同的总体(或不同的组分,如男童和女童分开),抽样得到样本值离散性可能不同,即计算出的方差σ不同,有的组分(男童)样本值之间差异小(σ小),有的组分(女童)样本值之间差异大(σ大)。那么试验次数相同下,得到均值μ的估计值的“可信度”一样吗?方差σ大(离散性大)的组分试验的次数(样本的数量)是否应当多一些呢?这就要引入统计数据处理的“区间估计”。

通常,采用95%的置信度,有时也取99%或90%均值的区间估计已知方差,估计均值1、在总体服从正态分布的情况下,从某校学生中随机抽选100人,调查到平均每天锻炼时间为30分钟,样本方差为36。

试以95%的置信度来估计该校学生平均每天锻炼的时间。解得:[28.81,

31.19]练习:2.某医院欲估计一名医生花在每个病人身上的平均时间。设要求置信度为95%,允许的误差范围在±2分钟。依以前的经验看病时间的标准差为6分钟。

试问需要多大的样本量(n=35)?解:上一届同学在《建筑数学》课堂上,每人当场测量自己心律的统计(次/分钟),共192人。那么,总体分布的平均数标准差在正态分布表中,置信度90%,即α=0.10,λ=1.65置信度95%,即α=0.05,λ=1.96置信度99%,即α=0.01,λ=2.58回归分析

英国著名人类学家FranicsGalton

高尔顿(1822-1911)于1885年发表论文《身高遗传向平均数方向的回归》,分析儿童身高与父母身高之间的关系,发现父母的身高可以预测子女的身高,当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将儿子与父母身高的这种现象拟合出一种线形关系。但他还发现,当父母非常高(或非常矮),其子女的身高不会象父母那样非常高(或非常矮),而是比其父母更接近平均身高。高尔顿选用“回归”(regression)一词。高尔顿和他的学生K.Pearson观察了1078对夫妇,分析出儿子的身高y与父亲的身高x大致可归结为以下关系:

y

=

0.516

x

+

33.73

(单位为英寸)

回归分析(regressionanalysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。在调查观察中,会得到各种变量的样本值,会发现某种变量与另一种变量之间有“相关”性。例如,住宅面积与经济指数,经济状况好(指数高),住宅建设面积就大。能否用定量化的函数来表示两者间的依赖关系?

首先观察到样本散点图近似于一条直线,可以用一个线性函数来拟合:y=a+bx称为线性回归。需要确定a和b两个参数。如果按图中红线来拟合,所有样本点xi的拟合值都大于样本值yi,如果按图中蓝线来拟合,所有样本点xi的拟合值都小于样本值yi,两者都不合适。显然,拟合的直线应“贯穿”于散点之中,如图中黑线所示,以做到各样本点的样本值yi与拟合值

的差值:的平方和最小。即构建一个以回归系数a和b为变量的误差函数:按函数的微分极值原理,求其在取极小值时的a和b的取值,就可得到线性回归方程y=a+bx。此为最小二乘法。

相关系数0.95,表示住宅建设面积与经济指数确实相关。具体计算方法见下表:计算x的平均数、y的平均数,∑x2、∑y2和∑xy,即可计算回归系数a和b。

相关系数r:0<|r|<1,r为正值即正相关,x增,y也增;r为负值即负相关,x增,y减。|r|接近1,表示y与x有很强的相关性,样本值散点分布接近直线;|r|接近0,表示y与x相关性弱,样本值散点分布很分散。高斯最小二乘法计算谷神星轨道

1801年,高斯用数学方预测出一颗小行星的轨道。天文学家在高斯指出的位置发现了小行星,后来被命名为谷神星(Ceres)。高斯8年后系统地完善了相关的数学理论,才将他的方法公布于众,即“最小二乘法”。一元非线性回归当因变量Y与自变量x之间没有线性关系时,一般用回归曲线y=

f

(x)来描述它们之间的关系。但是通常可以采用简单的变量变换,把非线性回归的问题转化为线性回归来处理。

几种常见的曲线方程,化为线性问题的变换公式:(1)列表,数据计算。多元回归分析1.二元线性回归方程

实际中,会需研究一个变量与多个变量之间的定量关系,就是多元分析问题。

上式称为回归平面,β0是常数,β1

,β2为回归系数。

设随机变量Y,自变量x1和x2,有:

有n

组观测值:由多元函数极值原理,有:即整理得到:由第3式,得:代入第1,2式,消去β0得:其中:解得:例1:某公司的商品在15地区销量y和人口数x1、户均总收入x2资料见表。试求销量对人口数、户均总收入的回归方程。按计算公式所求回归方程:西安机场航空客运量与国民生产的总值和旅游游客量二元回归。根据1980-1994年陕西省的GNP(X1)和旅游游客量(X2)的数据,与西安机场年旅客吞吐量(y),作二元回归,得到回归方程。再了解了陕西省人大制定的十年经济发展计划和旅游事业规划的数据,预测未来10年的航空客运量。

年旅客吞吐量y与GNP指数x1和旅游游客量指数x2的二元回归方程:根据1980~1993年的实际数据(样本数据),求算回归系数:β0β1β2

上述二元相关分析的航空客运量的实际值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论