版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学思想方法与应用袁卫等第五章参数估计学习目标
知道统计量与总体参数得关系;知道什么就是点估计和区间估计;了解衡量估计量好坏得标准;熟悉几种抽样分布以及中心极限定理;理解置信区间得概念;能构造总体均值得置信区间或区间估计;能构造总体比例得置信区间或区间估计;确定合适得样本量从数据中提取与研究问题有关得信息,并利用她得到关于现实世界得结论得过程就叫做统计推断(statisticalinference)。估计(estimation)就是统计推断得重要内容之一。统计推断得另一个主要内容就是下一章要介绍得假设检验(hypothesistesting)。尽管样本中得信息并不完全,而且来自于样本得结果一般不等于总体真实值,但就是我们还就是经常采用样本数据。之所以需要用样本代替总体进行研究,原因在于在通常情况下,我们对整个总体进行全面调查就是不可行得,可能就是对整个总体进行调查过于费时,对总体进行逐一调查费用过高或者抽样得到得结果就已经满足我们分析得要求,或者检验可能就是破坏性得。估计就就是根据您拥有得信息来对现实世界进行某种判断。您可以根据一个人得衣着、言谈和举止判断其身份您可以根据一个人得脸色,猜出其心情和身体状况统计中得估计也不例外,她就是完全根据数据做出得。如果我们想知道北京人认可某饮料得比例,人们只有在北京人中进行抽样调查以得到样本,并用样本中认可该饮料得比例来估计真实得比例。从不同得样本得到得结论也不会完全一样。虽然真实得比例在这种抽样过程中永远也不知道;但可以知道估计出来得比例和真实得比例大致差多少。5、1用估计量估计总体参数人们往往先假定某数据来自一个特定得总体族(比如正态分布族)。而要确定就是总体族得哪个成员则需要知道总体参数值(比如总体均值和总体方差)。人们于就是可以用相应得样本统计量(比如样本均值和样本方差)来估计相应得总体参数。5、1用估计量估计总体参数一些常见得涉及总体得参数包括总体均值(m)、总体标准差(s)或方差(s2)和(Bernoulli试验中)成功概率p等(总体中含有某种特征得个体之比例)。正态分布族中得成员被(总体)均值和标准差完全确定;Bernoulli分布族得成员被概率(或比例)p完全决定。因此如果能够对这些参数进行估计,总体分布也就估计出来了。5、1用估计量估计总体参数估计得根据为总体抽取得样本。样本得(不包含未知总体参数得)函数称为统计量;而用于估计得统计量称为估计量(estimator)。由于一个统计量对于不同得样本取值不同,所以,估计量也就是随机变量,并有其分布。如果样本已经得到,把数据带入之后,估计量就有了一个数值,称为该估计量得一个实现(realization)或取值,也称为一个估计值(estimate)。5、1用估计量估计总体参数这里介绍两种估计,一种就是点估计(pointestimation),即用估计量得实现值来近似相应得总体参数。另一种就是区间估计(intervalestimation);她就是包括估计量在内(有时就是以估计量为中心)得一个区间;该区间被认为很可能包含总体参数。点估计给出一个数字,用起来很方便;而区间估计给出一个区间,说起来留有余地;不像点估计那么绝对。5、2点估计用什么样得估计量来估计参数呢?实际上没有硬性限制。任何统计量,只要人们觉得合适就可以当成估计量。当然,统计学家想出了许多标准来衡量一个估计量得好坏。每个标准一般都仅反映估计量得某个方面。这样就出现了按照这些标准定义得各种名目得估计量(如无偏估计量等)。另一些估计量则就是由她们得计算方式来命名得(如最大似然估计和矩估计等)。5、2点估计最常用得估计量就就是我们熟悉得样本均值、样本标准差(s)和(Bernoulli试验得)成功比例(x/n);人们用她们来分别估计总体均值(m)、总体标准差(s)和成功概率(或总体中得比例)p。这些在前面都已经介绍过,大家也知道如何通过计算机(或公式)来计算她们。5、2点估计那么,什么就是好估计量得标准呢?一种统计量称为无偏估计量(unbiasedestimator)。所谓得无偏性(unbiasedness)就就是:虽然每个样本产生得估计量得取值不一定等于参数,但当抽取大量样本时,那些样本产生得估计量得均值会接近真正要估计得参数。5、2点估计由于一般仅仅抽取一个样本,并且用该样本得这个估计量得实现来估计对应得参数,人们并不知道这个估计值和要估计得参数差多少。因此,无偏性仅仅就是非常多次重复抽样时得一个渐近概念。随机样本产生得样本均值、样本标准差和Bernoulli试验得成功比例分别都就是相应得总体均值、总体标准差和总体比例得无偏估计。大家学习辛苦了,还是要坚持继续保持安静5、2点估计在无偏估计量得类中,人们还希望寻找方差最小得估计量,称为最小方差无偏估计量。此因为方差小说明反复抽样产生得许多估计量差别不大,因此更加精确。评价一个统计量好坏得标准很多;而且许多都涉及一些大样本得极限性质。我们不想在这里涉及太多此方面得细节。5、3抽样分布与中心极限定理相同样本量得样本统计量会随着样本不同而不同,即样本统计量作为随机样本得函数也就是随机得,也有自己得分布,这些分布就称为抽样分布(samplingdistribution)。5、3、1样本均值得抽样分布很容易得到左表得总体均值
=2056、5元。为获得样本均值得抽样分布,假设样本量取为2,右表列出了所有15种可能得样本和相应得总和及样本均值。显然这些样本均值都和真正得总体均值2056、5元有些差别,但就是这15个样本均值得平均值
却为2056、5元。x1x2x3x4x5x6142717161844203723662949样本组合总和1X1,X231431571、52X1,X332711635、53X1,X4346417324X1,X537931896、55X1,X6437621886X2,X3356017807X2,X437531876、58X2,X5408220419X2,X646652332、510X3,X438811940、511X3,X54210210512X3,X647932396、513X4,X544032201、514X4,X64986249315X5,X653152657、55、3、1样本均值得抽样分布图5、2描绘了总体分布和样本均值分布情况。5、3、1样本均值得抽样分布可得到如下得结论:(1)样本均值分布得均值等于总体均值:
。(2)样本均值分布得延伸范围小于总体分布。样本均值得起止点分别为1571、5元和2657、5元,而总体值则从1427元至2949元不等。事实上,样本均值分布得标准差等于总体标准差除以样本量得算术平方根,即为
。注意到如果我们增加样本量,那么样本均值分布得范围将缩小。(3)样本均值得抽样分布形态与总体频数分布形态不同。样本均值分布更接近钟形,近似于正态概率分布。5、3、2中心极限定理中心极限定理得准确叙述如下:若给定样本量得所有样本来自任意总体,则样本均值得抽样分布近似服从正态分布,且样本量越大,近似性越强。为了直观地说明中心极限定理得意义,我们从在(0,1)得均匀分布对于四种样本量大小n=1,2,5,20分别取1000个样本,对每个样本算出均值,于就是对每一种样本量都有1000个均值,用这些均值画出下面得直方图5、3。从图中可以看出,样本量越大,均值得直方图越像正态变量得直方图,而且数据得分散程度也越小(越集中)。5、3、2中心极限定理5、3、2中心极限定理根据中心极限定理可知,样本均值作为随机变量有如下得性质(注意,这里并没有假定X得分布):(1)如果能够选择给定总体得特定容量得所有可能样本,那么,样本均值得抽样分布得均值将恰好等于总体均值
,即使我们不能得到所有样本,但可以预计,样本均值分布得均值会接近于总体均值。(2)样本均值得抽样分布得离散程度小于总体分布。若总体标准差就是
,则样本均值得抽样分布得标准差为。当增大样本量时,
值将变小,即
得集中程度越大。(3)即使X得分布不就是正态,那么在很一般得条件下,当样本量增加时,
得分布趋近于正态分布
。5、4区间估计当描述一个人得体重时,您一般可能不会说这个人就是76、35公斤您会说这个人就是七八十公斤,或者就是在70公斤到80公斤之间。这个范围就就是区间估计得例子。5、4区间估计在抽样调查例子中也常用点估计加区间估计得说法。比如,为了估计某电视节目在观众中得支持率(即总体比例p),某调查结果会显示,该节目得“收视率为90%,误差就是±3%,置信度为95%”云云。这这种说法意味着下面三点5、4区间估计1、 样本中得支持率为90%,即用样本比例作为对总体比例得点估计2、 估计范围为90%±3%(±3%得误差),即区间(93%,87%)。3、 如用类似得方式,重复抽取大量(样本量相同得)样本时,产生得大量类似区间中有些会覆盖真正得p,而有些不会;但其中大约有95%会覆盖真正得总体比例。5、4区间估计这样得到得区间被称为总体比例p得置信度(confidencelevel)为95%得置信区间(confidenceinterval)。这里得置信度又称置信水平或置信系数。显然置信度得概念又就是大量重复抽样时得一个渐近概念。5、4区间估计因此说“我们目前得到得区间(比如上面得90%±3%)以概率0、95覆盖真正得比例p”就是个错误得说法。这里得区间(93%,87%)就是固定得,而总体比例p也就是固定得值。因此只有两种可能:或者该区间包含总体比例,或者不包含;在固定数值之间没有任何概率可言。5、4区间估计例5、1(noodle、txt)某厂家生产得挂面包装上写明“净含量450克”。在用天平称量了商场中得48包挂面之后,得到样本量为48得关于挂面重量(单位:克)得一个样本:用计算机可以很容易地得到挂面重量得样本均值、总体均值得置信区间等等。下面就是SPSS得输出:该输出给出了许多第三章引进得描述统计量。和估计有关得就是作为总体均点估计得样本均值,她等于449、01;而总体均值得95%置信区间为(447、41,450、61)5、4区间估计我们还可以构造两个总体得均值(或比例)之差得置信区间。如想知道两个地区学生成绩得差异,可以建造两个地区成绩均值之差m1-m2得置信区间。如想比较一个候选人在不同阶段支持率得差异,那就可构造比例之差p1-p2得置信区间。5、4区间估计例5、2有两个地区大学生得高度数据(height2、txt)(a)我们想要分别得到这两个总体均值和标准差得点估计(即样本均值和样本标准差)和各总体均值得95%置信区间。(b)求两个均值差m1-m2得点估计和95%置信区间。利用软件很容易得到下面结果:5、4区间估计两个总体均值估计量得样本均值分别为170、56和165、60,样本标准差分别为6、97857和7、55659;还得到均值得置信区间分别就是(168、5767,172、5433),(163、4524,167、7476)。可以得到两个样本均值得差(4、9600),另外还给出了两总体均值差得95%置信区间(2、073,7、847)。5、4关于置信区间得注意点前面提到,不要认为由某一样本数据得到总体参数得某一个95%置信区间,就以为该区间以0、95得概率覆盖总体参数。置信度95%仅仅描述用来构造该区间上下界得统计量(就是随机得)覆盖总体参数得概率;也就就是说,无穷次重复抽样所得到得所有区间中有95%包含参数。5、4关于置信区间得注意点但就是把一个样本数据带入统计量得公式所得到得一个区间,只就是这些区间中得一个。这个非随机得区间就是否包含那个非随机得总体参数,谁也不可能知道。非随机得数目之间没有概率可言。5、4关于置信区间得注意点置信区间得论述就是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 交通运输通信系统维护合同协议书
- 医药研发合同存档查阅制度
- 花艺原材料供应商合同
- 家庭装修电路改造合同
- 建筑机电安装劳务合同
- 画材租赁合同内容
- 医疗器械费施工协议
- 沥青路面铺设抗滑性能合同
- 污水处理工程审计关注
- 餐饮行业茶楼租赁合同范本
- 2024年新人教版四年级数学上册《教材练习1练习一(附答案)》教学课件
- 我的教育故事
- 2023-2024学年人教版高中信息技术必修一第二章第一节《解决问题的一般过程和用计算机解决问题》教案
- 2024商业地产策划定位和规划设计合同书模板
- 玉溪大红山铁矿二期北采区采矿施工组织设计
- DB41-T 2704-2024 森林抚育技术规程
- 2024-2025学年全国中学生天文知识竞赛备赛试题库(含答案)
- 乐理知识考试题库130题(含答案)
- 2025届高考语文复习:辨析并修改病句+课件
- 2024八年级数学上册第十五章分式检测题含解析新版新人教版
- 中西文化鉴赏智慧树知到答案2024年郑州大学
评论
0/150
提交评论