MBA统计学总体参数的估计_第1页
MBA统计学总体参数的估计_第2页
MBA统计学总体参数的估计_第3页
MBA统计学总体参数的估计_第4页
MBA统计学总体参数的估计_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学─从数据到结论第五章总体参数的估计估计就是根据你拥有的信息来对现实世界进行某种判断。你可以根据一个人的衣着、言谈和举止判断其身份你可以根据一个人的脸色,猜出其心情和身体状况统计中的估计也不例外,它是完全根据数据做出的。如果我们想知道北京人认可某饮料的比例,人们只有在北京人中进行抽样调查以得到样本,并用样本中认可该饮料的比例来估计真实的比例。从不同的样本得到的结论也不会完全一样。虽然真实的比例在这种抽样过程中永远也不知道;但可以知道估计出来的比例和真实的比例大致差多少。从数据得到关于现实世界的结论的过程就叫做统计推断(statisticalinference)。上面调查例子是估计总体参数(某种意见的比例)的一个过程。估计(estimation)是统计推断的重要内容之一。统计推断的另一个主要内容是下一章要引进的假设检验(hypothesistesting)。§5.1用估计量估计总体参数人们往往先假定某数据来自一个特定的总体族(比如正态分布族)。而要确定是总体族的哪个成员则需要知道总体参数值(比如总体均值和总体方差)。人们于是可以用相应的样本统计量(比如样本均值和样本方差)来估计相应的总体参数§5.1用估计量估计总体参数一些常见的涉及总体的参数包括总体均值(m)、总体标准差(s)或方差(s2)和(Bernoulli试验中)成功概率p等(总体中含有某种特征的个体之比例)。正态分布族中的成员被(总体)均值和标准差完全确定;Bernoulli分布族的成员被概率(或比例)p完全决定。因此如果能够对这些参数进行估计,总体分布也就估计出来了。§5.1用估计量估计总体参数估计的根据为总体抽取的样本。样本的(不包含未知总体参数的)函数称为统计量;而用于估计的统计量称为估计量(estimator)。由于一个统计量对于不同的样本取值不同,所以,估计量也是随机变量,并有其分布。如果样本已经得到,把数据带入之后,估计量就有了一个数值,称为该估计量的一个实现(realization)或取值,也称为一个估计值(estimate)。§5.1用估计量估计总体参数这里介绍两种估计,一种是点估计(pointestimation),即用估计量的实现值来近似相应的总体参数。另一种是区间估计(intervalestimation);它是包括估计量在内(有时是以估计量为中心)的一个区间;该区间被认为很可能包含总体参数。点估计给出一个数字,用起来很方便;而区间估计给出一个区间,说起来留有余地;不像点估计那么绝对。§5.2点估计用什么样的估计量来估计参数呢?实际上没有硬性限制。任何统计量,只要人们觉得合适就可以当成估计量。当然,统计学家想出了许多标准来衡量一个估计量的好坏。每个标准一般都仅反映估计量的某个方面。这样就出现了按照这些标准定义的各种名目的估计量(如无偏估计量等)。另一些估计量则是由它们的计算方式来命名的(如最大似然估计和矩估计等)。§5.2点点估估计最常用用的估估计量量就是是我们们熟悉悉的样样本均均值、、样本本标准准差(s)和(Bernoulli试试验的的)成成功比比例(x/n);人们用用它们们来分分别估估计总总体均均值(m)、总总体标标准差差(s)和成成功概概率(或总总体中中的比比例)p。这些些在前前面都都已经经介绍绍过,,大家家也知知道如如何通通过计计算机机(或或公式式)来来计算算它们们。§5.2点点估估计那么,,什么么是好好估计计量的的标准准呢??一种统统计量量称为为无偏估估计量量(unbiasedestimator)。所谓的的无偏性性(unbiasedness)就是::虽然然每个个样本本产生生的估估计量量的取取值不不一定定等于于参数数,但但当抽抽取大大量样样本时时,那那些样样本产产生的的估计计量的的均值值会接接近真真正要要估计计的参参数。。§5.2点点估估计由于一一般仅仅仅抽抽取一一个样样本,,并且且用该该样本本的这这个估估计量量的实实现来来估计计对应应的参参数,,人们们并不不知道道这个个估计计值和和要估估计的的参数数差多多少。。因此,,无偏偏性仅仅仅是是非常常多次次重复复抽样样时的的一个个渐近近概念念。随机样样本产产生的的样本本均值值、样样本标标准差差和Bernoulli试验验的成成功比比例分分别都都是相相应的的总体体均值值、总总体标标准差差和总总体比比例的的无偏偏估计计。§5.2点点估估计在无偏偏估计计量的的类中中,人人们还还希望望寻找找方差差最小小的估估计量量,称称为最最小方方差无无偏估估计量量。此因为为方差差小说说明反反复抽抽样产产生的的许多多估计计量差差别不不大,,因此此更加加精确确。评价一一个统统计量量好坏坏的标标准很很多;;而且且许多多都涉涉及一一些大大样本本的极极限性性质。。我们们不想想在这这里涉涉及太太多此此方面面的细细节。。§5.3区区间间估计计当描述述一个个人的的体重重时,,你一一般可可能不不会说说这个个人是是76.35公公斤你会说说这个个人是是七八八十公公斤,,或者者是在在70公斤斤到80公公斤之之间。。这个个范围围就是是区间间估计计的例例子。。§5.3区区间间估计计在抽样样调查查例子子中也也常用用点估估计加加区间间估计计的说说法。。比如,,为了了估计计某电电视节节目在在观众众中的的支持持率((即总总体比比例p),某某调查查结果果会显显示,,该节节目的的“收收视率率为90%,误误差是是±3%,,置信信度为为95%””云云云。这这这种种说法法意味味着下下面三三点§5.3区间间估计1.样样本中的的支持率率为90%,即即用样本本比例作作为对总总体比例例的点估估计2.估估计范围围为90%±3%(±±3%的的误差),即区区间(93%,,87%)。3.如如用类似似的方式式,重复复抽取大大量(样样本量相相同的))样本时时,产生生的大量量类似区区间中有有些会覆覆盖真正正的p,而有些些不会;;但其中中大约有有95%会覆盖盖真正的的总体比比例。§5.3区间间估计这样得到到的区间间被称为为总体比比例p的置信度度(confidencelevel)为95%的置置信区间间(confidenceinterval)。这里的置置信度又又称置信水平平或置信系数数。显然置信信度的概概念又是是大量重重复抽样样时的一一个渐近近概念。。§5.3区间间估计因此说““我们目目前得到到的区间间(比如如上面的的90%±3%)以概概率0.95覆覆盖真正正的比例例p”是个错误误的说法法。这里的区区间(93%,87%)是固定的的,而总总体比例例p也是是固定的的值。因因此只有有两种可可能:或或者该区区间包含含总体比比例,或或者不包包含;在固定数数值之间间没有任任何概率率可言。。§5.3区间间估计例5.1(noodle.txt)某厂家家生产的的挂面包包装上写写明“净净含量450克克”。在在用天平平称量了了商场中中的48包挂面面之后,,得到样样本量为为48的的关于挂挂面重量量(单位位:克))的一个个样本::用计算机机可以很很容易地地得到挂挂面重量量的样本本均值、、总体均均值的置置信区间间等等。。下面是是SPSS的输输出:该输出给给出了许许多第三三章引进进的描述述统计量量。和估估计有关关的是作作为总体体均点估估计的样样本均值值,它等等于449.01;而而总体均均值的95%置置信区间间为(447.41,,450.61)§5.3区间间估计我们还可可以构造造两个总总体的均均值(或或比例))之差的的置信区区间。如想知道道两个地地区学生生成绩的的差异,,可以建建造两个个地区成成绩均值值之差m1-m2的置信区区间。如想比较较一个候候选人在在不同阶阶段支持持率的差差异,那那就可构构造比例例之差p1-p2的置信区区间。§5.3区间间估计例5.2有两个个地区大大学生的的高度数数据(height2.txt)(a)我我们想要要分别得得到这两两个总体体均值和和标准差差的点估估计(即即样本均均值和样样本标准准差)和和各总体体均值的的95%置信区区间。(b)求求两个均均值差m1-m2的点估计计和95%置信信区间。。利用软软件很容容易得到到下面结结果:§5.3区间间估计两个总体体均值估估计量的的样本均均值分别别为170.56和165.60,,样本标标准差分分别为6.97857和7.55659;;还得到到均值的的置信区区间分别别是(168.5767,172.5433),(163.4524,167.7476)。可以得到到两个样样本均值值的差(4.9600),另另外还给给出了两两总体均均值差的的95%置信区区间(2.073,7.847)。。§5.4关于于置信区区间的注注意点前面提到到,不要要认为由由某一样本本数据得到到总体参参数的某一个95%置置信区间间,就以以为该区间以0.95的概率率覆盖总总体参数数。置信度95%仅仅仅描述述用来构构造该区区间上下下界的统计量(是随机机的)覆盖总体体参数的的概率;;也就是说说,无穷穷次重复复抽样所所得到的的所有区区间中有有95%包含参参数。§5.4关于于置信区区间的注注意点但是把一一个样本本数据带带入统计计量的公公式所得得到的一一个区间间,只是是这些区区间中的的一个。。这个非随随机的区区间是否否包含那那个非随随机的总总体参数数,谁也也不可能能知道。。非随机机的数目目之间没没有概率率可言。。§5.4关于于置信区区间的注注意点置信区间间的论述述是由区区间和置置信度两两部分组组成。有些新闻闻媒体报报道一些些调查结结果只给给出百分分比和误误差(即即置信区区间),,并不说说明置信信度,也也不给出出被调查查的人数数,这是是不负责责的表现现。因为降低低置信度度可以使使置信区区间变窄窄(显得得“精确确”),,有误导导读者之之嫌。在在公布调调查结果果时给出出被调查查人数是是负责任任的表现现。这样样则可以以由此推推算出置置信度((由后面面给出的的公式)),反之之亦然。。§5.4关于于置信区区间的注注意点一个描述述性例子子:有10000个人人回答的的调查显显示,同同意某观观点人的的比例为为70%(有7000人同意意)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论