第四讲用样本推断总体_第1页
第四讲用样本推断总体_第2页
第四讲用样本推断总体_第3页
第四讲用样本推断总体_第4页
第四讲用样本推断总体_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四讲用样本推断总体第1页,共61页,2023年,2月20日,星期三问题一:二战中的点估计—德军有多少辆坦克?二战期间,盟军非常想知道德军总共制造了多少辆坦克。德国人在制造坦克时是墨守成规的,他们把坦克从1开始进行了连续编号。在战争过程中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。那么怎样利用这些号码来估计坦克总数呢?我们可以通过本章点估计的方法解决这个问题。第2页,共61页,2023年,2月20日,星期三问题二某人想知道自己所承包的池塘的鱼的总数N,第一次随机捞出50条,将这50条鱼作标记后又放回池塘,等它们完全融入其他鱼后又随机捕捞100条,发带有标记的鱼有2条,你能帮他估计出鱼塘里现鱼的数量N吗?解:已作记号的鱼的样本比例为那么总体(池塘里的所有鱼)中作记号的鱼的比例为既有:50/N=0.02故:N=50/0.02=2500这是一个典型的用样本比例来估计总体比例从而再推断总体单位总量的实例。第3页,共61页,2023年,2月20日,星期三问题三政府部门想知道到底有多大比例的上海人同意上海大力发展轨道交通;由于不大可能询问所有的近两千万上海市民,人们只好进行抽样调查以得到样本,并用样本中同意发展轨道交通的比例来估计真实的比例。尽管会存在如下问题:①从不同的样本得到的结论也不会完全一样。②真实的比例在这种抽样过程中永远也不知道;但是我们可以通过参数估计的方法得到这个比例的范围和落入这个范围的概率。可以知道估计出来的比例和真实的比例大致差多少。第4页,共61页,2023年,2月20日,星期三问题四:每次民调中所需调查人数为了调查对总统候选人的支持率,临近11月份大选前夕,希望得到更高的精确度即更小的极限误差,求每次调查中所需的样本容量(置信度95%)。调查时间极限误差9月0.0410月0.0311月初0.02大选前一天0.01第5页,共61页,2023年,2月20日,星期三统计推断的过程样本总体样本统计量例如:样本均值、比例、方差总体均值、比例、方差第6页,共61页,2023年,2月20日,星期三样本统计量的抽样分布样本均值的分布样本比例的分布样本方差的分布抽样分布正态或t分布Χ2分布正态或t分布第7页,共61页,2023年,2月20日,星期三参数估计的方法估计方法点估计区间估计假设检验第8页,共61页,2023年,2月20日,星期三点估计从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计例如:用样本均值作为总体未知均值的估计值就是一个点估计2. 点估计没有给出估计值接近总体未知参数程度的信息点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等第9页,共61页,2023年,2月20日,星期三被估计的总体参数总体参数符号表示用于估计的样本统计量一个总体均值比例方差第10页,共61页,2023年,2月20日,星期三1.用于估计总体某一参数的随机变量如样本均值,样本比例、样本中位数等例如:样本均值就是总体均值的一个估计量如果样本均值x

=3,则3就是的估计值理论基础是抽样分布估计量第11页,共61页,2023年,2月20日,星期三估计量的优良性准则无偏性:估计量的数学期望等于被估计的总体参数P(X)XCA无偏有偏第12页,共61页,2023年,2月20日,星期三估计量的优良性准则(有效性)AB中位数的抽样分布均值的抽样分布XP(X)有效性:一个方差较小的无偏估计量称为一个更有效的估计量。如,与其他估计量相比,样本均值是一个更有效的估计量第13页,共61页,2023年,2月20日,星期三估计量的优良性准则(一致性)一致性:随着样本容量的增大,估计量越来越接近被估计的总体参数AB较小的样本容量较大的样本容量P(X)X第14页,共61页,2023年,2月20日,星期三区间估计1. 根据一个样本的观察值给出总体参数的估计范围给出总体参数落在这一区间的概率例如:总体均值落在50~70之间,置信度为95%样本统计量

(点估计)置信区间置信下限置信上限第15页,共61页,2023年,2月20日,星期三置信区间估计(内容)2

已知2未知均值方差比例置信区间第16页,共61页,2023年,2月20日,星期三落在总体均值某一区间内的样本x_XX=Zx95%的样本-1.96x+1.96x99%的样本-2.58x+2.58x90%的样本-1.65x+1.65x第17页,共61页,2023年,2月20日,星期三总体未知参数落在区间内的概率表示为(1-为显著性水平,是总体参数未在区间内的概率常用的显著性水平值有99%,95%,90%相应的为0.01,0.05,0.10置信水平第18页,共61页,2023年,2月20日,星期三置信区间与置信水平均值的抽样分布(1-)%区间包含了

%的区间未包含1-aa/2a/2第19页,共61页,2023年,2月20日,星期三影响区间宽度的因素数据的离散程度,用来测度样本容量置信水平(1-),影响Z的大小第20页,共61页,2023年,2月20日,星期三总体均值的置信区间(2已知)1. 假定条件总体服从正态分布,且总体方差(2)已知如果不是正态分布,可以由正态分布来近似(n

30)2.使用正态分布统计量Z总体均值在1-置信水平下的置信区间为第21页,共61页,2023年,2月20日,星期三总体均值的区间估计(正态总体)解:已知X~N(,0.152),x=2.14,n=9,1-=0.95,Z/2=1.96

总体均值的置信区间为我们可以95%的概率保证该种零件的平均长度在21.302~21.498mm之间【例】某种零件长度服从正态分布,从该批产品中随机抽取9件,测得其平均长度为21.4mm。已知总体标准差

=0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。第22页,共61页,2023年,2月20日,星期三总体均值的区间估计(非正态总体)解:已知x=26,=6,n=100,1-=0.95,Z/2=1.96我们可以95%的概率保证平均每天参加锻炼的时间在24.824~27.176分钟之间【例】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36小时)。第23页,共61页,2023年,2月20日,星期三总体均值的置信区间

(2未知)1. 假定条件总体方差(2)未知总体必须服从正态分布使用t分布统计量3.总体均值在1-置信水平下的置信区间为第24页,共61页,2023年,2月20日,星期三总体均值的区间估计解:已知X~N(,2),x=50,s=8,n=25,1-=0.95,t/2=2.0639。我们可以95%的概率保证总体均值在46.69~53.30之间【例】从一个正态总体中抽取一个随机样本,n=25

,其均值`x=

50

,标准差s=8。建立总体均值m

的95%的置信区间。第25页,共61页,2023年,2月20日,星期三总体比例的置信区间1. 假定条件两类结果总体服从二项分布可以由正态分布来近似使用正态分布统计量Z3.总体比例P

的置信区间为第26页,共61页,2023年,2月20日,星期三总体比例的置信区间实例解:已知n=200,=0.7,n=140>5,n(1-)=60>5,=0.95,Z/2=1.96p

p

p

我们可以95%的概率保证该企业职工由于同管理人员不能融洽相处而离开的比例在63.6%~76.4%之间【例】某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机选取了200人组成一个样本。在对其进行访问时,有140人说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开该企业的人员的真正比例构造95%的置信区间。第27页,共61页,2023年,2月20日,星期三根据均值区间估计公式可得样本容量n为估计总体均值时样本容量的确定样本容量n与总体方差2、允许误差、可靠性系数Z之间的关系为与总体方差成正比与允许误差成反比与可靠性系数成正比其中:第28页,共61页,2023年,2月20日,星期三样本容量的确定实例解:已知2=1800000,=0.05,Z/2=1.96,=500

应抽取的样本容量为【例】一家广告公想估计某类商店去年所花的平均广告费用有多少。经验表明,总体方差约为1800000元。如置信度取95%,并要使估计处在总体平均值附近500元的范围内,这家广告公司应抽多大的样本?第29页,共61页,2023年,2月20日,星期三根据比例区间估计公式可得样本容量n为估计总体比例时样本容量的确定若总体比例π未知时,可用样本比例来代替

p其中:第30页,共61页,2023年,2月20日,星期三样本容量的确定实例【例】一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对比例p的估计误差不超过0.05,要求的可靠程度为95%,应抽多大容量的样本(没有可利用的p估计值)。解:

已知=0.05,=0.05,Z/2=1.96,当p未知时用最大方差0.25代替^应抽取的样本容量为第31页,共61页,2023年,2月20日,星期三正态总体方差的区间估计1.估计一个总体的方差或标准差2.假设总体服从正态分布3.总体方差2

的点估计量为S2,且4.总体方差在1-置信水平下的置信区间为第32页,共61页,2023年,2月20日,星期三正态总体方差的区间估计实例【例】对某种金属的10个样品组成的一个随机样本作抗拉强度试验。从实验数据算出的方差为4。试求2的95%的置信区间。第33页,共61页,2023年,2月20日,星期三正态总体方差的区间估计计算结果解:已知n=10,s2=4,1-=95%

2置信度为95%的置信区间为第34页,共61页,2023年,2月20日,星期三从某学院男生中随机抽取30名学生,测得身高(cm)分别为170、175、172、168、165、178、180、176、177、164、......,数据如下表,以95%的置信度估计该学院男生的平均身高。利用Excel计算置信区间第35页,共61页,2023年,2月20日,星期三第36页,共61页,2023年,2月20日,星期三利用Excel计算必要样本数例:某县进行农村经济情况调查,已知农户平均年收入标准差为30元,要求把握程度(置信度)为95.45%,抽样极限误差为5元,计算应抽取的样本户数?如下图所示。第37页,共61页,2023年,2月20日,星期三“样本容量计算”工作表必要样本容量计算计算公式第38页,共61页,2023年,2月20日,星期三建立工作表样本比例为p,样本容量为n计算公式第39页,共61页,2023年,2月20日,星期三区间估计总结总体与样本总体均值总体比例P正态总体或近似正态总体非正态小样本第40页,共61页,2023年,2月20日,星期三注:第41页,共61页,2023年,2月20日,星期三区间估计必要样本容量n的确定估计总体均值时(重复抽样)估计总体比例时(重复抽样)其中:其中:第42页,共61页,2023年,2月20日,星期三帮想节约调查费用的广告公司拿主意某广告公司为了估计某地区收看某一新电视机目的居民人数所占比例,要设计一个简单随机样本的抽样方案。该公司希望有90%的信心使所估计的比例只有2个百分点左右的误差。为了节约调查费用,样本将尽可能小,在这种情况下应该抽取多少样本?案例一第43页,共61页,2023年,2月20日,星期三总统选举的民意调查(背景)据美国竞选业专业杂志CampaigningReports统计历次美国总统竞选的花费:2004年为6.93亿美元;2008年高达13亿美元。整个总统竞选过程中,候选人一般会花费10-15%的竞选经费在民意调查上。如何确定被调查的人数是首先要考虑的问题。案例二第44页,共61页,2023年,2月20日,星期三学生每天上网的时间的区间一、某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽取36人,调查他们每天上网的时间(单位:小时),得到下面数据。要求:该校大学生平均上网时间的置信区间,置信概率为90%上网时间3.3,4.4,2.1,4.7,3.1,2,1.9,1.4,6.2,5.4,1.2,1.2,5.8,2.6,5.1,2.9,2.3,6.4,4.3,3.5,4.1,1.8,4.2,2.4,5.4,3.5,3.6,0.5,4.5,5.7,0.8,3.63.2,2.3,1.5,2.5案例三第45页,共61页,2023年,2月20日,星期三汽车性能调查调查消费者对上海地区某一个主要制造商所生产的汽车的性能的满意程度。许多人抱怨该车刚开始传动系统不佳为了更好地了解传动系统的问题,采用由上海一个修理企业所提供的实际传动系统的维修记录为样本。以下数据为50辆汽车传动系统出现故障时所行驶的实际里程的数据。求95%的置信区间案例四850923260959465774373253464090324645990239323896419421911680392857634366560585861643426197867998598171017699577412135269568742766699840001720692506677098l6992235662744256720211844453500792946454486813116269378318934173341852881381145340285586822567753988798第46页,共61页,2023年,2月20日,星期三两个总体均值之差的估计第47页,共61页,2023年,2月20日,星期三两个样本均值之差的抽样分布

m1s1总体1s2

m2总体2抽取简单随机样样本容量n1计算X1抽取简单随机样样本容量n2计算X2计算每一对样本的X1-X2所有可能样本的X1-X2m1-m2抽样分布第48页,共61页,2023年,2月20日,星期三两个总体均值之差的估计

(12、22

已知)1. 假定条件两个样本是独立的随机样本两个总体都服从正态分布若不是正态分布,可以用正态分布来近似(n130和n230)两个独立样本均值之差的抽样分布服从正态分布,其期望值为其标准误差为第49页,共61页,2023年,2月20日,星期三两个总体均值之差的估计

(12、22

已知)两个总体均值之差1-2在1-置信水平下的置信区间为使用正态分布统计量Z第50页,共61页,2023年,2月20日,星期三两个总体均值之差的估计

(实例)【例】一个银行负责人想知道储户存入两家银行的钱数。他从两家银行各抽取了一个由25个储户组成的随机样本,样本均值如下:银行A:4500元;银行B:3250元。设已知两个总体服从方差分别为A2=2500和B2=3600的正态分布。试求A-B的区间估计(1)置信度为95%(2)置信度为99%BA第51页,共61页,2023年,2月20日,星期三两个总体均值之差的估计

(计算结果)解:已知

XA~N(A,2500)

XB~N(B,3600)xA=4500,xB=3250,

A2=2500

B2=3600

nA=nB=25(1)

A-B置信度为95%的置信区间为(2)

A-B置信度为99%的置信区间为第52页,共61页,2023年,2月20日,星期三两个总体均值之差的估计

(12、22未知,但相等)假定条件两个总体都服从正态分布12、12未知,但12=12总体方差2的联合估计量为估计量x1-x2的标准差为第53页,共61页,2023年,2月20日,星期三两个总体均值之差的估计

(12、22未知,但相等)使用t

分布统计量两个总体均值之差1-2在1-置信水平下的置信区间为第54页,共61页,2023年,2月20日,星期三两个总体均值之差的估计

(实例)【例】为比较两位银行职员为新顾客办理个人结算账目的平均时间长度,分别给两位职员随机安排了10位顾客,并记录下为每位顾客办理账单所需的时间(单位:分钟),相应的样本均值和方差分别为:x1=22.2,s12=16.63,x2=28.5,s22=18.92。假定每位职员办理账单所需时间均服从正态分布,且方差相等。试求两位职员办理账单的服务时间之差的95%的区间估计。21第55页,共61页,2023年,2月20日,星期三两个总体均值之差的估计

(计算结果)解:已知

X1~N(1,2)

X2~N(2,2)x1=22.2,x2=28.5,

s12=16.63s22

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论