总体均值的置信区间_第1页
总体均值的置信区间_第2页
总体均值的置信区间_第3页
总体均值的置信区间_第4页
总体均值的置信区间_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章抽样推断教学目的:①掌握抽样调查的概念特点、应用范围;②理解、掌握抽样平均误差和抽样极限误差的计算及误差范围和置信区间;③熟练掌握简单随机抽样组织方式下如何利用样本指标估计总体的平均指标和成数指标。④掌握假设检验的一般问题教学重点:抽样调查的特点、抽样平均误差和抽样极限误差的计算及误差范围和置信区间教学难点:抽样调查的特点、抽样平均误差和抽样极限误差的计算及误差范围和置信区间

教学学时:8学时8/12/20241统计推断的过程总体样本总体均值、比例、方差样本统计量例如:样本均值、比例、方差8/12/20242第一节抽样调查一、抽样调查的概念及特点

1.概念(1)抽样调查:从所研究的总体中抽出一部分单位,作为样本进行观察研究,以认识总体的数量特征一种统计方法。(2)抽样估计:根据样本分布的原理、利用样本资料提供的信息对总体的某些数量特征进行科学的估计或推断。8/12/202432.特点(1)根据部分实际资料对全部总体的数量特征作出估计;(2)按随机原则从全部总体中抽取样本单位;(3)抽样误差可以事先计算并加以控制;二、抽样调查的作用1.对不可能进行全面调查现象进行抽样估计;2.抽样调查可以节省人力物力,提高调查的经济效益,又能够节省时间,提高调查的实效性。8/12/20244三、抽样调查的几个基本概念

1.总体和样本(1)总体总体单位的总数称为总体容量(用N表示)。(2)样本从总体中抽取来代表总体的部分总体单位所构成的整体。样本单位的总数称为样本容量(用n表示)。种类:大样本小样本8/12/202452.总体参数和样本指标(1)总体参数(总体指标)如(或记为)、P、等。(2)样本指标(估计量或样本统计量)如、p、s等。3.重复抽样和不重复抽样(1)重复抽样(回置抽样)(2)不重复抽样(不回置抽样)8/12/202464.概率抽样与非概率抽样(1)概率抽样基本的组织方式有:整群抽样、分层抽样、等距抽样、简单随机抽样。(2)非概率抽样根据调查者的经验或判断,从总体中有意识的抽取若干单位构成样本。如典型调查、重点调查、方便(偶遇)抽样等。8/12/202475.抽样筐(1)定义:包括全体抽样单位的名单框架。(2)形式:◆名单抽样筐——列出全部总体单位的名录一览表。如企业名单、居民名单、学生名单;◆区域抽样筐——按地理位置将总体范围划分为若干小区域,以小区域为抽样单位;◆时间表抽样筐——将总体全部单位按照时间顺序排列,把总体的时间过程分为若干小的时间单位,以时间单位为抽样单位。如检测流水线上的产品质量时以1分钟为一个抽样单位。8/12/20248第二节抽样误差一、抽样误差的概念(一)抽样误差的性质

1.抽样误差由于随机抽样的偶然因素使各单位的结构不足以代表总体的结构而引起抽样指标与总体指标间的绝对离差。

2.抽样调查中误差的来源

(1)登记性误差:可避免

(2)代表性误差系统误差:非随机、可避免随机性误差:可计算、控制抽样估计中所指的误差主要指随机误差。8/12/20249(二)抽误误差的影响因素

1.样本容量:即样本单位数2.总体差异程度3.抽样方法4.抽样组织形式8/12/202410二、抽样平均误差(一)抽样平均误差的概念

所有可能样本的估计值与相应总体参数的标准差,反映样本估计值与其中心的平均离散程度。(二)抽样平均误差的计算公式

8/12/202411样本均值的抽样分布

(一个例子)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下:均值和方差总体分布14230.12.38/12/202412

现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)8/12/202413样本均值的抽样分布1.00123P(x)1.53.04.03.52.02.5x

计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)8/12/202414所有样本均值的均值和方差式中:M为样本数目比较及结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n8/12/2024151.抽样平均数的平均误差(1)重复抽样(2)不重复抽样8/12/2024162.抽样成数的平均误差(1)重复抽样(2)不重复抽样

例:从40000件产品中随机抽取200件进行检查,结果有10件不合格。求合格率的抽样平均误差?8/12/202417三、抽样极限误差(一)概念又称允许误差。指样本指标与总体指标之间产生抽样误差被允许的最大可能范围。(二)抽样极限误差的计算

8/12/202418(三)抽样误差的概率度基于概率估计的要求,抽样极限误差通常需要以抽样平均误差为标准单位来衡量。极限误差除以抽样平均误差得到的相对数称为概率度。用Z表示。(四)抽样估计的置信度

指样本指标与总体指标误差不超过一定范围的概率保证程度。抽样误差的概率就是概率度Z的函数,即:

8/12/2024198/12/202420第三节简单随机抽样估计的方法

一、抽样估计的优良标准

同一个总体参数有多个样本估计量,究竟哪一个才是最优估计量呢,常用以下三个标准衡量:

1.无偏性:估计量的数学期望等于被估计的总体参数P(X

)XCA

无偏有偏8/12/202421

2.有效性:一个方差较小的无偏估计量称为一个更有效的估计量。如,与其他估计量相比,样本均值是一个更有效的估计量。AB

中位数的抽样分布均值的抽样分布XP(X)8/12/202422

3.一致性:随着样本容量的增大,估计量越来越接近被估计的总体参数。AB较小的样本容量较大的样本容量

P(X)X8/12/202423

二、总体参数的点估计

1.概念

从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计。例如:用样本均值作为总体未知均值的估计值就是一个点估计。

2.点估计的方法:有矩估计法、顺序统计量法、最大似然法、最小二乘法等。优点:简单明确缺点:不能说明估计结果的抽样误差和把握程度。8/12/202424三、总体参数的区间估计

(一)区间估计的概念要点

1.根据一个样本的观察值给出总体参数的估计范围

2.给出总体参数落在这一区间的概率

3.例如:总体均值在50~70之间,置信度为95%置信区间置信下限置信上限样本统计量

(点估计)8/12/202425(二)区间估计的内容

2

已知

2未知均值方差比例置信区间8/12/202426落在总体均值某一区间内的样本95%的样本x

-1.96

xx

+1.96

x99.73%的样本x

-3

xx

+3

x90%的样本x

-1.65

xx

+1.65

x8/12/202427(三)置信水平总体未知参数落在区间内的概率表示为(1-

为显著性水平,是总体参数未在区间内的概率。8/12/202428(四)总体均值的区间估计

(

2已知)1. 假定条件总体服从正态分布,且总体方差(

2)已知如果不是正态分布,可以由正态分布来近似(n

30)使用正态分布统计量Z总体均值

在1-

置信水平下的置信区间为8/12/202429总体均值的区间估计

(正态总体:实例)【例1】某种零件长度服从正态分布,从该批产品中随机抽取9件,测得其平均长度为21.4mm。已知总体标准差

=0.15mm,试估计该种零件平均长度的置信区间,给定置信水平为0.95。解:已知X~N(

,0.152),x=2.14,n=9,1-=0.95,Z

/2=1.96

总体均值

的置信区间为我们可以95%的概率保证该种零件的平均长度在21.302~21.498mm之间。8/12/202430总体均值的区间估计

(非正态总体:实例)【例2】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36分钟)。解:已知

x=26,=6,n=100,1-=0.95,Z

/2=1.96我们可以95%的概率保证平均每天参加锻炼的时间在24.824~27.176分钟之间。8/12/202431总体均值的置信区间

(

2未知)1. 假定条件总体方差(

2)未知总体必须服从正态分布使用t分布统计量3.总体均值

在1-

置信水平下的置信区间为8/12/202432总体均值的区间估计

(

2未知实例)【例3】从一个正态总体中抽取一个随机样本,n=25,其均值`x=50,标准差s=8。建立总体均值m

的95%的置信区间。解:已知X~N(

2),x=50,s=8,n=25,1-=0.95,t/2=2.0639。我们可以95%的概率保证总体均值在46.69~53.30之间8/12/202433(五)总体比例的置信区间1.

假定条件两类结果总体服从二项分布可以由正态分布来近似使用正态分布统计量Z3.总体比例P

的置信区间为8/12/202434例4:

某城市想要估计下岗职工中女性所占的比例,随机抽取了100名下岗职工,其中65人为女性职工。试以99.73%的置信水平估计该城市下岗职工中女性比例的置信区间?8/12/202435影响区间宽度的因素1. 数据的离散程度,用来测度样本容量3. 置信水平(1-

),影响Z的大小8/12/202436区间估计步骤(以估计为例):计算样本统计量计算抽样平均误差计算抽样极限误差确定置信区间8/12/202437

四、样本容量的确定思考:1.影响样本容量的因素?2.比例条件下n的确定?8/12/202438

课堂练习:

[3788.26,4111.74][77.86%,92.14%]

用简单随机抽样方法,从一批电子产品中按重复抽样抽取100个对其使用寿命进行测试,结果如下:(1)以95.45%的概率保证程度估计该产品的平均使用寿命区间?(2)若3000小时以下为不合格品,试以同样的概率估计该产品合格率的区间?

使用寿命(小时)

产品个数3000以下

15

3000-400030

4000-5000505000以上

58/12/202439第四节其他抽样组织形式的参数估计8/12/202440一、分层抽样及其参数估计(一)概念1.分层抽样2.分配样本单位数的方法

(1)等比例分配法

(2)不等比分配法:奈曼法、经济法(二)等比例抽样的参数估计回忆:纯随机抽样估计步骤思考:等比例抽样估计关键应是什么?8/12/202441平均数的参数估计思考:成数的参数估计?8/12/202442例题:

某地区对居民在一年内用于某类消费的支出进行了等比例分层抽样,结果如下(单位:元)。要求以95.45%的置信水平,估计该地区平均每户支出的区间?调查户数平均支出方差城镇403502209农村8026029168/12/2024438/12/202444二、等距抽样及其参数估计(一)概念1.等距抽样

2.等距抽样的方法

(1)无关标志排队等距抽样(2)有关标志排队等距抽样

半距起点等距抽样

对称起点等距抽样(二)等距抽样参数估计

(1)无关标志排队等距抽样

(2)有关标志排队等距抽样8/12/202445三、整群抽样及其参数估计(一)概念(二)参数估计假设将总体全部N个单位划分成R群,从中随机抽取r群,被抽中的群的平均值为

8/12/202446例题:

某商场有某种饮料500箱,每箱6瓶,现随机抽取10箱检查每瓶的含菌量数,测得这10箱的平均每瓶含菌数分别为:90、80、65、85、75、70、50、70、60、65个。要求以95%的置信度推断这批饮料的平均含菌数的区间?8/12/2024478/12/202448思考:

1.某工厂产品是连续性生产,每分钟产量是10件产品,为检查产品质量,在24小时中每隔30分钟取下一分钟的产品进行全部检查,这是什么抽样组织形式?2.要进行全国城市居民家庭平均收入调查,从全国城市中70个城市,再从抽出的城市中抽140个街道,然后再从抽出的街道中抽出1400个家庭进行调查,这是什么抽样组织形式?

3.我国农产品产量如何进行抽样调查?8/12/202449第五节假设检验引例1.月圆之夜会使人精神错乱美国利伯《月球作用—生物潮与人的情绪》2.有人宣称耳朵也能识字3.涨工资后工人的劳动积极性会增加8/12/202450一、假设检验的概念事先对总体参数或总体分布形式(特征)作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著性差异,从而决定应接受或否定原假设。所以,假设检验也称为显著性检验。8/12/202451二、假设检验的步骤第一步:确定原假设和备择假设;第二步:明确检验统计量;第三步:根据显著性水平,确定拒绝域;第四步:计算检验统计量的数值;第五步:给出判断结论。 8/12/202452三、假设检验中的两类错误

在作出接受或者拒绝原假设的结论时,是基于样本信息来判断的。由于样本的随机性,使假设检验有可能出现两类错误。

1、第一类错误——拒真错误当原假设H0为真,但由于样本的随机性使样本统计量落在了拒绝区域,从而导致作出的判断是拒绝原假设,概率P{拒绝H0|H0为真}=

2、第二类错误——取伪错误当原假设H0不真时接受原假设,取伪概率为P{接受H0|H0为不真}=

8/12/202453四、总体均值的假设检验1.总体方差已知——Z检验法(1)双侧检验:H0:µ=µ0;H1

:µ≠µ0,则临界值为-Za/2和Za/2,当|Z|>Za/2时拒绝原假设,否则接受原假设;

接受区域Za/2

-Za/28/12/202454例题:某地对100户居民进行调查表明,长话费下调第一周,平均每个长话的通话时间为14.5分钟,而此前的调查为13.6分钟。已知总体标准差为5分钟。请问长话的通话时间在资费调整前后是否有明显变化?8/12/2024558/12/202456(2)左侧检验:H0:µ≥µ0;H1

:µ<µ0则临界值为

Za,当Z<-Za时拒绝原假设,否则接受原假设;(3)右侧检验:H0:µ≤µ0;H1

:µ>µ0则临界值为

Za,当Z>Za时拒绝原假设,否则接受原假设;8/12/2024572.总体方差未知——t检验法例题:

1998年全国人均年消费支出1590元,同期在新疆一个25户的样本表明,其年人均消费支出为1450元,样本标准差为220元,试以0.1的显著性水平判断,新疆的人均年消费水平支出是否明显的低于全国平均水平?8/12/2024588/12/202459五、总体成数的假设检验例题:假如规定男婴占新生儿总数的比例不超过51.7%,即可认为出生性别比例正常。某地一个由400名新生儿组成的样本表明,男婴所占比例为53.4%,试以0.05的显著性水平分析:该地出生性别比例是否超出正常范围。8/12/2024608/12/202461例题:高尔夫球生产企业规定,合格球的射程为280码。某日随机抽取36个球组成一个样本,测得其平均射程为278.5码,标准差为12码。试在显著性水平为0.05条件下,检验该批球的射程是否不为280码。不能拒绝原假设,即不能否定

0=280码。280码处于置信区间之中,不能拒绝原假设。8/12/202462本章练习一、填空1.抽样推断最基本的组织形式是

,在这种形式下,若成数50%,允许误差不超过5%,概率为95.45%,则必要抽样数目为

。2.抽样估计的方法有两种,即

。3.抽样估计的目的在于由

指标来估计总体指标。4.作区间估计时实质上同时作了如下两方面的判断,即:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论