第7章抽样与抽样分布_第1页
第7章抽样与抽样分布_第2页
第7章抽样与抽样分布_第3页
第7章抽样与抽样分布_第4页
第7章抽样与抽样分布_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章抽样与抽样分布统计图表2统计图表3统计图表4统计图表5统计图表6统计图表7统计图表8刘涛个人百度指数近30天平均搜索指数达105098,同比上升240%,环比上升353%。王子文的人气迅速蹿升,百度指数近30天平均搜索指数为143401,同比增长大于1000%,环比增长大于1000%。乔欣词条下近30天平均搜索指数为48263,环比增长大于1000%。因为角色关关的乖巧可人,就连“关关”都有其下词条,近30天平均搜索指数为5590,环比上涨61%。欢乐颂统计图表9统计图表10抽样调查研究了26个字母统计图表11本章要点:第7章抽样与抽样分布简单随机抽样方法点估计的基本方法样本均值与样本比例的抽样分布*其他常见的抽样方法简介例:诺里斯电器公司的一项研究

诺里斯电器公司生产了一种能在各种电器上使用的高亮度灯泡,为了提高灯泡寿命,产品设计部门研发了一种新型灯丝,为了评估新灯丝的优点,生产了200只利用新型灯丝制作的灯泡进行寿命试验,得到样本数据如右,试对所有用新型灯丝生产的灯泡使用寿命进行评估。

第7章抽样与抽样分布14引例:联合电气公司抽样问题的案例

问题:

联合电气公司的人事部门经理要拟订一份公司2500名经理的简介。内容包括经理们的平均年薪和已完成公司培训计划的经理所占比例。

15

16事件:人事部门经理不想用全面调查而是抽样的方法,从2500名经理中抽取30名来估计总体信息。分析:

以下内容将围绕这一案例的分析、解决展开。统计推断统计推断过程1、总体是2500名管理人员信息的数据2、样本是选中的30名管理人员的信息数据3、根据样本数据计算出样本平均年薪是51814(美元)4、根据样本平均值对总体平均值进行估计.定义:根据样本数据对总体进行估计并对总体参数的有关假定做出检验.推断统计中有关概念总体(population):在一个特定研究中感兴趣的对象全体所组成的集合,总体分:有限总体与无限总体样本(sample):总体的一个子集抽样(samplesurvey):收集一个样本数据的过程被抽样总体(statisticalinference):根据指理论上应抽样的对象的全体抽样框(frame):指事实上被抽样的全体元素的集合统计图表19几个概念平均数标准差比例参数(唯一性)p统计量(随机变量)x

sp

总体样本统计应用:两个例子

ThepurposeofStatisticsinferenceistoobtaininformationaboutapopulationfrominformationcontainedinsample.

例1:一汽车轮胎制造商生产一种被认为寿命更长新型轮胎。

例2:某党派想支持某一候选人参选美国某州议员,为了决定是否支持该候选人,该党派领导需要估计支持该候选人的民众占全部登记投票人总数的比例。由于时间及财力的限制:120个样本测试平均里程:36,500公里推断新轮胎平均寿命:36,500公里400个样本

支持人数:160推断支持该候选人的选民占全部选民的比例:160/400=40%21统计推断对样本要求

要利用样本的信息对总体特征做合理的推断,样本必须具有代表性.

调查:新华学院学生的就餐情况统计图表22统计图表23统计图表2425简单随机抽样

简单随机抽样(Simplerandomsampling)是最常用的一种抽样方法。它的定义和样本抽取程序取决于总体是有限总体还是无限总体。

26一、有限总体抽样(一)有限总体的含义可以列出或计数总体中所有元素(单位)的总体称为有限总体。(二)简单随机样本定义从容量为N的有限总体中进行抽样,如果容量为n的每个可能样本被抽到的机会相同,我们称容量为n的样本为简单随机样本。27事件:人事部门经理不想用全面调查而是抽样的方法,从2500名经理中抽取30名来估计总体信息。分析:

以下内容将围绕这一案例的分析、解决展开。28(三)抽样方法1.无放回抽样(不重复抽样)一个元素一旦选入样本,就从总体中剔除,不能再次被选入。

[例]

在联合电气公司的问题中,用无放回抽样方法抽取样本。一、有限总体抽样29分析:在此问题中,N=2500,n=30。用无放回抽样方法抽取样本的方法步骤如下:(1)抽样的准备工作第一步:将2500名联合电气公司经理编号1,2,3,…,2499,2500。第二步:将每个号码写在大小相等的纸片上,并揉成均匀的球状。第三步:每个纸球放入圆形容器中摇匀。

30(2)具体抽样第一步:从2500个纸球中随机抽取1个,做好编号记录,然后将其放在一边。第二步:从剩下的2499个纸球中再抽取另1个,做好记录后再放在一边。第三步:以此类推,直至抽够30个为止。

由此就构成一个无放回抽样的简单随机样本。

312.放回抽样(重复抽样)一个元素一旦选入样本,仍被放回总体中。先前被选入的元素可能再次被选,并且在样本中可能出现多次(多于一次)。[例7.2]

在联合电气公司问题中,用放回抽样方法抽取样本。32分析:抽样的准备工作同无放回抽样。具体抽样:第一步:从2500个纸球中随机抽取第1个,做好编号记录,然后将其放回总体参加下一次抽选。第二步:从2500个纸球中再随机抽取第2个,做好编号记录,然后将其放回总体参加下一次抽选。第三步:以此类推,直至抽够30个为止。

33

最常用的抽样方法是无放回抽样(不重复抽样)。以后,只要提到简单随机抽样,就假定是无放回抽样。

统计图表34简单随机抽样中的具体方法2.利用Excel函数抽取样本利用函数randbetween(bottom,top)进行重复随机抽样3.利用Excel数据分析工具中的“抽样”选项抽取样本(重复)流程:工具----->数据分析---->抽样---->抽样选项,---->抽样对话框---->输入区域框中输入总体单位编号或数字---->确定1.利用随机数表抽取样本4.利用SPSS可方便快捷地进行简单随机“抽样”(不重复)37二、无限总体抽样(一)无限总体的含义

在实际应用中,若总体单位数很多,要逐一编号是难以办到的,特别是有些现象,事前也不可能编号(如一些连续大量正在生产的产品)因此我们定义:被研究的总体中所涉及某一正在进行的过程使得不可能列出总体中的所有元素,则可视为无限总体。38二、无限总体抽样

(二)无限总体简单随机样本定义

满足下面条件的样本称为无限总体简单随机样本:每个个体都来自同一个总体。每个个体被抽取是相互独立的。

39

统计应用:两个例子

ThepurposeofStatisticsinferenceistoobtaininformationaboutapopulationfrominformationcontainedinsample.

例1:一汽车轮胎制造商生产一种被认为寿命更长新型轮胎。

例2:某党派想支持某一候选人参选美国某州议员,为了决定是否支持该候选人,该党派领导需要估计支持该候选人的民众占全部登记投票人总数的比例。由于时间及财力的限制:120个样本测试平均里程:36,500公里推断新轮胎平均寿命:36,500公里400个样本

支持人数:160推断支持该候选人的选民占全部选民的比例:160/400=40%常用的估计量有:(1)样本平均数为总体平均数的估计量;(2)样本方差为总体方差的估计量(3)样本成数为总体成数p的估计量。三、点估计点估计就是用样本估计量的一个具体观测值直接作为总体的未知参数的估计值的方法。42

点估计例现在再回到联合电气公司的问题上来。假定已经抽取了一个由30名经理所组成的简单随机样本,他们相应的年薪以及参加管理培训计划情况的数据如下表:43

点估计例44

点估计例将样本结果与总体参数的真值作对比:总体参数参数值点估计量点估计值5180040000.605181433480.6345

抽样分布

46

例:在一箱(5×50×200=50000支)卷烟中随机抽出40支测量烟丝重量X,然后对这箱卷烟的烟丝重量进行分析。样本样本指标N=50000n=40放回抽样不放回抽样X1、X2、…XN

X

的抽样分布

如果将整理成分布数列,得到以下形式:样本平均数概率(频率)

p1p2pk形成了抽样分布表,该表便为X的抽样分布。x的抽样分布49一、的期望值

(7-1)公式(7-1)说明,是的无偏估计。

无偏性(Unbiasedness)点估计量的一个性质。点估计量的数学期望等于所估总体参数的值。

[例]总体A、B、C三人年龄为:1,2,3,N=3n=2。=2岁结论是:样本均值的无偏性

51(一)无限总体的标准差(重复抽样)(7-2)(二)有限总体的标准差(不重复抽样)(7-3)二、的标准差

抽样平均数的标准差A、重复抽样

B、不重复抽样54[例]在联合电气公司问题中,假定求:分析:由于抽样比

所以可以直接用计算

考察一个N=6的总体(6点的骰子),其原始分布属于均匀分布:X123456p1/61/61/61/61/61/6

从这个总体中有放回地抽取n=2的样本(二个骰子同时抛点数),所有可能的样本总数为Nn=36,假定要通过样本估计总体的均值,则所有36个可能结果为:三、X的抽样分布的形态

第一次第二次123456111.522.533.521.522.533.54322.533.544.542.533.544.55533.544.555.563.544.555.56所有36个可能结果:样本均值的分布整理成:11.522.533.544.555.56p1/362/363/364/365/366/365/364/363/362/361/36用图示反映其分布状况如:

58

X的抽样分布的形态中心极限定理对于三种不同总体的演示60这一命题要解决的问题就是,根据抽样误差确定在一次抽样中,样本均值落在以总体均值为中心,左右分别小于(等于)和大于(等于)一个数据范围内的概率有多大。

样本均值与总体均值之差的绝对值称作抽样误差(单个样本的抽样误差):

61[例7.6]

在联合电气公司问题中,假定人事部经理把样本均值落在总体均值左右各500元以内作为一个可接受的估计值。

那么,根据30名经理组成的简单随机样本得到的样本均值在总体均值左右500元以内的概率有多大呢?

即要计算:

62解:

图7.7

样本均值在总体均值左右500元范围之间的概率63结论:

上述计算结果表明,

人事部经理有50.36%的把握保证由30名公司经理组成的样本,他们平均年薪在51300~52300元之间。

64样本容量与抽样分布之间的关系

由公式可以看出,均值的标准误差与样本容量的平方根有关。即当样本容量增加时,均值的标准误差会减少。

例如,当n=30时,联合电气公司问题均值标准误差为730.30,当样本容量增加到100时,则新烽电子公司问题均值标准误差减少到

65在的情况下,由100名新烽电子公司经理组成的简单随机样本所得到样本均值落在总体均值左右500元之间的概率。

查标准正态分布表

66

由此,样本均值在51300~52300元之间的概率为:0.3944+0.3944=0.7888图7.8

简单随机样本均值的抽样分布比较(样本由和名联合电气公司经理年薪组成)

在许多商务和经济领域中,决策人员还经常要用样本比例对总体比例进行统计推断。这一过程我们用下图来描述:

67总体比例p=?从总体中抽取容量为n的样本

推断

68一、样本比例的期望值

(7-4)

69

(一)无限总体(重复抽样)

(7-5)

(二)有限总体(不重复抽样)(7-6)

计算.70

例如,在联合电气公司问题中,已经参加了公司管理培训计划的经理所占比例是0.60,因为

71

大样本容量的标准:

72例如,在联合电气公司问题中,由于

73

当抽取一个简单随机样本并用样本比例的值来估计总体比例p的值时,二者之间会有一定的抽样误差,即

74

例如,在联合电气公司问题中,人事部经理想知道样本比例在总体比例的范围之内的概率,即样本比例在0.55和0.65之间的概率是多少?分析:补充:其他抽样方法

抽样组织方式是指在抽样时对总体的加工整理形式。根据对总体的加工整理形式不同,在抽样调查中抽样的组织方式很多,除简单随机抽样外,还有类型抽样、等距抽样、整群抽样、多阶段抽样、方便抽样和判断抽样等其他抽样方法。一、类型抽样类型抽样又称分层抽样或分类抽样。它是先将总体的全部单按照某个标志分成若干组,然后在各组中采用简单随机抽样方式或其他方式抽取样本单位的抽样组织方式。[例]10人年龄资料如下。N=10n=3,推断总体平均年龄。人:ABC

DEFG

HIJ年龄:5812

40424648

707276[简单随机抽样](B

、H、I),(

C、D

、E

),(F

、G

I)结论:总体变异较大时类型抽样。[类型抽样](B

、E、I),(

C、D

、H

),(A

、G

J)类型抽样是应用于总体内各单位在被研究标志上有明显差别的抽样,如研究农作物产量时,耕地有平原、丘陵和山地等;研究职工的工资水平时,各行业之间有明显的差别。类型抽样实质上是把统计分组和抽样原理有机结合的抽样组织方式。通过分组,可以使组中具有同质性,组间具有差异性,然后从各组中简单随机抽样。这样可以保证样本对总体具有更高的代表性,所以计算出的抽样误差就比较小。类型抽样应掌握的主要原则是:分组时应使组内差异尽可能小,使组间差异尽可能大。

设全及总体有N个单位,现在需要抽取一个容量为n的样本,可以将总体单位N按一定标志排队,然后将N划分为n个单位相等的部分,每一部分都包含K个单位,即N/n=K。

二、等距抽样等距抽样又称为机械抽样或系统抽样。它是先将总体各单位按某一标志顺序排列,然后按照固定的顺序和相同的间隔来抽取样本单位的抽样组织方式。1、2、3、…、i、…、Ki+2Ki+(n-1)Kn在第一部分K个单位中(顺序为1、2、3、…、i、…、K)随机抽取一个单位i,而在第二部分中抽取第i+K单位。第三部分中抽取第i+2K单位……在第n部分抽取第i+(n-1)K单位,共n个单位组成一个样本,而且每个样本的间隔均为K,这种抽样方法称等距抽样。等距抽样的随机性表现在抽取第一个样本单位上,当第一个单位确定后,其余各个单位的位置也就确定了。等距抽样可以分为无关标志排序抽样和有关标志排序抽样两类。

无关标志排序抽样是指排序的标志与被研究的标志无关,如:观察学生考试成绩用姓氏笔划;观察产品质量按生产的先后顺序等。无关标志排序可以保证抽样的随机性,它实质上相当于简单随机抽样。

有关标志排序抽样是指排序的标志与被研究标志相关。

在对总体各单位的变异情况有所了解的情况下,也可以采用有关标志进行总体单位排列,使各单位的排列顺序和它的变量数值大小保持密切的关系。如:农产量抽样调查,可利用各县或各乡当年估计亩产或最近三年平均亩产标志排队,抽取调查单位;又如职工家计调查,可按职工平均工资排队,抽取调查企业或调查户。由此可见,按有关标志排序实质上是运用类型抽样的一些特点,有利于提高样本的代表性。但也必须注意到,等距抽样在排序时,第一个样本单位的位置确定后,其余单位也随之确定,因此要避免抽样间隔和现象本身的周期性节奏相重合,引起系统性的影响。三、整群抽样整群抽样又称为分群抽样或集团抽样。它是将总体划分为若干群,然后以群为单位从中按简单随机抽样方式或等距抽样方式抽取部分群,对中选群中的所有单位一一进行调查的抽样组织方式。

ABCDEFGHIJKLNOPLHPD1、按某种标志或要求将总体区分为若干群(R),群内单位数(M)相等;2、采取不重复抽样方式从R群随机抽出r群,尔后对样本群进行全面调查以推断总体。总体群数R样本群数r

在大规模的抽样调查中,如果总体单位多且分布区域广,缺少进行抽样的抽样框,或者在按经济效益原则不宜编制这种抽样框的情况下,宜采用整群抽样方式。整群抽样中的群主要是自然形成的,如按行政区域、地理区域划分群。整群抽样和其他抽样组织方式比较,在相同的条件下,抽样误差较大,代表性较低。在统计工作实践中采用整群抽样时,一般都要比其他抽样方式抽样更多的单位,借以降低抽样误差,提高抽样结果的准确程度。四、多阶段抽样

多阶段抽样又称多级抽样。它是将抽取样本单位的过程划分为几个阶段,然后逐阶段抽取样本单位的抽样组织方式。

如果先将总体进行分组,从中随机抽出一些组,然后再从中选的组中随机抽取总体单位,称为二阶段抽样,如整群抽样随机抽出群,再从群中随机抽出样本单位就是二阶段抽样。

如果将总体进行多层次分组,然后依次在各层中随机抽取,直到抽到总体单位,就称为多阶段抽样,如我国农产量调查就是采用多阶段抽样调查,即先从省中抽县,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论