6 管理统计南京工业大学张琳上课讲义_第1页
6 管理统计南京工业大学张琳上课讲义_第2页
6 管理统计南京工业大学张琳上课讲义_第3页
6 管理统计南京工业大学张琳上课讲义_第4页
6 管理统计南京工业大学张琳上课讲义_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Chapter 6 Sampling and InferenceSampling and Inference (抽由样推断)Point Estimation and Interval Estimation (点估计与区间估计)Sampling Methods (抽样调查方法)Determining the Sample size (确定样本容量)6.1. Sampling and InferenceSampling and InferenceThe purpose of statistical inference is to develop estimates and test hypothe

2、ses about the characteristics of a population using information contained in a sample 统计推断的目的是利用 样本信息建立对总体性质的估计和检验对总体性质的假设。抽样推断概念:是在抽样调查的基础上,利用样本的实际资料计算样本指标,并据此推断总 体相应数量特征的一种统计分析方法.重复抽样 (sampling with replacement,放回抽样)不重复抽样(sampling without replacement,无放回抽样)抽样推断特点:总体的各单位都有一个指定的概率被由取调查单位的选取必须按照随机原则进

3、行 从数量上推断总体,并可控制抽样误差的大小 米用概率估算的方法抽样推断作用:可以解决全面调查无法或难以处理的问题 可以检查、修正和补充全面调查的结果 可以应用于生产过程中的质量控制 可以应用于假设检验Terminology population and sample 全及总体(N)、样本总体(n)population mean and sample mean 总体平均数(X )、样本平均数(x )population proportion and sample proportion 总体成数(P)、样本成数(p)population variance and sample variance

4、总体方差( 2)、样本方差(S2)A tire manufacturer developed a new tire designed to provide an increase in mileage over the firms current line of tires. To estimate the mean number of miles provided by the new tires, the manufacturer selected a sample of 120 new tires for testing. The test results provided a samp

5、le mean of 36,500 miles. Hence, an estimate of the mean tire mileage for the population of new tires was 36,500 miles,某轮胎制造商开发了一种新型轮胎,它的设计里程数超过了公司目前的轮 胎产品.为了估计新轮胎的平均里程数,制造商诜取了一个包括120条新轮胎的样本进行检 测。检测结果显示样本均值为36500英里。于是,新轮胎总体平均里程数的估计值为36500 英里。Members of a political party were considering supporting a

6、particular candidate for election to the U.S. Senate, and party leaders wanted an estimate of the proportion of registered voters favoring the candidate. The time and cost associated with contacting every individual in the population of registered voters were prohibitive. Hence, a sample of 400 regi

7、stered voters was selected and 160 of the 400 voters indicated a preference for the candidate. An estimate of the proportion of the population of registered voters favoring the candidate was 160/400=0.40. 400 名登记选民组成 的样本,其中有160人支持候选人,因此选民总体中支持比例的估计值 =0.4The examples illustrate some of the reasons fo

8、r using sample. However, it is important to realize that sample results provide only estimates of the values of the population characteristics. That is, we do not expect the sample mean of 36,500 miles to exactly equal the mean mileage for all tires in the population, nor do we expect exactly 40% of

9、 the population of registered voters to favor the candidate. The reason is simply that the sample contains only a portion of the population.这两个例子说明了人们使用样本的一些原因。但是应该注意,样本结果提供的只是总体特征 值的估计值。也就是说,我们不能期望英里的样本均值恰好等于总体所有轮胎的平均里程, 我们也不能期望确实有的登记选民支持这位候选人。我们之所以这样说是因为样本只包含了 一部分总体。Point Estimation and Interval E

10、stimationPoint EstimationSampling errorInterval EstimationPoint EstimationTo estimate the value of a population parameter, we compute a corresponding characteristic of the sample, referred to as a sample statist For example, to estimate the population mean and the population standard deviation ,we s

11、imply use the data to calculate sample statistics: the sample mean and the sample standard deviation.为了估计总体参数的值,需要计算对应的样本特征, 即样本统计量。如为了估计总体均值和总体标准差,使用数据计算样本统计量:样本均值和 样本标准差。Point estimation: We use the data from the sample to compute a value of a sample statistic that serves as an estimate of a popul

12、ation paramet er点估计:使用样本数据计算出来的样本统计量 的值作为对总体参数的估计。None of the point estimate are exactly equal to the corresponding population parameters. This variation is to be expected because only a sample and not a census of the entire population is being used to develop the estimate.没有一个点估计值准确地等于对应总体参数。因为在进行估

13、计 时,用样本数据代替了整个总体的统计数据,所以能够预期到这个偏差。Sampling errorSampling error: The absolute value of the difference between an unbiased point estimate and the corresponding population parameter is called the sampling error.总体参数与其对应的无偏点估计之差的绝对值被称为抽样误差。抽样误差定义.:抽样指标与总体指标的差异,x -:、P-p口抽样误差越小,说明样本的代表性越高。口抽样误差的大小,取决于抽样单位

14、的多少、被 研究标志的变异程度大小、抽样方法及组织形式。抽样平均误差(sampling error mean)定 义:许多抽样误差的平均数。同一总体可以抽出不同的样本,即可计算出相应抽样指标与抽样误差,因此能够计算 出抽样平均误差。Il 任幻2区(p - p)2抽样平均数的平均误差 x=、i ;抽样成数的平均误差u p=丫 4_ 口数理统计证明: 重复抽样下:u =不重复抽样下:u = -(1 n) x nx n N平均数抽样平均误差与总体均方差成正比,与样本单位数的平方根成反比(2)重复抽样下:u = :p(1P)不重复抽样下:u =p(1p)(1n)p np n N成数抽样平均误差与总体均

15、方差成正比,与样本单位数的平方根成反比(3)通常在n/N很小时,用重复抽样平均误差公式代替不重复抽样平均误差公式。 实际计算时,全及总体方差很难获得,一般用样本总体方差代替。极限抽样误差(margin of。巾01)定义.:用一定的概率保证抽样误差不超过某一给定的范围,即极限抽样误差数理统计证明:二甲P=F(t),当t=1时,概率P=0.6827P=F(t),当 t=2 时,概率 P=0.9545 P=F(t),当 t=3 时,概率 P=0.9973对一定的u,当t数值越大,用抽样指标来代表全及指标所做的推断,可信的程度也越高(估 计的精度在下降)。Interval Estimation 抽样

16、估计:1.点估计: X = x,P=p2.区间估计:X一 X w X +x,p-pWPW p+ pSampling MethodsSimple random sampling (简单随机抽样)Systematic sampling (系统抽样)Stratified random sampling(分层抽样) Cluster samplingl 群抽样)Judgment sampling断抽样)Simple random samplingSimple random sampling: A simple random sample of sizen from a population of siz

17、e N is a sample selected such that each possible sample of size n has the same probability of being select. 如果总体N中每一个容量为n的可能样本都有相同的概率被选取,这样选择出来的样本就 称为简单随机抽样。按随机数字表示选定样本总体,计算x,计算ux、up、x、Ap,点估计或区间估计例1,对砖的质量进行抽样调查,随机抽出220块砖,其中有废砖4块,计算不合格砖占全 部砖的比重(概率保证程度95.45%).4(1 )p=4/220=1.82% RPP(1 - P) / 220220= 22

18、0如09%,Confidence leve 1(置信度)为 95.45%, t=2,confidence interval(置信区间)为:p-ApPp+Ap p 中 P p + 中1.82%-2x0.09%WPW1.82%+2x0.09%,0.02%WPW3.62例2:在某工地抽查144名工人,测得每人平均挖土 4.95立方米,方差为2.25,试以95.45% 的概率保证推断全部工人的平均挖土量。.2.25尤=4.95,旦=、,=, =0.125,X : n 144Confidence leve 1(置信度)为 95.45%, t=2,confidence interval(置信区间)为:X

19、- AxW X W X +Ax,4.95-2X0.125W X 4.95+2x0.125,4.70W X 5.20简单随机抽样存在的问题:当总体单位很多时,对总体的编号很困难当总体单位分散时,抽样调查比较困难没有利用总体的一些已知信息,有些可惜Systematic sampling将总体单位按某种标志的顺序排列,先随机地抽取一个单元作为起点,然后每隔一定的间隔 抽取一个样本。排序,间隔d=N/n, 1 d中随机抽取i ,依次抽取i+d ,i+2d,.系统抽样存在的问题:d=N/n可能不是整数,取接近N/n的整数,这样可能造成样本容量不同抽样误差计算困难。简单随机抽样的抽样平均误差在方差一定的条

20、件下,主要取决于样 本容量n,随n增大而减小,而系统抽样,其估计量的抽样平均误差主要取决于总 体单元的排列方式,与n无明显的关系,不能直接得出随n增大便减小。系统抽样实际中处理方法:按无关标志排序的系统抽样与不重复随机抽样似乎是等价的一按纯随机抽样处理如:排列结果与总体调查的标志值呈周期性变化,若d=周期l (或其倍数),系统抽样的效率最差;若d=l-1,系统抽样的效率最好,样本平均数就等于总体平 均数,抽样误差为零。按有关标志排序一可以看作分层抽样。系统抽样优点:抽样方法简单,很适合在调查现场应用样本在总体分布的更均匀,具有代表性,特别时采用有关标志排序时,结果 往往比其它形式有更好的精度系

21、统抽样缺点:按无关标志排序时,如总体排序中存在事先无法预见的周期性,有可能获得一个精度较差的估计仅从一个系统抽样无法得出估计量抽样平均误差的精确估计。Stratified random sampling分层抽样(stratified random sampling):将总体分为若干层(类型),从各层中分别独立地抽样,再把每层样本合并即所求样本分层不宜太多,每层中独立随机抽样各层样本抽取可以按比例分配,也可按变异程度分配抽样估计:点估计或区间估计抽样误差计算:1.旦=气(1 - ) ,。2 =Z w b2 平均层内方差尤 n Nwh h z 状(1 p(1n),Phh层的成数p nNA =中,A

22、 =加例3:某企业有甲、乙两车间。都生产同种产品,由于甲车间引进了新设备,提高了劳动生 产率,产量是乙车间的1.5倍。现在要了解该产品使用寿命,按产量比例分别在两车间抽样, 共抽验100个,得样本资料如下:平均寿命标准差甲车间产品20006乙车间产品18008试按95.45%的概率保证,推断该产品寿命范围n=100, n =60 n =40 旦 =,生 :0.6 乂 62 + 0.4 乂 82 =0.687, 甲乙 - n100,Confidence leve 1(置信度)为 95.45%, t=2 A =甲=2x0.687=1.37confidence interva1(置信区间)为 192

23、0-2x1.37W X 1920+2x1.37该产品寿命范围在1918.63与1921.37小时间。分层抽样优点:可在不增大样本容量的情况下,降低抽样误差,提高精度 便于对总体的各个部分进行研究 对不同的层可采用不同的抽样方法组织实施按层进行,综合也较简便Cluster sampling整群抽样:将总体单位划分为若干个群,然后以群为抽样单位,对抽中的群,调查包含的全 部个体。总体划分为R个群,每群包含M个个体,确定样本容量r,中选的群内全部个体 进入样本,抽样估计。整群抽样优点:节约调查费用,提高收集实地资料的效率群单元的抽样框容易获得在一个地点可以调查多个单位,较少人即能完成整群抽样缺点:精

24、度比纯随机抽样差6.3.5 Judgment sampling (判断抽样)In this approach, the person most knowledgeable on the subject of the study selects elements of the population that he or she feels are most representative of the population 在这个方法中,由对 所研究的总体非常了解的人选择最能代表总体的元素组成样本。The quality of the sample results depends on the judgment of the person selecting the sample.样本 结果的质量依赖于选择样本的个人判断力。6.4 De

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论