统计学-参数估计_第1页
统计学-参数估计_第2页
统计学-参数估计_第3页
统计学-参数估计_第4页
统计学-参数估计_第5页
已阅读5页,还剩115页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

参数估计第一节抽样与抽样分布第二节点估计与区间估计第三节总体均值的区间估计第四节总体比率的区间估计第五节总体方差的区间估计第六节两总体均值差、比率差的估计第七节做参数估计的样本容量第一节抽样与抽样分布一、为什么要抽样不得不抽样的情形:消耗性、破坏性的检验试验,无限总体;可以全面调查但最好是抽样的情形:经济、时间、能力、准确性等。第一节抽样与抽样分布二、怎样抽样如果可能,应使用概率抽样方法;自有限总体抽样和自无限总体抽样所使用的方法有所不同。第一节抽样与抽样分布自有限总体抽样:从全校8000名学生中选取40名,组成一个随机样本。首先将全部学生编号0001至8000,然后利用随机数表确定样本单位。63271

59986

71744

51102

15141

8071488547

09896

95436

79115

08303

0104155957

57243

83865

09911

19761

6653546276

87453

44790

67122

45573

8435855363

07449

34835

15290

76616

67191第一节抽样与抽样分布自无限总体中抽样:从某日早8点到晚8点来某加油站加油的汽车中选取若干台,组成一个随机样本。方法:可以考虑每累计若干个单号(或双号)车牌后,下一辆车就是被选中的样本单位。注意:此时不可能对全部来加油的汽车编号;此时要保证的是两点:第一,所有样本单位来自于同一总体;第二,各样本单位的选取要相互独立。第一节抽样与抽样分布三、关于抽样分布样本统计量所有可能值构成的概率分布称为抽样分布;样本统计量的抽样分布是一个总体的范畴,具有相应的参数,如均值、标准差等;抽样分布的知识和性质使我们能够对样本统计量与相应的总体参数的接近程度做一个概率度量。第一节抽样与抽样分布可能的样本数量往往是一个天文数字。因此样本统计量的所有可能值通常是无法一一列举的。以413名学生的考试成绩为例:如果按不重复抽样的方法从中抽取容量为30人的样本,则可能的样本数量m为:因为每个样本都有1个均值,则所有可能的均值约为385580亿亿亿亿亿个。第一节抽样与抽样分布如果真的计算出了所有385580亿亿亿亿亿个样本均值,则这些样本均值所构成的分布,就是“样本均值的抽样分布”。这个抽样分布也有两个参数:均值和标准差;样本统计量的抽样分布是我们进行统计推断的依据。问题是我们根本无法将全部可能的样本都抽选出来,因此,需要记住相关的理论推导结论第一节抽样与抽样分布例如,在大样本情况下,样本均值的抽样分布为:μ这个抽样分布就成为对未知的总体均值进行推断的基础。第一节抽样与抽样分布实际工作中我们只有一个样本均值,根据其抽样分布,我们知道它一定在总体均值的附近,有95%的可能距待估计总体均值的距离在1.96倍标准误之内(想一想为什么?)。μ第一节抽样与抽样分布如果我们说这个样本均值就等于待估计的总体均值,可能很准确,也可能很不“靠谱”(想一想为什么?)。μ第一节抽样与抽样分布如果我们以样本均值为中心、以1.96倍标准误为半径构造一个区间,并说待估计的总体均值在这个区间之内,则估计的可靠程度为95%(想一想为什么?)。μ第一节抽样与抽样分布一个实际例子:从413个考试分数中抽样。第一节抽样与抽样分布按不重复抽样的方法,从总体中随机抽取30名学生,即n=30,共抽取510个样本,并计算相关样本统计量:510个样本均值的分布情况510个样本中位数的分布情况510个样本众数的分布情况第一节抽样与抽样分布对比一下总体参数与样本统计量的统计结果:总体均值72.2663分样本均值的均值72.5559分第一节抽样与抽样分布总体方差和标准差分别为421.468分2和20.529分2样本均值的方差和标准差分别为14.074分2和3.75154分对比一下总体参数与样本统计量的统计结果:第一节抽样与抽样分布510个样本相对于385580亿亿亿亿亿个样本而言小得可怜,但其计算结果已经非常接近推导的结论。第一节抽样与抽样分布

510个样本方差的分布情况:510个样本方差的均值为405.673,接近总体方差水平(421.468)第一节抽样与抽样分布

510个样本标准差的分布情况:510个样本标准差的均值为19.8391,接近总体标准差水平(20.5297)第二节点估计与区间估计1.点估计及特征直接以样本统计量作为待估计的总体参数的估计值,就是点估计;点估计最大的好处是简便、具体,最大的问题是无从得知估计的准确程度;因此,除非有特别的需求,一般不使用点估计。估计的基础:德国坦克从1开始连续编号估计的样本:战斗中缴获的部分坦克(编号)估计方法:以样本均值或最大编号估计总体均值或最大编号估计的结果:与真实数量相当接近点估计的应用举例:德军有多少坦克?第二节点估计与区间估计2.估计量的优良标准无偏:估计量的均值等于待估计的总体参数;有效:具有较小的估计误差;一致:估计误差随样本容量增大而减少。第二节点估计与区间估计第二节点估计与区间估计2.估计量的优良标准应当记住的主要结论:3.区间估计:因为点估计存在缺陷,于是我们使用另一种所谓“区间估计”的方法,即在点估计值的基础上构造一个区间,给出总体均值在“多少到多少之间”的结论;区间估计结果是一种概率判断,即我们可以确定估计准确的概率,称为“置信度”,估计的区间也就称为“置信区间”;置信区间与置信度成正比。第二节点估计与区间估计0.68270.95450.9973根据中心极限定理,样本均值的抽样分布服从正态分布。正态分布概率密度曲线下的面积既是概率,又是估计的置信度,可以计算。对总体均值区间估计的图示:第二节点估计与区间估计0.68270.95450.9973从概率计算的角度讲,由于不能计算一点所对应的概率,因此就无法确定点估计的置信度。第二节点估计与区间估计0.68270.95450.9973第二节点估计与区间估计如果以点估计值为中心,以一定的标准误为半径构造一张“网”,则根据这张“网”所做的估计就是区间估计。区间估计可以确定估计的置信度。0.68270.95450.9973第二节点估计与区间估计当“网”的半径为1倍标准误时,估计的置信度为68.27%。因为全部的网中有68.27%可以网住总体均值,其他的网则网不住总体均值。0.68270.95450.9973第二节点估计与区间估计当“网”的半径为1倍标准误时,估计的置信度为68.27%。因为全部的网中有68.27%可以网住总体均值,其他的网则网不住总体均值。例如这个0.68270.95450.9973第二节点估计与区间估计当“网”的半径为2倍标准误时,估计的置信度上升到95.45%。但还是有约5%的网网不住总体均值。0.68270.95450.9973第二节点估计与区间估计当“网”的半径为2倍标准误时,估计的置信度上升到95.45%。但还是有约5%的网网不住总体均值。例如这个0.68270.95450.9973第二节点估计与区间估计当“网”的半径为3倍标准误时,估计的置信度上升到99.73%。这时,网不住总体均值的网已经寥寥无几。0.68270.95450.9973如果样本均值偏离总体均值很远,即使网做得大,也可能网不住总体均值。第二节点估计与区间估计当“网”的半径为3倍标准误时,估计的置信度上升到99.73%。这时,网不住总体均值的网已经寥寥无几。第二节点估计与区间估计0.68270.95450.9973实际工作中只有一张网,半径通常为1.96倍标准误。由此构造的是总体均值95%的置信区间,或者说估计总体均值在此区间内的置信度为95%。该怎样理解?从属于此类网的概率为95%从属于此类网的概率为5%总结:区间估计是以点估计值为中心构造一个区间,同时对该区间是否包含了待估计的总体参数做概率判断;其他条件不变的情况下,要求的置信度越高,区间就越大、估计精度越低;我们要在置信度和估计精度中做平衡选择,通常将置信度定为95%。第二节点估计与区间估计第三节总体均值的区间估计n是否为大样本是否已知是否正态总体是否已知用S估计是是是是否否否否增大样本容量到30以上用S估计传统的估计方法选择关于估计总体均值的大样本和小样本:

大样本:n≥30

小样本:n<30

注意:小样本情况下,只有总体是正态的,样本均值的抽样分布才服从正态分布。因此,小样本分析要设置条件:总体服从正态分布。问题:怎样才能知道总体是否服从正态分布?第三节总体均值的区间估计关于总体方差已知和未知:

总体方差已知,可直接代入公式使用;

总体方差未知,则需要使用样本方差来估计总体方差,这时,标准化结果得到的是t统计量。

手工做题需要借助于数据表等工具;如果使用SPSS软件处理数据,则无需考虑这个问题,因为系统视所处理的数据为样本数据,总体参数都是未知的,包括方差。第三节总体均值的区间估计第三节总体均值的区间估计n是否为大样本是否已知是否正态总体是否已知用S估计是是是是否否否否增大样本容量到30以上用S估计传统的估计方法选择对于给定的显著性水平α,有:第三节总体均值的区间估计n是否为大样本是否已知是否正态总体是否已知用S估计是是是是否否否否增大样本容量到30以上用S估计传统的估计方法选择去掉绝对值符号,有:整理不等式,有:第三节总体均值的区间估计n是否为大样本是否已知是否正态总体是否已知用S估计是是是是否否否否增大样本容量到30以上用S估计传统的估计方法选择可见,总体均值置信度为1-α的置信区间是:即:第三节总体均值的区间估计n是否为大样本是否已知是否正态总体是否已知用S估计是是是是否否否否增大样本容量到30以上用S估计传统的估计方法选择如果以s估计σ,则有:相应地,总体均值的1-α置信区间为:第三节总体均值的区间估计n是否为大样本是否已知是否正态总体是否已知用S估计是是是是否否否否增大样本容量到30以上用S估计传统的估计方法选择注意:

传统条件下,小样本的tα/2(n-1)值可以查表得到,大样本(n≥30)的tα/2(n-1)值通常查不到。因样本容量越大,t

分布越接近标准正态分布,所以,大样本情况下一般用Z

统计量代替t

统计量。

现在这个问题已经得到解决。第三节总体均值的区间估计n是否为大样本是否已知是否正态总体是否已知用S估计是是是是否否否否增大样本容量到30以上用S估计传统的估计方法选择0.68270.95450.9973Z0.1587=1Z0.02275=2Z0.00135=3第三节总体均值的区间估计n是否为大样本是否已知是否正态总体是否已知用S估计是是是是否否否否增大样本容量到30以上用S估计传统的估计方法选择Z0.025=1.960.95第三节总体均值的区间估计例:由532名《商业周刊》订阅者组成的样本表明,其每周使用因特网的平均时间为6.7小时。如果总体标准差为5.8小时,求该周刊订阅者总体每周平均花费在因特网上时间的95%置信区间。第三节总体均值的区间估计例:某机场随机抽取50名旅客为该机场服务质量评级,结果为:均值6.32,标准差2.31。试估计旅客总体对该机场评级99%的置信区间。第三节总体均值的区间估计使用Excel查找t值:第三节总体均值的区间估计使用Excel查找t值:第四节总体比率的区间估计样本比率的抽样分布:当np≥5并且n(1-p)≥5时,样本比率p

的抽样分布近似服从正态概率分布,即:用样本标准差代替总体标准差做标准化变换,有:第四节总体比率的区间估计对于给定的显著性水平α,有:整理不等式,有:第四节总体比率的区间估计即:总体比率Π

的1-α置信区间为:第四节总体比率的区间估计例:某校一个由413名大学生组成的样本中,277名学生没有宗教信仰。试估计该校全部学生中无宗教信仰比率的95%置信区间。解:根据已知条件,有:即:样本比率的抽样分布近似地服从正态分布。第四节总体比率的区间估计另:Z0.025=1.96。于是,该校学生总体无宗教信仰比例95%的置信区间为:第四节总体比率的区间估计例:据香港大学民意网站调查,2010年1月香港居民样本(n=1004)不赞同台湾独立的比率为71.4%。试估计该时点上香港居民总体不赞同台湾独立的比率95%的置信区间。第五节总体方差的区间估计很多情况下,总体方差或标准差也是需要估计的参数。例如,投资的风险表现在收益率的不确定上,而收益率的离散程度即实际收益率与期望收益率(平均收益率)的平均离差,反映了风险的大小。显然,方差、标准差是投资风险的具体度量值,对总体方差、标准差进行区间估计是必要的。第五节总体方差的区间估计对总体方差的估计需要用到χ2分布;关于χ2分布的回顾:

1.χ2是基于标准正态分布抽样计算的统计量;第五节总体方差的区间估计对总体方差的估计需要用到χ2分布;关于χ2分布的回顾:

2.

从一般正态总体中抽样需要做标准化变换;第五节总体方差的区间估计对总体方差的估计需要用到χ2分布;关于χ2分布的回顾:

3.

如果总体均值未知,可以用样本均值代替总体均值,此时,失去1个自由度;第五节总体方差的区间估计对总体方差的估计需要用到χ2分布;关于χ2分布的回顾:

4.

根据样本方差公式变换,有:第五节总体方差的区间估计结论:如果容量为n

的样本取自正态总体,样本方差为s2

。则可以构造统计量描述样本方差的抽样分布:第五节总体方差的区间估计χ2

分布是一族曲线,其形态取决于自由度。例如,自由度为19的χ2

分布曲线为:第五节总体方差的区间估计χ2

分布是非负分布。如果我们记χα2

为χ2

分布的α水平右侧分位数,就意味着有α水平的χ2值大于χα2。第五节总体方差的区间估计χ21-α

则是χ2

分布的α水平左侧分位数,此时意味着有α水平的χ2值小于χ21-α

。第五节总体方差的区间估计第五节总体方差的区间估计第五节总体方差的区间估计第五节总体方差的区间估计第五节总体方差的区间估计例:某开放式证券投资基金2002~2006年的收益率分别为10.8%、34.2%、4.2%、9.4%、29.4%。

试以此五年数据为样本,推断总体方差95%的置信区间。第五节总体方差的区间估计解:首先,计算样本收益率的均值和方差:第五节总体方差的区间估计解:然后,根据n

和α

确定临界值:第五节总体方差的区间估计解:最后,计算总体方差的置信区间:第六节两总体均值差、比率差的估计关于两个总体均值(比率)差的估计问题:

第一,有两个样本均值(比率)且数量有差异;

第二,我们想知道这两个样本背后的两个总体均值(比率)的差异是多少;

第三,两总体均值(比率)差的点估计值是两个样本的均值(比率)差,但鉴于点估计的弱点,通常我们需要做区间估计;

第四,估计的基础是样本统计量的抽样分布。例1:某品牌时装在市中心商业街设有新品店,在城郊某购物中心设折扣店。从光顾两个店的顾客中各抽取一个样本调查,发现样本平均月收入存在差异。时装店经理想知道两个顾客总体平均月收入差是多少,以便建议公司制订合适的折扣水平。第六节两总体均值差、比率差的估计例2:某制药公司聘用了20位糖尿病人为受试者,检验新研制的降血糖药物疗效。受试者先后服用降血糖药物和安慰剂,测量得到服药和未服药两组有差异的血糖测量数据。科研人员期望由样本数据推断出患者总体使用和不使用该药的血糖差异值,以确定该药物是否有效。第六节两总体均值差、比率差的估计例3:据香港大学民意网站调查,2010年1月香港居民样本(n=1004)不赞同台湾独立的比例为71.4%。而1993年1月,样本(n=509)数据显示这一比例为51%。研究者想知道香港居民总体不赞同台湾独立的比例在17年间变化的水平,确切地说是上升的水平。第六节两总体均值差、比率差的估计实际工作中,根据调查内容和分析需要,所获得的两个样本可以是独立样本,也可能是匹配样本;独立样本:两样本抽取时是相互独立的。前述例1、例3的两个样本均属于独立样本。以此类推,凡从不同类别、不同阶层、不同群体中抽取样本做比较研究,都属于独立样本。独立样本的一个基本特征是样本容量可以不同(但从分析效果讲最好是相同)。第六节两总体均值差、比率差的估计匹配样本:两样本单位间存在配对关系的样本。两匹配样本的容量一定是相同的。前述例2所获得的两组数据即属匹配样本;匹配样本可以最大限度地消除可测量的个体差异对试验结果的影响,因此,可能的情况下应考虑使用匹配样本分析。属于实验性质的均值比较问题都应使用匹配样本。设置匹配样本并不能解决全部的非实验因素外的影响问题。第六节两总体均值差、比率差的估计例:前述药效检验问题,需要考虑的问题有:设置匹配样本(消除受试者性别、年龄、体重、健康状况、心理等差异对药效的影响);随机安排受试者服用药物和安慰剂的顺序;使用专业的试验人员操作;保证试验检验设备和材料的同一性;…第六节两总体均值差、比率差的估计两总体均值差的抽样分布:第六节两总体均值差、比率差的估计两总体均值差的抽样分布:第六节两总体均值差、比率差的估计如果两样本来自于同一总体:

第六节两总体均值差、比率差的估计如果两样本来自于同一总体:

如果两总体均值差的置信区间包含0,则意味两样本极可能来自于同一总体。第六节两总体均值差、比率差的估计关于两总体均值差估计的大样本和小样本:

大样本:n1≥30且n2≥30

小样本:n1<30或n2<30注意:与一个总体均值的估计相同的是,小样本情况下,只有总体是正态的,样本均值差的抽样分布才服从正态分布。第六节两总体均值差、比率差的估计关于两总体比率差估计的样本容量:

要求两样本容量均较大,具体是:n1p1、n1(1-

p1)、n2p2、n2(1-

p2)均≥5注意:只有两样本容量均比较大时,两样本比率差的抽样分布才可以用正态分布逼近。第六节两总体均值差、比率差的估计关于例1的计算:设两个样本信息如下:样本容量平均月收入收入标准差新品店364000元300元折扣店493500元420元

第六节两总体均值差、比率差的估计关于例1的计算:设两个样本信息如下:样本容量平均月收入收入标准差新品店364000元300元折扣店493500元420元第六节两总体均值差、比率差的估计关于例1的计算:设两个样本信息如下:样本容量平均月收入收入标准差新品店364000元300元折扣店493500元420元结论:两个顾客总体月平均收入差约为其月平均收入的10%至20%之间。第六节两总体均值差、比率差的估计关于例1的计算:如果将两个样本信息改为:

样本容量平均月收入收入标准差新品店364000元300元折扣店493900元420元

第六节两总体均值差、比率差的估计

样本容量平均月收入收入标准差新品店364000元300元折扣店493900元420元关于例1的计算:如果将两个样本信息改为:第六节两总体均值差、比率差的估计

样本容量平均月收入收入标准差新品店364000元300元折扣店493900元420元结论:两个顾客总体月平均收入可能没有差异。关于例1的计算:如果将两个样本信息改为:第六节两总体均值差、比率差的估计关于例2的计算:设两个样本信息如下:受试者血糖水平受试者血糖水平服药服安慰剂服药服安慰剂123456789103.55.26.34.55.76.24.84.05.95.85.66.86.95.68.28.34.86.55.88.8111213141516171819205.76.15.55.87.36.27.15.84.84.66.88.27.55.37.88.36.08.87.37.5第六节两总体均值差、比率差的估计受试者血糖水平受试者血糖水平服药服安慰剂差值d服药服安慰剂差值d123456789103.55.26.34.55.76.24.84.05.95.85.66.86.95.68.28.34.86.55.88.8-2.1-1.6-0.6-1.1-2.5-2.10-2.50.1-3.0111213141516171819205.76.15.55.87.36.27.15.84.84.66.88.27.55.37.88.36.08.87.37.5-1.1-2.1-2.00.5-0.5-2.11.1-3.0-2.5-2.9根据差值做计算:第六节两总体均值差、比率差的估计受试者血糖水平受试者血糖水平服药服安慰剂差值d服药服安慰剂差值d123456789103.55.26.34.55.76.24.84.05.95.85.66.86.95.68.28.34.86.55.88.8-2.1-1.6-0.6-1.1-2.5-2.10-2.50.1-3.0111213141516171819205.76.15.55.87.36.27.15.84.84.66.88.27.55.37.88.36.08.87.37.5-1.1-2.1-2.00.5-0.5-2.11.1-3.0-2.5-2.9根据差值做计算:第六节两总体均值差、比率差的估计受试者血糖水平受试者血糖水平服药服安慰剂差值d服药服安慰剂差值d123456789103.55.26.34.55.76.24.84.05.95.85.66.86.95.68.28.34.86.55.88.8-2.1-1.6-0.6-1.1-2.5-2.10-2.50.1-3.0111213141516171819205.76.15.55.87.36.27.15.84.84.66.88.27.55.37.88.36.08.87.37.5-1.1-2.1-2.00.5-0.5-2.11.1-3.0-2.5-2.9根据差值做计算:第六节两总体均值差、比率差的估计受试者血糖水平受试者血糖水平服药服安慰剂差值d服药服安慰剂差值d123456789103.55.26.34.55.76.24.84.05.95.85.66.86.95.68.28.34.86.55.88.8-2.1-1.6-0.6-1.1-2.5-2.10-2.50.1-3.0111213141516171819205.76.15.55.87.36.27.15.84.84.66.88.27.55.37.88.36.08.87.37.5-1.1-2.1-2.00.5-0.5-2.11.1-3.0-2.5-2.9根据差值做计算:第六节两总体均值差、比率差的估计关于例3的计算:第六节两总体均值差、比率差的估计关于例3的计算:第六节两总体均值差、比率差的估计关于例3的计算:第六节两总体均值差、比率差的估计关于例3的计算:推断结论:以95%的置信度估计,17年来,香港居民总体不赞同台湾独立的比率至少提高了15个百分点。第六节两总体均值差、比率差的估计第七节关于参数估计的几个问题一、估计总体参数的样本容量其他条件不变的情况下,样本容量越大,抽样误差就越小。但样本容量越大,抽样调查的成本费用就越高。因此,在正式抽样调查前,必须确定合适的样本容量。样本容量调查误差调查费用确定样本容量:找出规定误差范围内的最小样本容量。确定样本容量:找出规定费用范围内的最大样本容量。误差上限费用上限第七节关于参数估计的几个问题通常的做法是先确定置信度,然后限定边际误差

Δ

或s

必须事先知道,但通常未知。一般按以下方法确定其估计值:a

、以前类似样本的s;b、试验调查样本的s;c、四分之一估计全距。计算结果通常向上进位估计总体均值的样本容量第七节关于参数估计的几个问题第七节关于参数估计的几个问题例:某地硕士研究生毕业第一年年薪的标准差大约为2000元人民币。如果以95%的置信度估计其平均年薪,并且希望边际误差分别不超过500元和100元,样本容量应为多少?即:若要边际误差不超过500元,应至少调查62个硕士毕业生。例:某地硕士研究生毕业第一年年薪的标准差大约为2000元人民币。如果以95%的置信度估计其平均年薪,并且希望边际误差分别不超过500元和100元,样本容量应为多少?即:若要边际误差不超过100元,应至少调查1537个硕士毕业生。第七节关于参数估计的几个问题第七节关于参数估计的几个问题通常的做法是先确定置信度,然后限定边际误差Δ

Π或p必须事先知道,但通常未知。一般按以下方法确定其估计值:a、以前类似样本的p;b、试验调查样本的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论