第04章 抽样理论与参数估计_第1页
第04章 抽样理论与参数估计_第2页
第04章 抽样理论与参数估计_第3页
第04章 抽样理论与参数估计_第4页
第04章 抽样理论与参数估计_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第04章抽样理论与参数估计Outline第一节抽样的基本概念第二节抽样方法第三节抽样分布第四节样本容量的计算第五节参数估计第一节抽样的基本概念一、总体、个体与样本二、参数与统计量反映总体数据特征的量数统称为总体参数,简称为参数。反映样本数据特征的量数统称为样本统计量,简称为统计量。抽样的基本概念总体(population):要研究的事物或现象的总体个体(unit):组成总体的每个元素(成员)总体容量(populationsize):一个总体中所含个体的数量样本(sample):从总体中抽取的部分个体样本容量(samplesize):样本中所含个体的数量抽样(sampling):为推断总体的某些重要特征,需要从总体中按一定抽样技术抽取若干个体的过程参数(parameter):反映总体数据特征的量数统计量(statistic):反映样本数据特征的量数统计量是样本的函数,只依赖于样本;样本均值、样本方差等都是统计量总体参数Vs.样本统计量第二节抽样方法一、简单随机抽样二、等距抽样三、分层抽样一、简单随机抽样所谓简单随机抽样simplerandomsampling,就是在对某一特定总体中抽取样本时,总体中每一个元素或个体被抽取的可能性是同等的,而且任何元素或个体之间彼此被抽取的机会是独立的。1.抽签法2.随机数字表二、等距抽样又称系统抽样systematicsampling。先把总体所包含的各个元素或个体编上号码。假设共有N个元素,则编出的号码从1至N,然后可根据拟抽取的样本容量n求得抽样间距是k,看,k=N/n,这时可随机确定一个起点a(1≤a≤k),起点确定后,从起点开始每间隔k个单位抽取一个,这样抽取的号码序列也就确定了,即由号码a,a+k,a+2k……a+(n-1)k组成容量为n的样本。受总体数据的周期性的影响。三、分层抽样stratifiedrandomsampling。按照总体已有的某些特征,承认总体中已有的差异,按差异将总体分成几个不同的部分,每一部分称为一个层,在每一个层中实行简单随机抽样。这种抽样方法较充分地利用了总体的已有信息,是一种实用和操作都较方便的抽样方法。分多少层视具体情况而定。原则:层内差异变小,层与层之间的差异要尽可能大。-层内同质,层外异质。可防止简单随机抽样造成的样本构成与总体构成不成比例的现象。第三节抽样分布一、样本平均数分布二、χ2分布三、t分布四、F分布一、样本平均数的分布samplingdistributionofthemean采用随机抽样的方法,从总体中抽取大小为n的样本,计算出它的平均数X1,然后将这些个体放回总体去,再次取n个个体,又可以计算出X2,…再将n个个体放回去,再抽取n个个体,可以计算出无限个X,这些样本平均数X所有可能值的概率分布叫平均数X的抽样分布总体方差已知总体方差未知总体方差已知的样本平均数分布-总体分布正态总体方差未知的样本平均数分布中心极限定理CentralLimitTheorem设从均值为,方差为2(有限)的任意一个总体中抽取大小为n的样本,当n充分大时,样本均值X的抽样分布近似服从均值为,方差为2/n的正态分布。注:什么叫n充分大呢?总体偏离正态越远,则要求n就越大。在实际应用中常要求n30或者n50标准误standarderror样本平均数的标准差称为标准误练习某电梯承受的最大拉力为1000千克,可乘坐13人。已知人群的平均体重为60千克,标准差为14千克,且服从正态分布。问电梯发生事故的概率是多少?总体方差未知的样本平均数分布当总体方差2未知时,用S2作为2的估计值二、样本方差的分布-2分布样本方差的分布较复杂,它与总体分布有关。在这里只研究当总体为正态分布时,样本方差的分布。设x1,x2,…,xn为来自正态分布N(,2)的样本,则从数学上可以推导出正态总体下样本方差S2的分布为:2分布Chi-squaredistribution2分布的特点正偏态分布当df→∞时,2分布为正态分布2值都是正值可加性k个2分布的和也是2分布2=df;2=2df(df>2)连续型分布2分布表

df=5,求

=0.05和

=0.01时的单侧临界值解:

三、t分布student’stdistribution自由度degreeoffreedom可以自由取值的变量的个数任意说出三个整数任意说出三个和为100的整数t分布的特点

对称:左侧为负,右侧为正,均值为0-

<t<+n→时,t分布为正态分布,方差为1n>30时,t分布为接近正态分布,方差>1,n<30时,t分布与正态分布相差较大,随n-1减小方差越大n>45时,t分布与正态分布没有多大差异在小样本n<30时,t分布具有重要作用t分布的一些推论四、F分布FdistributionF分布的特点F(n1,n2)分布形态是正偏态分布,形式随n1,n2不同而不同,随n1,n2的增加而渐趋正态分布F为两个方差比率,所以为正值n1=1,n2任意时,F值与自由度为n2的t值的平方相等,即F(1,n2)=t2(n2)F(n1,n2)=1/F1-(n2,n1)F分布的应用F分布是统计学家费歇尔(R.A.Fisher)于1924年首先发现的假设检验区间估计方差分析回归分析第四节样本容量的计算最大允许误差d是确定样本容量的一个因素。方差与样本容量的关系样本容量n,总体方差2,允许误差d,可靠性系数Z/2的关系总体方差越大,需要的样本容量越大;允许误差越大,需要的样本容量越小;可靠性系数越大,需要的样本容量越大;练习1.要使95%置信区间的允许误差为5,应选取多大的样本容量?假定总体的标准差为25。2.一项调查中,总体比率的计划值为0.35,则当允许的最大绝对误差为0.05时,在求其95%置信区间时应采用多大的样本容量?3.一家广告公司想估计某类商店去年所花的平均广告费有多少。检验表明,总体方差约为1800000。如置信度取95%,并要使估计值处在总体平均值附近500元的范围内,这家广告公司应取多大的样本?第五节参数估计一、点估计二、区间估计参数估计设总体有待估参数,自总体中抽取样本x1,x2,…,xn点估计pointestimate用样本的某一统计量估计

如用样本均值估计总体均值区间估计intervalestimate求出一定概率下的取值范围点估计统计量作为估计量estimator充分性sufficiency用到样本的所有数据无偏性unbiasedness估计值的平均值与真值一致有效性efficiency当总体参数的无偏估计量有不止一个统计量时,无偏估计变异性最小者有效性高,变异大者有效性低一致性consistency当样本容量无限增大时,估计值越来越接近所估计的总体参数有效性哪个是更好的估计量?算术平均数vs.中数无偏估计量unbiasedestimator二、区间估计区间估计的原理样本统计量的分布规律几个概念显著性水平significancelevel也叫置信系数,指估计总体参数可能落入某区间时犯错误的概率通常有三个标准:

:0.05,0.01,0.001

1-:0.95,0.99,0.999置信水平、置信度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论