1.参数估计解析_第1页
1.参数估计解析_第2页
1.参数估计解析_第3页
1.参数估计解析_第4页
1.参数估计解析_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一讲

参数估计1.1、参数估计的基本概念1.2、区间估计公式1.3、必要样本容量的确定1.1参数估计的基本概念一般情况下,对总体的每个个体都进行观察或试验是不可能的,这是因为经济上时间上不允许(如个体的数量很大),或观察试验是带破坏性的(如灯泡的寿命、炮弹的射程).因此,必须对总体进行抽样观察.总体样本算术平均数统计量用来推断总体参数的统计量称为估计量(estimator),其取值称为估计值(estimate)。同一个参数可以有多个不同的估计量。参数是唯一的,但估计量(统计量)是随机变量,取值是不确定的。

参数点估计点估计:用估计量的数值作为总体参数的估计值。常用的点估计法有矩估计法和极大似然估计法。一个总体参数的估计量可以有多个。例如,在估计总体方差时,和

都可以作为估计量。点估计量的常用评价准则:无偏性无偏性:估计量的数学期望与总体待估参数的真值相等:P(

)BA无偏有偏点估计量的常用评价准则:有效性在两个无偏估计量中方差较小的估计量较为有效。AB

的抽样分布

的抽样分布P(

)估计量的常用评价准则:一致性指随着样本容量的增大,估计量越来越接近被估计的总体参数。AB较小的样本容量较大的样本容量

P(X)X

参数点估计是用一个确定的值去估计未知参数,得到的是未知参数的近似值.但在很多实际问题中,我们不但需要求出未知参数的近似值,还需知道近似值的可靠程度和精确程度;数学上的处理方法是:确定一个范围(区间),使我们能以比较高的可靠程度相信它包含参数真值.这就是参数的区间估计.区间估计根据事先确定的置信度1-

给出总体参数的一个估计范围。置信度1-

的含义是:在同样的方法得到的所有置信区间中,有100(1-

)%的区间包含总体参数。抽样分布是区间估计的理论基础。估计值(点估计)置信下限置信上限置信区间抽样分布:几个要点抽样分布是统计量的分布而不是总体或样本的分布。在统计推断中总体的分布一般是未知的,不可观测的(常常被假设为正态分布)。样本数据的统计分布是可以直接观测的,最直观的方式是直方图,可以用来对总体分布进行检验。抽样分布一般利用概率统计的理论推导得出,在应用中也是不能直接观测的。其形状和参数可能完全不同于总体或样本数据的分布。样本均值的抽样分布_正态总体

=50

=10X总体分布n=4抽样分布Xn=16

一般的,当总体服从

N(μ,σ2)时,来自该总体的容量为n的样本的均值

X也服从正态分布,

X的期望为μ,方差为σ2/n。即

X~N(μ,σ2/n)。样本均值的抽样分布与总体分布的比较

=2.5σ2=1.25总体分布14230.1.2.3抽样分布样本均值的抽样分布1.00.1.2.3P(x)1.53.04.03.52.02.5样本均值的抽样分布_其他总体任意总体,随n增大,样本均值的分布趋于正态分布的过程。f(X)X小样本中心极限定理从均值为

,方差为

2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。大样本(n

30)标准误(StandardError)简单随机抽样、重复抽样时,样本均值抽样分布的标准差等于,这个指标在统计上称为标准误。统计软件在对变量进行描述统计时一般会输出这一结果。有限总体校正系数

FinitePopulationCorrectionFactor简单随机抽样、不重复抽样时,样本均值抽样分布的方差略小于重复抽样的方差,等于这一系数称为有限总体校正系数。当抽样比(n/N)<0.05时可以忽略有限总体校正系数。简单随机抽样1.2、区间估计公式(一)一个总体均值的区间估计相关理论总体正态?n≥30?σ2已知?否是是否否是实际中总体方差总是未知的,因而这是应用最多的公式。在大样本时t值可以用z值来近似。根据中心极限定理得到的近似结果。

σ未知时用s来估计。增大n?数学变换?简单随机抽样待估计参数已知条件置信区间正态总体,σ2已知正态总体,σ2未知n<30非正态总体,n≥30σ未知时,用S有限总体,n≥30(不重复)总体均值(μ)σ未知时,用S关于置信区间的补充说明置信区间的推导:有限总体不重复抽样时,样本均值或比例的方差需要乘以“有限总体校正系数”(当抽样比f=n/N小于0.05时可以忽略不计),前面的公式需要进行相应的修改。关于置信度含义的说明在所有的置信区间中,有(1-

)*100%的区间包含总体真实值。对于计算得到的一个具体区间,这个区间要么包含总体真实值,要么不包含总体真值。说“总体均值有95%的概率落入某一区间”是不严格的,因为总体均值是非随机的。样本均值的抽样分布

=

1-

/2

/2X_σx_x实例演示:SPSS数据文件“男女性别身高.sav”可做如下基本统计分析:(1)频数分析(包括频数分布表以及统计图)选择分析——描述统计——频率命令(2)描述统计分析(给出刻画集中趋势、离散程度和分布形态的描述统计量)选择分析——描述统计——描述命令实例演示:SPSS数据文件“男女性别身高.sav”(3)探索性分析(给出基本描述统计量、置信区间、茎叶图、箱图、直方图等结果)选择分析——描述统计——探索命令练习:SPSS文件“产品销售数量”做频数分析(输出频数分布表以及直方图)SPSS文件“某公司男女员工年龄”做描述性分析(输出描述性统计量)SPSS文件“两城市平均气温”做探索性分析(输出置信区间以及基本统计量和统计图)(4)选择分析——比较平均值——单样本T检验(也可以做区间估计)案例1、学生对教学改革态度的分析(onesample)某校在对实行挂牌上课教学改革措施的效果评价中,随机抽选了60位学生进行态度调查,他们的10项态度量表的态度反映资料如下:挂牌上课态度反映得分(X)人数(f)10—2020—3030—4040—5050—6060—702610122010合计60(1分表示“很不同意”,7分表示“很同意”,将10项态度分累加后得一总态度分,这种量叫7级李克累加量表):试计算:(1)学生态度得分的平均值和标准差;(2)构造学生态度得分平均值的98%置信区间。T-Test

结论:表1:学生态度得分的平均值为47分,标准差为13.6295分.表2:以98%的置信区间估计学生总体态度得分平均值的置信区间为(42.7925,51.2075)从中可以反映出学生对挂牌上课这一教改措施普遍赞成,但并不十分拥护,可见还需进一步改进和完善.待估计参数已知条件置信区间两个正态总体已知两个正态总体未知但相等两个非正态总体n1,n2≥30两个总体均值之差μ1-μ2(二)两个总体均值之差的区间估计案例___新旧电池使用寿命比较(Independent)某一个新的制造过程可以增加电池的使用寿命,假设电池使用寿命服从正态分布.在新电池中随机抽取15个,而在旧电中随机抽取12个同时测试其使用寿命,资料如下:新旧两种电池平均使用寿命之差95%的置信区间.新电池(日):

18.2\10.4\12.6\18.0\11.7\15.0\24.0\17.6\23.6\24.8\19.3\20.5\19.8\17.1\16.3旧电池(日):

12.1\17.5\8.6\13.9\7.8\15.1\17.9\10.6\13.8\14.2\15.3\11.6解:已知的原始数据是总体服从正态分布的两个独立样本。设X代表电池使用寿命,g代表分组号操作步骤:(1)定义变量X和g,输入数据资料,新旧电池寿命数据全部输入X同一列中,g分别取1和2,新电池组号为1,旧电池组号为2(2)选择AnalyzeCompareMeansIndependent-SamplesTTest,打开Independent-SamplesTTest对话框,(3)将变量X放入Test栏中(4)激活DefineGroups按钮,打开该对话框Groups1中输入1Groups2中输入2,单击Continue返回主对话框;(5)单击OK按钮执行群組統計資料类型N平均數標準偏差標準錯誤平均值寿命新电池1517.92674.344201.12167旧电池1113.30003.31632.99991獨立樣本檢定Levene的變異數相等測試針對平均值是否相等的t測試F顯著性Tdf顯著性(雙尾)平均差異標準誤差98%差異數的信賴區間下限上限寿命採用相等變異數.485.4932.95224.0074.626671.56742.720418.53292不採用相等變異數3.07923.933.0054.626671.50265.881088.37226结论:表1:得出两个独立样本各自的均值,标准差以及平均标准误差.新电池的平均使用寿命明显长于旧电池。表2:可以看出新旧电池平均使用寿命之差的95%的置信区间为:若两个样本方差相等则为(2.4454,8.6746);若两个样本方差不等则为(2.5437,8.5763)案例___吸烟有害广告作用的分析(Paired)形形色色的广告已深入到社会各个方面,与人民生活密不可分.成功的广告将留给人们较深的印象,并带给企业丰厚的回报,如何鉴定广告的效果,如何选择最佳的广告制作,对此西方国家更多地采用统计方法来判断,举例如下:为了研究吸烟有害广告对吸烟者减少吸烟量甚至戒烟是否有作用,从某吸烟者中随机抽取33位吸烟者,调查他们在观看广告前后的每天吸烟量(支)数据如下表.试问影片对他们的吸烟量有无产生作用?为了支持你的答案,请构造一个99%的置信区间.吸烟者编号1234567891011看前X1(支)看后X2(支)20181515141011101213161219152620221716799吸烟者编号1213141516171819202122看前X1(支)看后X2(支)1710333425208441401910263016163120271862吸烟者编号2324252627282930313233看前X1(支)看后X2(支)13112422222548504134669133827251129102821解:配对样本的试验,比较观看前后平均数的大小可解决第一个问题,求出两平均数之差的99%的双侧置信区间可解答第二个问题.操作步骤:(1)定义变量X1和X2,输入数据;(2)选择AnalyzeComparemeansPaired-samplesTTest(3)将变量X1和X2放入Test栏中(4)激活Options…子对话框,置信度改为99%,单击Continue按钮,返回Paired-samplesTTest主对话框;(5)单击OK按钮执行T-Test结论:表1:显示观看影片前的平均每日吸烟量约为21.5758支.观看影片后的平均每日吸烟量约为17.5758支,说明该影片发生了作用.表2:反映了影片观看前与后存在着显著相关关系,相关系数为0.878.表3:显示了前后两个总体平均每日吸烟量之差的99%置信区间为(1.4888,6.5112),这意味着不管随机抽到哪几对样本单位做调查,均有99%的把握保证,观看影片前的平均每日吸烟量大于观看影片后的平均每日吸烟量之差在(1.4888支至6.5112支之间,即大约在2—7支之间.待估计参数已知条件置信区间无限总体,np和nq都大于5总体比率(p)有限总体,np和nq都大于5(三)总体比率的区间估计当时总体比例的置信区间可以使用正态分布来进行区间估计。(样本比例记为,总体比例记为π)总体比例的置信区间总体比例的置信区间:例子解:显然有因此可以用正态分布进行估计。Z

/2=1.645结论:我们有90%的把握认为悉尼青少年中每天都抽烟的青少年比例在19.55%~23.85%之间。1986年对悉尼995名青少年的随机调查发现,有216人每天都抽烟。试估计悉尼青少年中每天都抽烟的青少年比例的90%的置信区间。

SPSS的计算结果在SPSS中将“是否吸烟”输入为取值为1和0的属性变量,权数分别为216和779。计算这一变量均值的置信区间即为比例的置信区间。

统计量标准误均值.2171.01308均值的90%置信区间下限.1956

上限.2386

5%修整均值.1857

中值.0000

方差.170

标准差.41247

极小值.00

极大值1.00

范围1.00

四分位距.00

1.3、必要样本量的计算样本量越大抽样误差越小。由于调查成本方面的原因,在调查中我们总是希望抽取满足误差要求的最小的样本量。关于抽样误差的几个概念实际抽样误差抽样平均误差最大允许误差实际抽样误差样本估计值与总体真实值之间的绝对离差称为实际抽样误差。由于在实践中总体参数的真实值是未知的,因此实际抽样误差是不可知的;由于样本估计值随样本而变化,因此实际抽样误差是一个随机变量。抽样平均误差抽样平均误差:样本均值的标准差,也就是前面说的标准误。它反映样本均值(或比例)与总体均值(比例)的平均差异程度。例如对简单随机抽样中的样本均值有:或(不重复抽样)我们通常说“抽样调查中可以对抽样误差进行控制”,就是指的抽样平均误差。由上面的公式可知影响抽样误差的因素包括:总体内部的差异程度;样本容量的大小;抽样的方式方法。最大允许误差最大允许误差(allowableerror):在确定置信区间时样本均值(或样本比例)加减的量,一般用E来表示,等于置信区间长度的一半。在英文文献中也称为marginoferror。置信区间=最大允许误差是人为确定的,是调查者在相应的置信度下可以容忍的误差水平。如何确定必要样本量?必要样本量受以下几个因素的影响:1、总体标准差。总体的变异程度越大,必要样本量也就越大。2、最大允许误差。最大允许误差越大,需要的样本量越小。3、置信度1-α

。要求的置信度越高,需要的样本量越大。4、抽样方式

。其它条件相同,在重复抽样、不重复抽样;简单随机抽样与分层抽样等不同抽样方式下要求的必要样本容量也不同。简单随机抽样下估计总体均值时

样本容量的确定式中的总体方差可以通过以下方式估计:根据历史资料确定通过试验性调查估计简单随机抽样下估计总体比例时

样本容量的确定式中的总体比例π可以通过以下方式估计:根据历史资料确定通过试验性调查估计取为0.5。不重复抽样时的必要样本量比重复抽样时的必要样本量要小。式中n0是重复抽样时的必要样本容量。样本量的确定(实例1)需要多大规模的样本才能在90%的置信水平上保证均值的误差在±5之内?前期研究表明总体标准差为45.nZE===≈222222(1645)(45)(5)219.2220

.向上取整样本量的确定(实例2)一家市场调研公司想估计某地区有电脑的家庭所占的比例。该公司希望对比例p的估计误差不超过0.05,要求的可靠程度为95%,应抽多大容量的样本(没有可利用的p估计值)?解:已知E=0.05,=0.05,Z

/2=1.96,当π未知时取为0.5。实例3你在美林证券公司的人力资源部工作。你计划在员工中进行调查以求出他们的平均医疗支出。你希望有95%置信度使得样本均值的误差在$50以内。过去的研究表明医疗支出的总体标准差约为$400。需要多大的样本容量?nZE===≈222222(196)(400)(50)24586246

..实践中的统计一家食品生产企业以生产袋装食品为主,每天的产量约为8000袋左右。按规定每袋的重量应不低于100克,否则即为不合格。为对产量质量进行检测,企业设有质量检查科专门负责质量检验,并经常向企业高层领导提交质检报告。质检的内容之一就是每袋重量是否符合要求。由于产品的数量大,进行全面的检验是不可能的,可行的办法是抽样,然后用样本数据估计平均每袋的重量。质检科从某天生产的一批食品中随机抽取了25袋,下表1是对每袋食品重量的检验结果。表125袋食品的重量(克)112.5102.6100.0116.6136.8101.0107.5123.595.4102.8103.095.0102.097.8101.5102.010808101.6108.498.4100.5115.6102.2105.093.3根据表1的数据,质检科估计出该天生产的食品每袋的平均重量在101.38~109.34克之间,其中,估计的可信程度为95%,估计误差不超过4克。产品的合格率在96.07%~73.93%之间,其中,估计的可信程度为95%,估计误差不超过16%。质检报告提交后,企业高层领导人提出几点意见:一是抽取的样本大小是否合适?能不能用一个更大的样本进行估计?二是能否将估计的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论