第5章抽样与参数统计_第1页
第5章抽样与参数统计_第2页
第5章抽样与参数统计_第3页
第5章抽样与参数统计_第4页
第5章抽样与参数统计_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章抽样与参数估计学习内容一、抽样推断概述二、抽样分布及其应用三、常见的抽样分布四、参数估计五、区间估计的计算学习目标1.了解抽样和抽样分布的基本概念。2.理解抽样分布与总体分布的关系。3.了解点估计的概念和估计量的优良标准。4.掌握总体均值、总体比例和总体方差的区间估计。一、抽样推断概述①推断统计的内容②抽样推断的过程统计推断的基本假定总体看作是一个随机变量X,其概率分布为f(x)。样本看作是n个独立的随机变量(X1,X2,…,Xn),每个都具有与总体X相同的分布。样本中每个个体必须取自同一总体,X1,X2,…,Xn相互独立。统计推断涉及的概念参数与统计量–参数:描述总体分布特征的量,如平均数μ,标准差σ。–统计量:由样本观察值算出的量,如,S2,S。–统计量是随机变量。③抽样分布及其形成过程抽样分布(概念要点)所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布。抽样分布是一种理论概率的分布。抽样分布的结果来自容量相同的所有可能样本。单选题样本平均数和总体平均数()–A、前者是一个确定值,后者是随机变量–B、前者是随机变量,后者是一个确定值–C、两者都是随机变量–D、两者都是确定值④抽样推断的理论基础(1)大数定律大数定律在统计中是指一切关于大量随机现象之平均结果稳定性的定理。尽管单个随机现象的具体表现不可避免地引起随机偏差,然而在大量随机现象共同作用时,由于这些随机偏差互相抵消、补偿和拉平,致使总的平均结果趋于稳定。为整个推断统计提供了最基本的理论依据。猜硬币赌局赌局1:–掷10次硬币,赌正面朝上的频率为0.4到0.6次。赌局2:–掷100次硬币,赌正面朝上的频率0.4到0.6次。赌局3:–掷1000次硬币,赌正面朝上的频率0.4到0.6次。贝努利大数定律设nA是n次独立试验中事件A发生的频数;p表示事件A在每次试验中发生的概率,则对于任意正数є有:切比雪夫大数定律(2)中心极限定理–设从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,多次抽样得到的样本均值近似服从均值为μ、方差为σ2/n的正态分布。大数定律揭示了大量随机变量的平均结果,但并没有涉及到随机变量的分布规律。中心极限定理是指在一定的条件下,大量相互独立的随机现象的概率分布是以正态分布为极限的定理。中心极限定理则说明了许多随机变量的分布是正态或近似正态的。棣莫弗-拉普拉斯定理随机变量X取A的概率为p、取非A的概率为q=1-p时,抽取n个单位组成样本。A出现的次数k组成的随机变量叫做服从二项分布的随机变量。二、抽样分布及其应用1.样本均值的抽样分布现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表:所有样本均值的均值和方差:式中:M为样本数目。比较及结论:1.样本均值的均值(数学期望)等于总体均值。2.样本均值的方差等于总体方差的1/n。样本均值的分布与总体分布的比较在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布。一种理论概率分布。推断总体均值μ的理论基础。样本均值的抽样分布与中心极限定理当总体服从正态分布N~(μ,σ2)时,来自该总体的所有容量为n的样本的均值也服从正态分布,的数学期望为μ,方差为σ2/n,即~N(μ,σ2/n)。核心结论:样本均值的数学期望;样本均值的方差样本均值的分布形式。与总体分布有关总体为正态分布,抽样分布也为正态,与样本容量无关。与样本量有关总体不是正态分布,样本量越大(n≥30),抽样分布越接近正态分布。抽样分布与总体分布的关系2.样本比例的抽样分布比例:总体(或样本)中具有某种属性的单位与全部单位总数之比。–不同性别的人与全部人数之比。–合格品(或不合格品)与全部产品总数之比。容量相同的所有可能样本的样本比例的概率分布。当样本容量很大时,样本比例的抽样分布可用正态分布近似。是一种理论概率分布。推断总体比例π的理论基础。核心结论样本比例的数学期望:;样本比例的方差:–重复抽样3.样本方差的抽样分布正态总体样本方差的抽样分布设总体服从正态分布N~(μ,σ2),X1,X2,…,Xn为来自该正态总体的样本,则样本方差s2的分布为:将χ2(n–1)称为自由度为(n-1)的卡方分布。样本方差抽样分布(χ2分布)的形成过程4.抽样分布的应用[例1]BTL商店的经理想知道供货商给他的电视质量是否低于平均水平。他的研究表明电视机置换时间的均值为8.2年,标准差为1.1年。然后他随机抽取50台过去售出的电视机,发现这些电视机平均置换时间为7.8年。计算这50个随机抽取的电视机的平均置换时间为7.8年或更短的概率。[例2]《娱乐报道》杂志发起了一项旨在增加订阅的有奖活动。在过去,收到有奖活动参与材料的人中有26%最终参与了竞赛,订阅了杂志。当有奖活动的参与材料发放给500个随机挑选的住户时,估计新增订阅结果的数量在125~150(包括120和150)的概率。抽样分布应用练习某高校学生的入学考试成绩均值μ为550分,标准差σ为250分,若从中随机抽取100名,求:–样本平均成绩的数学期望和标准差值–分析样本均值的抽样分布–样本平均成绩在520分到580分之间的概率有多大?–样本平均成绩小于580分的概率有多大?三、常见的抽样分布1.正态分布正态分布的数理统计学概念。如果随机变量(X)的概率密度函数为:,则该随机变量服从正态分布。式中σ为总体标准差;μ为总体均数;π为圆周率,即3.14159···;e为自然对数的底,即2.71828···。密度函数的特性对称性非负性2.卡方分布设随机变量相互独立,且都服从标准正态分布,则随机变量:卡方分布的性质恒为正值。卡方分布的期望值是自由度n,方差为2n。卡方分布具有可加性。卡方分布与正态分布的关系3.T分布T分布的性质不同的样本容量,t分布有所不同。大致对称的钟型形状,但对于小样本,它显示出更大的方差(n/(n-2))。分布的均值为=0。分布的标准差随着样本容量的变化而变化,但它是大于1的。随着样本容的增大,趋近于标准正态分布。当n>30时,二者之间的差异就很小了。正态分布、卡方分布与T分布的关系多选题T分布具有以下特征()–A、均值取决于自由度,方差等于1–B、均值为零,方差小于1–C、均值为零,方差大于1–D、方差随自由度的增加而降低–E、方差随自由度的增加而增加4.F分布F分布的性质不对称性。和卡方分布一样,分布的值也是非负的。分布的准确形状取决于两个不同的自由度。四、参数估计①参数估计的方法被估计的总体参数1.点估计(概念要点)从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计。例如:用样本均值作为总体未知均值的估计值就是一个点估计。点估计没有给出估计值接近总体未知参数程度的信息。点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等。2.区间估计(概念要点)根据一个样本的观察值给出总体参数的估计范围。给出总体参数落在这一区间的概率。–例如:总体均值落在50~70之间,置信度为95%。3.置信区间(confidenceinterval)统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间。用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值。我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个。4.置信水平总体未知参数落在区间内的概率。表示为(1-α)%–α为显著性水平,是总体参数未在区间内的概率。常用的置信水平值有99%、95%、90%。–相应的α为0.01、0.05、0.10。置信区间与置信水平回顾:经验法则(落在总体均值某一区间内的样本)5.影响区间宽度的因素数据的离散程度,用σ来测度。样本容量置信水平(1-α),影响Z的大小。判断题有95%的样本均值会落在总体真值μ的1.96个标准差的范围之内。有95%的样本均值所构造的1.96个标准差的区间会包括总体真值μ。某个样本均值所构造的1.96个标准差的区间包含总体真值μ的概率约为95%。6.评价估计量的标准1)估计量——用于估计总体某一参数的随机变量。–如样本均值,样本比例、样本中位数等。–例如:样本均值就是总体均值μ的一个估计量。–如果样本均值x=3,则3就是μ的估计值。2)理论基础是抽样分布。无偏性:估计量抽样分布的数学期望等于被估计的总体参数。有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效。一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。单选题①无偏性是指()–A、抽样指标的平均数等于被估计的总体指标–B、当样本容量n充分大时,样本指标充分靠近总体指标–C、随着n的无限增大,样本指标与未知的总体指标之间的离差任意小的可能性趋于实际必然性–D、作为估计量的方差比其他估计量的方差小②若甲估计量的方差小于乙估计量的方差,则称()–A、甲是无偏估计量–B、乙是一致估计量–C、乙比甲有效–D、甲比乙有效五、区间估计的计算区间估计的内容区间估计的计算总体均值的区间估计总体比率的区间估计样本容量的确定1.总体均值的区间估计(正态总体,方差σ2已知)假定条件–总体服从正态分布,且总体方差(σ2)已知。–不是正态分布,可以由正态分布来近似(n≥30)。使用正态分布统计量Z:总体均值μ在1-α置信水平下的置信区间为:[例]某种零件长度服从正态分布,从该批产品中随机抽取9件,测得其平长度为21.4mm。已知总体标准差σ=0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。2.总体均值的区间估计(正态分布,方差σ2未知,小样本)假定条件:–总体方差(σ2)未知。–总体必须服从正态分布。–小样本(n<30)。使用t分布统计量:总体均值μ在1-α置信水平下的置信区间为:[例]从一个正态总体中抽取一个随机样本,n=25,其均值x=50,标准差s=8。建立总体均值m的95%的置信区间。[例]已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间。(16只灯泡使用寿命的数据:1510、1520、1480、1500、1450、1480、1510、1520、1480、1490、1530、1510、1460、1460、1470、1470)3.总体均值的区间估计(大样本,方差σ2未知)假定条件–总体方差(σ2)未知。–大样本(n≥30)。使用正态分布统计量z:总体均值μ在1-α置信水平下的置信区间为:【例】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36分钟)。【例】一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间。计算题①假设已知某品牌电视机显像管寿命的标准差是σ=500,但是其寿命均值是未知的。不过,显像管寿命可以假设为近似服从正态分布。一个n=15的样本的寿命均值=8900小时。计算总体均值的:(a)95%置信区间;(b)90%置信区间。②假设你希望估计去年某种消费品在每家零售店里的平均销售额。零售店数量很多。如果总体是正态分布的且已知:=$3425,s=$200,n=25;试计算其95%置信区间。4.总体比率的区间估计假定条件–总体服从二项分布。–大样本(nP>=5,n(1-P)>=5)。使用正态分布统计量Z:总体比例P的置信区间为: 【例】某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机选取了200人组成一个样本。在对其进行访问时,有140人说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开该企业的人员的真正比例构造95%的置信区间。【例】某城市想要估计下岗职工中女性所占的比率,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比率的置信区间。5.样本容量的确定确定样本容量的公式根据“允许误差”的公式推导而来。抽样平均误差即样本均值的标准差–样本容量越大,抽样平均误差越小。允许误差:估计总体均值时样本容量n为:样本容量n与总体方差σ2、允许误差E、可靠性系数z或t之间的关系为:–与总体方差成正比。–与允许误差成反比。–与可靠性系数成正比。单选题在其他条件不变情况下,要使样本均值的抽样平均误差为原来的1/3,则样本单位数必须()–A、增大到原来的3倍–B、增大到原来的9倍–C、增大到原来的6倍–D、也是原来的1/3【例】拥有工商管理学士学位的大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论