




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七讲抽样推断PowerPoint统计学抽样推断的过程样本总体样本统计量例如:样本均值、比例、方差总体均值、比例、方差抽样推断有关的基本概念一、抽样推断有关的基本概念
总体(Population):是指调查对象的全体
个体(Itemunit):组成总体的每个个体
样本(Sample):由总体中所抽取的部分个体构成
样本容量(Samplesize):样本中所含个体的数量例如:假设要调查西安市有多少家庭拥有电脑,拥有电脑的家庭与没有电脑的家庭有什么区别?
抽样单元(SamplingCell):为了便于实现随机抽样,常常将总体划分为有限个互不重叠的部分,每个部分都叫做一个抽样单元。
抽样框(SamplingFrame):在抽样时,必须有一份全部抽样单元的资料,这份资料就叫做抽样框。如人员名单、地图、电话簿、客户档案等。
随机原则:在进行抽样时,总体中的每一个体被抽取的可能性是相等的,而不是由研究者主观决定的。由于随机抽样使每一个体都有同等的机会被抽取,因而样本与总体结构相一致的可能性最大,或者说,样本具有最大可能表现总体的某些特征。另外,只有遵循随机原则,才能按概率论的原则计算抽样误差,并对总体资料进行推断。
总体指标(总体参数):使用平均数、中位数、众数、比例、标准差这些量来描述总体的特征时,叫做总体参数
样本指标(样本统计量):使用平均数、中位数、众数、比例、标准差这些量来描述样本的特征时,叫做样本统计量指标总体样本平均数平均数的方差平均数的标准差比例比例的方差比例的标准差样本统计量的计算公式样本平均数样本平均数的方差样本成数样本成数的方差抽样方式及样本可能数目二、抽样方式及样本可能数目
抽样方式重复抽样(放回抽样)不重复抽样(不放回抽样)
对样本的要求考虑顺序(排列)不考虑顺序(组合)样本可能数目(样本个数)重复抽样、考虑顺序重复抽样、不考虑顺序不重复抽样、不考虑顺序不重复抽样、考虑顺序例如:从A、B、C、D四个字母中随机抽取两个字母,样本的可能数目:重复,排列不重复,排列不重复,组合重复,组合A,AA,BA,BA,ABCCBCDDCDB,AB,CDB,ACDB,BBDC,DCCC,ADDBC,CC,ADDBD,AD,DCBDCD,ABCD抽样推断的组织形式三、抽样推断的组织形式概率抽样:按照随机原则选取样本
简单随机抽样:完全随机地抽选样本
分层抽样(类型抽样):总体分成不同的“层”,然后在每一层内进行抽样
整群抽样:将一组被调查者(群)作为一个抽样单元
等距抽样(系统抽样):在样本框中每隔一定距离抽选一个被调查者非概率抽样:不是完全按随机原则选取样本
任意抽样:由调查人员自由选取被调查者
判断抽样:通过某些条件过滤来选择被调查者
配额抽样:选择一群特定数目、满足特定条件的被调查者样本平均数的抽样分布所有样本指标(如平均数、比例、方差等)所形成的分布称为抽样分布是一种理论概率分布随机变量是样本统计量如样本平均数,样本比例等结果来自容量相同的所有可能样本
四、抽样分布
(概念要点)样本平均数的抽样分布
(一个例子)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为X1=1、X2=2、X3=3、X4=4。总体的平均数、方差及分布如下:平均数和方差总体分布14230.1.2.3样本平均数的抽样分布
(一个例子)
现从总体中抽取n=2的简单随机样本,在重复抽样、考虑顺序条件下,共有42=16个样本。所有样本的结果如下表:3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能样本(共16个)样本平均数的抽样分布
(一个例子)
计算出各样本的平均数,如下表。并给出样本平均数的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的平均数(x)样本平均数的抽样分布0.1.2.3P(x)1.01.53.04.03.52.02.5x所有样本平均数的平均数和方差式中:M为样本可能数目比较及结论:1.样本平均数的平均数等于总体平均数2.样本平均数的方差等于总体方差的1/n
(样本平均数的方差也称抽样方差)样本平均数的抽样分布
与中心极限定理n=4抽样分布xn=16xXxxX当总体服从正态分布N~(,σ2)时,来自该总体的所有容量为n的样本的平均数也服从正态分布,的数学期望为,方差为σ2/n。即~N(
,σ2/n)X
=10X总体分布中心极限定理
(图示)当样本容量足够大时(n
30),样本平均数的抽样分布逐渐趋于正态分布一个任意分布的总体X中心极限定理:设从平均数为X,方差为
2的一个任意总体中抽取容量为n的样本,当n充分大时,样本平均数的抽样分布近似服从均值为X、方差为σ2/n的正态分布抽样误差五、抽样平均误差(一)样本平均数的抽样平均误差1.所有可能出现的样本平均数的标准差,测度所有样本平均数的离散程度计算公式为重复抽样不重复抽样抽样平均误差(二)样本成数的抽样平均误差1.所有可能出现的样本成数的标准差,测度所有样本成数的离散程度计算公式为重复抽样不重复抽样(三)抽样平均误差的影响因素总体方差样本容量抽样方法抽样的组织形式(四)总体方差未知的处理办法用以往的方差资料代替用样本方差代替用估计的方差代替例如:从某学校随机抽取100名学生,测得平均体重为61公斤,标准差为10公斤,请计算学生平均体重的抽样平均误差。解:参数估计的基本方法六、参数估计的基本方法(一)点估计(二)区间估计(一)点估计
(概念要点)从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计例如:用样本平均数作为总体未知平均数的估计值就是一个点估计2. 点估计没有给出估计值接近总体未知参数程度的信息(如准确程度、把握程度)1. 用于估计总体某一参数的随机变量如样本平均数、样本比例、样本中位数等例:样本平均数就是平均数的一个估计量如果样本平均数
x=3,则
3
就是总体平均数的估计值理论基础是抽样分布估计量
(概念要点)二战中的点估计二战中的点估计—
德军有多少辆坦克?二战期间,盟军非常想知道德军总共制造了多少辆坦克。德国人在制造坦克时是墨守成规的,他们把坦克从1开始进行了连续编号。在战争过程中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。那么怎样利用这些号码来估计坦克总数呢?在这个问题中,总体参数是未知的坦克总数N,而缴获坦克的编号则是样本。假设我们是盟军手下负责解决这个问题的统计人员。制造出来的坦克总数肯定大于等于记录的最大编号。为了找到它比最大编号大多少,我们先找到被缴获坦克编号的平均值,并认为这个值是全部编号的中点。因此样本平均数乘以2就是总数的一个估计;当然要特别假设缴获的坦克代表了所有坦克的一个随机样本。这种估计N的公式的缺点是:不能保证均值的2倍一定大于记录中的最大编号。二战中的点估计—
德军有多少辆坦克?N的另一个点估计公式是:用观测到的最大编号乘以因子1+1/n,其中n是被俘虏坦克个数。假如你俘虏了10辆坦克,其中最大编号是50,那么坦克总数的一个估计是(1+1/10)50=55。此处我们认为坦克的实际数略大于最大编号。从战后发现的德军记录来看,盟军的估计值非常接近所生产的坦克的真实值。记录仍然表明统计估计比通常通过其他情报方式作出估计要大大接近于真实数目。统计学家们做得比间谍们更漂亮!资料来源:GUDMUNDR.IVERSEN和MARYGERGRN著,吴喜之等译:《统计学—基本概念和方法》,高等教育出版社,施普林格出版社,2000。估计量的优良性准则
(无偏性)无偏性:估计量的数学期望等于被估计的总体参数P(x)xCA
无偏有偏估计量的优良性准则
(有效性)有效性:一个方差较小的无偏估计量称为一个更有效的估计量。如:与其他估计量相比,样本平均数是一个更有效的估计量AB
中位数的抽样分布平均数的抽样分布xP(x)估计量的优良性准则
(一致性)一致性:随着样本容量的增大,估计量越来越接近被估计的总体参数AB较小的样本容量较大的样本容量
P(x)x(二)区间估计
(概念要点)1. 根据一个样本的观察值给出总体参数的估计范围给出总体参数落在这一区间的概率例如:总体平均数落在50~70之间,置信度为95%样本统计量
(点估计)置信区间置信下限置信上限置信区间估计
(内容)
2已知
2未知
平均数比例置信区间
方差已知方差
未知
落在总体平均数某一区间内的样本
x_x90%的样本95%的样本99%的样本总体未知参数落在区间内的概率置信水平表示为(1-
为显著性水平,是总体参数未在区间内的概率常用的置信水平值有99%,95%,90%相应的
为0.01,0.05,0.10置信水平
区间与置信水平
平均数的抽样分布1-aa/2a/2(1-
)%区间包含了
%的区间未包含影响区间宽度的因素1. 数据的离散程度,用来测度样本容量n3. 置信水平(1-
),影响
Z的大小总体平均数和总体比例的区间估计总体平均数和总体比例
的区间估计(一)
总体平均数的区间估计(二)总体比例的区间估计(一)总体平均数的置信区间
(
2已知)1. 假定条件总体服从正态分布,且总体方差(
2)已知如果不是正态分布,可以由正态分布来近似
(n
30)使用正态分布统计量Z总体平均数
在1-置信水平下的置信区间为总体平均数的区间估计
(正态总体:实例)我们可以95%的概率保证该种零件的平均长度在21.302~21.498mm之间【例】某种零件长度服从正态分布,从该批产品中随机抽取9件,测得其平均长度为21.4
mm。已知总体标准差
=0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。解:已知X~N(,0.152),x=2.14,n=9,1-=0.95,Z=1.96
总体均值
的置信区间为总体平均数的区间估计
(非正态总体:实例)解:已知
x=26,=6,n=100,1-=0.95,Z=1.96我们可以95%的概率保证平均每天参加锻炼的时间在24.824~27.176分钟之间【例】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36小时)。总体平均数的置信区间(
2未知)大样本条件下,使用Z分布统计量
总体均值在1-置信水平下的置信区间为小样本条件下,使用t分布统计量总体平均数
在1-置信水平下的置信区间为总体平均数的区间估计
(实例)我们可以95%的概率保证总体均值在46.69~53.30之间【例】从一个正态总体中抽取一个随机样本,n=25,其均值`x=
50,标准差s=8。建立总体均值x的95%的置信区间。解:已知X~N(X,
2),x=50,s=8,n=25,1-=0.95,t=2.0639。
老年人的睡眠情况是困扰老年人日常生活快乐的一个重要因素,为此,医生着手进行了一次摸底调查,在随机采访的36名老年人中,他们每晚的睡眠时间为:练习一5.48.63.93.27.13.56.56.04.06.97.25.13.77.77.14.52.16.34.84.84.55.36.56.57.08.67.05.57.25.94.37.75.04.76.23.7(1)用点估计的方法推断老年人每晚的平均睡眠时间;(2)用区间估计的方法推断老年人每晚的平均睡眠时间(置信水平为90%)。(1)∴老年人每晚的平均睡眠时间为5.7小时。(2)练习一答案
因此,我们以90%的可靠程度估计老年人每晚平均睡眠时间在5.3小时~6.1小时之间。
一大型超市为研究顾客的购买行为,随机抽取了100个顾客,这些顾客的平均花费水平为80元,标准差25元。试以90%概率保证程度,计算顾客群体平均花费水平的变化范围。练习二练习二答案
因此,我们以90%的可靠程度估计顾客的平均花费水平在75.9元~84.1元之间。(二)总体比例的置信区间1. 假定条件两类结果总体服从二项分布可以由正态分布来近似使用正态分布统计量Z3.总体比例P
的置信区间为总体比例的置信区间
(实例)解:已知n=200,=0.7,
1-=0.95,Z=1.96p
我们可以95%的概率保证该企业职工由于同管理人员不能融洽相处而离开的比例在63.6%~76.4%之间【例】某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机选取了200人组成一个样本。在对其进行访问时,有140人说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开该企业的人员的真正比例构造95%的置信区间。
Sateer是一家大型的计算机应用程序开发公司,为提高程序员的编程水平,在公司范围内组织了一次为期50天的培训活动。培训结束后,随即进行了测试,以了解培训产生的效果。在随机抽选出来的45名被测试者中,有36人通过了考试。试据此对全部参加培训的450名程序员通过测试的比例进行区间估计(要求1-α=95%)。练习三练习三答案因此,我们以95%的把握程度估计程序员能够通过考试的比例在68.8%~91.2%元之间。
航空公司飞行时间安排和价格是商务旅行者选择航班要考虑的重要因素,但是一项调查的结果表明,商务旅行者一般将航空公司许诺的常客折扣看成是最为重要的因素。在一个由1993名商务旅行者组成的简单随机样本中,有618人认为折扣是他们最看好的东西。试就这一问题,在95%的置信水平下,估计商务旅行者认为折扣最有吸引力的人数所占的比例。练习四练习四答案因此,我们以95%的把握估计“认为折扣最有吸引力”的人数所占的比例在27.3%~34.7%元之间。样本容量的确定(一)估计总体均值时样本容量的确定根据均值区间估计公式可得样本容量n为七、样本容量的确定
样本容量n与总体方差
2、允许误差
、可靠性系数Z之间的关系为与总体方差成正比与允许误差成反比与可靠性系数成正比其中:样本容量的确定
(实例)解:已知
2=1800000,=0.05,Z=1.96,=500
应抽取的样本容量为【例】一家广告公司估计某类商店去年所花的平均广告费用有多少。经验表明,总体方差约为1800000元。如置信度取95%,并要使估计处在总体平均值附近500元的范围内,这家广告公司应抽多大的样本?根据比例区间估计公式可得样本容量n为(二)估计总体比例时样本容量的确定
若总体比例P未知时,可用样本比例来代替
p其中:样本容量的确定
(实例)【例】一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对比例P的估计误差不超过0.05,要求的可靠程度为95%,应抽取多少户家庭构成样本?解:
已知
=0.05,1-=0.95,Z=1.96,当P未知时用最大方差0.25代替应抽取的样本容量为
为了配备所需的售货员人数,商场管理部门想了解一名售货员接待顾客平均花费的时间。假定一名售货员接待一位顾客所花费的时间的标准差为4分钟,要求估计误差不超过2分钟,置信度为99%,问应观察多少名顾客?练习五练习五答案∴应观察27名顾客。
一纯净水生产厂家
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 刨冰店加盟合同范本
- 出境旅游协议合同范本
- 出售养殖大院合同范本
- 加盟商家合同范本
- 共享专机采购合同范本
- 关于工程维护合同范本
- 综合整治土地平整施工方案
- 剧本杀储值卡合同范本
- 买卖叉车合同范本
- 分红合同范本
- 口腔护理技术
- 西师版四年级下册100道口算题大全(全册齐全)
- TFCC损伤的诊断及治疗
- 《西藏度亡经》及中阴解脱窍决(收藏)
- 2022年医学专题-健康危险因素干预
- 平冈中学教师任职条件
- 小老鼠找朋友 演示文稿
- 2023年青岛职业技术学院高职单招(英语)试题库含答案解析
- 2023年苏州卫生职业技术学院高职单招(数学)试题库含答案解析
- GB/T 37864-2019生物样本库质量和能力通用要求
- 中国国防:新中国国防建设成就【2】
评论
0/150
提交评论