版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第抽样与抽样分布演示文稿当前第1页\共有43页\编于星期三\12点(优选)第抽样与抽样分布当前第2页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT第一节统计推断的基本概念一、总体与样本(PopulationandSample)(P124)[例]某进出口公司拟进口10万台计算器。按规定,使用寿命小于4000小时即为次品,且次品率高于1%就不接受这批产品。现随机从中抽取1000台进行检验。(一)(全及)总体:被观察(研究)的全体。
N:总体单位数(二)样本总体:按随机原则从总体中抽取的部分单位。1、随机原则:机会面前、人人平等。2、n:样本容量→理论基础:边际信息量递减。3、n≥30:大样本;n<
30:小样本。当前第3页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT[例]在路易斯安那州的瑞皮德斯县(RapidesParish,Louisiana),只有一家公司有权提供救护车服务。当地的报纸《镇报》(TownTalk)要求读者打电话回应,来表达他们是否赞成让这家公司垄断。《镇报》共接到3763个电话,显示出对于救护车问题超乎寻常的关注。调查后发现,有638个电话来自救护车公司的办公室或公司高级主管的家里,而且无疑的是,一定还有更多的电话来自该公司的低级员工。该公司的一位副总裁说:“我们的员工很关心这个问题,他们为工作稳定性及家庭担心,可能多打了几个电话”。那么,这种样本及调查有效吗?“自发性回应”(voluntaryresponse)样本:对某一问题的回应而自发形成的样本(非主动抽样)。当前第4页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT[例]王达尔公司每周向威尔斯公司出售4万箱桔子。为检验这些桔子的质量(重量、损伤及产地等),威尔斯公司的质检人员从库存中抽取样本,即从每个码堆的上层箱子中抽取100箱,然后从每箱随机抽取20个桔子进行调查并推断总体。试问这种抽样方式符合随机原则吗?[例]在美国,制造商和广告代理商常常利用在购物中心的访谈来搜集消费者的消费习惯及广告效用等信息。他们认为,在购物中心选取样本既快速又省钱。1、据调查,这些人比较富有;多青少年及退休人员;2、客观上,调查人员往往倾向于选择那些外表整洁、看起来没有威胁的人进行调查。“方便抽样”(conveniencesampling)。当前第5页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT二、总体参数(Populationparameter)与样本统计量(Samplestatistic)[例]某养猪场共有存栏生猪10万头,现欲了解这批生猪的平均毛重及健康比例。调查者按随机原则从中抽取了100头生猪进行调查,以计算其平均毛重和健康比例。(一)总体参数:反映总体特征的变量。(二)样本统计量:反映样本特征的变量。当前第6页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT三、简单随机抽样(SimplerandomsamplingSRS)(一)抽样组织(P125)当前第7页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT(二)抽样方式1、重复抽样(Samplingwithreplacement,回置抽样)[例]总体5人年龄:1,2,3,4,5。按重复抽样随机抽取3人。
Xi(可能结果)xi(实际结果)概率第一次抽样1,2,3,4,5
21/5回置第二次抽样1,2,3,4,5
51/5回置第三次抽样1,2,3,4,5
21/5回置[例]N=3人(A、B、C)n=2。①A、A;②A、B;③A、C;④B、A;⑤B、B;⑥B、C;⑦C、A;⑧C、B;⑨C、C。(1)样本可能数目:M=Nn(2)样本产生概率=1/Nn
独立同分布的SRS样本当前第8页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT2、不重复抽样(Samplingwithoutreplacement,不回置或不重置抽样)[例]总体年龄为:1,2,3,4,5。按不重复抽样从中抽取3人。
Xi(可能结果)xi(实际结果)概率第一次抽样1,2,3,4,521/5外置
第二次抽样1,3,4,551/4外置
第三次抽样1,3,431/3外置[例]N=3人(A、B、C)n=2①A、B;②A、C;③B、A;④B、C;⑤C、A;⑥C、B。(1)样本可能数目:M=
N!/(N–n)!(2)样本产生概率=(N–n)!/N!当前第9页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT第二节抽样分布(Samplingdistributions)※一、统计误差的种类1、登记性误差:各种主客观原因所导致的误差。2、代表性误差(1)系统偏差:破坏随机原则而引起的误差。(2)抽样误差(Samplingerror):随机取样,由于样本与总体结构的差异而导致的偶然性误差。当前第10页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT3、总体分布:总体变量的取值及出现概率所形成的分布。[例]总体三人(A、B、C)的年龄为1,2,3。N=34、抽样分布:样本统计量的取值及其出现概率的分布。[例]n=2,计算样本平均年龄。当前第11页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT二、样本均值的数量特征(P141)[特征描述思路]当前第12页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT(一)重复抽样[例]总体三人(A、B、C)的年龄为1,2,3。N=3
n=2,计算样本平均年龄。当前第13页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT[计算]N=3人,(A,B,C)=(1,2,3)n=2
当前第14页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT(二)不重复抽样有限总体修正因子(finitepopulationcorrectionfactor)当前第15页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT归纳1、样本均值的期望值等于总体均值。2、样本均值的标准差:样本均值与其期望值的平均离差。
当前第16页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT三、样本比率的数量特征(P142)1、样本比率(是非标志)的期望值等于总体比率。2、样本比率的标准差:样本比率与其期望值的平均离差。当前第17页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT四、中心极限定理(Centrallimittheorem,P140)1、正态分布(Normalprobabilitydistributions,P132)身高
1401501601701801900.50.40.30.20.1频率当前第18页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT调整:“频率密度”(频率/组距)“频率”;身高
140150160170180190频率密度0.050.040.030.020.01
P{150X180}=0.90
当组数n无穷大,折线?
直方或折线覆盖下的面积=?当前第19页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT[概率计算的思路]身高
1401501601701801900.050.040.030.020.01f(xi)f(x):概率密度函数频密当前第20页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT如果随机变量X的概率密度函数为X
μf(x)则称X服从正态分布,记作X~N(μ,σ2
)当前第21页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT[直线研究]表达式:y=a+bxXY当前第22页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT一般正态分布的标准化(Standardnormaldistribution)
x1x2-Z0ZX当前第23页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT[t分布,P136]-t0t当前第24页\共有43页\编于星期三\12点第五章抽样和抽样分布STAT2、中心极限定理(Centrallimittheorem)(P140)定理:设X是具有期望值为、方差为2的任意总体,则样本均值的抽样分布,将随着n的增大而趋于正态分布,即当样本容量很大且nP≥5、n(1-P)≥5时,可将样本比率的抽样分布近似看成正态分布。当前第25页\共有43页\编于星期三\12点第六章区间估计STAT第一节参数估计的基本原理(P146)一、估计量与估计值(Estimatorandestimatevalue)1、待估参数:待估的总体参数;2、估计量:作为估计依据的样本统计量3、估计值:估计量的取值。[例]1000只灯泡的使用寿命及标准差均未知。今随机取得4只灯泡,测得寿命为1502、1453、1367和1650小时,试估计总体平均使用寿命及其标准差。当前第26页\共有43页\编于星期三\12点第六章区间估计STAT
二、点估计(Pointestimate)(P147)[案例]统计学家做得比间谍更漂亮出于战略上的考虑,盟军希望知道二战期间德军一共制造了多少辆坦克。德国人在制造坦克时是墨守成规的,他们把坦克从1开始进行连续编号。盟军假定:德国人将坦克随机地派往各个战场。方法:将缴获或击毁的坦克编号查出,尔后计算其平均值,并乘以2。当前第27页\共有43页\编于星期三\12点第六章区间估计STAT三、估计量的优良标准(P148)1、无偏性(Unbiasedness)当前第28页\共有43页\编于星期三\12点第六章区间估计STAT[例]总体三人A、B、C的年龄为1,2,3。n=2,求所有的样本方差。当前第29页\共有43页\编于星期三\12点第六章区间估计STAT2、有效性(efficiency):对无偏估计量,方差越小越有效。[例]假定总体参数=6,五次抽样后分别计算样本平均数和样本中位数,其结果如下
当前第30页\共有43页\编于星期三\12点第六章区间估计STAT3、一致性(consistency,大样本有益性)当前第31页\共有43页\编于星期三\12点第六章区间估计STAT归纳(1)精确度(Precision);(2)准确度(Accuracy)当前第32页\共有43页\编于星期三\12点第六章区间估计STAT四、区间估计的基本原理(P149,※)[例]某保险公司自10万名投保人中随机抽取36人,得其平均年龄为39岁,已知投保人的年龄服从正态分布,标准差为7.2岁,试求其平均年龄95%(1-α,置信度)的置信区间。当前第33页\共有43页\编于星期三\12点第六章区间估计STAT
μ-Δ
μ+Δ
[例]某保险公司自10万名投保人中随机抽取36人,得其平均年龄为39岁,已知投保人的年龄服从正态分布,标准差为7.2岁,试求其平均年龄95%(1-α,置信度)的置信区间。-Z0Z当前第34页\共有43页\编于星期三\12点第六章区间估计STAT1、总体均值的区间估计(SRS样本)2、总体比率的区间估计(SRS样本)当前第35页\共有43页\编于星期三\12点第六章区间估计STAT第二节参数的区间估计一、单个总体的区间估计(P149)(一)正态总体,2已知[例]已知一批零件的长度服从正态分布,从该批产品中随机抽取9件,测得其平均长度为21.44mm。已知总体标准差=0.15mm,试建立这种零件平均长度的置信区间。给定置信水平0.95。当前第36页\共有43页\编于星期三\12点第六章区间估计STAT(二)正态总体,2未知[例]假定吸烟者买烟的月支出近似服从正态分布。一机构随机抽取了容量为26的样本进行调查,得到样本平均数为80元,样本标准差为20元。试以95%的把握估计全部吸烟者月平均烟钱支出的置信区间。当前第37页\共有43页\编于星期三\12点第六章区间估计STAT(三)母体为非正态分布或未知[例]从某批产品中随机抽取121件,测得其平均长度为21.44mm。已知样本标准差为0.15mm,试建立这种零件平均长度的置信区间。给定置信水平0.95。结论:大样本→标准正态分布;小样本且σ2未知→t分布。当前第38页\共有43页\编于星期三\12点第六章区间估计STAT二、单个总体比率(成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年外贸公司员工劳动合同范本含社会保险缴纳
- 二零二五年度新材料研发项目投资合作居间协议合同范本
- 2025年度软装设计行业人才培养合同范本2篇
- 二零二五年度总经理聘用合同:高端装备制造业高层管理人员聘用合同
- 二零二五版农村污水处理设施建设与运维合同4篇
- 2025年度二零二五年度个人雇佣员工劳动合同(远程工作)专项范本4篇
- 二零二五版门窗安装与绿色建筑认证合同7篇
- 2025年山地承包与生态保护一体化合同4篇
- 2025年度个人租赁合同规范样本2篇
- 2025年度个人医疗贷款合同及费用报销清单4篇
- JB-T 8532-2023 脉冲喷吹类袋式除尘器
- 深圳小学英语单词表(中英文)
- 护理质量反馈内容
- 山东省济宁市2023年中考数学试题(附真题答案)
- 抖音搜索用户分析报告
- 板带生产工艺热连轧带钢生产
- 钻孔灌注桩技术规范
- 2023-2024学年北师大版必修二unit 5 humans and nature lesson 3 Race to the pole 教学设计
- 供货进度计划
- 国际尿失禁咨询委员会尿失禁问卷表
- 弥漫大B细胞淋巴瘤护理查房
评论
0/150
提交评论