




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
研究生统计学总体均数估计与假设检验第1页/共38页第三章
总体均数估计与假设检验均数的抽样误差与标准误t分布总体均数的估计假设检验的基本原理和步骤t检验假设检验的注意事项正态性检验和两样本方差比较的F检验第2页/共38页参数估计基础
统计学研究的目的通常是要了解总体的情况。如果要了解总体情况,有两种方法:全面研究抽样研究全面研究在许多情况下难以办到,因此,常用的方法是抽样研究,即从同质总体中随机抽取一部分观察单位作为样本,并由样本信息(包括样本变量值的分布及其用于描述的统计量)来推断总体情况,即统计推断(statisticalinference)。第3页/共38页第一节均数的抽样误差和标准误
由于所研究变量在总体中各观察单位(个体)间存在变异,抽样研究必然会导致抽样误差(samplingerror)
。抽样误差是不可避免的,但我们可以探究抽样误差的规律,控制抽样误差在允许的范围内。第4页/共38页第一节均数的抽样误差和标准误
为探讨抽样误差的规律,我们做一个放回式随机抽样实验。假设某年某地13岁女学生身高(X)服从总体均数μ=155.4cm,总体标准差σ=5.3cm的正态分布N(155.4,5.32)。每次抽取的30例构成一个样本,并计算出样本均数。如此共抽取100个样本,计算得到100个样本均数。第5页/共38页总体μ=155.4cmσ=5.3cm放回式随机抽样实验第6页/共38页表5-1从正态总体N(155.4,5.32)随机抽取
100份样本(n=30)的算术均数156.7156.9156.1156.3155.1155.7153.6155.8154.9155.1158.1154.0155.0155.2155.3153.7155.6153.9154.6156.6155.6154.4154.7156.0156.3154.8155.2156.2154.6156.0155.2156.5154.5155.6156.6155.6156.7156.0157.5155.8155.0155.9155.2156.5155.4154.8154.7154.2155.9156.1156.4155.5154.6155.3155.9155.6155.1155.4156.5152.7154.9156.9156.1155.2155.3158.2155.7156.6156.4155.1156.5156.9155.7155.5154.6154.9156.4155.6154.7155.3155.0153.4155.1155.0156.1153.4155.1156.8156.2154.6155.9154.8156.1155.5154.7156.4154.9155.3154.6156.6第7页/共38页对100个样本均数组成的数据资料进行统计描述,结果:
第8页/共38页图5-1100个样本均数的频数分布图第9页/共38页第一节均数的抽样误差和标准误
从一个总体均数为μ,标准差为σ的总体中,随机抽取若干个含量为n的样本。那么,这若干个样本的均数不会完全相同,其频数分布是以总体均数μ为中心的正态分布,其变异程度可用这若干个样本均数的标准差表示,称样本均数的标准误(standarderror)。第10页/共38页样本均数的分布第11页/共38页第一节均数的抽样误差和标准误
在前述放回式随机抽样实验中,已知总体标准差σ=5.3cm,每次抽样的样本含量n=30,代入公式得:按实际抽取的100个样本均数计算,标准误为0.96,与上述公式计算结果基本一致。
第12页/共38页第一节均数的抽样误差和标准误实际工作中,往往不知道σ,因此,通常用样本标准差s来代替σ
,得到均数标准误的估计值:例调查某地120名正常成人的血糖值的均数为4.92mmol/L,标准差为0.48mmol/L,试计算标准误。第13页/共38页第14页/共38页第15页/共38页第16页/共38页第一节均数的抽样误差和标准误均数标准误的用途:衡量样本均数的可靠性;
标准误愈小,说明样本均数与总体均数越接近,即抽样误差越小,用样本均数推论总体均数的真实性越好。反之,标准误越大,抽样误差越大,样本均数对总体均数的代表性越差。估计总体均数的置信区间;用于均数的假设检验。第17页/共38页第二节
t分布一、t分布的概念对于任一正态分布X~N(μ,σ2
),经u变换后都可以变成标准正态分布N(0,1)。随机抽取若干个含量为n的样本,这些样本均数的频数分布是以总体均数μ为中心的正态分布,其标准差为。如果进行u变换,同样可以变成标准正态分布N(0,1)。第18页/共38页第二节t分布
实际上往往未知,故用作为的估计值,这时可以对样本均数作t变换:
则t值的分布是以0为中心的正态分布,即t分布(student’stdistribution)。1908年WSGosset以笔名student发表了他的研究论文,开创了小样本统计推断之先河。第19页/共38页第二节t分布二、t分布的图形和t分布表对前述13岁女学生身高总体,分别做n=3和n=50的随机抽样,各抽取1000个样本,并分别计算得到1000个样本均数和标准误。然后,分别做t变换,将t值绘直方图如图5-2。第20页/共38页第二节t分布二、t分布的图形和t分布表
t分布与u分布一样,都是以0为中心,但t分布不是1条曲线,而是无数条曲线。t分布的形态(峰度)随抽样样本量(严格地说是自由度n-1)而变化,自由度越小,曲线越低平,随着自由度增大,t分布逐渐接近于标准正态分布,当自由度为无穷大时,t分布与u分布完全重合。第21页/共38页图5-3不同自由度的t分布曲线
第22页/共38页第二节t分布
t分布与u分布一样,曲线下的面积分布有一定规律:从双侧-tα/2,ν到tα/2,ν所对应的曲线下的面积占曲线下总面积的100(1-α)%。或者,从单侧tα,ν到-∞所对应的曲线下的面积占曲线下总面积的100(1-α)%。
第23页/共38页第二节t分布
由于t分布的形态随自由度而变化,tα也随自由度而变化。不同自由度时的tα值可查附表2t界值表得到。第24页/共38页第25页/共38页一、t分布第26页/共38页第三节总体均数的估计
一、可信区间的概念点值估计(pointestimation)区间估计(intervalestimation)
总体均数(μ
)的100(1-α)%置信区间(confidentialinterval,简记为CI)。区间估计属于概率估计,总体参数并非一定在该置信区间内,只需要把总体参数不在该置信区间内的概率(α)控制在一定水平就可以了。第27页/共38页二、置信区间的计算二、总体均数的置信区间的计算μ
的100(1-α)%置信区间(CI):已知总体标准差σ,按正态分布原理,计算公式为σ未知,n较小,按t分布原理计算:σ未知,但n足够大(如n>100),按正态分布原理计算:第28页/共38页总体均数置信区间的计算
例测得某地健康男子20人收缩压的均数为118.4mmHg,标准差为10.8mmHg,试估计该地健康男子收缩压总体均数的95%可信区间。本例v=20-1=19,查t值表得t0.05,19=2.093。代入公式得:
该地健康男子收缩压总体均数的95%可信区间为113.3~123.5mmHg。第29页/共38页总体均数置信区间的计算
例测得某地150名正常人脉搏的均数为73.53次/分,标准差为11.30次/分,试估计该地正常人脉搏总体均数的95%可信区间。本例n>100,可按正态分布原理近似计算:
该地正常人脉搏总体均数的95%可信区间为71.74~75.36次/分。第30页/共38页三、总体均数置信区间的解释总体均数可信区间的计算和解释有两种理论依据,一是是Pearson、Fisher、Neyman等人的经典理论,另一个是Bayes理论。经典理论假定样本x1、x2、…、xn来自正态分布N(μ,σ2),其中σ2已知,μ是一个客观存在的常数。对置信区间的解释是:从总体中随机抽样,每个样本可以算得一个置信区间,该置信区间包括总体均数(估计正确)的概率是1-α。Bayes理论则认为参数μ是随机变量。对置信区间的解释是:μ有1-α的可能性落在该区间,或者说μ在这个区间内的概率是1-α。第31页/共38页总体均数置信区间的估计
参数估计时,一方面要控制发生错误的概率(α),α越小,估计的正确率就越高。另一方面,所定区间范围不能过宽,否则就失去了实际意义,也就是估计的精确程度要高,估计的区间范围越小,精密度就越高。正确性和精密性是相互矛盾的,提高了准确度,则精密度必然下降;如果提高精密度,则准确度又将随之降低。因此,通常把发生错误的概率(α)定在适当的水平,如α=0.05,即总体参数不在该范围的概率不超过5%,即95%置信区间。增大样本量可以在不影响正确性的情况下提高参数估计的精密度。但并非样本量越大越好。第32页/共38页总体均数的估计
例9.2某医师随机抽查了某地20名正常成人,测得血糖值的均数为4.92mmol/L,标准差为0.48mmol/L,试估计该地正常成人血糖值总体均数的95%和99%可信区间。本例:
今v=20-1=19,查t值表得t0.05,19=2.093,t0.01,19=2.861。
95%可信区间为:
99%可信区间为:
第33页/共38页总体均数的估计
例9.3随机抽查了某地120名正常成人,测得血糖值的均数为4.92mmol/L,标准差为0.48mmol/L,试估计该地正常成人血糖值总体均数的95%和99%可信区间。本例:按正态分布原理近似计算:
95%可信区间为:
99%可信区间为:
第34页/共38页正确性和精密性的关系样本量对参数估计正确性和精密性的影响(正常人血糖总体均数的估计)n95%可信区间99%可信区间204.70~
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全款转让房产合同范本
- 加班法务合同范本
- 公司入股合同范本文档
- 仔猪购销纠纷合同范本
- 包装插画合同范本
- 农村协议买房合同范本
- 2024年金山区卫生健康事业单位招聘卫生专业技术人员考试真题
- 2024年南丹县丹融文化传媒有限公司招聘笔试真题
- 农村修水渠合同范本
- 2024年阜阳市皖西北(阜南)粮食产业园有限公司招聘考试真题
- 2024年江苏航空职业技术学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 幼儿羽毛球培训课件
- 红色旅游线路
- 膝骨关节炎中医诊疗指南
- 胰性脑病和wernicke脑病
- 大国工匠课件
- 辽宁省冷链物流行业报告
- 清洁氢能生产与输储技术创新
- 产品标准化大纲(课件)
- 贷款的培训课件
- 《雷达干扰技术概述》课件
评论
0/150
提交评论