版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章参数估计和假设检验统计学的基本内容描述统计推断统计描述统计是推断统计的前提,推断统计是描述统计的发展。数据描述性分析、时间数列分析和指数分析参数估计和假设检验指搜集、整理、分析、研究并提供统计资料的理论和方法,用来说明总体的情况和特征。利用样本统计量对总体某些性质或数量特征进行推断的方法。随机原则总体样本参数统计量参数估计假设检验抽样分布概分率布理基论础容量均值方差标准差成数总体参数样本统计量侧重于用样本统计量估计总体的某一未知参数侧重于用样本统计量验证总体是否具有某种性质或数量特征一、简单随机样本的性质有限总体放回不放回样本放回不放回样本样本独立同分布同分布无限总体第一节抽样分布统计量:样本指标,不依赖于任何未知参数。样本均值样本成数样本方差二、统计量与抽样分布把某一抽样方法的全部可能的样本统计量的取值与其相应的概率排列起来,就得到样本的抽样分布。
抽样分布:某一统计量所有可能取值的概率分布。性质数字特征0≤P(Xi)≤1∑P(Xi)=1均值E(X)方差E[X-E(X)]2实践中,我们只从总体中抽取一个简单随机样本,抽样分布是理论分布,重要的是我们必须掌握它的特征。注意区别三种不同性质的分布:总体分布:实际问题所研究的是总体中个体的某一特征X,X是一个随机变量,而X的可能取值全体即为总体.称X的分布为总体分布。样本分布:样本中各观察值的分布称为样本分布,也称经验分布。样本分布可以用样本的频数分布来表示。抽样分布:统计量的分布称为抽样分布。【例】设一个总体,含有4个元素(个体)分别为:1、2、3、4
3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值重复抽样,n=2的样本(共16个)3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值()1.0P(
)1.53.04.03.52.02.511.522.533.540.06250.1250.18750.250.18750.1250.0625总体分布1423P(X)(一)抽样分布的表示方法若将统计量的取值分别记为其相应的概率记为P1,P2,…Pn,将它们按顺序排列起来,可得如下概率分布表。
…………
1、分布列表示—适用于离散变量2、密度曲线表示—常用于连续变量概率分布密度函数为f(x)概率由概率分布密度函数确定连续型随机变量概率分布的性质:1、分布密度函数总是大于或等于0,即f(x)≥0;2、当随机变量x取某一特定值时,其概率等于0;xf(x)
Xf(X)正态分布是依赖于参数μ和σ2(或σ)的一簇分布,正态曲线的位置及形态随μ和σ2的不同而不同。几种常用的分布:
※正态分布
许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。正态分布的密度函数为:随机变量服从正态分布,记为:对于任何一个服从正态分布N(μ,σ2)的随机变量X,都可以通过标准化变换:
Z=(X-μ)/σ将其变换为服从标准正态分布的随机变量。随机变量服从正态分布,记为:※
分布设随机变量皆服从,且相互独立,则随机变量服从自由度为n的分布,并记为:xf(x)分布一般为正偏态分布,但随着自由度n的增大,曲线趋向于正态分布。※
t分布t分布是均值为0的对称钟形分布,但与标准正态分布相比,中心较低尾部较高,随着自由度n的增大,曲线趋向于标准正态分布。设随机变量,,且X与Y相互独立,则随机变量服从自由度为n的t分布,并记为t(11)t(15)xf(x)1、样本均值的数字特征有限总体不放回抽样无限总体或有限总体放回抽样标准差方差 均值
抽样方法有限总体的校正系数,当N很大时,简化为,当抽样比时可忽略不计。抽样误差(二)样本均值的抽样分布样本均值从正态分布标准化2、样本均值抽样分布的数学结论正态总体非正态总体或总体分布未知根据中心极限定理,当样本容量足够大时()不管总体分布如何,样本均值的抽样分布总可以看作是正态分布。标准化◆总体成数:是指总体中具有某种特征的单位数在总体中所占的比例。如某性别比率、产品合格率等总体“是非变量”的平均数总体“是非变量”的方差为
——“是成数”——“非成数”(三)样本成数的抽样分布有限总体不放回抽样无限总体或有限总体放回抽样标准差方差 均值抽样方法1、样本成数的数字特征根据中心极限定理,当样本容量足够大时(、),不管总体分布如何,样本成数的抽样分布总可以看作是正态分布。标准化2、样本成数抽样分布的数学结论第二节参数估计点估计区间估计直接用某一个样本的指标值作为总体未知参数的估计值。根据给定的可靠程度的要求,估计总体未知参数所在的可能区间。点估计给出一个数字,用起来很方便;而区间估计给出一个区间,说起来留有余地;不象点估计那么绝对。问题:第一,我们为什么以这一个而不是那一个统计量来估计某个总体参数?第二,如果有两个以上的统计量可以用来估计某个总体参数,其估计结果是否一致?是否一个统计量要优于另一个?估计量的优良标准:
无偏性、有效性、一致性一、点估计1、无偏性:是的无偏估计量是的无偏估计量是的无偏估计量(无限总体)估计量的优良性标准无偏估计量误差没有系统性的方向,没有系统性误差,而有偏估计量具有系统性误差。2、有效性:的无偏估计量一个无偏估计量并不意味着这一估计量一定非常接近待估计的参数,它还必须是与总体参数的离散程度比较小。在无偏估计的情况下方差愈小也就愈有效。如:样本平均数与中位数都是总体均值的无偏估计量,但在同样的样本容量下,样本平均数是有效的估计量。3、一致性:随着样本容量的增大,的偏差越来越小较大的样本容量较小的样本容量数理统计证明:点估计的不足是不能反映估计的误差和可靠程度,但一个优良的点估计量为区间估计提供了基础,决定了区间的位置。是的无偏、有效、一致估计量是的无偏、有效、一致估计量是的无偏、一致估计量二、区间估计在一定的置信度的保证下,利用抽样分布理论,确定参数的置信区间。◆称为参数的置信度为的置信区间◆置信区间包括置信度和精确度两个方面置信度:随机区间包含的概率,越大越好精确度:随机区间平均长度,越短精确度越好样本容量一定时,置信度和精确度是一对矛盾。在保证置信度的前提下,尽可能提高精确度。(一)总体均值的置信区间标准化正态总体,方差已知为了使置信区间长度最小,将事先给定的置信度对称分配到分布的两侧0例为样本均值的抽样误差的置信度的置信区间为:为抽样极限误差,表明在给定置信度的条件下对总体均值进行区间估计所允许的最大误差。正态总体,方差未知(小样本)0的置信度的置信区间为:例非正态总体(大样本)例例在总体方差已知条件下,根据分布进行区间估计,可得的置信度为的置信区间为:在总体方差未知条件下,以代替根据分布进行区间估计,可得的置信度为的置信区间为:(二)总体成数的置信区间标准化的置信度的置信区间为:为待估参数,以样本代替例比例置信区间的特殊情况(稀有事件的小比例估计问题)若总体中具有某种特征的单元数很少,因而P很小,即使当n很大时,np≤5。这时P就不宜用正态分布近似计算。由概率论的知识可知,这时n个样本单元中具有某种特征的单元数X服从泊松分布,可由泊松分布来求置信区间。科克伦标准P近似正态分布要求样本量0.50.4—0.60.3—0.70.2—0.80.1—0.9305080200600简单随机抽样方式的参数区间估计小结待估计参数已知条件置信区间正态总体,σ2已知正态总体,σ2未知非正态总体,n≥30有限总体,n≥30(不放回抽样)σ未知时,用S总体均值()σ未知时,用S无限总体,np和nq都大于5总体成数(p)有限总体,np和nq都大于5(三)样本容量的确定确定的前提预期可靠程度预期精确程度考虑的因素总体的差异程度不同的抽样组织方式现有的人力、财力和时间因素确定方法估计总体均值所需的样本容量(1)放回抽样条件下:通常的做法是先确定置信度,然后限定抽样极限误差。或S通常未知。一般按以下方法确定其估计值:①过去的经验数据;②试验调查样本的S。计算结果通常向上进位(2)不放回抽样条件下:确定方法估计总体均值所需的样本容量【例】某食品厂要检验本月生产的10000袋某产品的重量,根据上月资料,这种产品每袋重量的标准差为25克。要求在95.45﹪的概率保证程度下,平均每袋重量的误差范围不超过5克,应抽查多少袋产品?解:在不放回抽样下:确定方法推断总体成数所需的样本容量⑴放回抽样条件下:通常的做法是先确定置信度,然后限定抽样极限误差。计算结果通常向上进位通常未知。一般按以下方法确定其估计值:①过去的经验数据;②试验调查样本的;③取方差的最大值0.25。⑵不放回抽样条件下:确定方法推断总体成数所需的样本容量【例】某企业对一批总数为5000件的产品进行质量检查,过去几次同类调查所得的产品合格率为93﹪、95﹪、96﹪,为了使合格率的允许误差不超过3﹪,在99.73﹪的概率保证程度下,应抽查多少件产品?分析:因为共有三个过去的合格率的资料,为保证推断的把握程度,应选其中方差最大者即P=93﹪。样本数的确定待估计参数已知条件样本数的确定正态总体,σ2已知总体均值(μ)例:误差范围简单随机抽样有限总体,不放回抽样,σ2已知总体成数(P)服从正态分布有限总体,不放回抽样第三节假设检验一、假设检验的基本原理(一)假设检验的含义是参数估计之外的另一类重要的统计推断问题。它是指事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断该假设是否成立。由于样本的随机性,这种推断也同样有一定的风险。(二)逻辑推理方法——反证法
检验的过程是以否定总体的某种假设为目标:事先对总体作出某种假设,然后对样本值与原假设的差异进行分析。如果有充分的理由证明这种差异并非完全是由于样本的随机性引起的,也即这种差异是显著的,就否定对总体的这种假设(较有说服力)。(三)基本思想——小概率原理如果对总体所作的某种假设是真的,那么样本值与原假设出现显著性差异的概率是很小的。如果在某一次随机抽样中,显著性差异竟然出现了,我们就有理由怀疑这一假设的真实性,拒绝这一假设。总体(某种假设)抽样样本(观察结果)检验接受拒绝小概率事件未发生小概率事件发生
H0—原假设,H1—备择假设(四)假设的形式原假设:是指想收集证据予以否定的假设。如果否定不了,那就说明证据不足。无法否定原假设,也不能说明原假设正确。
备择假设:它与原假设陈述的内容相反。在实际问题中,为了通过样本信息对总体某一假设取得强有力的支持,通常把这种假设作为备择假设。三种类型:二、假设检验规则与两类错误
(以总体均值双侧检验为例)检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝H0;反之,差异不显著,接受H0差异临界点拒绝H0接受H0判断怎样确定C?总体假设:拒绝H0拒绝H0(一)两类错误I类错误——弃真错误,发生的概率为α
II类错误——取伪错误,发生的概率为β
检验决策H0为真H0非真拒绝H0犯I类错误(α)正确接受H0正确犯II类错误(β)接受或拒绝H0,都可能犯错误α大β就小,α小β就大基本原则:力求在控制α前提下减少β在总体均值的双侧检验中:样本均值落在非阴影区间内的概率为(大概率),认为该差异是由于样本的随机性引起。假设检验又称为显著性检验样本均值落在阴影区间内的概率为(小概率),认为该差异是显著的,即为显著性水平。α的取值在检验前事先确定:0.1、0.05、0.001等。如果犯I类错误损失更大,为减少损失,α值取小;如果犯II类错误损失更大,α值取大。(二)α与临界点C的关系为真时,则临界点C应满足:令则:0z(三)检验规则0接受区拒绝区拒绝区zII类错误的概率β的计算(1)先求出拒绝H0的临界值;(2)再求得在统计量真实的抽样分布下达到临界值的概率β。(四)检验步骤建立总体假设H0,H1抽样得到样本观察值12选择检验统计量确定H0为真时的统计量抽样分布3根据具体决策要求确定α确定分布上的临界点值及检验规则计算检验统计量的数值比较并作出检验判断7456三、几种常见的假设检验(一)总体均值的检验构造检验统计量正态总体,方差已知检验规则双侧检验左侧检验右侧检验双侧检验拒绝域拒绝域接受域1-
左侧检验拒绝域接受域1-
右侧检验拒绝域接受域1-
例构造检验统计量正态总体,方差未知检验规则双侧检验左侧检验右侧检验例方差已知时非正态总体(必须是大样本)方差未知时检验规则同正态总体方差已知的情况例(二)总体成数的检验构造检验统计量检验规则(同正态总体的均值检验)例由置信区间方法到假设检验的运算过程:(1)根据样本构建总体均值的置信区间:(2)如果置信区间包含假定的值,则不拒绝。否则,拒绝。例
五、假设检验和置信区间的关系(1)总体均值的置信区间为:样本均值的非拒绝区域:(2)以总体均值的双侧置信区间和双侧检验为例:如果在式(2)所定义的非拒绝区域之内,假定的值就在式(1)所定义的置信区间内。关系:【例】某种零件长度服从正态分布,从该批产品中随机抽取9件,测得其平均长度为21.4mm。已知总体标准差
=0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。我们可以95%的概率保证该种零件的平均长度在21.302~21.498mm之间。解:已知总体均值
的置信区间为返回根据上述资料建立置信度为95%的总体均值的区间估计(假定培训时间总体服从正态分布)【例】谢尔工业公司拟采用一项计算机辅助程序来培训公司的维修人员,以减少培训工人所需要的时间。为了评价这种培训方法,生产经理需要对这种程序所需要的平均时间进行估计。以下是利用新方法对15名职员进行培训的培训天数资料。152659115424475012583558541360444962146254510461563
职员时间职员时间职员时间解答95%的置信区间为:53.87±3.78即(50.09,57.65)天。解:依题意,总体服从正态分布,n=15(小样本),此时总体方差未知。可用自由度为(n-1)=14的t分布进行总体均值的区间估计。返回【例】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为6分钟)。解:已
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年医学整形美容服务协议
- 2025年员工福利和解合同
- 2025年在线教育运营合同
- 2025年公司融资投资人增资协议
- 2025年代理合作签约协议
- 二零二五年度婴幼儿奶粉产品追溯系统建设合作协议3篇
- 2025年项目建议书编制委托人工智能+大数据合同模板2篇
- 2025年度健康养生产品居间营销合同模板4篇
- 跟着2025年新番走:《动漫欣赏》课件带你领略动漫魅力2篇
- 2025年度智能牧场羊代放牧与物联网服务合同
- 反骚扰政策程序
- 运动技能学习与控制课件第十一章运动技能的练习
- 射频在疼痛治疗中的应用
- 四年级数学竖式计算100道文档
- “新零售”模式下生鲜电商的营销策略研究-以盒马鲜生为例
- 项痹病辨证施护
- 职业安全健康工作总结(2篇)
- 怀化市数字经济产业发展概况及未来投资可行性研究报告
- 07FD02 防空地下室电气设备安装
- 教师高中化学大单元教学培训心得体会
- 弹簧分离问题经典题目
评论
0/150
提交评论