正态分布与参数估计课件_第1页
正态分布与参数估计课件_第2页
正态分布与参数估计课件_第3页
正态分布与参数估计课件_第4页
正态分布与参数估计课件_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

正态分布与均数的参数估计统计学教研室徐涛1normaldistribution正态分布又称高斯分布,是以均数为中心,两侧对称的钟型分布。一种重要的连续型分布。正态分布的概率密度函数,即正态分布曲线的方程为

一般用N(,2)表示均数为,方差为2的正态分布。2standardnormaldistribution如果进行变量变换,,并使μ=0,σ=1,正态分布曲线的中心位置就由μ移到0,正态分布即可转化为标准正态分布。标准正态分布也称为u分布,

u称为标准正态变量或标准正态离差。标准正态分布的概率密度函数为:标准正态分布可用N(0,1)表示。正态分布图和标准正态分布图.doc3正态分布的特征正态曲线在横轴上方均数处最高。标准正态分布在u=0时,(u)达到最大值。正态分布以为中心,左右对称。正态分布有两个参数,即和。是位置参数,当恒定后,

越大,则曲线沿横轴越向右移动;

越小,则曲线沿横轴越向左移动。是变异度参数,当

恒定时,越大,表示数据越分散,曲线越扁平;越小,表示数据越集中,曲线越陡峭。正态曲线下的面积分布有一定的规律。4正态曲线下面积的分布规律横轴上的一定区间的面积占总面积的百分数,用以估计该区间的例数占总例数的百分数(频率分布),或变量值落在该区间的概率(概率分布)。正态曲线下区间的面积,可以通过对正态变量X的累计分布函数F(X)的积分来求得,它反映了正态曲线下,横轴尺度自-∞到X的面积,即下侧累计面积。5正态曲线下面积的分布规律曲线下横轴上的总面积为100%或1。曲线下对称于0的区间,面积相等。区间(-∞,-u)和区间(u,+∞)的面积相等,因而附表1中只列出Φ(-u)的值,Φ(u)=1-Φ(-u)。正态曲线下面积的计算公式为:P(u1<U<u2)=Φ(u2)Φ(u1)。

7Referencerange正态近似法

是根据正态分布曲线下面积分布规律进行参考值范围估计的方法,该法得到结果稳定。

(-uаs,+uаs)(双侧)(-∞,+uаs)或(-uаs,+∞)(单侧)百分位数法当资料不能满足正态性要求时,可用百分位数法估计参考值范围。(P2.5,P97.5)(双侧)(-∞,P95)或(P5,+∞)(单侧)8sample样本:从总体中随机抽取的部分观察单位的某个变量值所组成的集合。抽样的目的:用样本信息来推断总体特征,要保证样本的可靠性和代表性,使样本能够充分地反映总体的真实情况。这就要求严格遵循随机化的原则,并保证足够的样本含量。9samplingerror由于抽样而造成的样本统计量和总体参数之差称为抽样误差(samplingerror)。由于抽样而造成的样本均数和总体均数之差称为均数抽样误差,抽样误差是抽样研究固有的特点,是不可避免的。抽样误差的分布有一定的规律性,并且可以通过一定的方法来估计。10N(μ,2)(μ,2)nn11

CentralLimitTheorem中心极限定理:从正态总体N(μ,2)中,随机抽取例数为n的样本,样本均数也服从正态分布,即使是从偏态总体中抽样,当n足够大时,样本均数的分布仍然服从正态分布,样本均数的均数,标准差为。12N(μ,2)样本2n样本1n……

样本kn……

n……

μ13standarderror是样本均数的标准差称为均数标准误(简称标准误),它反映了样本均数与总体均数之间的接近程度,常用以说明均数抽样误差的大小。标准误的计算:1415standarderrorofmean在实际工作中,总体标准差常是未知的而是用样本标准差s来代替,的估计值记作。例:某地成年男子红细胞数的抽样调查,n=144人,=5.38×1012/L,s=0.44×1012/L,求其标准误。16标准误的用途标准误是反映样本均数变异程度的指标,常用来表示抽样误差的大小。标准误大反映样本均数抽样误差大,其对总体均数的代表性差;标准误小,样本均数抽样误差就小,其对总体均数的代表性就好。标准误可用于计算总体均数的可信区间,也是进行假设检验的基础。17均数抽样误差的分布-t分布在总体均数为,标准差为的正态总体中,独立随机的抽取样本含量为n的样本,则样本均数服从正态分布:将样本均数标准化,则:如果变量是正态的或近似正态的,则标准化的变量服从或近似服从N(0,1)分布,即u分布。18tdistributiont变换:其结果就不再服从标准正态分布了,而是服从自由度为n-1的t分布。

19t分布的特征t分布只有一个参数,即自由度;单峰分布,以0为中心,左右两侧对称;t分布的峰部较矮而尾部翘得较高,说明远侧t

值的个数相对较多,即尾部面积较大;t分布不是一条曲线,而是由一簇随自由度改变而变化的曲线所组成;当逐渐增大时,t分布逐渐逼近标准正态分布;当

=

时,t分布就完全成为标准正态分布了。2021t界值统计学家已将各种自由度对应的t分布曲线下的尾部面积(概率)的百分界值编制成t界值表。表右上角插图中阴影部分,表示tα,ν以外尾部面积占总面积的百分数,即概率P。

随着自由度的增大,t界值逐渐减小,当自由度无穷大时,双侧t0.05=1.96,单侧t0.05,=1.645,即为u分布的界值。22t界值如由表查出单侧t0.05,10=1.812,表示从正态总体作样本例数为11的随机抽样,其t值服从=n-1=11-1=10的t分布,理论上P(t≤-1.812)=0.05,或P(t≥1.812)=0.05用一般的表示法为单侧:P(t≤-tα,ν)=α,或P(t≥tα,ν)=α双侧:P(t≤-tα,ν)+P(t≥tα,ν)=α反之P(-tα,ν<t<tα,ν)=1-α23Parameterestimation

参数估计是通过样本指标(统计量)来估计总体指标(参数)。它包括两种方法:点(值)估计(pointestimation):即把样本统计量直接作为总体参数的估计值,如用样本均数来估计总体均数。这种方法虽然很简单,但是未涉及随机误差。区间估计(internalestimation)即按一定的概率估计总体均数在哪个范围。它把抽样误差引入估计量,是确定具有特定概率意义的区间。24Confidenceinterval(CI)可信区间是从总体中作随机抽样,每个样本可以算出一个可信区间,如95%可信区间,意味着100次抽样,算得100个可信区间,平均有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计错误)。5%是小概率事件,实际发生的可能性小,因此,在实际应用中就认为总体均数在算得的可信区间内,这种估计方法会冒5%犯错误的风险。25Intervalestimationofm

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论