浅析正太分布_第1页
浅析正太分布_第2页
浅析正太分布_第3页
浅析正太分布_第4页
浅析正太分布_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 唐山师范学院本科毕业论文题目浅析正态分布学生陈焕指导教师滕文凯教授年级2010级专业数学与应用数学系别数计系唐山师范学院数计系2010年5月郑重声明本人的毕业论文是在指导教师滕文凯教授的指导下独立撰写完成的。如有剽窃、抄袭、造假等违反学术道德、学术规范和侵犯的行为,本人愿意承担由此产生的各种后果。直至法律责任,并愿意通过网络接受公众的监督。特此声明。毕业论文作者:陈焕2012年2月11日目录标题4中文摘要4正太分布的背景及历史发展4正太分布的定义5TOC o 1-5 h z正太分布的特征5正太分布的曲线特征5 HYPERLINK l bookmark10 正态曲线下面积分布6 HYPERLI

2、NK l bookmark12 特殊的正太分布一标准正太分布6标准正态分布的概念6一般正态分布与标准正态分布的转化6正态分布与标准正态分布的区别与联系6 HYPERLINK l bookmark16 正太分布曲线应用7综述7 HYPERLINK l bookmark18 正太分布在医学上的应用8 HYPERLINK l bookmark20 统计方法的理论基础8概率论中最重要的分布8 HYPERLINK l bookmark24 正太分布的意义9整体论9重点论9发展论9总结10参考文献10致谢11浅析正态分布陈焕摘要在概率论中有一种十分重要的连续型随机变量的概率分布即正太分布。它也是自然界最为

3、常见的一种分布。实际问题中的许多随机变量现象都服从或者近似服从正态分布。正太分布对概率论统计中的理论研究和实际应用骑着非常重要的作用。本文首先从正太分布的背景出发,介绍了它的来源、历史发展进程,然后阐释了它的定义、性质、图像、特征,而后介绍了典型的正太分布即标准正态分布,最后根据其定义、性质、特征阐述了它在我们日常生活、生产以及科学研究中的用途和所起的作用与其发展方向。关键字正太分布高斯分布方差图像特征正太分布在概率论与数理统计中是一个非常重要的理论和实践价值的分布。数学中的极限定理证明,如果一个随机变量是由大量相互随机独立的因素影响造成的(不管这些因素本身服从什么分布),那么这个变量就服从或

4、者近似服从正态分布。因此,由不能控制的大量偶然因素所造成的随机误差就服从或者近似服从正态分布一、正态分布的背景及历史发展正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家Gauss率先将其应用于天文学家研究,故正态分布又叫高斯分布,高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,后世之所以多将最小二乘法的发明权归之于他,也是出于这一工作。高斯是一个伟大的数学家,重要的贡献不胜枚举。但现今德国10马克的印有高斯头像的钞票,其上还印有正态分布的密度曲线。这传达了一种想法:在高斯的一切科学贡献中,其对人类文

5、明影响最大者,就是这一项。在高斯刚作出这个发现之初,也许人们还只能从其理论的简化上来评价其优越性,其全部影响还不能充分看出来。这要到20世纪正态小样本理论充分发展起来以后。拉普拉斯很快得知高斯的工作,并马上将其与他发现的中心极限定理联系起来,为此,他在即将发表的一篇文章(发表于1810年)上加上了一点补充,指出如若误差可看成许多量的叠加,根据他的中心极限定理,误差理应有高斯分布。这是历史上第一次提到所谓“元误差学说”误差是由大量的、由种种原因产生的元误差叠加而成。后来到1837年,海根(G.Hagen)在一篇论文中正式提出了这个学说。其实,他提出的形式有相当大的局限性:海根把误差设想成个数很多

6、的、独立同分布的“元误差”之和,每只取两值,其概率都是1/2,由此出发,按狄莫佛的中心极限定理,立即就得出误差(近似地)服从正态分布。拉普拉斯所指出的这一点有重大的意义,在于他给误差的正态理论一个更自然合理、更令人信服的解释。因为,高斯的说法有一点循环论证的气味:由于算术平均是优良的,推出误差必须服从正态分布;反过来,由后一结论又推出算术平均及最小二乘估计的优良性,故必须认定这二者之一(算术平均的优良性,误差的正态性)为出发点。但算术平均到底并没有自行成立的理由,以它作为理论中一个预设的出发点,终觉有其不足之处。拉普拉斯的理论把这断裂的一环连接起来,使之成为一个和谐的整体,实有着极重大的意义。

7、二、正太分布的定义正太分布的概念正态分布(normaldistribution)又名高斯分布(Gaussiandistribution),是具有两个参数卩和。2的连续型随机变量的分布,第一个参数卩是服从正太分布的随机变量的均值,第二个参数。2是此随机变量的方差。即:Fx=亠xe-fdy。所以正太分布记作na_8NU,。2。则其概率密度函数为正态分布的期望值M决定了其位置,其标准差O决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是M=0,0=1的正态分布。三、正太分布的特征(一)正太分布的曲线特征正态曲线呈钟型如图1,两头低,中间高,左右对称,曲线与横

8、轴间的面积总等于1集中性:正态曲线的高峰位于正中央,即均数所在的位置。对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。正态分布有两个参数,即均数p和标准差O,可记作N(p,o):均数p决定正态曲线的中心位置;标准差0决定正态曲线的陡峭或扁平程度。0越小,曲线越陡峭;0越大,曲线越扁平。u变换:为了便于描述和应用,常将正态变量作数据转换。是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以X=p为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于p。0描述正态分布资料数据分布的离散程度,0越大

9、,数据分布越分散,0越小,数据分布越集中。也称为是正态分布的形状参数,0越大,曲线越扁平,反之,0越小,曲线越瘦高。注意:30原则:“0小细高挑,0大腰圆膀又拃”图1(二)正态曲线下面积分布1实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。不同范围内正态曲线下的面积可用公式计算。几个重要的面积比例如图2.轴与正态曲线之间的面积恒等于1。正态曲线下,横轴区间(M-o,p+o)内的面积为68.268949%,横轴区间(p-1.96o,p+1.96O)内的面积为95.449974%,横轴区间(p-2.58o,p+2.58o)内的面积为

10、99.730020%。四、特殊的正太分布标准正太分布标准正态分布的概念标准正态分布是一种特殊的正态分布,标准正态分布的p和o2为0和1,通常用(或Z)表示服从标准正态分布的变量,记为ZN(0,1)。2标准化变换:此变换有特性:若原分布服从正太分布,则Z=(x-u)/oN(0,1)就服从标准正态分布,ram后通过查标准正太分布表就可以直接计算出原正太分布的概率值标准正太分布表:标准正太分布表列出了标准正太曲线下从-8到X(当前值)范围内的比例。一般正态分布与标准正态分布的转化由于一般的正态总体其图像不一定关于y轴对称,对于任一正态总体,其取值小于x的概率。只要会用它求正态总体在某个特定区间的概率

11、即可。“小概率事件”和假设检验的基本思想“小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。这种认识便是进行推断的出发点。关于这一点我们要有以下两个方面的认识:一是这里的“几乎不可能发生”是针对“一次试验”来说的,因为试验次数多了,该事件当然是很可能发生的;二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时,我们也有5%的犯错误的可能。正态分布与标准正态分布的区别与联系正态分布也叫常态分布,是连续随机变量概率分布的一种,自然界、人类社会、心理和教育中大量现象均按正态形式分布,例如能力的高低,学生成绩的好坏等都属于正态分布。标准正态分布是正态分布的一种

12、,具有正态分布的所有特征。所有正态分布都可以通过Z分数公式转换成标准正态分布。两者特点比较:正态分布的形式是对称的,对称轴是经过平均数点的垂线。中央点最高,然后逐渐向两侧下降,曲线的形式是先向内弯,再向外弯。正态曲线下的面积为1。正态分布是一族分布,它随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态。标准正态分布是正态分布的一种,其平均数和标准差都是固定的,平均数为0,标准差为1。正态分布曲线下标准差与概率面积有固定数量关系。所有正态分布都可以通过Z分数公式转换成标准正态分布。五、正太分布曲线应用正态分布有极其广泛的实际背景,它不仅在在医学方面起到很大的作用,在生产与科学实验中也起

13、到十分重要的作用。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。其主要应用如下(一)综述1.估计频数分布一个服从正态分布的变量只要知道其均数与标准差就可根据公式即可估计任意取

14、值范围内频数比例。制定参考值范围(1)正态分布法适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。(2)百分位数法常用于偏态分布的指标。表3-1中两种方法的单双侧界值都应熟练掌握。质量控制:为了控制实验中的测量(或实验)误差,常以作为上、下警戒值,以作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。正态分布是许多统计方法的理论基础。检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。例1.

15、10某地1993年抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;分别求X+-1s、X+-1.96s、X+-2.58S范围内18岁男大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。本例,|J、O未知但样本含量n较大,用样本均数X和标准差S分别代替p和O,求得u值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线下的面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交处为0.1210=12.10%。该地18岁男大学生身高在16

16、8cm以下者,约占总数12.10%。其它计算结果见表1。表1100名18岁男大学生身高的实际分布与理论分布分布x+-s身咼范围(cm)实际分布人数实际分布百分数(%)理论分布()X+-1s168.69176.716767.0068.27X+-1.96s164.84180.569595.0095.00X+2.58s162.35183.059999.0099.00X+2.58s162.35183.059999.0099.00(二)正太分布在医学上的应用某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后

17、的新变量可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。医学参考值范围亦称医学正常值范围。它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定正常值范围时,首先要确定一批样本含量足够大的“正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单

18、侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有:(1)正态分布法:适用于正态或近似正态分布的资料。双侧界值:X+-u(u)S单侧上界:X+u(u)S,或单侧下界:X-u(u)S(2)对数正态分布法:适用于对数正态分布资料。双侧界值:lgTX(lgx)+-u(u)S(lgx);单侧上界:lg-1X(lgx)+u(u)S(lgx),或单侧下界:lg-1X(lgx)-u(u)S(lgx)。常用u值可根据要求由表4查出。百分位数法:常用于偏态分布资料以及资料中一端或两端无确切数值的资料。双侧界值:P2.5和P97.5;单侧上界:P95,或单侧下界:P5。表2常用u值表参考值范围(

19、%)单侧双侧800.8421.282901.2821.645951.6451.960992.3262.576六、统计方法的理论基础(一)概率论中最重要的分布以下分布都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础的1.t分布F分布兀、二项分布:pk=P0=k=上pkqn-k,0k0,0k0是某个常数,易k!于验证有(1)P单=k0,k=0,1,2+=0p=k)=+=0临e-a=1此外t分布,二项分布,泊松(Poisson)分布的极限为正太分布,在一定条件下,可以按照正态分布的原理来处理。七、正太分布的意义在联系自然、社会和思维的实践背景下,我们以正态分布的本质为基础,以正态分布曲线

20、及面积分布图为表征(以后谈及正态分布及正态分布论就要浮现此图),进行抽象与提升,抓住其中的主要哲学内涵,归纳正态分布论(正态哲学)的主要内涵如下:(一)整体论正太分布启示我们,要用整体的观点来看事物。“系统的整体观念或总体观念是系统概念的精髓。”正态分布曲线及面积分布图由基区、负区、正区三个区组成,并且各区的比重是不一样的。用整体来看事物才能看清楚事物的本来面貌,才能得出事物的根本特性。不能只见树木不见森林,也不能以偏概全。用整体观来看世界就是要立足在基区,放眼负区和正区。要看到主要方面,还要看到次要方面,既要看到积极的方面还要看到事物消极的一面,看到事物前进的一面还要看到落后的一面。片面看事物必然看到的是偏态或者是变态的事物不是真实的事物本身。(二)重点论正态分布曲线及面积分布图非常清晰的展示了重点,那就是基区占68.27%,是主体,要重点抓,此外95%,99%则展示了正态的全面性。认识世界和改造世界一定要抓住重点,因为重点就是事物的主要矛盾,它对事物的发展起主要的、支配性的作用。抓住了重点才能一举其纲,万目皆张。事物和现象纷繁复杂,在千头万绪中不抓住主要矛盾,就会陷入无限琐碎之中。由于我们时间和精力的相对有限性,出于效率的追求,我们更应该抓住重点。在正太分布中基区占了主体和重点。(三)发展论联系和发展是事物发展变化的基本规律

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论