版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、正态分布浅谈摘 要 正态分布在概率论与数理统计中占有很重要的地位,是许多概率形成的理论基础,它是不以人的主观思想而转移的。正态分布有统一的表达式,通过表达式我们可以发现正态分布是一个怎样的分布。在自然界和人类活动的范畴里,大量的随机变量都服从正态分布,如测量误差、产品的各类质量指标、人的身高、某一区域的成绩、计算机大量的数据处理和内部的算法运行等等都趴在了正态分布的曲线图上,可以说,服从正态分布的随机变量应用已经是自然的规律,所以多年来科学家对正态分布的探究是非常值得的。本文通过对正态分布的基础入手,阐述正态分布在各行业所起的作用,如机械设计、医疗统计、水平测试等。关键词 正态分布;表达式;应
2、用1、 正态分布的由来和发展正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文学家(棣莫佛)于1733年首次提出的,但由于德国数学家gauss率先将其应用于天文学家研究,故正态分布又叫高斯分布。高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,后世之所以多将最小二乘法的发明权归之于他,也是出于这一工作。高斯是一个伟大的数学家,重要的贡献不胜枚举。但现今德国10马克的印有高斯头像的钞票,其上还印有正态分布的密度曲线。这传达了一种想法:在高斯的一切科学贡献中,其对人类文明影响最大者,就是这一项。在高斯刚作出这个发现之初,也许人们还只能从其理论的简化上来评价其优越
3、性,其全部影响还不能充分看出来。这要到20世纪正态小样本理论充分发展起来以后。拉普拉斯很快得知高斯的工作,并马上将其与他发现的中心极限定理联系起来,为此,他在即将发表的一篇文章(发表于1810年)上加上了一点补充,指出如若误差可看成许多量的叠加,根据他的中心极限定理,误差理应有高斯分布。这是历史上第一次提到所谓“元误差学说”误差是由大量的、由种种原因产生的元误差叠加而成。后来到1837年,海根在一篇论文中正式提出了这个学说。其实,他提出的形式有相当大的局限性:海根把误差设想成个数很多的、独立同分布的 “元误差” 之和,每只取两值,其概率都是1/2,由此出发,按狄莫佛的中心极限定理,立即就得出误
4、差(近似地)服从正态分布。拉普拉斯所指出的这一点有重大的意义,在于他给误差的正态理论一个更自然合理、更令人信服的解释。因为,高斯的说法有一点循环论证的气味:由于算术平均是优良的,推出误差必须服从正态分布;反过来,由后一结论又推出算术平均及最小二乘估计的优良性,故必须认定这二者之一(算术平均的优良性,误差的正态性)为出发点。但算术平均到底并没有自行成立的理由,以它作为理论中一个预设的出发点,终觉有其不足之处。拉普拉斯的理把这断裂的一环连接起来,使之成为一个和谐的整体,实有着极重大的意义。联系和发展是事物发展变化的基本规律。任何事物都有其产生、发展和灭亡的历史,如果我们把正态分布看做是任何一个系统
5、或者事物的发展过程的话,我们明显的看到这个过程经历着从负区到基区再到正区的过程。无论是自然、社会还是人类的思维都明显的遵循这这样一个过程。准确的把握事物或者事件所处的历史过程和阶段极大的有助于掌握我们对事物、事件的特征和性质,是我们分析问题,采取对策和解决问题的重要基础和依据。发展的阶段不同,性质和特征也不同,分析和解决问题的办法要与此相适应,这就是具体问题具体分析,也是解放思想、实事求是、与时俱进的精髓。正态发展的特点还启示我们,事物发展大都是渐进的和累积的,走渐进发展的道路是事物发展的常态。例如,遗传是常态,变异是非常态。总之,正态分布论是科学的世界观,也是科学的方法论,是我们认识和改造世
6、界的最重要和最根本的工具之一,对我们的理论和实践有重要的指导意义。以正态哲学认识世界,能更好的认识和把握世界的本质和规律,以正态哲学来改造世界,能更好的在尊重和利用客观规律,更有效的改造世界。2、 正态分布的性质和概念2.1性质:1、一般正态分布表达式: 标准正态分布表达式:2、关于直线对称,当时,达到最大值,曲线有拐点 (,);3、以 轴为渐近线;4、若固定,改变的值,则曲线沿轴平行移动,曲线的几何形状不变,若固定,改变的值,越大的图形越平坦,越小的图形越陡峭如下图。注:参数为算术平均数,一般情况下可认为是众数,满足;为标准差,即方差的算术平方根,必须满足。 特别地,当=0,=1时,称x服从
7、标准正态分布,即xn(0,1),其概率密度函数记为 是显然的,又因为记i=,则 令,则 所以,则 而也是显然的,又 这里不仅证明了是整个实数范围内的,而且证明了一般正态分布表达式对积分的最后结果为1,即,这里可以发现是全体实数范围的,如果是在某个范围内的,就可以计算出这个范围内的出现几率有多大,这就是我们接下来要谈到的正态分布应用。2.2概念: 1、正态分布曲线是高峰位于中央,两侧逐渐下降,左右对称,永远不与横轴相交的曲线。2、正态分布的密度函数:(1)f(x)为与x对应的正态曲线的纵坐标高度;(2)为总体均数;(3)为总体标准差;(4)为圆周率,即3.141592654;(5)e为自然对数,
8、即2.71828.由一般分布的频数表资料所绘制的直方图,图(1)可以看出,高峰位于中部,左右两侧大致对称。我们设想,如果观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线。这条曲线称为频数曲线或频率曲线,近似于数学上的正态分布(normal distribution)。由于频率的总和为100%或1,故该曲线下横轴上的面积为100%或1。为了应用方便,常对正态分布变量x作变量变换。该变换使原来的正态分布转化为标准正态分布 (standard normal distribution),亦称u分布。u被称为标准正
9、态变量或标准正态离差(standard normal deviate)。实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计。3、 一般概率分布的正太近似在自然界与工程实践中,经常会遇到大量随机变量是服从正态分布的,而在某些条件下,即使原来并不服从正态分布的一些随机变量,它们的和的分布当随机变量的个数无限增加时也趋于正态分布。我们就先来说说我们熟知的二项分布,例如:假设按一种制造方法生产一批垫圈,这些垫圈大约有5%是次品,如果检
10、查了100个垫圈,问次品数小于4的概率是多少?令是已发现的垫圈的次品数,则, 要直接计算这一概率是相当困难的,这时我们可以考虑不直接去求,而是间接的去求。在二项分布的概率计算中,当试验次数增加,而每次试验中某事件出现的概率很小,即当n很大,p很小,而np大小适中时,可以证明有近似公式: 其中,于是考虑.这一概率以颇为复杂的形式依赖于n,且当n趋向于无穷大时上式将变成怎样的表达式是不清楚的。这时我们需要用到司蒂灵(stirling)公式,当n趋向无穷大时, 这个近似值的对与否我们不是很清楚,下表可以使我们对这一近似值的准确性有所了解.注:虽然n!与近似值之差当时变得较大,但从下表我们得知它们的误
11、差率越变越小,就是说差值大并不影响它们近似。nn!差值110.9220.0780.08221.9190.0810.045120118.0191.9810.02100.0081000.0008对的表示式中所出现的阶乘应用司蒂灵公式,可以证明(经大量运算后),当n充分大时由此我们得到下面结果: 若x为具有参数为n和p的二项分布,且若 y具有渐进分布.这一近似对于n10,只要接近时是有效的.如果p接近于0或1,则n应稍为大一些以便保证良好的近似.回到上面的例子,我们想到e(x)=np=100(0.05)=5v(x)=np(1-p)=4.75因此由正态分布表我们写为 = 注:在应用二项分布的正态近似时
12、,我们是用一个连续随机变数的分布来近似一个离散随机变数的分布。因此必须注意所包含区间的端点。 所以对上面的公式加以修正之后得到: (a), (b)。对于上面的例子计算,采用后面的修正,得 从这里可以看出,当二项分布的频数无限增大时,二项分布就会无限接近正态分布。许多观察表明,如果大量独立的偶然因素对总和的影响都是均匀的、微小的、彼此又是独立的,即其中没有哪一项起特别突出的作用,那么就可以断定描述这些大量独立的偶然因素的总和的随机变量是近似服从正态分布的,像泊松分布,帕斯卡尓分布和伽玛分布。4、 正态分布在生活中的应用 正态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近
13、似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;某些医学现象,如人的身高、红细胞数、血红蛋白量、胆固醇、体重等指标;人类活动的某一指标或水平划分;同一种种子的重量;测量同一物体的误差;某个地区的年降水量;以及理想气体分子的速度分量,等等。4.1 零件规格的设计由自动生产线加工的某种零件的内径x(毫米)服从正态分布n(,1),平均内径是待定的,可以通过调整该自动生产线来设定,方差反映这条自动生产线的加工精度。如果加工的零件内径小于10或大于12均为不合格品,其余为合格品。销售每件合格品获利,销售每件不合格品亏损,已知销售利润l(单位:元)与销售零件的内
14、径x有如下关系: 问:平均直径为何值时,才能使销售一个零件的平均利润最大?由于l是随机变量,它是x的函数,所以平均利润即为期望利润。由,那么 可知,期望利润与平均内径有关,是的一元函数。 为了求期望利润e(l)的最大值,令,其中、分别为标准正态分布的分布函数与概率密度函数,则解之,得 由此可知,当平均内径设定为10.9毫米时,可使销售每个零件的平均利润最大。4.2 某些医学现象的正态分布统计 某地抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;分别求x1s、x1.96s
15、、x2.58s范围内18岁男大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。本例中,、未知但样本含量n较大,按式(3.1)用样本均数x和标准差s分别代替和,求得u值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线下的面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交处为0.1210=12.10%。该地18岁男大学生身高在168cm以下者,约占总数12.10%。其它计算结果见下表。表3 100名18岁男大学生身高的实际分布与理论分布分布xs身高范围(cm)实际分布人数实际分布百分数(%)理论分布(%)x1s168.69176.716767.006
16、8.27x 1.96s164.84180.569595.0095.00x2.58s162.35183.059999.0099.00 制定医学参考值范围:它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定正常值范围时,首先要确定一批样本含量足够大的“正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定
17、单侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有:正态分布法:适用于正态或近似正态分布的资料。双侧界值:xu(u)s单侧上界:x+u(u)s,或单侧下界:x-u(u)s对数正态分布法:适用于对数正态分布资料。双侧界值:lg-1x(lgx) u(u)s(lgx);单侧上界:lg-1x(lgx)+u(u)s(lgx),或单侧下界:lg-1x(lgx)-u(u)s(lgx)。常用u值可根据要求由下表查出。百分位数法:常用于偏态分布资料以及资料中一端或两端无确切数值的资料。常用u值表参考值范围(%)单侧双侧800.8421.282901.2821.645951.6451.9609
18、92.3262.5764.3 人类活动的指标和水平划分的计算 高考后,考生填报志愿时,下列两个问题就显得很重要:(1)高考后(或前)希望能准确估计自己的标准分和“百分位”(百人中所处的位置);(2)希望从考生手册中往年高校第一志愿实际录取的最高、最低、平均分三个数据获取更多更准确的信息。不以人们意志而转移的统计规律正态分布理论,就可以帮助我们估计,实现这两个目的。一个学校在正常情况下,同类考生都有一、二百人以上规模,这已经算大样本容量了。只要教学和考试秩序正常,某些成绩与全省同类考生的成绩就必然表现出正态分布的特征。我们还知道影响本届考生成绩的敏感因素还有试卷难易程度、环境因素、心里能力等因素
19、。个别考生也许会发挥异常,但一个学校一、二百个以上学生的成绩,会在全省众多同类考生之中因考试(统计学称为试条件相同引起的异常波动却是很小的)就是说,一个学校、二百个以上考生成绩在全省里面有较高相对稳定性。所以只有把每一个考生考后所估计比较真实的成绩放在整个学校,以大样本来分析才能保证用总体正态的特征来判断考生成绩所处位置的科学性。这里以某年西安电子科大在福建实录第一志愿40名考生为例,当时最低、最高、平均分分别是634、714、660分,现计算分析如下:(1) 把634,714隔10分分为8个段把分点换算为实际标准分;=(634500)100=134 =144=2.14(2) 查标准正态分布表
20、算出大“曲边梯形”面积:=(0.24)-(1.23)=0.07394(3) 查标准正态分布表算出8个小“曲边梯形”面积:=(1.44)一(1.34)=0.01519=0.01315,=0.00128=0.00957,=0.00805 =0.00450(4)算出落在80分数段的录取人数40。要注意的是,根据标准正态分布的特征8个数据40。均应采用去尾法所得整数作为所估实录人数,但考虑到最高分数段录取人数往往手步一人所以如果最高分数段录取人数出现040l,则要令40=1;次高分数段也类似处理;最低分数段以外的各段录取人数之和去减录取总人数所得的差就作为最低分数段录取人数。 在计算机方面我们也可以发现正态分布的应用。设若
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《工程伦理》大二题集
- 平面设计 毕业论文
- 南宁2024年小学六年级英语第二单元期中试卷
- 2024-2025学年苏科版物理九年级上学期期中模拟测试卷(二)
- 2024年10版小学五年级英语第五单元期中试卷
- 2024年非机械驱动车辆项目投资申请报告代可行性研究报告
- 2024-2025学年高一上学期英语语法填空每日一练4(2篇含解析)
- 2024年醌类项目资金需求报告代可行性研究报告
- 2024年院前急救信息系统项目投资申请报告代可行性研究报告
- 【北师】期中模拟卷01【1-5章】
- 市政道路监理规划方案及实施工作细则
- 2024年档案管理中级考试试卷及答案发布
- 外国新闻传播史 课件 第二十章 澳大利亚的新闻传播事业
- 妊娠期及产褥期静脉血栓栓塞症预防和诊治试题及答案
- 好的六堡茶知识讲座
- 环境科学大学生生涯发展报告
- 钢筋优化技术创效手册(2022年)
- 医学课件指骨骨折
- 酒店式公寓方案
- 二年级下册语文课件-作文指导:13-通知(23张PPT) 部编版
- 同先辈比我们身上少了什么
评论
0/150
提交评论