版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、-作者xxxx-日期xxxx概率统计补充案例【精品文档】补充案例:概率部分:案例1、“三人行必有我师焉”案例2、抓阄问题案例3、贝叶斯方法运用案例介绍案例4、化验呈阳性者是否患病案例5、敏感性问题的调查案例6、泊松分布在企业评先进中的应用案例7、碰运气能否通过英语四级考试案例8、检验方案的确定问题 案例9、风险型决策模型 案例10、一种很迷惑游客的赌博游戏案例11、标准分及其应用案例12、正态分布在人才招聘中的应用案例13、预测录取分数线和考生考试名统计部分:案例14、随机变量函数的均值和标准差的近似计算方法 案例15、如何表示考试成绩比较合理案例16、如何估计湖中黑、白鱼的比例案例17、预测
2、水稻总产量 案例18、工程师的建议是否应采纳案例19、母亲嗜酒是否影响下代的健康案例20、银行经理的方案是否有效案例21、一元线性回归分析的Excel实现 案例22、方差分析的Excel实现 案例23、 预测高考分数 案例24、两次地震间的间隔时间服从指数分布案例1、“三人行必有我师焉”我们可以运用概率知识解释孔子的名言“三人行必有我师焉”. 首先我们要明确一个问题,即只要在某一方面领先就可以为师(韩愈说“术业有专攻”). 俗语说“三百六十行,行行出状元”,我们不妨把一个人的才能分成360个方面。孔子是个大圣人,我们假设他在一个方面超过某个人的概率为99,那么孔子在这方面超过与他“同行”的两个
3、人的概率为99 99 =98.0l,在360个方面孔子总比这两人强的概率为(98.01)360=0.07 ,即这两个人在某一方面可以做孔子老师的概率为99.93.从数学角度分析,孔子的话是很有道理的.案例2、抓阄问题一项耐力比赛胜出的10人中有1 人可以获得一次旅游的机会,组织者决定以抓阄的方式分配这一名额. 采取一组10人抓阄,10张阄中只有一张写“有”. 每个人都想争取到这次机会,你希望自己是第几个抓阄者呢? 有人说要先抓,否则写有“有”的阄被别人抓到,自己就没有机会了;有人说不急于先抓,如果前面的人没有抓到写有“有”的阄,这时再抓抓到“有”的机会会大一些. 为了统一认识,用概率的方法构造
4、一个摸球模型来说明问题. 摸球模型:袋中装有1 个红球和9 个黄球除颜色不同外球的大小、形状、质量都相同. 现在10 人依次摸球(不放回),求红球被第 个人摸到的概率( = 1, 2, , 10). 解决问题 :设 = “ 第 个人摸到红球 , = 1, 2, , 10. 显然,红球被第一个人摸到的概率为 . 因为 ,于是红球被第二个人摸到的概率为 . 同样,由 知红球被第三个人摸到的概率为 . 如此继续,类似可得 = . 由此可见,其结果与 无关,表明10 个人无论摸球顺序如何,每个人摸到红球的机会相等. 这也说明10 个人抓阄,只要每个人在抓之前不知道他前边那些已经抓完的结果,无论先后,
5、抓到的机会是均等的. 在现实生活中单位分房、学生分班、短缺物品的分配等,人们常常乐于用抓阄的办法来解决,其合理性保证当然得归功于“概率”. 通过上面的摸球模型,我们总结出分配中的“抓阄”问题,无论先抓后抓, 结果是一样的.学完概率之后再遇到抓阄问题时不必争先恐后,我们要发扬风格让他人先抓.案例3、贝叶斯方法运用案例介绍什么是贝叶斯过滤器? 垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。 正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有关键词法和校验码法等。前者的过滤依据是特定的词语;后者则是计算邮件文本的校验码,再与已知的垃圾邮件进行对比。它们的识别效果都不理想,而且很
6、容易规避。 2002年,Paul Graham提出使用贝叶斯推断过滤垃圾邮件。他说,这样做的效果,好得不可思议。1000封垃圾邮件可以过滤掉995封,且没有一个误判。 另外,这种过滤器还具有自我学习的功能,会根据新收到的邮件,不断调整。收到的垃圾邮件越多,它的准确率就越高。 建立历史资料库 贝叶斯过滤器是一种统计学过滤器,建立在已有的统计结果之上。所以,我们必须预先提供两组已经识别好的邮件,一组是正常邮件,另一组是垃圾邮件。 我们用这两组邮件,对过滤器进行训练。这两组邮件的规模越大,训练效果就越好。Paul Graham使用的邮件规模,是正常邮件和垃圾邮件各4000封。 训练过程很简单。首先,
7、解析所有邮件,提取每一个词。然后,计算每个词语在正常邮件和垃圾邮件中的出现频率。比如,我们假定sex这个词,在4000封垃圾邮件中,有200封包含这个词,那么它的出现频率就是5%;而在4000封正常邮件中,只有2封包含这个词,那么出现频率就是0.05%。(【注释】如果某个词只出现在垃圾邮件中,Paul Graham就假定,它在正常邮件的出现频率是1%,反之亦然。随着邮件数量的增加,计算结果会自动调整。) 有了这个初步的统计结果,过滤器就可以投入使用了。 贝叶斯过滤器的使用过程 现在,我们收到了一封新邮件。在未经统计分析之前,我们假定它是垃圾邮件的概率为50%。(【注释】有研究表明,用户收到的电
8、子邮件中,80%是垃圾邮件。但是,这里仍然假定垃圾邮件的先验概率为50%。) 我们用S表示垃圾邮件(spam),H表示正常邮件(healthy)。因此,P(S)和P(H)的先验概率,都是50%。 然后,对这封邮件进行解析,发现其中包含了sex这个词,请问这封邮件属于垃圾邮件的概率有多高? 我们用W表示sex这个词,那么问题就变成了如何计算P(S|W)的值,即在某个词语(W)已经存在的条件下,垃圾邮件(S)的概率有多大。 根据条件概率公式,马上可以写出 公式中,P(W|S)和P(W|H)的含义是,这个词语在垃圾邮件和正常邮件中,分别出现的概率。这两个值可以从历史资料库中得到,对sex这个词来说,
9、上文假定它们分别等于5%和0.05%。另外,P(S)和P(H)的值,前面说过都等于50%。所以,马上可以计算P(S|W)的值: 因此,这封新邮件是垃圾邮件的概率等于99%。这说明,sex这个词的推断能力很强,将50%的先验概率一下子提高到了99%的后验概率。 联合概率的计算 做完上面一步,请问我们能否得出结论,这封新邮件就是垃圾邮件? 回答是不能。因为一封邮件包含很多词语,一些词语(比如sex)说这是垃圾邮件,另一些说这不是。你怎么知道以哪个词为准? Paul Graham的做法是,选出这封信中P(S|W)最高的15个词,计算它们的联合概率。(【注释】如果有的词是第一次出现,无法计算P(S|W
10、),Paul Graham就假定这个值等于0.4。因为垃圾邮件用的往往都是某些固定的词语,所以如果你从来没见过某个词,它多半是一个正常的词。) 所谓联合概率,就是指在多个事件发生的情况下,另一个事件发生概率有多大。比如,已知W1和W2是两个不同的词语,它们都出现在某封电子邮件之中,那么这封邮件是垃圾邮件的概率,就是联合概率。 在已知W1和W2的情况下,无非就是两种结果:垃圾邮件(事件E1)或正常邮件(事件E2)。 其中,W1、W2和垃圾邮件的概率分别如下: 如果假定所有事件都是独立事件(【注释】严格地说,这个假定不成立,但是这里可以忽略),那么就可以计算P(E1)和P(E2): 又由于在W1和
11、W2已经发生的情况下,垃圾邮件的概率等于下面的式子: 即将P(S)等于0.5代入,得到 将P(S|W1)记为P1,P(S|W2)记为P2,公式就变成 这就是联合概率的计算公式。 最终的计算公式 将上面的公式扩展到15个词的情况,就得到了最终的概率计算公式: 一封邮件是不是垃圾邮件,就用这个式子进行计算。这时我们还需要一个用于比较的门槛值。Paul Graham的门槛值是0.9,概率大于0.9,表示15个词联合认定,这封邮件有90%以上的可能属于垃圾邮件;概率小于0.9,就表示是正常邮件。 有了这个公式以后,一封正常的信件即使出现sex这个词,也不会被认定为垃圾邮件了。案例4、化验呈阳性者是否患
12、病在医疗中经常通过化验来诊断。当某人做癌症检查结果呈阳性时,他就患癌症了?其实不然。假设某一地区患有癌症的人占0.005,患者对一种试验反应是阳性的概率为0.95,正常人对这种试验反应是阳性的概率为0.04,现抽查了一个人,试验反应是阳性,问此人是癌症患者的概率有多大?设C=抽查的人患有癌症,A=试验结果是阳性,则表示“抽查的人不患癌症”。已知, , 。由贝叶斯公式,可得代入数据计算得: P(CA)= 0.1066 。在以上假设下,做癌症检查结果呈阳性的人确患癌症的概率为仅为0.1066,平均来说,1000个人中大约只有107人确患癌症。这是不是意味着这种试验对于诊断一个人是否患有癌症没有意义
13、呢?不是!如果不做试验,一人是患者的概率为0.005。若试验后得阳性反应,则此人是患者的概率为0.1066, 从0.005增加到0.1066,将近增加约21倍,说明这种试验对于诊断一个人是否患有癌症有意义。案例5、敏感性问题的调查学生阅读不健康书刊或录像会严重影响学生的身心健康. 但这些都是避着家长和教师进行的,属个人隐私行为. 我们如何设计一种调查方案,能够估计出大学生中看过不健康书刊或录像的人数的比率呢?对这种敏感性问题的调查,被调查者会有一种顾虑,害怕调查者不能很好的保守秘密. 如果被调查者不愿意真实回答问题,将使调查数据失真,这样的统计结果将没有意义. 因此巧妙设计调查方案是获得真实数
14、据的关键. 经过多年的研究和实践,一些统计学家和心理学家发明了一种能消除人们抵触情绪的“随机化应答”方法. 被调查者只需回答两个问题之一,而且只需回答“是”或“否”,设计的问题如下: 问题A:你的生日是否在 7月1日 之前? 问题B:你是否看过不健康书刊? A;若抽出黑球则回答问题B. 箱中黑球所占比率 是已知的,即 , . 被调查者无论回答A或B,都只需在一张只有“是”、“否”两个选项的答案上做出选择,然后投入密封的投票箱内. 上述抽球和答卷都在无人的情况下进行,这样就可以消除被调查者的顾虑,从而可以保证答卷的真实可靠性.打开投票箱进行统计,设共有 张有效答卷,其中 张选择“是”,那么可用频
15、率 估计回答“是”的概率 为: .回答“是”有两种情况:一种是摸到白球后对问题A回答“是”,也就是被调查者 “生日在7月1日之前”的概率,一般认为这个概率是,即 ;另一种是摸到黑球后对问题B回答“是”,这个条件概率就是看不健康书刊的学生在参加调查的学生中的比率 ,即 .利用全概率公式得,即 .由此可获得 .假设在一次实际调查中,箱子中共有50个球,其中30个是黑球,20个白球,则 . 调查结束时共收到1583张有效答卷,其中有389张回答“是”,据此可估算出.这表明1583名学生中,约 %的学生看过不健康书刊.案例6、泊松分布在企业评先进中的应用某工业系统在进行安全管理评选时,有两家企业在其它
16、方面得分相等,难分高下。只剩下千人事故率这个指标,甲企业有2000人,发生事故率为0.005,即发生事故10起。乙企业有1000人,发生事故率也为0.005,即发生事故5起。那么,应该评选谁为先进企业呢? 显然,按事故数来评,则应评乙企业为先进。但甲企业不服。因为甲企业的事故数虽然是乙企业的2倍。但甲企业的人数正好是乙企业的2倍。按事故率来评,两企业应榜上有名。由于指标限制,只能评出一家企业,究竟评谁好呢? 可用泊松(Poisson)分布来解决这个问题。 统计资料表明:安全管理中的事故次数、负伤人数是服从泊松分布的。服从泊松分布的随机变量 取 值的概率为: 其中 ( 为人数, 为平均事故概率)
17、 事件发生了至少 次的概率为 若 ,上式 成为必然事件。 假设两厂均不发生事故得满分10分。两厂的均值分别为10与5,则两厂发生事故的概率为 两厂的得分为 查泊松分布表,得两厂的得分表 事故次数 0 1 2 3 4 5 6 7 8 9 10 得分 甲厂 10 10 10 9.97 9.9 9.71 9.33 8.7 7.80 6.67 5.42 得分 乙厂 10 9.93 9.60 8.75 7.34 5.60 3.84 2.37 1.33 0.68 0.32 由表可得,甲企业发生10起事故时得5.42分,乙企业发生5起事故得5.60分。故应评选乙企业为先进。案例7、碰运气能否通过英语四级考试
18、大学英语四级考试是全面检验大学生英语水平的一种综合考试,具有一定难度.这种考试包括听力、语法结构、阅读理解、写作等.除写作占15分外,其余85道为单项选择题,每道题附有A、B、C、D四个选项.这种考试方法使个别学生产生碰运气和侥幸心理. 那么,靠运气能通过英语四级考试吗?答案是否定的. 下面我们计算靠运气通过英语四级考试的概率有多大. 假定不考虑写作所占的15分,若按及格为60分计算,则85道选择题必须要答对51道题以上才行,这可以看成是85重伯努利试验.设随机变量表示答对的题数,则,其分布律为:若要及格,必须,其概率为此概率非常之小,故可认为靠运气通过英语四级考试几乎是不可能发生的事件,它相
19、当于在1000亿个碰运气的考生中,只有0.874个人可以通过考试. 然而,我们地球上只有60多亿人口.案例8、检验方案的确定问题 在某地区为了进行某种疾病普查,需要检验N 个人的血液,可用两种方法进行,方法(一):对每个人的血液逐个检验,这时需要检验N 次;方法(二):将N 个检验者分组,每组k个人,把一组的k个人抽出的血液混合在一起进行一次检验,如果检验结果为阴性,则说明这k个人的血液均为阴性,这时这k个人总共检验了一次;如果检验结果为阳性,为了明确这k个人中哪些人为阳性,就要对这k个人再逐个进行检验,这时这k 个人总共进行了 1 + k 次检验. 假设每个人的检验结果是否为阳性是独立的,且
20、每个人为阴性的概率为q. 问哪种检验方法检验次数少些? 对方法(二),设每个人所需检验次数是一个随机变量X ,则X 的分布律为 那么,N 个人平均需要检验的次数为 由此可知,适当选择k,使得 ,即当 时,则N 个人的平均需要检验的次数小于N ,这时方法(二)比方法(一)检验次数少. 如果q已知,还可以根据 选出使其最小的整数 ,从而使得检验次数最少. 比如, 若需检验 1000人,且 ,则 ,按方法(二)平均只需进行检验 次,这样可以减少约 40%的工作量,为检验工作节约大量的人力、物力、财力. 案例9、风险型决策模型 决策是人们在政治、经济、军事和日常生活等多方面普遍存在的一种选择方案的行为
21、.风险型决策是指在作出决策时,由于某些随机性的因素影响,决策因存在一定的风险,称为风险型决策. 某渔船要对下个月是否出海打鱼作出决策. 如果出海后是好天,可获收益 5000元,若出海后天气变坏,将损失 2000元;若不出海,无论天气好坏都要承担 1000元损失费. 据预测下月好天的概率为 0.6,天气变坏的概率为0.4,应如何选择最佳方案? 我们将出海的收益作为随机变量 ,其概率分布如下: 故 的数学期望为 (元) 显然出海的收益比不出海的收益好. 案例10、一种很迷惑游客的赌博游戏在一个游客很多的旅游圣地,发现一类赌博游戏。形式是这样的:摊主(以下称赌主)拿着一个装有20个同样大小的玻璃球的
22、小袋,玻璃球共有红、黄、蓝、白、黑5种颜色,每种颜色均为4个球。让游客(以下称赌客)从袋中任意摸出10个球。如摸到红球4个,黄球4个,白球2个,则数字排列为442(数字大者排前,小者排后),以摸到各种球组成的数字定输赢,其规定如下数: 不同球色数字排列 4 4 2 4 3 3 4 4 1 1 4 2 2 2 4 3 1 1 1 3 3 3 1 2 2 2 2 2 4 3 2 1 4 2 2 1 1 3 3 2 2 3 3 2 1 1 3 2 2 2 1 输赢金额(元) +10 +5 +5 +2 +2 +2 +1 +1 +0.5 +0.5 -2 -2.5 其中“+”表示赌客赢,“-”表示赌客输。
23、如摸到球色数字排列为442,则赌客赢10元。表面上看12中可能只有2中可能赌客输钱,似乎赌客赢钱的可能性大。也正是如此,很能吸引过往的旅客参赌。最后结果如何?若每天有100人参赌,则赌主每天能赢100来元。下面具体计算。 用 表示摸到某球色数字排列 的概率。由古典概率公式可得如下概率分布表(可能取法总数 ) 球色数字排列种类 组合种数 概率 输赢金额 0.0010 +10 026 +5 0.0026 +5 0.0234 +2 0.0277 +2 0.0277 +2 0.0421 +1 0.0642 +1 0.0935 +0.5 0.0935 +0.5 0.2494 -2 0.3741 -2.5
24、 由上表可得赌客赢钱概率 赌客输钱概率 当摸的次数很多时,赌主赢钱几乎是必然的。 设随机变量 为赌客每赌一次输赢的金额,则其数学期望为: 从整体上看赌客每赌一次平均输1.04元。如果每天有100人参赌,则赌主每天平均进帐104元。 案例11、标准分及其应用 原始分数不利于各科水平的横向比较和考试的评价分析. 一是其位置含义不明确. 原始分数是75分,这个分数是高还是低?该考生在全体考生中的位置靠前还是靠后?单从这个分数看不出来,因为没有一个稳定的参照点. 二是不可比. 原始分数往往受试题难度和区分度大小的影响,具有不稳定性. 题目难,原始分数就偏低;试题容易,分数就偏高,从而导致了原始分数之间
25、的不可比性. 三是不可加. 各科原始分数、位置标准不一致,不可直接累加后比较,就像我们不能将甲乙两人口袋里的美元与港币数直接相加来比较哪个钱多一样.所以,在评价学生学业水平时,为了可比性,比较一学生几门课的情况、两个学生多科的总成绩等,可将卷面分转化为标准分来比较. 对一门课,比较标准分的大小;对多门课,比较标准分总和. 标准分就是分数这个随机变量 的标准化: . 由于标准分数分值小,并带有小数和负值,在许多情形下直接使用不大合乎人们的习惯,故通常根据具体情况,把标准分数通过线性变换化为各种导出分数. 常见的有: 教育与心理测验中的分数:T=50+10Z 韦氏智力量表中各分测验的量表分:T=1
26、0+3Z 韦氏智力量表智商(离差智商):IQ=100+15Z 美国大学入学考试委员会使用的标准分数:CEEB=500+100Z 美国教育测验中心举办“托福”考试:TOEFL=500+70Z 我国出国人员英语水平考试即EPT所使用的分数:EPT=90+20Z 五等级分数:由标准分的值按表4来分段确定等级。按此方式,40人的班,每次考试,不管原始分数如何,大约有3人(占7%)不及格。美国不少大学采用这种“竞争”的评分方式。 表4 标准分与五等级划分 标准分 等级 不及格 及格 中等 良好 优秀 比例 7% 24% 38% 24% 7% 案例12、正态分布在人才招聘中的应用 某公司准备通过考试招工
27、300 名。其中 280 名正式工,20 名临时工. 实际报考人数为 1657名. 考试满分400 分。考试不久后,通过当地新闻媒体得到如下消息:考试平均成绩是166 分, 360 分以上的高分考生31 名. 某考生A的成绩为 256分. 问他能否被录取?若被录取,能否是正式工?我们用正态分布来解决这个问题. 先预测最低录取分数线,记最低录取分数为 。设考生成绩为 X,对一次成功的考试来说,X 应服从正态分布,即 ,从而 由题设知 于是 。查正态分布表,得 ,从而 。因此 .因为最低录取分数线 的确定,应使高于此线的考生的频率等于 ,即于是 .即最低录取分数线是251 分. 下面预测考生 A的
28、名次,其考分 256 = . 故 ,此表示成绩高于考生A的人数约占总人数的 16.9%. 由 知考生A大约排在 283名.因为该考生的成绩是 256 分,大于录取分数限 251 分,因此该考生 A 能被录取. 但他的排名是283,排在280 名之后,所以他不能被录取为正式工,只能是临时工。案例13、预测录取分数线和考生考试名次当今社会,考试作为一种选拔人才的有效途径,正被广泛采用每次考试过后,考生最关心的两个问题是:自己能否达到最低录取分数线?自己的考试名次如何?其实,学了概率之后我们可以通过二项分布来解决这些问题 招工问题: 某公司通过招聘考试,准备招工300名(其中 280名正式工,20名
29、临时工),而报考的人数是 1657名,考试满分为400分考试后不久,通过当地新闻媒介得到如下信息:考试总评成绩是166分,360分以上的高分考生31名某考生A的成绩是256分,问他能否被录取?如被录取能否是正式工?解决问题: 先来预测一下最低录取分数线,记该最低分数线为 设考生考试成绩为 ,则 是随机变量,对于一次成功的考试来说, 应服从正态分布本题中, ,则 因为考试成绩高于360分的频率是 ,所以 于是 ,查正态分布表知, ,即 所以 因为最低录取分数线 有确定应使高于此线的考生的频率等于 ,即 ,所以 查正态分布表,得 ,求得 即最低录取分数线是251下面预测考生A的考试名次他的考分x=
30、256,查正态分布表知,这说明,考试成绩高于256分的频率是,也就是说成绩高于考生A的人数大约占总人数的16.6%所以,考试名次排在A之前的人大约有 (名),即考生A大约排在第276名 从以上分析得出:最低录取分数线为251分,低于考生A的分数,所以,考生A能被录取但因其考试名次大约是276名,排在280名之前,所以,有可能被录取为正式工案例14、随机变量函数的均值和标准差的近似计算方法 在工程上,已知随机变量的均值和标准差,求随机变量函数的均值和标准差的近似方法主要有泰勒展开式、变异系数法、基本函数法. 例1 设 、 的均值、标准差分别为 .找出函数 均值、标准差的近似计算公式. 对 在 附
31、近进行线性逼近: 所以 , 而 . 例2 设 、 的均值、标准差分别为 。找出函数 均值、标准差的近似计算公式. 对 在 附近进行线性逼近: 所以 , ,即 . 案例15、如何表示考试成绩比较合理TOEFEL成绩是如何计算出来的 考试成绩是考生水平的反映,考试成绩的合理表示不但能反映考生的实际水平,而且还应该尽量减少因题目难易程度对考试成绩的影响。 目前,我国普遍采用百分制记分法、即满分设计为100分,考生在这 100分中所得分数即为他们的成绩。 这种记分法的主要缺点是分数受题目难易程度的影响很大,若考题容易,很可能大部分考生成绩都在80分以上,这样80分未必是好成绩。从这个角度看,百分制不能
32、完全反映考生实际水平的高低 采用排名次的方法,或者称为秩方法,对于评定考生间的相对成绩不失为一个好办法。 该方法将考生的成绩由低到高排列,考生所排位置成为该考生的秩,成绩越好的考生秩越大 (注意这与我们通常的考生的排名正好相反),而相同成绩的考生的秩规定为这几个考生在他们应排位置上的平均数例如,某6位考生的考试成绩的百分制和秩方法有如下关系: 百分制 90 80 70 70 65 60 秩 6 5 3.5 3.5 2 1 其中两位考生的成绩相同,他们应排在3,4的位置上,从而他们的秩同为(3+4)2=3.5。 秩方法也有其不足之处,由于秩的大小与考生人数有关,1000人中的第三和10人中的第三
33、是难以比较的 为了克服百分制和秩方法的不足,可以将百分制分数或秩改换为百分位某考生的百分位是假定有l 00人参加考试时,成绩等于或小于该考生成绩的人数若有4人参考,考生成绩的百分制及百分位有如下关系: 百分制 67 78 90 95 秩 l 2 3 4 百分位 25 50 75 100 又如,若有50人参考,某位考生的成绩是第11名,倒数是第40名,则他的百分位为80,也就是说,有80同学的成绩不如他或和他持平。 百分制是将满分定位100,而百分位是将考生中的最好成绩定位100具体算法为: 百分位也有其不足之处,就是不能根据百分位确定原来的考试得分。 一种比较合理因而也是国际上较通用的记分方法
34、就是标准分方法;一个考生的标准分等于一个考生的考试得分见减去全体考生得分的平均值再除以所有考生的得分的标准查(样本方差开方), 即 正的标准分表示该考生的成绩高于平均分,负的标准分表示该考生的成绩低于平均分,且在一般情况下,根据中心极限定理,标准分可认为服从正态分布 ,这样标准分不仅与考试的原始得分相对应,而且可有标准正态分布表。确定出某标准分下的相应的百分位 (即标准分小于或等于所给定标准分的概率乘100),由标准正态分布表可得百分位与标准 分的对应关系如下表: 百分位 0 l 2 3 4 5 6 7 8 9 00 -2.33 -2.05 -1.88 -1.75 -1.64 -1.56 -1
35、.48 -1.41 -1.34 10 -1.28 -1.23 -1.17 -1.13 -1.08 -1.04 -0.99 -0.95 -0.92 -0.88 20 -0.84 -0.81 -0.77 -0.74 -0.71 -0.67 -0.64 -0.61 -0.58 -0.55 30 -0.52 -0.50 -0.47 -0.44 -0.41 -0.39 -0.36 -0.33 -0 31 -0.28 40 -0.25 -0.23 -0.20 -0.18 -0.15 -0.13 -0.10 -0.08 -0.05 -0.03 50 0.00 0.03 0.05 0.08 0.10 0.13
36、 0.15 0 18 0.20 0.23 60 0.25 0.28 0.3l 0.33 0.36 0.39 0.4l 0.44 0.47 0.50 70 0.52 0.55 0.58 0.6l 0.64 0.67 0.71 0.74 0.77 0.8l 80 0.84 0,88 0.92 0.95 0.99 1.04 1.08 1.13 1.17 1.23 90 l 28 1.34 1.41 1.48 1.56 1.64 1.75 1.88 2,05 2.33 例如,百分位-50,则标准分一0;百分位=95,则标准分164反之若标准分为05,则百分位69,等等 TOEFEL自考试成绩采用标准分
37、记分法只是为了消除标准分中的两位小数,给标准分乘上100,另外又为了消除负号,再加上500,即 TOEFEL:-h=1 00标准分+500 由TOEFEL分结台上表可以看出,考TOKFEL得500分并不难。因为它只相当于所有考生的平均分,考600分以上的人(此时标准分1)占全体考生人数的l5,而得664分以上得人数只占全体考生得5因此能考664分自然是很不容易的。案例16、如何估计湖中黑、白鱼的比例 某水产养殖场两年前在人工湖混养了黑白两种鱼. 现在需要对黑白鱼数目的比例进行估计. 设湖中有黑鱼 条,则白鱼数为 ,其中 为待估计参数. 从湖中任捕一条鱼,记 则, . 为了使抽取的样本为简单随机
38、样本,我们从湖中有放回的捕鱼 条.(即任捕一条,记下其颜色后放回湖中.任其自由游动,稍后再捕第二条,重复前一过程) 得样本 . 显然诸 相互独立,且均与 同分布. 设在这 次抽样中,捕得 . (1)矩估计法.令 可求得 .由具体抽样结果知, 的观测值 ,故 的矩估计值为 . (2)极大似然估计. 由于每个 的分布为: 设 为相应抽样结果(样本观测值),则似然函数为: 令 可求得 的极大似然估计值为 对本题而言,两种方法所得估计结果相同. 本题是一个十分广泛的估计比例的统计模型. 案例17、预测水稻总产量 某县多年来一直种植水稻,并沿用传统的耕作方法, 平均亩产600千克.今年换了新的稻种,耕作
39、方法也作了改进. 收获前,为了预测产量高低,先抽查了具有一定代表性的30亩水稻的产量,平均亩产642.5千克,标准差为160千克. 如何预测总产量? 要预测总产量,只要预测平均亩产量. 只要算出平均亩产量的置信区间,则下限与种植面积的乘积就是对总产量的最保守估计,上限与种植面积的乘积就是对总产量最乐观估计. 设水稻亩产量 为一随机变量,由于它受众多随机因素的影响,故可设 . 根据正态分布关于均值的区间估计,在方差 已知时, 的置信度为95的置信区间为: 用 代替 ,将 代入,有 故得 的置信度为95的置信区间为:585.25,699.75. 所以,最保守的估计为亩产585.25千克,比往年略低
40、;最乐观的估计为亩产可能达到700千克,比往年高出100千克. 因上下差距太大,影响预测的准确. 要解决这个问题,可再抽查70亩,即前后共抽样100亩. 若设 ,则 的95的置信区间为: 即611.1,673.9.置信下限比以往年亩产多11.1千克.这就可以预测:在很大程度上,今年水稻平均亩产至少比往年高出11千克, 当然这是最保守的估计.案例18、工程师的建议是否应采纳某机械厂工程师建议厂长采用新工艺加工齿轮可节省开销。他用新工艺做了9个星期的试验。在保证齿轮质量和数量的同时,使每台机器平均每周开支由原来的100元降到了75元。假定每台机器采用新、老工艺每周运转开支都服从正态分布 。在 的水
41、平下。检验新工艺能否节省开支。 我们把开支不能节省与开支能节省分别作为零假设与备则假设,即 在 为真时,检验统计量 拒绝域为 将 代入 的观察值 落在拒绝域内。故应拒绝 。即认为新工艺能显著节省开支。所以工程师的建议应该被采纳。 注为什么要把“开支不节省”即 作为零假设而不把 作为零假设?这是因为工程师建议采用新工艺是一件大事。如果没有较可靠的证据表明这样做有益,则不宜采纳。把“开支不节省”作为零假设便能体现这一点。因为检验水平为0.01,当零假设正确开支不节省,因而不宜采纳工程师建议时,犯错误(即采纳工程师建议)的可能性只有0.01,这个概率很小。案例19、母亲嗜酒是否影响下代的健康美国的j
42、ones医生于1974年观察了母亲在妊娠时曾患慢性酒精中毒的6名七岁儿童(称为甲组)以母亲的年龄,文化程度及婚姻状况与前6名儿童的母亲相同或相近,但不饮酒的46名七岁儿童为对照组(称为乙组)测定两组儿童的智商,结果如下: 组别 智商 人数n 智商平均数 样本标准差 甲组 6 78 19 乙组 46 99 16 由此结果推断母亲嗜酒是否影响下一代的智力若有影响推断已影响的程度有多大? 智商一般受诸多因素的影响从而可以假定两组儿童的智商服从正态分布 和 本问题实际是检验甲组总体的均值 是否比乙组总体的均值 偏小?若是,这个差异范围有多大?前一问题属假设检验,后一问题属区间估计。 由于两个总体的方差
43、未知,而甲组的样本容量较小。因此采用大样本下两总体均值比较的U检验法似乎不妥故采用方差相等(但未知)时。两正态总体均值比较的t检验法对第一个问题作出回答。为此,利用样本先检验两总体方差是否相等,即检验假设 当 为真时,统计统计量 拒绝域为 或 ,取 的观察值 ,得 未落在拒绝域内,故接受 ,即认为两总体方差相等 下面用t检验法检验 是否比 显著偏小?即检验假设 当 为真时,检验统计量 其中 ,取 将 代入得 T的观察值 落在拒绝域内,故拒绝 即认为母亲嗜酒会对儿童智力发育产生不良影响 下面继续考察这种不良影响的程度。为此要对两总体均值差进行区间估计 的置信度为 的置信区间为 取 ,并代入相应数
44、据可得 于是置信度为99的置信区间为。 99-7816. 32267 =21土18 91(2 .09, 3 9.91) 由此可断言:在99的置信度下。嗜酒母亲所生孩子在七岁时自己智商比不饮酒的母亲所生孩子在七岁时的智商平均低2.09到39.91 注读者可能已注意到。在解决问题过程中。两次假设检验所取的显著性水平不同在检验方差相等时,取 ;在检验均值是否相等时取 。前者远比后者大。为什么要这样取呢?因为检验的结果与检验的显著性水平 有关。 取得小。则拒绝域也会小。产生的后果使零假设 难以被拒绝。因此,限制显著性水平的原则体现了“保护零假设”的原则 在 较大时,若能接受 ,说明 为真的依据很充足:
45、同理,在 很小时我们仍然拒绝 说明 不真的理由就更充足。在本例中,对 ,仍得出 可被接受及对 , 可被拒绝的结论,说明在所给数据下,得出相应的结论有很充足的理由。 另外在区间估计中,取较小的置信水平 (即较大的置信度),从而使得区间估计的范围较大。若反之,取较大的置信水平则可减少估计区间的长度,使区间估计分精确。但相应地区间估计的可靠度要是降低了,则要冒更大的风险案例20、银行经理的方案是否有效某银行经理认为现在的储蓄机制有点片面的强调顾客的存款数而对顾客取款缺乏一些激励措施。为此,他设计了一种将存款数与存款期限相乘的指数,然后在不太影响银行效益的前提下设计了一些有吸引力的存款有奖措施已尽量减
46、少顾客的取款数。为了比较此方案的有效性,随机地选择了该银行的15位储户,得到他们在新方案实施前后的指数,结果见下表 储户 方案实施前 方案实施后 差(-) 1 10020 10540 520 2 720 780 60 3 9105 9453 348 4 1062 1573 511 5 3905 3962 57 6 4401 4673 272 7 8100 8205 105 8 12011 12458 447 9 847 959 112 10 6583 7444 591 11 4602 4982 380 12 8452 8831 379 13 182 648 466 14 6740 6969 2
47、29 15 2738 2408 30 对 检验该经理的方案是否有效。 对本检验问题,采用成对数据的比较方法较好。这是因为初看起来,这是两总体均值的比较问题,即将新方案实施前后的指数分别看作两个总体,将1 5位储户在新方案实施前后的指数看作来自这两个总体的样本,若进一步假设这两个总体服从正态分布,便可利用t 检验法检验二者的均值是否有显著差异但仔细想想,发现这样有点欠妥,因为每位储户的家庭经济状况、消费水平、理财策略等等会有很大的差异,从而储户的存款存在较大差异,这使得各户之间的存款指数缺乏一致性,因而看成来自同一总体的样本是不妥当的 如果我们将同一储户在新方案实施前后的存款指数相减,由于各储户
48、在新方案实施前后的经济状况、消费水平、理财策略等方面不会有太大的变化,则该差值不是由于各储户的家庭状况的差异而来,而是反映了新方案的实施对存款指数的影响,因而将这些差值看成来自 某一总体的样本就比较合理了若进一步假定这些差值服从 ,则 的大小反映了新方案实施前后对存款指数的平均影响程度检验方案是否有效,等价于检验假设 该假设便可有正态总体均值的t检验法来检验 以 分别表示新方案实施前后各储户的存款指数,令 则 可看做来自正态总体 的一个容量为15的样本观测值。由此可求得: 由正态总体均值的t检验统计量 及上述假设可得其拒绝域为(注意此处( ) 即 代入具体数据可求得 。由于 , 故拒绝 ,所给
49、数据结果显著地支持新方案有效。 本例关于原假设 的选择体现了数理统计数材中指出的如何选择零假设和备择假设的精神即我们“希望”证实某方法有效果时,“有意”将“该方法无效作为零假设因为如果这时还能拒绝零假设(特别时在显著性水平 较小时),则“有效果”的断言就得到更有 力的支持反之,若把“新方法有效果”作为零假设,则当它被接受时,只是说明有效果的断言“能与观察数据相容”,并不能说明它受到观察数据的有力支持 本例中所介绍的方法称为成对数据比较的参数性检验方法能用此方法检验的问题在现实世界中大量存在例如,为了比较两个玉米品种的平均亩产量,如果利用正态总体均值此较的检验方法,我们应设计如下试验:选择( )
50、块形状面积相同的地块,其中 块种植品种 ,得亩产量 , 块种植品种 ,得亩产量 ,然后将这两组数据看成来自两个正态总体的样本,利用正态总体均值比较的检验方法检验 , 两品种的平均亩产是否有显著差异但仔细想想,若用该方法检验,必须要求这( )个地块的土质肥沃程度和地质、气候等条件相同,不然得话,假如种植A品种的那m块田地比较肥沃,或其它条件较好,则即使A品种不恍于B品种,但试验结果也可能有利于A品种而选择( )块各种条件一致的田块在实际中(尤其当 , 较大时)是很难做到的但如果我们取 块田地,将其一分为二,其中一小块种植品种A,另一小块种植品种B(哪一小块种植品种A,可随机决定),这样,即使 块
51、田地的土质,气候等条件不一致,哪一个品种也不会占地利之便,每块田地上A,B两品种的亩产量之差 ,正好反映了两个品种对产量的影响程度,将 看成来自某总体的样本,检验其均值是否为零就比较合理了。 又如,为了比较一种新的降血压药品A与以往使用的降血压药品B的疗效(以一定时间内血压降低量作为比较标准),可以取( )个患者,其中 个服用药品A,另 个服用药品B若将服用药品A的疗效和服用药品B的疗效看作来自两个总体的样本作比较,以检验新药品的疗效是否优于原药品,这样又产生与上述类似的问题:病人的情况不一,有的病情较重,身体条件较差,用药难以见效,有的患者则相反。为避免这种误差,我们可选取 对患者,使每对在
52、各种条件上尽可能一致,各队中人选一名服用A,另一名服用B,而不同对患者的条件可以有很大差异。这样设计不但此要求( )个患者的条件一致更容易实现,而且各对内两患者的疗效之差较确切地反映了这两种药品的疗效差异,从而可利用成对数据的比较方法较好地解决这两种药品疗效的比较问题进一步,如果这种药品的降压效果可在一定地时间内消失,则可只选择 个人,在充分长的时间间隔下分别服用药品A和B,测定其疗效,用其差值检验两种药品的疗效差异,这可使得各对数据之间更具有可比性,但它要求药品的疗效无后效性,否则,这种方法是不可取的。 再如,在双胞胎中先出生与后出生者在某个时期的一些指标(如智商,身高)的比较中,假如我们抽取了 对双胞胎,由于各对双胞胎所处的家庭环境及社会环境不同,将先出生的 个双胞胎与后出生的 个双胞胎分别看成来自两个总体的样本,对所关心的指标作比较是不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度夫妻协议离婚范本:离婚后双方财产分割与子女赡养合同
- 2025个人虾池承包土地使用及租赁合同样本4篇
- 2025年度矿产资源开采土地承包合同解除与环保协议
- 二零二五版养老产业派遣护理人员服务合同规范4篇
- 2025年度美甲美睫店员工正式聘用合同范本(员工福利待遇升级)
- 二零二五年度平面模特形象使用权授权合同范本
- 二零二五年度坡屋面小青瓦施工节能减排技术合同4篇
- 二零二五年度无人机销售安装及培训合同范本3篇
- 二零二五年度新能源电站运维人员派遣合同范本
- 课题申报参考:明清近代诗文与江南文脉研究
- 高考满分作文常见结构完全解读
- 专题2-2十三种高考补充函数归类(讲练)
- 理光投影机pj k360功能介绍
- 六年级数学上册100道口算题(全册完整版)
- 八年级数学下册《第十九章 一次函数》单元检测卷带答案-人教版
- 帕萨特B5维修手册及帕萨特B5全车电路图
- 系统解剖学考试重点笔记
- 小学五年级解方程应用题6
- 云南省地图含市县地图矢量分层地图行政区划市县概况ppt模板
- 年月江西省南昌市某综合楼工程造价指标及
- 作物栽培学课件棉花
评论
0/150
提交评论