第四篇数理统计模型_第1页
第四篇数理统计模型_第2页
第四篇数理统计模型_第3页
第四篇数理统计模型_第4页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四篇 数理统计模型数理统计学的理论和方法与人类活动的各个领域在不同程度上都有关联,数理统计学是研究收集数据、分析数据并据以对所研究的问题作出一定的结论的科学和艺术,数理统计学所考察的数据都带有随机性(偶然性)的误差,一些随机现象的特征可以通过对统计数据的整理与加工得到体现,数理统计的应用基础是抽样分布,特别是正态总体的抽样分布是统计推断的理论基础。在数理统计的应用实例中,通过对应用问题建模主要培养统计数据的处理和分析以及根据统计数据进行统计推断的方法,根据统计数据进行相关分析和回归分析的方法。应用数理统计方法解决问题首先要对统计数据进行处理和加工,熟悉相关的抽样分布。与统计数据的处理和抽样分

2、布相关的应用实例有:统计数据的整理与加工,彩电色彩的质量分布,根据统计数据估计吉尼(Gini)系数,正态总体样本方差服从卡方分布并且与样本均值相互独立,正态总体样本标准差不是总体标准差的无偏估计量等。数理统计的主要任务是统计推断,包括统计估计和统计检验,是根据统计数据对未知的随机现象进行统计推断,在质量管理与控制等方面有着重要的应用。与统计估计相关的应用实例有:参数估计方法在捕鱼问题中的应用,平均值的质量控制图,概率论在产品质量验收抽样方案确定中的应用。与统计推断相关的应用实例有:实际推断原理小概率事件原理,改变包装能使销售量增加吗?成对比较与成组比较,葡萄酒质量的评价,刀具寿命的“正态拟合”

3、,保险实务中损失分布的统计分析等。相关分析是用来分析变量间关系与方向程度的方法,回归分析是用来分析自变量与应变量之间的数量关系,二者既有联系又有区别,在研究变量之间的非确定性关系中有重要的作用。关于相关分析与回归分析的应用实例有:手掌“生命线”的长度并不反映人的寿命,一元线性回归在季节波动预测中的应用,输电线路有功潮流值与发电机组出力的多元线性回归等。4.1 统计数据的整理与加工上海证券交易所将每天各种股票的交易价格概括为一个综合指数,称为“上证指数”,如果今天的上证指数为,而上一个交易日的上证指数为,则称为上证指数的涨跌值。下面的数据是上海证券交易所1995年头50个交易日上证指数涨跌的观测

4、值(摘自新民晚报):13.93,-6.92,-6.13,-14.79,-15.70,-2.83,-11.01,-4.28,-9.03,-0.87,5.70,-21.92,-0.48,-17.80,-5.87,8.20,-2.67,-28.87,-1.23,1.26,19.61,-11.98,7.46,-0.73,-5.27,-4.47,-4.61,1.20,6.18,53.50,-5.51,2.84,-12.01,7.70,3.89,16.37,39.08,16.66,-12.15,-15.22,-0.06,2.01,-15.64,7.28,13.64,-8.07,6.50,21.75。经计算

5、,样本均值,样本方差,样本标准差为。总起来看,这段时间,股市不太景气,平均每个交易日下跌0.8272点。应用EXCEL中数据分析,进行描述性统计,输出结果见表4.1.1。表4.1.1 50个交易日上证指数涨跌的观测值的描述性统计平均值-0.8272标准差15.2283区域84.2观测数50标准误差2.1536方差231.9026最小值-30.7最大(1)53.5中位数-1.95峰度2.8306最大值53.5最小(1)-30.7众数无偏度1.0575求和-41.36置信度(95.0%)4.3278为了研究这段时间上海证券交易所股市的变化动态,要对统计数据进一步研究。由于上证指数的涨跌值是一个连续

6、型随机变量,因而我们采用分组方法进行整理,见表4.1.2。表4.1.2 分组整理数据区间频数频率累积频率<-30.710.020.02 -30.7-18.6730.060.08 -18.67-6.64120.240.32 -6.645.39190.380.70 5.3917.42110.220.92 17.4229.4420.040.96 29.4441.4710.020.98 >41.4710.021.00 由整理的数据,我们可以作出频数(频率)直方图和累积频率直方图(见图4.1.1)。把频率直方图中各个小矩形顶边的中点连接起来,就得到频率分布曲线,它的极限就是随机变量的概率密度

7、函数。由累积频率所描述的累积频率曲线,它称为样本分布函数或经验分布函数,它的极限就是随机变量的分布函数。由此我们可以研究随机变量的分布规律,为证券投资决策提供可靠的理论依据。图4.1.1 频率直方图与累积频率折线图评注1理论依据根据样本作描述性统计,作频率直方图观察密度函数的大致类型,作累积频率折线图,研究分布函数。2应用与推广样本的分布完全是由总体的分布来决定的。但在数理统计中,总体的分布往往是未知的,一般做法就是要通过样本找到一个分布来近似代替总体的分布;或者说根据样本对总体进行统计推断。因此,对样本数据进行必要的处理和分析,作描述性统计是一些基本做法。参考文献茆诗松等.概率论与数理统计M

8、.中国统计出版社.2000.7.4.2 彩电色彩的质量分布SONY牌彩电有两个产地:日本与美国。两地的工厂是按同一设计方案和相同的生产线生产同一牌号SONY电视机,连使用说明书和检验合格的标准都是相同的。譬如彩电的彩色浓度Y的目标值为,公差(允许的波动)为5,当Y在公差范围内该彩电的彩色浓度为合格,否则判为不合格。-6-4-2246日产SONY-0.10.10.20.30.40美产SONY图4.2.1 彩电质量分布图两地产的SONY牌彩电在美国市场上都能买到,到70年代后期,美国消费者购买日本产的SONY彩电的热情高于购买美国产的SONY彩电。这是什么原因呢?1979年4月17日日本朝日新闻刊

9、登了这一问题的调查报告,报告指出:日产的彩色浓度服从正态分布,而美产的彩色浓度为均匀分布。这两个不同的分布表示着两个不同的总体,如图4.2.1。这两个总体的均值相同,都为,但方差不同。,可见,日产的彩色浓度方差小于美产的彩色浓度的方差。如果规定彩色浓度在内为等品,在内为等品,在内为等品,在内为等品,从而在级品数量上日产SONY是美产SONY的两倍,如表4.2.1,这就是美国消费者乐于购买日产SONY的主要原因。表4.2.1 美产和日产各等级彩电的比率等级美产33.3%33.3%33.3%0日产68.3%27.1%4.3%0.3%为什么两个工厂按同一个设计方案、相同设备生产同一种电视机,其彩色浓

10、度会有不同的分布呢?关键在于管理者,美国SONY生产厂的管理者按彩色浓度合格范围要求操作,在他看来,只要彩色浓度在此范围内,不论它在区间的什么位置都认为合格,因而造成彩电浓度落在这个区间内任一相同长度小区间内的机会是相同的,从而形成均匀分布。但日产SONY的管理者认为,彩色浓度的最佳位置在上,他要求操作者把彩色浓度尽量向靠近,这样一来,彩色浓度在周围的机会就多,而远离的机会就少,最后导致服从正态分布。评注1理论依据随机变量的方差反映了随机变量关于其数学期望的离散程度。方差越小,质量越稳定。2应用与推广随机变量的方差在质量控制方面有着重要的应用。尽管日产SONY牌彩有0.3%的等品,但其等品率远

11、远超过美产SONY牌彩电。在质量管理与质量控制过程中,往往根据产品质量指标的标准差为依据。参考文献茆诗松等.概率论与数理统计M.中国统计出版社.2000.7.4.3 根据统计数据估计吉尼(Gini)系数收入的差异是反映社会收入分配是否公平的重要指标。一般说来,鼓励自由竞争会扩大收入差异,但是政府可以通过税收政策和对低收入者的补助来缩小收入的差异。下面介绍的洛伦兹(Lorenz)曲线是反映收入差异的一种图形描述,它可以用来对各国的收入差异程度进行比较或对政府的某项政策对收入分配带来的影响作出评价。现有30个工人家庭月收入(元)的数据,从低到高列表如表4.3.1。表4.3.1 30个工人家庭月收入

12、的数据 单位:元编号收入编号收入编号收入编号收入编号收入116507190013210019243025286021700819201421502025002629203180091940152200212550273000418201019801622502226802832205183011202017230023280029358061880122080182350242820304010表4.3.2 每组家庭的户数和收入的累积值及百分比累积值组号户数累积百分比组内收入收入累积收入累积百分比1(16户)20%106801068014.99%2(712户)40%118402252031.6

13、1%3(1318户)60%133503587050.35%4(1924户)80%157805165072.50%5(2530户)100%1959071240100%把这30个家庭按顺序分成相等户数的5组,然后统计出每组家庭的收入总数以及户数和收入的累积值及百分比累积值如表4.3.2所示:若用横坐标表示户数累积百分比,纵坐标表示收入累积百分比,则最低收入组6户占总户数的20%,该组家庭的总收入占全部家庭总收入的14.99%,将坐标点(20%,14.99%)描在图上A点;最低收入户和偏低收入户共12户,占总户数的40%,它们的收入之和占30户家庭总收入的31.61%,将坐标点(40%,31.61%

14、)描在图上B点,类似地得到C点(60%,50.35%),D点(80%,72.50%),E点(100%,100%)。将这些点连成一条光滑的曲线,便得到洛伦兹曲线,它是一条向下凸的曲线,如图4.3.1。 图4.3.1 绝对公平线与洛伦兹曲线图如果所有家庭的收入全部相等,则洛伦兹曲线为,这条线称为绝对平等线,所以洛伦兹曲线描述了收入的不平等状况。由于收入是按从小到大的顺序排列的,所以洛伦兹曲线位于直线的下方,它越接近直线,收入就越平均;越向下方凸出,则收入分配越不平均。记洛伦兹曲线为:,那么,与围成的弓形的面积越大的话,则洛伦兹曲线越向下凸出,从而表明收入越不平均。为此,我们用该弓形面积与,和轴所围

15、成的三角形面积(该三角形的面积等于)之比值作为一种度量收入分配不平等的指标,称为吉尼(Gini)系数。可见,吉尼系数越接近于0,收入分配越公平,反之就越不公平。吉尼(Gini)是意大利统计学家,他在1922年发表的有关收入集中指数的研究中指出了吉尼系数。由于吉尼系数与货币的选择无关,因此它特别适用于对不同国家不同时期的收入分配状况的比较。根据洛伦兹曲线,政府制定累进税收体系,使完税后的曲线与公平线接近一些,使吉尼系数更小一些,缩小收入的差距,使社会财富的分配更趋于公平。评注1理论依据根据人口和收入的样本进行统计分析,可以绘出洛伦兹曲线,进一步可以估计吉尼系数。2应用与推广根据经济统计数据,可以

16、进行相关的统计分析。由此可以利用统计数据计算或者估计诸如增长速度、吉尼系数、弹性系数等,为进一步分析奠定基础。参考文献缪柏其.管理统计学M.中国科学技术大学出版社.2002.9.4.4 正态总体样本方差服从卡方分布并且与样本均值相互独立设是来自正态总体的一个样本,为样本均值,为样本方差。则:(1)(2)与相互独立。证明:考虑对样本作线性变换由于相互独立,且均服从正态分布,则可以证明并且经过计算可知:,这说明相互独立。相互独立,且均服从正态分布,从而仍相互独立,均服从标准正态分布。所以,可以表示成个相互独立服从标准正态分布的随机变量的平方和,因此。又由于相互独立,及 故与相互独立评注1理论依据正

17、态总体样本的独立性,相互独立的正态随机变量的线性函数仍然服从正态分布,分布的构造。2应用与推广很多教科书上都有这个结论,但是都没有给出理论证明,而这个结论在正态总体的抽样分布中是极为重要的。同时,通过这个证明,充分表达了是个相互独立的标准正态分布随机变量的和,因此其自由度是。由于与相互独立,为进一步构造服从自由度为的分布奠定基础,参考文献茆诗松等.概率论与数理统计M.中国统计出版社.2000.7.4.5 正态总体样本标准差不是总体标准差的无偏估计量设是来自正态总体的一个样本,为样本均值,为样本方差。众所周知,对任何总体来说样本方差是总体方差的无偏估计量,正态总体更不例外。但样本标准差却不是总体

18、标准差的无偏估计量。证明:由于,若令,则的概率密度函数为从而 被积函数是参数分别为和的伽玛分布的概率密度函数,积分等于1。另一方面,,所以有所以,样本标准差却不是总体标准差的无偏估计量。如果进行修正,则可以得到的无偏估计量,其中评注1.理论依据正态总体样本的抽样分布,分布与分布的有关性质。2.应用与推广无论总体服从什么分布,修正的样本方差是总体方差的无偏估计量,但是样本标准差不是总体标准差的无偏估计量。只有在正态总体的情况下才有确定性的修正方法,使得是总体标准差的无偏估计量,对于非正态总体,情况极为复杂,一般不对其进行讨论。参考文献茆诗松等.概率论与数理统计M.中国统计出版社.2000.7.4

19、.6 参数估计方法在捕鱼问题中的应用设湖中有鱼条,现捕出条,做上记号后放回湖中(假设记号不会消失),一段时间后让湖中的鱼(做上记号的和没做记号的)混合均匀,再从湖中捕出条,其中有条标有记号。试根据这些信息,估计湖中鱼数的值。1.根据概率的统计定义:湖中有记号的鱼的比例应是(概率),而在捕出的条中有记号的鱼为条,有记号的鱼的比例是 (频率)。设想捕鱼是完全随机的,每条鱼被捕到机会都相等,于是根据用频率来近似概率的道理,便有 即 故 (取最接近的整数)。2.用矩估计法:设捕出的条鱼中,标有记号的鱼为,因为服从超几何分布,而超几何分布的数学期望是。捕条鱼得到有标记的鱼的总体平均数,而现在只捕一次,出

20、现条有标记的鱼,故由矩估计法,令总体一阶原点矩等于样本一阶原点矩,即,于是也得(取最接近的整数)。3.根据二项分布与最大似然估计:若再加上一个条件,即假定捕出的鱼数与湖中的鱼数的比很小,即,这样的假定对实际来说一般是可以满足的,这样我们可以认为每捕一条鱼出现有标记(“成功”)的概率为,且认为在次捕鱼(每次捕一条)中不变。把捕条鱼近似地看作重贝努里试验,于是,根据二项分布,条鱼中有条鱼有标记的,就相当于次试验中有次成功。故同样地,我们取使概率达到最大,为此我们将作为非负实数看待,求关于的最大值。为方便,求关于的最大值。于是令 同样可得(取最接近的整数)。4.根据超几何分布与最大似然估计法:设捕出

21、的条鱼中,标有记号的鱼为,则是一个随机变量,显然只能取0,1,2,,l 。今先考虑条中有条有标记的鱼的概率,即。因湖中鱼数设为条,捕出条,故因而捕出条出现条有标记的鱼的概率为 (1)根据最大似然估计法,今捕条出现有标记的鱼条,那么参数应该使得达到最大,即参数的估计值使得由比值 看出,当时,这表明如果,时,是的下降函数; 当时,这表明,时,是的上升函数。于是时, 达到最大值. 但由于是整数,故取(取最接近的整数)如果,就加大。若仍有,可认为。评注1.理论依据二项分布、超几何分布的概率计算,矩估计与极大似然估计。应用参数估计的思想和方法分析、处理问题。2.应用与推广此例说明,对同一个问题可以采用不

22、同的方法解决;例如,估计一个城市的人口总数,也可以用同样的方法去考虑。参考文献孙荣恒.趣味随机问题M.科学出版社.2004.10.4.7 平均值的质量控制图在工业质量控制中,常需要每隔一定时间就检验一次同样的假设。例如,在制造某种弹簧的过程中,需要控制弹簧的自由长度具有平均值厘米。设弹簧的自由长度(总体)服从正态分布,且标准差,为检验生产过程是否正常,每隔一定时间(例如一小时)取样件,根据抽测的自由长度的平均值来检验假设厘米。图4.7.1 质量控制图为简化这项工作及便于了解生产过程的统计规律性,制作了如图4.7.1的图表。图4.7.1中的纵坐标是的大小,中心线在,控制上限和控制下限分别在,每个

23、样本平均值都画在图上,用黑点表示。如果都落在控制线之间,则表明生产过程处于正常的控制之下;否则,就要检查原因,适当地调整机器,显著性水平不超过0.003。图4.7.1中的控制限中的3就是取得到的。这是根据规则得到的检验方法。如果总体,则。在中抽取容量为的样本,则样本均值,。当总体方差已知时,在显著水平之下,假设的接受域是:。那么,如果以为检验统计量的的接受域为:。所以,作出的控制图以,作为控制下限与控制上限。如果每隔一小时的时间间隔内采样(容量为5)的样本平均值如下:1.510,1.495,1.521,1.505,1.524,1.488,1.465,1.529,1.520,1.4441.531

24、,1.502,1.490,1.531,1.475,1.478,1.522,1.491,1.491,1.482图4.7.2 根据样本绘制的质量控制图由及作出样本容量的样本平均值控制图,可以作出质量控制图,如图4.7.2。评注1.理论依据正态总体均值的置信区间,根据样本构造置信上限与置信下限,从而作出质量控制图。2.应用与推广根据正态分布与数理统计的知识,进行质量管理与质量控制是概率统计应用的一个很重要的方面。特别是用在质量控制的3法则,目前在全球最先进的企业都采用6管理法,已经形成一种企业管理文化。而正态总体参数的统计推断,广泛应用在全面质量管理;还广泛应用于金融风险分析与管理,如等。参考文献盛

25、骤等.概率论与数理统计(第四版)M.高等教育出版社.2008.6.4.8 概率论在产品质量验收抽样方案确定中的应用1.应用背景质量控制是质量管理的重要组成部分,它是用统计方法检验和控制产品的质量,其内容包括验收控制和工序控制。验收控制主要研究如何合理地制订产品质量检验抽样方案,这是一种把关性质量控制。工序控制指生产过程中对产品质量进行检验、监控,以便及时发现问题,采取措施,保证生产正常进行,这是一种预防性质量控制。2.提出问题一批产品出厂之前常常要进行质量验收,一般采用抽样检验法,即从一大批产品中随机抽取件,用这件产品的质量信息推断整批产品的质量,以确定这批产品是否合格。因此,在抽样之前需确定

26、抽样方案,即样本容量和接受这批产品的准则(或判断这批产品质量的准则)。3.分析问题与建立概率模型检验方案(N,n,d)若X>d,则该批产品不合格从一批产品中随机抽取n件产品,检查出有X件不合格产品。若Xd,则该批产品合格图4.8.1 一次抽样方案假设有批量为的产品需要验收,从中随机抽取了件产品。接受一批产品的最简单的准则是:当抽得的不合格产品件数不超过时,就接受该批产品,认为该批产品质量合格;否则,就拒绝该批产品,认为该批产品质量不合格。因此,检验方案简记为,其中已知,为抽检产品的个数,称为合格品判定数。显然,当确定了,检验方案就确定了(如图4.8.1所示)。那么如何确定呢?若该批产品的

27、不合格率为,则接受该批产品的概率(简称接受概率)为: (4.8.1)对可以用不同的方法计算,即(4.8.2)当样本容量较大时,由中心极限定理知: 近似服从标准正态分布,因此有 (4.8.)p11L(p)0图4.8.2 OC曲线显然,接受概率是的函数,记为(称为接受概率曲线,或抽样特性曲线,也称为OC(Operating Characteristic Curve)曲线)。当时,;当时,;是的递减函数(如图4.8.2所示)。 图4.8.3 一次抽样OC曲线示意图1p0p11-pL(p)01由于抽样的随机性,有可能拒绝一批高质量的产品,这时生产方将受到损失,犯这类错误(第一类错误)的概率记

28、为,称为生产风险;也有可能接受一批低质量的产品,这时使用方将受到损失,犯这类错误(第二类错误)的概率记为,称为使用风险。在制订抽样检验方案时,总是希望犯两类错误的概率都很小。为此,只有增大样本容量。但是选择得太大将使检验成本大大增加,这样做通常是不可行的。一种折衷的办法是生产方和使用方都承担一定的风险,高质量产品(较小)使用方以高概率接受,以保护生产者的利益;低质量产品(较大)使用方以低概率接受,以保护使用方利益。因此,需要确定,称为合格品质量水平,当时,认为该批产品质量高,接受概率要大,如要求(由生产方与使用方协商确定,就是显著性水平,一般取0.01,0.05,0.1);还需要确定一个,称为

29、极限质量水平,当时,认为该批产品质量低,接受概率要小,如要求(也是由生产方与使用方协商确定,一般取0.05,0.1,0.2)。于是由下式确定:(4.8.4)由于是的递减函数(如图4.8.3所示),所以可由(4.8.5)确定,即(4.8.6)由此可见,要制订一个抽样检验方案,应事先给定四个参数:生产风险,使用风险,双方可接受的合格品质量水平与极限质量水平。然后由(4.8.6)式求出。(4.8.7)4.举例现要验收一批产品,如果该批产品的次品率,就接受这批产品;如果,就拒绝这批产品。并且要求当时不接受这批产品的概率为0.1,当时接受这批产品的概率为0.1。试为验收者制订验收抽样方案。解:由题意知:

30、代入(4.8.7)式,可得:得,于是,取。抽样方案是:抽查112件产品,如果抽得的不合格品数,则接受这批产品,否则拒绝这批产品。5.问题的扩展也可以用上述方法确定计量质量指标抽样检验方案。假设一批产品的某质量指标,从中有放回地抽取件产品,得到它们的质量指标为,记表示这件产品质量指标的平均值。由不同的质量要求可提出接受这批产品的不同判断准则。例如,要求质量指标值越大越好,那么需确定参数,当时,接受该批产品,否则拒绝该批产品。因而检验抽样方案可用表示。由正态独立变量的性质知: 。因此接受产品的概率为(4.8.8)与前面讨论方法类似,为了同时使生产风险、使用风险都较小,需要给出产品合格的质量指标均值

31、水平与极限质量指标均值水平以及生产风险与使用风险,这时取满足(4.8.9)解方程组(4.8.9),得(4.8.10)举例:对一批钢材的强度进行抽样检验,要求其强度越大越好,并且已知强度服从正态分布,标准差=4kg/mm2。现在生产方与使用方商定,=46kg/mm2, =43kg/mm2。试制订一个抽样检验方案。解:设(kg/mm2)表示该批钢材的强度。由题意知,查表得,。根据公式(4.8.10)式计算得:, 。所以,抽样检验方案是抽取16根钢材分别测得其强度,平均值记为,当时接受该批产品,否则拒绝该批产品。6.进一步讨论的问题1.仍假设一批产品的某质量指标,从中有放回地抽取件产品,得到它们的质

32、量指标为,记。质量指标值越小越好,那么需确定参数,当时,接受该批产品,否则拒绝该批产品。这时,如何确定一次抽样检验方案?2.如果质量指标值不能太大,也不能太小,那么需确定参数,当时,接受该批产品,否则拒绝该批产品。这时,如何确定一次抽样检验方案?注:本实例依据杨虎教授负责的重庆市级精品课程概率论与数理统计网站的内容,略有修改.评注1.理论依据通过二项分布、超几何分布、正态分布计算相关事件的概率;产品质量验收抽样方案的确定。2.应用与推广通过产品质量验收抽样方案确定问题的数学建模全过程,使学生了解概率论在产品质量管理中的应用,可以将这种方法应用到实际的产品质量检验之中。参考文献周纪芗等.质量管理

33、统计方法M.中国统计出版社. 1999.杨虎:概率论与数理统计M.重庆大学出版社,2007.6.4.9 实际推断原理小概率事件原理在心灵感应试验中,两个试验者甲和乙分别坐在两个房间里。裁判给试验者甲4红4黑8张扑克,每发一张另一位试验者乙要说出是什么颜色的扑克。他知道一共发了4红4黑8张扑克。问:(1)如果在一次试验中,乙说对了至少6张牌,他是否有心灵感应?(2)如果做了10次试验,至少有5次乙说对了6张或6张以上,他是否有心灵感应?如果做了10次试验,至少有6次乙说对了6张或6张以上,他是否有心灵感应?分析:(1)如果两人没有心灵感应,则试验者乙至少能猜对6张的概率为:这个概率不算小,虽然乙

34、猜对了,不能说明乙有心灵感应。(2)如果把这种试验独立做10次,以X表示乙猜对6张或6张以上(6张或8张)的次数,在两人没有心灵感应的情况下,随机变量,故因此在10次试验中,即使有5次猜对6张或8张,也不能说他们两人有心灵感应,因为0.067不能算是小概率事件。如果6次猜对6张或8张,这个事件发生的概率仅为0.017,应该是一个小概率事件,“概率很小的事件在一次试验中实际上是不可能发生的”,则可以说明他们有心灵感应。如果一个事件发生的概率小于0.05,我们把这个事件称为小概率事件。在一般场合下,我们假定概率很小的事件在一次试验中不会发生,这个原理称为小概率事件原理或者称为实际推断原理。数理统计

35、中的假设检验的理论依据就是小概率事件原理。评注1.理论依据通过计算事件发生的概率是否为小概率,根据实际推断原理进行推断。2.应用与推广实际推断原理又称为小概率事件实际不可能原理,是统计推断中假设检验的理论基础。至于这个小概率怎样才算小,要根据推断的问题的重要性而定,一般情况下将0.05作为小概率的界限。为了灵活掌握小概率,往往给出在原假设成立的条件下样本出现的概率,也就是在许多应用软件中输出的。参考文献缪柏其.管理统计学M.中国科学技术大学出版社.2002.9.4.10 改变包装能使销售量增加吗? 某公司销售自己生产的产品,原用牛皮纸包装,定期内平均销售率为80%,现在公司试用改变包装来增加销

36、售量。第一次在不涨价的条件下,改为白色塑料袋包装,在销售这种产品的过程中,任取400件作调查,结果售出332件;第二次价格略有提高,改为手提袋式彩色塑料袋包装,在第二次改装后的商品销售过程中,仍任取400件,结果售出338件。以此来判断改变包装能使销售量增加吗?为了判断改变包装是否能使销售量增加,假设该公司的产品销售率为,则要检验。由于销售频率是销售概率的无偏估计量,且是大样本,由中心极限定理,当时,所以,。取,的拒绝域为。对于第一种情况下,接受。在检验水平之下,将牛皮纸改为白色塑料袋包装虽然价格没有提高,但销售量(销售率)并没有显著增加。对于第二种情况下,拒绝,即认为。在检验水平之下,将牛皮

37、纸改为手提包式彩色塑料袋包装,尽管价格略有上涨,但销售量(销售率)却明显地增加了。在消费者心里,手提包式彩色塑料袋可以重复使用,包装精美实用可以使消费者对商品产生好感,虽然价格略有上涨,人们愿意购买。公司在保证产品质量的同时,还应该注意研究消费者的心理,在包装装潢上下功夫有时也是出奇制胜的一招。评注1.理论依据比率的单边检验问题,应用数理统计学中的假设检验来检验改变包装以后销售率、销售量是否明显提高了。2.应用与推广有些结论不能靠直观判断得出,应该用科学的方法进行检验,数理统计学中的假设检验就是很可靠的方法。如检验治理污染的效果、某些药物的疗效、广告的效应、技术革新对产品质量的影响等等,都可以

38、通过假设检验作出结论。应该注意单边检验的原假设与对立假设如何设定。参考文献何群.改变包装会使销售量增加吗?J.数理统计与管理.1991.6.4.11 成对比较与成组比较比较两种玉米,看哪种平均亩产量大。可把土地分成n块,再把每小块一分为二,使这两块土地在土壤、阳光、水、肥等有相同的外部条件。然后一块地种A品种,另一块地种B品种,成对比较这块地平均亩产量;。由上述条件,反映了两品种的差异(因其他条件相同)。因此,两样本;的检验问题可以化为一个样本的检验问题。或:这种提法很多,如检验某新药或仪器治疗高血压是否有效,取n对患者,每对患者的条件尽可能一致,看新药与原有的药或仪器治疗高血压有无差别。再如

39、,某种饮料是否男女喜欢程度一样,取n对男女,除性别外,在年龄、职业、学历等条件基本一致,对某饮料打分(010分),这种方法称为成对比较。如果将两组独立样本与均值的比较称为成组比较。成对比较与成组比较有很大的差异。表4.11.1 政策前后指数及其变化 存户 政策后 政策前政策后政策前110540100205202780720603945391053484157310625115396239055764673440127278205810010581245812011447995984711210744468535911149824602380128831845237913648182466146

40、9696740229152408237830某银行经理发现目前过于强调顾客的存款数,他认为必须同时强调存款期限。为此,设计了一种将存款数与存款期限相乘的指数,然后介绍了一种有激励性的奖励计划,尽量减少顾客取款次数。现在他随机选择了15个存户,比较了在引用新计划前后的指数,他们的结果如表4.11.1,假设顾客存款数的这种指数服从正态分布,且成对数据之差服从正态分布。问:银行经理的新政策有无效果(=0.01)?这是一个典型的成对数据比较问题,正态总体方差未知的条件下均值的检验问题:,拒绝或 ,拒绝即:所作观察明显支持“新方法有效”的结论。用excel中数据分析,然后选择“检验:平均值的成对二样本分

41、析”,输出结果如表4.11.2。表4.11.2 t-检验: 成对双样本均值分析变量 1变量 2平均5592.3333335291.866667方差14885989.2414342368.41观测值1515泊松相关系数0.998925345假设平均差0df14t Stat6.094367018P(T<=t) 单尾1.38451E-05t 单尾临界1.761310115P(T<=t) 双尾2.76902E-05t 双尾临界2.144786681如果忽视成对数据作检验,而用成组数据检验:由样本数据算得:,,,, 混合样本方差,,接受。即,根据分组数据检验,新方法出台前后存款指数没有显著性

42、差异。问题的关键是没有利用是同一用户在新方法出台前后存款指数的数据,这对数据的不同,不仅仅是由于银行政策造成的。但是,本题不能作成组数据检验,只能作成对数据检验。评注1.理论依据正态总体的假设检验,成组比较是两个正态总体均值差的检验,成对比较是对正态总体均值是否等于(大于或小于)零的假设检验。2.应用与推广具体问题中,是用两个样本成组比较还是一个样本成对比较,要看数据来源是否符合成对比较的条件,否则结论就不正确。成组比较是通过两个独立样本判断两个正态总体的均值有没有显著性差异,这时每一个样本都是没有次序的,样本容量也可以不同;成对比较是通过两个非独立样本一对一比较来判断两个正态总体的均值有没有

43、显著性差异,这时两个样本是一一对应的,次序不可改变。参考文献缪柏其.管理统计学M.中国科学技术大学出版社.2002.9.4.12 葡萄酒质量的评价* 2013年全国大学生数学建模竞赛A题的第一问。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。每一位评酒员对葡萄酒进行品尝后对其分类指标打分,各指标分数分配如下:1.外观分析15分,分为澄清度5分,色调10分;2.香气分析30分,分为纯正度6分,浓度8分,质量16分;3.口感分析44分,分为纯正度6分,浓度8分,持久性8分和质量22分;4.平衡/整

44、体评价11分。现有28个葡萄酒样品,编号128;两组评酒员,每一组10位,编号分别为110。现将每一位评酒员对每一种葡萄酒的各项打分加总,列表如表4.12.1和表4.12.2,分析两组评酒员的评价结果有无显著性差异,哪一组结果更可信?表4.12.1 第一组评酒员对28个葡萄酒样品打分的总分 第一组评酒员葡萄酒编号12345678910平均分标准差185808861769383809579829.6032 27847865479918568738174.214.1798 385678975787513679907985.319.1082 47577806577838878858679.46.68

45、66 5844777607962747479747111.2448 66145836578568067658468.412.7558 78481836674808068778277.56.2583 87546815481597377858371.413.5499 97969816070557381768572.99.6315 107542866087758373917174.314.5835 117946856074718662887272.313.3087 126442755267627756687063.310.7605 138242834966657662656965.913.0678

46、14784884677964786881737210.6875 157448877181617967748272.411.4717 16694986657091876284777413.3417 178154907078718774929178.812.0074 188644837172718564748173.112.5118 197566836873648063737772.26.8118 208068827183818462878077.88.0250 218449855976868370888476.413.1420 22654890587277767080747111.7757 23

47、7166806980827871877575.96.6072 248256797367596878868573.310.5415 258680826974677778778177.15.8205 267566827593918176908481.38.5382 275840796759556674737764.812.0167 286675896988878576889081.38.9697 表4.12.2 第二组评酒员对28个葡萄酒样品打分的总分 第二组评酒员葡萄酒编号12345678910平均分标准差18478827579848169757277.95.087027976778577798

48、059767075.87.004838574718779798045837375.611.936948478748369828466777276.96.488558379798077878273849181.55.126268375746975778067777875.54.766877879746969828061727874.26.494487478746773777966736272.35.578797778898884898554798180.410.3086108677778281878461739079.88.3905117983786360738161607671.49.3714

49、127381737967798044648472.411.8340136878798178727562658173.96.8386147577767678827968788277.13.9847158377888084838063767078.47.3515166863756067866771526467.39.0683177769798379878875788880.36.2013187583827974847871746776.75.4985197675787081808366787776.45.1034208674757885817861737576.67.074221818079858

50、3768058858579.28.0250228076828875898066728679.47.321223144156157156145153147144162149151.36.3605246780777779788365728376.16.2084257976798683888352858479.510.3199268072758371838353628174.310.14402772798479768377637978775.9628287582818178847971768979.65.0376由于是评价两组评酒员对同样28种葡萄酒品的评价有无显著性差异,应该应用二样本成对数据的检验。设第一组评酒员评价结果服从正态分布,第二组评酒员评价结果服从正态分布,两组评酒员评价结果之差。由样本数据算得:,选择统计量,当成立时,接受域:将样本数据代入计算统计量的值得到:,拒绝。即两组评酒员评价结果有显著性差异。从两组评酒员的平均分来看,第一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论