数据、模型与决策课件:第六章 数据的适合性分析_第1页
数据、模型与决策课件:第六章 数据的适合性分析_第2页
数据、模型与决策课件:第六章 数据的适合性分析_第3页
数据、模型与决策课件:第六章 数据的适合性分析_第4页
数据、模型与决策课件:第六章 数据的适合性分析_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、授课目的:了解并熟练使用数据的适合性分析要求:1.通过正态分布的描述性统计确认方法判断 数据是否服从正态分布 2.掌握正态分布的拟合优度检验方法判断数 据是否服从正态分布 3.掌握数据的随机性检验第六章 数据的适合性分析正态分布的描述性统计确认方法 正态分布的拟合优度检验方法 数据的随机性检验本章要点数据是否随机产生,是否服从正态分布数据分布的正态性检验数据的随机性检验本章要点联系图是否服从正态分布是否随机产生第一节数据分布的正态性检验1.正态分布的描述性统计确认方法2.正态分布的拟合优度检验方法在对数据进行差异性分析和关联性分析,或者更为复杂的分析时,往往以该数据符合随机原则、服从正态分布为

2、出发点。这是因我们使用的统计方法需要这样的假定前提(assumption),这在那种场合是必须的。然而,一组数据究竟是否系随机产生,是否服从正态分布,还需要进一步得到确认。简易的描述性方法包括下面3种,需要将第一种方法与后面两者(之一)通盘考虑:作数据的直方图或频数多边形,从图形来观察其是否服从正态分布。结合使用平均数和标准差对数据集中和离散情况进行衡量。结合使用四分位距和标准差对数据集中和离散情况进行衡量。正态分布的描述性统计确认方法作数据的直方图或频数多边形,从图形来观察其是否服从正态分布。图形首先应该左右两边大致对称,其次要求中间高、向两侧逐渐降低。正态分布的描述性统计确认方法结合使用平

3、均数和标准差对数据集中和离散情况进行衡量。平均数两侧1倍标准差的范围,即 ,是否涵盖全部数值的68%左右?平均数两侧2倍标准差的范围,即 ,是否涵盖全部数值的95%左右?平均数两侧3倍标准差的范围,即 ,是否涵盖全部数值的100%? 正态分布的描述性统计确认方法结合使用四分位距和标准差对数据集中和离散情况进行衡量,具体说 是否接近1.3?正态分布的描述性统计确认方法.例题数据例6-1.xls例61第一步进行等距分组并绘制直方图。先绘制50笔订单频数分布例61订购量(吨)频数20 30230 40640 501250 601760 70970 80380 901合 计50再根据频数分布表绘制直方

4、图,该直方图左右两边大致对称,中间高、向两侧逐渐降低。例61第二步,结合使用平均数和标准差对数据集中和离散情况进行衡量。使用EXCEL有关函数计算得知, 。 在40.0160.15间,此区间涵盖50笔订货量数据的66%。与前述标准仅少1个百分点。 在27.9576.22间,此区间涵盖50笔订货量数据的94%。与前述标准仅少1个百分点。 在15.8882.28间,此区间涵盖全部50笔订货量数据。完全合乎前述标准。例61第三步,结合使用四分位距和标准差对数据集中和离散情况进行衡量。使用EXCEL的QUARTILE函数计算得知,Q1=43,Q3=59。 。此比值非常接近前述标准。总之使用三个描述性确

5、认方法,初步认为这50笔订货量数据服从正态分布。例61对数据分布正态性的假设检验,是数据的拟合优度检验方法的一个重要方面。学会了正态性检验,就可以检验一组数据是否服从任何一种概率分布模型。而拟合优度检验又是卡方检验应用的一个领域。其原理还是比较样本观察值与特定总体分布参数确定的期望频数之间的综合差异程度。正态分布的拟合优度检验方法我们希望检验这组数据是否服从以50吨为总体平均数、12吨为总体标准差的正态分布,因而有如下一对假设。这是一个卡方正态性检验,该正态分布的参数已在假设中明确。通过一个计算表来实现本检验中期望频数的计算。订购量(吨)频数界点XZ累计概率区间概率期望频数并格后期望频数E并格

6、后观测频数020 30230-1.830.03360.03361.6830 40640-1.000.15840.12476.247.9280.392740 501250-0.170.43150.273213.6613.66120.201250 6017600.660.74410.312615.6315.63170.119860 709701.480.93120.18719.3512.79131.039670 803802.310.98970.05842.9280 9010.01030.01030.52合计501.000050.0050.00501.7533 50笔订单订货量正态性检验计算表由已

7、知条件求期望频数的过程如下:以(末组除外的)各组上限为界点,将正态曲线划分成7个曲边梯形,这些梯形的直角边分别是-30,30 40,40 50,50 60,70 80,80+。从零假设成立( )出发,在将界点改算成标准分数 。由Z值求7个曲边梯形的面积,即Z落入各标准化界点之间的概率(区间概率)。用区间概率乘以观测频数之和(样本容量),得各组相应的期望频数。需要指出的是,这样的卡方检验,要求每个期望频数不小于5。如果某组的期望频数小于5,该组就要并入相邻组。此成为并格。本例中,首组(30吨以内)期望频数是1.68,被并入第二组(30 40吨),合并后的期望频数是1.68+6.24=9.72。末

8、组(80吨以上)的期望频数是0.52,需要并格。而其上一组(70 80吨)的期望频数是2.92,两者合并仍不足5,需要再往上并格,形成新组(60吨以上),期望频数是0.52+2.92+9.35=12.79。最终还要4组。在求得卡方检验统计量 =1.7533之后,再明确 本卡方分布模型的自由度,就可以进行检验决策了。拟合优度卡方检验的自由度式中:r是并格后的分组数目, m是在计算期望频数过程中,被估计的参数数目。本例计算期望频数过程中,直接取总体平均数50,总体标准差12,没有用样本统计量估计参数,因此m =0自由度 。使用EXCEL的CHITDIST函数,算得本检验P值=0.,63。如此大的P

9、值使得我们没有任何理由拒绝50笔订单订货量服从正态分布的假设。某台装瓶机设定装瓶重量为250克。检质员随机从该机装填的成品中抽取125只, 查得装瓶重量的频数分布如下:.例题数据例6-2.xls试以0.10的显著水平检验该机装瓶重量是否服从以250克为平均数的正态分布。例62本题没有指出待检验的总体的方差,因而有待于由样本数据进行估计。经计算得 S =2.74 一对假设可以表述为 : 装瓶重量服从正态分布N(250, ) : 不成立。根据拟定假设可以计算期望频数,归纳如下表:例62重 量X标准化组限正态分布概 率期 望 频 率E42-244244-246246-248248-250250-25

10、2252-254254-256-2.19以下-2.19 -1.46-1.46 -0.73-0.73000.730.731.461.46以上0.01430.05780.16060.26730.26730.16060.07210.0143125=1.770.0578125=7.230.1606125=20.080.2673125=33.420.2673125=33.420.1606125=20.080.0721125=9.0例62在计算期望频数时,为使得总和等于125,对首组频数和末组频数的尾数进行了调整。第一组的期望频数上是1.77,不足5,需要与下一组合并。因此组数由7降为6。自由度v =6-

11、1-1=4 ,使用EXCEL的CHIINV函数查得 =7.779。因此,决策规则是: 若样本 7.779,拒绝 ;否则接受 。通过下表计算 检验统计量。例62重 量X观察频数O期望频数E242-244244-246149.002.7778246-248248-250250-252252-254254-25615324315620.0833.4233.4220.089.001.28520.06032.74621.28521.0000 样本 =9.1548例62样本 导致拒绝 。结论: 不能认为该机装重量服从以250克为平均数的正态分布。例62装瓶重量分组标准化组限与相应概率值图例62第二节数据的

12、随机性检验对于一组数据,欲判断其是否为随机产生的,可根据某种标准,将观察值划分为对立的两种类别,每类各以一个字符表示。于是观察值是否系随机产生的问题,就转换成两类字符是否随机排列的问题。数据的随机性检验有一种盒装营养食品,其包装盒印字的颜色有红的或绿的两色。现在准备把该食品盒摆放到货架上,可以排放三层,每层密集摆放可放40盒。兹以R表示红字盒,G表示绿字盒,三层的摆放结果如下:例63(1) R R RR G G GG 27 13 (2) R R G R R G R R GG R R G (3) R R R G R R R R G G G R R G G R R R R R G R R R R

13、G G R G G G R R R G G R R R G R G R R R R G G R R G R R R G R R R R R 例63第一层是红字盒与绿字盒分别集中于前后两段,第二层是每摆放2个红字盒就插进1个绿字盒,两者都明显遵循了某种摆放规则,不是随机摆放。而第三层内红字盒与绿字盒的相间的规律似有若无,很难说是否有随机性。我们把同类字符在本例中是相同颜色的食品盒组成的连续体称为游程(run)。在两类字符各自的总数目确定的前提下,游程数目过多或过少都可以拒绝两类字符随机排列的假设。我们用 和 分别表示第一类字符的数目和第二类字符的数目,用r表示游程的数目。在 20, 20的前提下,r的分布逼近于正态分布,该分布的平均数和标准差分别由下式确定:例63我们可以对r计算Z统计量,其值落于显著水平 割定的左尾和右尾,都将导致拒绝关于观察值系列存在随机性的假设。对于本例的第三层排放法, =40, =20,r=25,若取 =0.05,则拒绝 的条件是 1.65。兹有检验统计量例63故接受 。所以不能推翻红字盒与绿字盒随机摆放的假设。例63 推断下列45个数码是否为随机数码:21839 39937 27534 88913 49055 19218 26091 68409 69104。 例69我们把观察值划成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论