实验四区间估计与假设检验_第1页
实验四区间估计与假设检验_第2页
实验四区间估计与假设检验_第3页
实验四区间估计与假设检验_第4页
实验四区间估计与假设检验_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实验4 区间估计与假设检验 利用样本对总体进行统计推断,主要有两类问题:一类是估计问题,另一类是检验问题。参数估计是根据样本的统计量来对总体的参数进行估计,假设检验则是利用样本的统计量来检验事先对总体参数或分布特性所作的假设是否正确。利用SAS软件中的INSIGHT模块和“分析家”功能以及编程的方法,均可以在不同的置信水平下求出总体参数的置信区间,在不同的检验(显著)水平下对总体的参数和分布特性进行检验。在对总体参数作区间估计和假设检验之前,常常需要判断总体分布是否为正态分布。检验数据是否来自正态分布总体,应用中常用分布拟合图、QQ图、分布检验等方法。4.1 实验目的 掌握使用SAS对总体参数

2、进行区间估计与假设检验方法,掌握使用SAS对总体分布情况进行判断以及正态性检验的方法。4.2 实验内容 一、用INSIGHT对总体参数进行区间估计与假设检验 二、用“分析家”对总体参数进行区间估计与假设检验三、编程对总体参数进行区间估计与假设检验四、在INSIGHT和“分析家”模块中研究分布并使用UNIVARIATE过程对总体分布进行正态性检验4.3 实验指导一、用INSIGHT对总体参数进行区间估计与假设检验图4-1数据集Mylib.sy4_1【实验4-1】已知某种灯泡的寿命服从正态分布,现从一批灯泡中抽取16只,测得其寿命如表4-1(sy4_1.xls)所示:表5-1 某种灯泡的寿命(单位

3、:小时)1510145014801460152014801490146014801510153014701500152015101470求该灯泡平均使用寿命90%、95%及99%的置信区间,并指出置信区间长度与置信水平的关系。 假设上述数据已存放于数据集Mylib.sy4_1中,如图4-1所示,变量sm表示灯泡寿命。 实验步骤如下:(1) 启动INSIGHT模块,并打开数据集Mylib.sy4_1。(2) 选择菜单“Analyze(分析)”“Distribution(Y)(分布)”。在打开的“Distribution(Y)”对话框中选定分析变量:sm,如图4-2左所示。(3) 单击“Outpu

4、t”按钮,在打开的对话框中选中“Basic Confidence interval(基本置信区间)”复选框,如图4-2右。两次单击“OK”按钮,得到结果,如图4-3所示。图4-2区间估计的设置图4-3 95置信区间 结果包括一个名为“95Confidence Intervals(95%置信区间)”的列表,表中给出了均值(Mean)、标准差(Std Dev)、方差(Variance)的估计值(Estimate)、置信下限(LCL)和置信上限(UCL)。结果表明,根据抽样样本,灯泡平均使用寿命的置信水平为95%的置信区间为(1476.8034,1503.1966)。(4) 选择菜单“Tables(

5、表)”“Basic Confidence Interval(基本置信区间)”“Others(其他)”,在打开的“Basic Confidence Interval”对话框中修改置信水平,如图4-4所示。图4-490%、97.5%置信区间可以看到,由于置信水平的提高,置信区间的长度在增加。【实验4-2】正常人的脉搏平均每分钟72次,某医生测得10例“四乙基铅中毒”患者的脉搏数如表4-2(sy4_2.xls)所示:表4-2 “四乙基铅中毒”患者的脉搏数(次/min)54676878706667656970 已知人的脉搏次数服从正态分布,试问“四乙基铅中毒”患者的脉搏和正常人的脉搏有无显著差异(a=

6、0.05)? 这是一个单样本均值的双边检验问题。若为“四乙基铅中毒”患者脉搏数的均值,需要通过样本数据检验如下假设: H0:=72,H1:72。图4-5数据集Mylib.sy4_2假定上述数据存放在数据集Mylib.sy4_2中,如图4-5所示,脉搏次数用变量cs表示。使用INSIGHT对均值进行检验的步骤如下:(1) 首先启动INSIGHT,并打开数据集Mylib.sy4_2,选择菜单“Analyze(分析)”“Distribution(Y)(分布)”。 (2) 在打开的“Distribution(Y)”对话框中选定分析变量:选择变量cs,单击“Y”按钮,将变量移到右上方的列表框中。单击“O

7、K”按钮,得到变量的描述性统计量。(3) 选择菜单“Tables(表)”“Tests for Location(位置检验)”;在弹出的“Tests for Location”对话框中输入72,单击“OK”按钮得到输出结果,如图4-6所示。图4-6位置检验结果显示,不等于72的观测有10个,其中有1个观测值大于72。 图中第一个检验为t检验(Students t),需要假定变量服从正态分布,检验的p值为0.0366,这个检验在0.05水平下是显著的,可认为均值与72有显著差异。第二个检验(Sign)是叫做符号检验的非参数检验,其p值为0.0215,在0.05水平下是显著的,第三个检验(Sgned

8、 Rank)是叫做符号秩检验的非参数检验,其p值为0.0410,在0.05水平下也是显著的。 由于这三个检验的结论中的p值均小于0.05,所以应拒绝原假设,即总体的均值与72有显著差异。因此,可认为“四乙基铅中毒”患者的脉搏和正常人的脉搏有显著差异。二、用“分析家”对总体参数进行区间估计与假设检验【实验4-3】用数据集SASUSER.GPA,求总体中女生比例的95的置信区间(a = 0.05)。 步骤如下:(1) 在“分析家”中打开数据集SASUSER.GPA,选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”“One Sample Test for a

9、Proportion(单样本比例检验)”。(2) 在打开的“One Sample Test for a Proportion”对话框中选择变量sex,单击“Variable”,将其移到“Variable”中,单击“Level of Interest”下拉框右侧的下拉箭头,选“female”,如图4-7左所示。(3) 单击“Intervals”按钮,在打开的对话框中选定置信估计类型和置信水平,如图4-7右所示。两次单击“OK”按钮,得到结果,如图4-8所示。图4-7 设置比例的置信区间 结果显示:变量sex取值为“female”的比例的95%置信区间为(0.585,0.710)。图4-8 比例的

10、置信区间【实验4-4】生产工序的方差是工序质量的一个重要度量。当方差较大时需要对工序进行改进以减小方差,现测得两部机器生产的部分袋茶重量如表4-3(sy4_4.xls)所示,设两个总体为正态总体,求两个总体方差比的95%的置信区间(a=0.01)。表4-3 两部机器生产的袋茶重量(单位:克)机器1机器23.453.223.903.223.283.353.202.983.703.382.193.303.223.753.283.303.293.053.503.383.353.303.203.332.953.453.203.343.353.273.163.483.123.283.163.283.20

11、3.183.253.303.343.25步骤如下:图4-9数据集Mylib.sy5_4(1) 首先,将表中的数据生成数据集mylib.sy4_4,如图4-9所示,两部机器生产的袋茶重量分别用两个变量jq1和jq2表示。(2) 在分析家中打开数据集mylib.sy4_4后,选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”“Two-Sample Test for Variance(双样本方差检验)”,打开“Two-Sample Test for Variance”对话框。(3) 在“Groups are in”栏中选择“Two variables”选项,并将

12、变量jq1和jq2分别移至“Group1”和“Group2”框中;如图4-10左所示。(4) 单击“Intervals”按钮,在打开的对话框中选定置信估计类型和置信水平,如图4-10右所示。两次单击“OK”按钮,得到分析结果,如图4-11所示。图4-10设置方差比检验图4-11双样本方差比的置信区间 结果显示,在95%的置信水平下,两个总体方差比的置信区间为(0.3827,2.3244)。【实验4-5】某种电子元件的寿命(以小时记)服从正态分布。现测得16只元件的寿命如表4-4(sy4_5.xls)所示:表4-4 某种电子元件的寿命1592801012122243791792642223621

13、68250149260485170问是否有理由认为元件的平均寿命显著地大于225小时(a=0.05)?图4-12数据集Mylib.sy4_5 这是一个单样本均值的单边检验问题。若为元件的平均寿命,需要通过样本数据检验如下假设: H0:=225,H1:225。 由于此时的方差未知,所以使用t检验法。假定上述数据存放在数据集mylib.sy4_5中,灯泡寿命用变量sm表示,如图4-12所示。步骤如下: (1) 在“分析家”中打开数据集mylib.sy4_5,选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”“One Sample t test for a Me

14、an(单样本均值t - 检验)”,打开“One Sample t test for a Mean”对话框。(2) 选中变量“sm”,单击“Variable”按钮,将其移到“Variable”框中,单击选项按钮“Mean=”右边的文本框中填入原假设的均值数据225,如图4-13左所示。(3) 单击“OK”按钮,得到结果如图4-13右所示。结果显示t统计量的p值为0.7430.05,所以在0.05的显著水平下,不能拒绝平均寿命大于225小时的原假设。图4-13 设置均值检验【实验4-6】有若干人参加了一个减肥锻炼,在一年后测量了他们的身体脂肪含量(身体脂肪含量的百分数),结果如表4-5(sy4_6

15、.xls)所示:表4-5 男女生脂肪含量男生组:13.319208182220312112161224女生组:2226161221.723.221283023 试比较这些人中男性和女性的身体脂肪含量有无显著差异(a=0.05)。图4-14数据集mylib.sy4_6 这是一个(独立)两样本均值检验问题,若1和2分别表示男性和女性身体脂肪的平均含量,则检验的是: H0:12 = 0,H1:12 0;假定数据存放在数据集mylib.sy4_6中,如图4-14所示,将男女生脂肪含量的观测值记在同一分析变量z下,不同的样本用一个分类变量g的不同值加以区分,而且分类变量g只能取两个值(“m”表示男,“f

16、”表示女),否则无法进行检验。 分析步骤如下: (1) 在“分析家”中打开数据集mylib.sy4_6。(2) 选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”“Two Sample t - Test for Means(两样本均值的t - 检验)”。(3) 在打开的“Two Sample t - Test for a Means”对话框中,将变量z和g分别选到“Dependent”和“Group”中,如图4-15左所示。 (4) 单击“OK”按钮,得到结果如图4-15右所示。结果显示,由于t统计量的p值 = 0.10310.05,所以在0.05的显著水

17、平下,不能拒绝原假设,可以认为男性和女性的身体脂肪含量无显著差异。图4-15双样本均值检验三、编程对总体参数进行区间估计与假设检验 利用编程方法重做实验4-1和实验4-6。【实验4-7】重做实验4-1。 (1) 生成数据集 编程将表4-1中数据存放于数据集sy4_7中,变量名为sm,代码如下:data sy4_7; input sm; cards;run; (2) 计算该灯泡平均使用寿命95%、99%及90%的置信区间,代码如下:proc ttest data= sy4_7;run; 运行结果如图4-16所示。图4-16 95%的置信区间proc ttest data = sy4_7 alph

18、a =0.01;run; 运行结果如图4-17所示。图4-17 99%的置信区间proc ttest data = sy4_7 alpha =0.1;run; 运行结果如图4-18所示。图4-18 90%的置信区间【实验4-8】重做实验4-6 (1) 生成数据集 将表4-5中数据存放于数据集sy4_8中,用变量z表示脂肪含量,分类变量g表示性别,代码如下:data sy4_8; input z g$ ; cards;13.3 m19 m20 m8 m18 m22 m20 m31 m21 m12 m16 m12 m24 m22 f26 f16 f12 f21.7 f23.2 f21 f28 f3

19、0 f23 f;run; (2) 均值检验proc ttest h0 = 0 alpha = 0.05 data=sy4_8;var z; class g;run; 代码运行结果除了给出变量z在95%置信水平下的均值、标准差的置信区间外,还给出对假设H0:12 = 0,H1:12 0,所作的t-检验的p值,如图4-19所示。 结果显示无论是方差相等还是方差不等,t统计量的p值都 0.05,不能拒绝原假设:12 = 0,可以认为,男性和女性的身体脂肪含量无显著差异。图4-19样本均值的t 检验【实验4-9】表4-6是一组鸟巢高度数据(sy4_9.xls),试用分布拟合图、QQ图和分布检验三种方法

20、说明其是否服从正态分布。表4-6 鸟巢高度数据153.53.57175.75271584.757.54.256.255.7558.596.255.547.58.756.545.253123.754.756.253.252.5 绘制分布拟合图图4-20 数据集Mylib.sy4_9 假设上述数据存放在数据集Mylib.sy4_9中,高度变量名为height,如图4-20所示。 (1) 在INSIGHT中打开Mylib.sy4_9,选择菜单“Analyze(分析)”“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。在数据集Mylib.sy4_9的变量列表

21、中,选择height,然后单击“Y”按钮,height被选为分析变量,如图4-21左所示。 (2) 单击“Output(输出)”按钮,在打开的对话框中单击“Density Estimation(密度估计)”按钮(图4-21右),打开“Density Estimation”对话框,选中“Parametric Estimation(参数估计)”栏下的“Normal(正态)”复选框,如图4-22左所示。图4-21 “Distribution (Y)”对话框图4-22 密度估计与拟合图 三次单击“OK”按钮,即可得到变量height的正态分布密度拟合图和参数估计,如图4-22右与图4-23所示。图4-

22、23 height变量的参数密度估计 绘制QQ图 如果在图4-21右所示的“Distribution (Y)”对话框中选中“Normal QQ Plot(正态QQ图)”复选框,如图4-24左所示,两次单击“OK”,则可以得到正态QQ图,如图4-24右所示。图4-24 正态QQ图 选择菜单“Curves(曲线)”“QQ Ref Line(QQ参考线)”,打开“QQ Ref Line”对话框。选择“Method(方法)”栏下的“Least Squares(最小二乘)”,如图4-25左,单击“OK”按钮得到带参考线的QQ图(图4-25右)。图4-25 带参考线的QQ图 正态性检验 在INSIGHT中

23、继续上述操作:选择菜单“Curves(曲线)”“Test for Distribution(分布检验)”,打开“Test for Distribution”对话框; 对话框中显示可做的检验有:Normal(正态分布)、Lognormal(对数正态分布)、Exponential(指数分布)和Weibull,缺省做正态分布检验,如图4-26左所示。图4-26做正态分布检验 单击“OK”按钮,得到变量height的经验分布和拟合的正态累计分布曲线图(图4-26右),以及正态分布检验表(图4-27)。图4-27正态分布检验表 结果分析 从分布拟合图(图4-22右)和QQ图(图4-25右)可以看出hei

24、ght样本数据与正态分布有一定的差距。正态分布检验结果汇总在分布检验表(图4-27)中,其中列举了拟合正态分布的均值6.8788(即样本均值)和标准差4.7918(即样本标准差),并提供了Kolmogorov D统计量的数值0.2078,而相应的p值 0.01 0.05 = ,所以应拒绝原假设,不能认为变量height的总体分布为正态分布。【实验4-10】使用UNIVARIATE编程实现实验4-9中鸟巢高度的正态性检验proc univariate data = Mylib.sy4_9 normal;var height;run;图4-28 正态性检验运行结果如图4-28所示。结果表明,四种统计量的检验结果p值均很小( 0.05),应拒绝原假设,即不能认为height服从正态分布。4.4 上机演练

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论