版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章
区间估计与假设检验武汉大学计算机学院区间估计与假设检验3.1区间估计与假设检验的基本概念3.2总体均值的区间估计与假设检验的SAS实现3.3总体比例的区间估计与假设检验的SAS实现3.4总体方差的区间估计与假设检验的SAS实现3.5分布检验3.1区间估计与假设检验的基本概念利用样本对总体进行统计推断,主要有二类问题参数估计:根据样本的统计量对总体的参数进行估计;假设检验:研究如何利用样本的统计量来检验事先对总体参数作的假设是否正确3.1.1区间估计3.1.2假设检验3.1.1区间估计1.点估计和区间估计
参数的估计方法主要有两种:点估计和区间估计。
点估计是用样本的观测值估计总体未知参数的值。由于样本的随机性,不同样本观测值计算得出的参数的估计值间存在着差异,因此常用一个区间估计总体的参数,并把具有一定可靠性和精度的估计区间称为置信区间。利用构造的统计量及样本观测值,计算得出参数的置信区间的方法称为参数的区间估计。正态分布的实例如果数据来自正态分布总体,则:68%的值落在距均值1个标准差的范围之内95%的值落在距均值2个标准差的范围之内99%的值落在距均值3个标准差的范围之内
例如:由12岁女孩体重组成一个总体,这个总体服从均值为39公斤,标准差4.5公斤,则:
68%的值落在34.5~43.5公斤之间
95%的值落在30~48公斤之间
99%的值落在25.5~52.5公斤之间置信区间正态分布描述落入不同范围的概率.例如,近似地有(“3
”原则):◆68%的数据落入以均值为中心一倍标准差的范围内;◆95%的数据落入以均值为中心两倍标准差的范围内;◆99%的数据落入以均值为中心三倍标准差的范围内;
若样本均值的分布为正态的,当构造置信区间时就可用正态分布给定的概率,这一概率对应于置信水平.所以,构造一个95%的置信区间,这个置信区间就有95%的概率包括总体均值.95%就为置信水平.2.参数的置信区间在区间估计中,对于总体的未知参数θ,需要求出两个统计量θ1(X1,X2,...,Xn)和θ2(X1,X2,...,Xn)来分别估计总体参数θ的上限和下限,使得总体参数在区间(θ1,θ2)内的概率为P{θ1<θ<θ2}=1–α
其中1–α称为置信水平,而(θ1,θ2)称为θ的置信区间,θ1,θ2分别称为置信下限和置信上限。置信水平为1–α的含义是:随机区间(θ1,θ2)以1–α的概率包含了参数θ。3.正态总体均值和方差的置信区间参数的区间估计大多是对正态总体的参数进行估计,如对单总体均值、方差的估计、两总体均值差的估计和两总体方差比的估计等。正态总体参数的各种置信区间见表3-1。被估参数条件枢轴量及其分布参数的置信区间单正态总体μ2已知2未知2μ已知μ未知正态总体参数的各种置信区间见表3-1。
其中被估参数条件枢轴量及其分布参数的置信区间两正态总体μ1-μ2两样本独立,12,22已知两样本独立,12=22=2
未知两样本独立,μ1,
μ2未知4.总体比例与比例差的置信区间实际应用中经常需要对总体比例进行估计,如产品的合格率、大学生的就业率和手机的普及率等。记π和P分别表示总体比例和样本比例,则当样本容量n很大时(一般当nP和n(1–P)均大于5时,就可以认为样本容量足够大),样本比例P的抽样分布可用正态分布近似。总体比例与比例差的置信区间如表3-2所示。待估参数枢轴量及其分布参数的置信区间总体比例π两总体比例差π1-π2其中P1,P2为两个样本比例
3.1.2假设检验情形一:“根据我们的检验,我们的产品缺陷率只有千分之一.”,从1000件产品中随机抽了5件货品,其中2个有质量问题.你的结论?不可能->概率为0->小概率事件发生了->否定原假设情形二:“根据我们的检验,我们的产品缺陷率只有百分之一.”,从1000件产品中随机抽了5件货品,其中2个有质量问题.你的结论?1)缺陷率肯定高于1%,不合要求;2)缺陷率确实只有1%,只是恰巧抽到有缺陷的.在原假设成立的条件下,如果计算出样本所对应的事件发生概率比较大,那么没有理由拒绝原假设;如果计算出样本所对应的事件发生概率比较小,即小概率事件发生了,依据小概率事件在一次试验中几乎不会发生的原理,它在一次实验中是不应该发生的。可事实是,本来不该发生的事件却在我们的实验中发生了。那么,只能说抽查结果不支持原假设中的论断。假设检验的基本思路反证法思想先假定“H0为真”,如果检验中出现了不合理现象,则表明“H0为真”的假设是错误的,应该拒绝H0。如果检验中未出现不合理现象,则表明“H0为真”的假设是正确的,应该接受H0。小概率原理小概率事件在一次实验中几乎不可能发生,如果小概率事件在一次实验中发生了,则有理由怀疑原假设的真实性,从而拒绝原假设。3.1.2假设检验1.假设检验的基本原理对总体参数进行假设检验时,首先要给定一个原假设H0,H0是关于总体参数的表述,与此同时存在一个与H0相对立的备择假设H1,H0与H1有且仅有一个成立;经过一次抽样,若发生了小概率事件(通常把概率小于0.05的事件称为小概率事件),可以依据“小概率事件在一次实验中几乎不可能发生”的理由,怀疑原假设不真,作出拒绝原假设H0,接受H1的决定;反之,若小概率事件没有发生,就没有理由拒绝H0,从而应作出拒绝H1的决定。2.假设检验的步骤
1)根据问题确立原假设H0和备选假设H1;
2)确定一个显著水平,它是衡量稀有性(小概率事件)的标准,常取为0.05;
3)选定合适的检验用统计量W(通常在原假设中相等成立时,W的分布是已知的),根据W的分布及的值,确定H0的拒绝域。
4)由样本观测值计算出统计量W的观测值W0,如果W0落入H0的拒绝域,则拒绝H0;否则,不能拒绝原假设H0。注意:在SAS系统中,是由样本观测值计算出统计量W的观测值W0和衡量观测结果极端性的p值(p值就是当原假设成立时得到样本观测值和更极端结果的概率),然后比较p和作判断:p<,拒绝原假设H0;否则,不能拒绝原假设H0。3.正态总体均值和方差的假设检验
对正态总体的参数进行假设检验是假设检验的重要内容,如对单总体均值、方差的检验、两总体均值之差的检验和两总体方差比的检验等。正态总体参数的各种检验方法见下表3-3至表3-5。表3-3单正态总体N(μ,2)均值μ的检验法检验名称条件检验类别H0H1检验统计量分布拒绝域Z检验σ2已知双边检验μ=μ0μ≠μ0N(0,1)|Z|≥Zα/2左边检验μ≥μ0μ<μ0Z≤-Zα右边检验μ≤μ0μ>μ0Z≥Zαt检验σ2未知双边检验μ=μ0μ≠μ0t(n–1)|t|≥tα/2(n
–1)左边检验μ≥μ0μ<μ0t≤–
tα(n
–1)右边检验μ≤μ0μ>μ0t≥tα(n
–1)表3-4单正态总体N(μ,2)方差2的检验法检验名称条件检验类别H0H1检验统计量分布拒绝域χ2检验μ已知双边检验左边检验右边检验μ未知双边检验左边检验右边检验表3-5两正态总体的均值差与方差比的检验名称条件类别H0H1检验统计量分布拒绝域Z检验两样本独立,12=22=2未知双边检验μ1-μ2=0μ1-μ2≠0t(n1+n2
–2)左边检验μ1-μ20μ1-μ2<0右边检验μ1-μ20μ1-μ2>0t检验成对匹配样本,12,22未知双边检验μd=0μd≠0左边检验μd0μd<0右边检验μd0μd>0F检验两样本独立,μ1,μ2未知双边检验F(n1–1,n2–1)左边检验右边检验4.总体比例与比例差的检验当样本容量n很大时,可根据表3-6对总体比例与比例差进行假设检验。表3-6总体比例与比例差的检验检验名称检验类别H0H1检验统计量分布拒绝域比例检验双边检验
=0
0N(0,1)|z|
zα/2左边检验
0
<0|z|≤–zα右边检验
0
>0|z|
zα两总体比例差检验双边检验1
=21
2N(0,1)|z|
zα/2左边检验1
21<2|z|≤–zα右边检验1
21>2|z|
zα3.2总体均值的区间估计与假设检验的SAS实现3.2.1使用INSIGHT模块3.2.2使用“分析家”3.2.3使用TTEST过程3.2.1使用INSIGHT模块1.总体均值的区间估计【例3-1】某药材生产商要对其仓库中的1000箱药材的平均重量进行估计,药材重量的总体方差未知,随机抽取16箱样本称重后结果如表3-7所示。表3-716箱药材重量(单位:千克)设药材重量数据存放于数据集Mylib.yczl中,其中重量变量名为weight。求该仓库中每箱药材平均重量在95%置信水平下的置信区间。50505651495347525353495355485055步骤如下:
1)启动INSIGHT模块,并打开数据集Mylib.yczl;
2)选择菜单“Analyze”→“Distribution(Y)”;
3)在打开的“Distribution(Y)”对话框中进行区间估计的设置(如图)。
结果包括一个名为“95%ConfidenceIntervals(95%置信区间)”的列表,表中给出了均值、标准差、方差的估计值(Parameter)、置信下限(LCL)和置信上限(UCL),如图3-2所示。结果表明,根据抽样样本,该仓库中药材的平均重量以95%的可能性位于50.08千克至52.92千克之间。2.单样本总体均值的假设检验【例3-2】一家食品厂以生产袋装食品为主,每天的产量大约为8000袋,每袋重量规定为100克。为了分析每袋重量是否符合要求,质检部门经常进行抽检。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如表3-8所示。表3-825袋食品的重量(单位:克)试从抽检的样本数据出发,检验变量WEIGHT的均值与100克是否有显著差异。假定表3-8数据存放在数据集Mylib.spzl中,重量变量名为WEIGHT。112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3设变量WEIGHT的均值为μ,问题是希望通过样本数据检验变量WEIGHT均值的如下假设:
H0:μ=100, H1:μ
100。使用INSIGHT对均值进行检验的步骤如下:
1)首先启动INSIGHT,并打开数据集Mylib.spzl;
2)选择菜单“Analyze”→“Distribution(Y)”;
3)在打开的“Distribution(Y)”对话框中选定分析变量WEIGHT;
4)单击“OK”按钮,得到变量的描述性统计量;
5)选择菜单“Tables(表)”→“TestsforLocation(位置检验)”;在弹出的“TestsforLocation”对话框中输入100,单击“OK”按钮得到输出结果如图所示。
结果显示,观测值不等于100克的观测有24个,其中19个观测值大于100。图中第一个检验为t检验(Student‘st),需要假定变量服从正态分布,检验的p值为0.0105,这个检验在0.05水平下是显著的,所以可认为均值与100克有显著差异。第二个检验(Sign)是叫做符号检验的非参数检验,其p值为0.0066,在0.05水平下也是显著的,结论不变。第三个检验(SignedRank)是叫做符号秩检验的非参数检验,其p值为0.0048,在0.05水平下是显著的,结论不变。3.两样本总体均值的比较:成对匹配样本在INSIGHT中比较成对样本均值是否显著差异,可以计算两变量的差值变量,再检验差值变量的均值是否显著为0。【例3-3】由10名学生组成一个随机样本,让他们分别采用A和B两套试卷进行测试,结果如表3-9所示。表3-910名学生两套试卷的成绩试从样本数据出发,分析两套试卷是否有显著差异。试卷A78637289914968768555试卷B71446184745155607739差值71911517-21316816
步骤如下:
1)首先生成差值变量:启动INSIGHT,并打开数据集Mylib.sjdf。选择菜单“Edit”→“Variables”→“Other”,打开“EditVariables”对话框,选择A为Y变量,B为X变量,然后选择变换(Transformation):Y–X,如图,生成新的差值变量d;
2)然后对变量d的均值做如下假设:
H0:μd=0, H1:μd
0。
3)选择菜单“Analyze”→“Distribution(Y)”;在打开的“Distribution(Y)”对话框中选定分析变量:选择变量差值d,单击“Y”按钮,将变量d移到右上方的列表框中;
4)单击“Output”按钮,在打开的对话框中选中“TestsforLocation(位置检验)”复选框;
5)两次单击“OK”按钮,得到变量的描述性统计量;
6)选择菜单“Tables(表)”→“TestsforLocation(位置检验)”;在弹出的“TestsforLocation”对话框中输入0,单击“OK”按钮得到输出结果如图所示。
结果显示三个检验的结论都是p值小于0.05,所以应拒绝原假设,即总体的均值与0有显著差异。所以两套试卷有显著差异。虽然SAS给出三个检验结果,其实作结论时只需其中一个。如果可以认为分析变量服从正态分布只要看t检验结果;否则只须看符号秩检验结果。只有在数据为两两比较的大小结果而没有具体数值时符号检验才有用。正态分布检验Insight下,“分布”菜单;选择待分析变量,单击”Y”按钮;“输出”按钮-->”累积分布”-->”正态”-->”确定”概率值>0.05,接受原假设(该变量的总体分布与正态分布无显著差异)3.2.2使用“分析家”1.总体均值的置信区间【例3-4】在“分析家”中求例3-1中每箱药材平均重量在95%置信水平下的置信区间。步骤如下:
1)在“分析家”模块中打开数据集Mylib.yczl;
2)选择菜单“Statistics(统计)”→“HypothesisTests(假设检验)”→“OneSamplet–testforaMean(单样本均值t-检验)”;
3)在打开的“OneSamplet–testforaMean”对话框中设置均值的置信区间(如图3-6)。
3)在打开的“OneSamplet–testforaMean”对话框中设置均值的置信区间(如图3-6)。
结果表明(下图),根据抽样样本,该仓库中药材的平均重量以95%的可能性位于50.08千克至52.92千克之间。
2.单样本总体均值的假设检验【例3-5】使用“分析家”检验例3-2中食品重量是否符合要求。希望通过样本数据检验变量WEIGHT均值的如下假设:
H0:μ=100, H1:μ
100。由于此时的方差未知,所以使用t检验法。步骤如下:
1)在“分析家”中打开数据集Mylib.spzl;
2)选择菜单“Statistics(统计)”→“HypothesisTests(假设检验)”→“OneSamplet–testforaMean(单样本均值t-检验)”,打开“OneSamplet–testforaMean”对话框;
4)按图3-8所示设置均值检验,单击“OK”按钮,得到结果如图所示。;
T统计量抽样的密度曲线显示结果表明t统计量的p值为0.0105<0.05,所以拒绝原假设,即认为总体的均值不等于100。T统计量的横坐标落在阴影区域的范围内,拒绝原假设3.两样本总体均值的比较:成对匹配样本【例3-6】使用“分析家”对例3-3中两套试卷检验有无显著差异。这是一个(成对匹配)双样本均值检验问题,若μ1和μ2分别表示两套试卷的平均成绩,则检验的是:
H0:μ1–μ2=0, H1:μ1–μ2
0;分析步骤如下:
1)在“分析家”中打开数据集Mylib.sjdf;
2)选择菜单“Statistics(统计)”→“HypothesisTests(假设检验)”→“TwoSamplePairedt-TestforaMean(均值的成对双样本t-检验)”;
3)在打开的“TwoSamplePairedt-TestforaMean”对话框中,按图所示设置双样本均值检验,单击“OK”按钮,得到结果如图右所示
结果显示,无论两总体的方差是否相等,t统计量的p值=0.0005<0.05,所以在95%的置信水平下,拒绝原假设,两总体的均值有显著差异。结果表明可以95%的把握认为两套试卷有显著差异。4.两样本总体均值的比较:独立样本【例3-7】为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排一些工人进行操作试验,每个工人组装一件产品所需的时间如表3-10所示。试以95%的置信水平推断两种方法组装产品所需平均时间有无差异。表3-10两种方法组装产品所需的时间(单位:分钟)
这是一个(独立)两样本均值检验问题,若μ1和μ2分别表示两种方法组装一件产品所需的平均时间,则检验的是:
H0:μ1–μ2=0,H1:μ1–μ2
0;方法128.330.129.037.632.128.836.037.238.534.428.030.0方法227.622.231.033.820.030.231.726.032.031.2
假定表3-10数据存放在数据集Mylib.zzcpsj中,将两个样本中被比较均值的变量的观测值记在同一分析变量F下,不同的样本用一个分类变量g的不同值加以区分,而且分类变量g只能取两个值,不能取>=3个的值,否则无法进行。(现在学习的是二样本的均值比较,而不是多样本的比较呀!)
分析步骤如下:
1)在“分析家”中打开数据集Mylib.zzcpsj;
2)选择菜单“Statistics(统计)”→“HypothesisTests(假设检验)”→“TwoSamplet-TestforMean(两样本均值的t-检验)”;
3)在打开的“TwoSamplet-TestforaMean”对话框中,按图3-12所示设置双样本均值检验,单击“OK”按钮,得到结果如图3-13所示
结果显示,由于t统计量的p值=0.0433,所以在95%的置信水平下,应该拒绝原假设,即两种方法所需时间有差异。表明有95%的把握认为两种方法所需时间有差异。数据集用2个变量分别表示二种组装方法所花时间时,如何实现呢?3.2.3使用TTEST过程TTEST过程可以执行单样本均值的t检验、配对数据的t检验以及双样本均值比较的t检验。1.语法格式PROCTTEST<选项列表>;
[CLASS<分组变量名>;][VAR<分析变量名列表>;][PAIED<变量名列表>;][BY<分组变量名>;]RUN;其中,PROCTTEST和RUN语句是必须的,其余语句都是可选的,而且可调换顺序。
CLASS语句所指定的分组变量是用来进行组间比较的;而BY语句所指定的分组变量是用来将数据分为若干个更小的样本,以便SAS分别在各小样本内进行各自独立的处理。
VAR语句引导要检验的所有变量列表,SAS将对VAR语句所引导的所有变量分别进行组间均值比较的t检验。
PAIED语句用来指定配对t检验中要进行比较的变量对,其后所带的变量名列表一般形式及其产生的效果见表3-11。表3-11选项及其含义变量名列表形式产生的效果a*ba–ba*bc*da–b,c–d(ab)*(cd)a–c,a–d,b–c,b–d(ab)*(cb)a–c,a–b,b–c
PROCTTEST语句后可跟的选项及其表示的含义如表3-12所示。表3-12选项及其含义选项代表的含义data=等号后为SAS数据集名,指定ttest过程所要处理的数据集,默认值为最近处理的数据集alpha=等号后为0~1之间的任何值,指定置信水平,默认为0.05ci=等号后为“equal,umpu,none”中的一个,表示标准差的置信区间的显示形式,默认为ci=equalcochran有此选项时,ttest过程对方差不齐时的近似t检验增加cochran近似法h0=等号后为任意实数,表示检验假设中对两均值差值的设定,默认值为02.总体均值的置信区间【例3-8】仍然考虑例3-3中的样本数据。假定其中数据使用如下数据步存放在数据集sjcj中,两套试卷得分的变量名分别为A和B。datasjcj;inputAB@@;cards;7871634472618984917449516855766085775539;run;【例3-8】仍然考虑例3-3中的样本数据。假定其中数据使用如下数据步存放在数据集sjcj中,两套试卷得分的变量名分别为A和B。使用最简代码求均值、标准差的置信区间:procttestdata=sjcj;run;
代码运行结果给出两个变量在95%置信水平下的均值、标准差的置信区间,以及对原假设μ0=0所作的t检验的p值,如图所示。3.单样本总体均值的假设检验在例3-8中增加原假设选项以及置信水平,代码如下:procttesth0=70alpha=0.01data=sjcj;varA;run;
代码运行结果除了给出变量A在99%置信水平下的均值、标准差的置信区间外,还给出对假设μ0=70,所作的t-检验的p值,如图3-15所示。结果显示t统计量的p值=0.5734,不能拒绝(57.34%的把握)原假设:均值=70。4.配对两样本均值的假设检验在例3-8中检验两套试卷有无显著差异,代码如下:procttestdata=sjcj;pairedA*B;run;
代码运行结果给出了对原假设μ1–μ2=0所作的t检验的p值,如图3-16所示。结果显示t统计量的p值=0.0005<0.05,因此拒绝原假设。说明两套试卷有显著差异。5.独立两样本均值的假设检验过程TTEST还可以用于进行独立双样本均值比较的t检验法。它的用法为PROCTTESTDATA=<数据集名>;CLASS<分组变量名>;VAR<分析变量名列>;RUN;
使用这一格式要求将两个样本中被比较均值的变量的观测值记在同一分析变量下,不同的样本用另一个分类变量的不同值加以区分,而且分类变量只能取两个值,否则将报错。【例3-9】仍然考虑例3-7中的样本数据。假定其中数据使用如下数据步存放在数据集zzcpsj中:datazzcpsj;inputfg$@@;cards;28.3127.6230.1122.2229131237.6133.8232.1120228.8130.2236131.7237.2126238.5132234.4131.22281301;run;
将两批工人的测量结果看作两个样本,但其数据都放在一个数据集之中,所需的时间值是记录在同一分析变量f之下,而两种方法的差别是由变量g的值加以区分的,所以g可作为分类变量。检验代码如下:procttestdata=zzcpsj;classg;varf;run;检验结果如图所示在检验中,先看其最后关于方差等式的检验结果,检验方差相等是用的F'统计量,其数值为1.29,相应的p值为0.6779>0.05=α,所以不能拒绝方差相等的假设。在方差相等的前提下,检验均值差异使用Pooled方法,对应统计量的t值为2.16,相应的p值为0.0433<0.05=α,所以两种方法所需的时间是有显著差异的。在异方差的情况下,使用Satterthwaite法检验均值的差异。3.3总体比例的区间估计与假设检验的SAS实现(分析家下实现)比例值:0~1或0~100%实际情况中,常检验总体比例是否为某假定值,如:产品合格率是否为1%?3.3.1单样本总体比例的置信区间3.3.2单样本总体比例的假设检验3.3.3两总体比例的比较
3.3.1总体比例的置信区间【例3-10】2004年底北京市私家车拥有量已达到129.8万辆,位居全国之首,据业内人士分析其中国产中低档汽车的比例较大,为了估计目前北京市场个人购车的平均价格,调查人员于某日在北京最大的车市随机抽取36位私人消费购车者,得到他们所购汽车的价格,见下表。表3-13年底购车价格(单位:万元)根据以上调查数据,试以95%的置信水平推断该地区购买私家车在15万元以上的消费者占有的比例。6.8811.2819.9813.610.614.86.8811.7820.9824.412.314.86.8813.6813.630.314.614.88.2814.9814.79.614.617.49.615.6815.89.612.95.3810.1815.6820.510.614.87.38设购车价格数据存放在数据集Mylib.gcjg中,价格变量名为price。这是一个单样本比例的区间估计问题。由于在SAS中只能对两水平的分类变量作比例的区间估计与检验,所以首先要按变量price生成一个新的分类变量。步骤如下:
1)在“分析家”中打开数据集Mylib.gcjg;
2)选择主菜单“编辑”→“模式”→“编辑”,使数据集可以被编辑(修改);
3)选择主菜单“数据”→“变换”→“重编码范围”,打开“RecodeRangesInformation”对话框并按图3-18(左)设置有关内容;
4)单击“OK”按钮,打开“RecodeRanges”对话框,按图3-18右所示生成新变量price_f;
5)选择菜单“统计”→“假设检验”→“比例的单样本检验”;
6)在打开的单样本比例检验对话框中,按图3-19设置比例的置信区间。
分析结果中包括变量的置信区间:按95%的置信水平变量price取值为“>15”的比例在区间(0.109,0.391)范围中,即可以95%的概率估计该地区所购买车辆在15万元以上的消费者所占比例在10.9%~39.1%之间。3.3.2单样本总体比例的假设检验【例3-11】对购车价格数据gcjg,试检验总体中购买车辆在15万元以上者所占比例是否超过30%。这是一个单样本比例检验问题,若表示总体中购买车辆在15万元以上者所占比例,则检验的是:
H0:≥0.3, H1:
<0.3;步骤如下:
1)选择菜单“统计”→“假设检验”→“比例的单样本检验”
,打开并按图左设置“OneSampleTestforaProportion”对话框;检验结果如图右所示。显示的结果表明样本中购买车辆在15万元以上者的比例为25%,检验用的Z统计量的p值为0.2563>0.05,所以不能拒绝原假设。结果表明购买车辆在15万元以上者所占比例在95%的置信水平下超过30%。3.3.3两总体比例的比较【例3-12】2004年底很多类型的国产轿车价格都比年中有所下降,为了对比2004年底与年中私家购车族购车价格的差异,在年中新购车者中随机抽取32人,调查得到的价格数据如表3-14。表3-14年中购车价格(单位:万元):综合表3-13与表3-14的调查数据,试以95%的置信水平推断该地区年底与年中购买私家车在15万元以上的消费者占有比例有无差异。5.3810.7812.8814.718.8830.37.3811.213.61519.9815.287.9811.7813.6515.820.59.999.3811.7814.615.920.989.3610.312.314.71724.48.9911.3810.28这是一个双样本比例检验问题,若1和2分别表示总体中年底和年中购买私家车在15万元以上的消费者所占的比例,则检验的是假设:
H0:1–2=0, H1:1–2
0;步骤如下:在分析家中打开数据集Mylib.gcjgQ后,选择菜单“比例的双样本检验”,在对话框中,按图左设置双样本比例检验,分析结果如图右所示。结果显示,由于Z统计量的p值为0.5664,所以在95%的置信水平下,不能拒绝原假设。即该地区2004年底与年中私家购车价格在15万元以上者所占比例无明显差异。3.4总体方差的区间估计与假设检验的SAS实现方差反映着数据分布离散程度,方差大,表明数据波动大经济生活中,居民收入的方差大小是评价收入是否合理的一项指标;产品质量中,尺寸、重量、抗拉强度的方差大小反映着产品的稳定性;考试成绩中,成绩的方差大小反映出试卷难易程度;投资方面,收益率方差是评价投资风险的重要依据;……3.4.1总体方差的置信区间3.4.2单样本总体方差的假设检验3.4.3两样本总体方差的比较3.4.1总体方差的置信区间【例3-13】表3-15所示为某中学1980年模拟高考数学的部分学生成绩,试估计本次模拟考试成绩的方差。表3-15部分学生成绩
假定表3-15数据存放在数据集Mylib.kscj中,成绩变量名为score。分析步骤如下:
1)在“分析家”中打开数据集Mylib.kscj;
2)选择菜单“统计”→“假设检验”→“方差的单样本检验”;100969690921001009099921009810097979594100
3)在打开的“OneSampleTestforaVariance”对话框中设置方差的置信区间。结果表明,本次模拟考试成绩方差在置信水平95%下的置信区间为(7.1692,28.614)。
3.4.2单样本总体方差的假设检验【例3-14】考虑例3-13中的模拟考试成绩,检验考试成绩是否太集中。这是一个单样本方差检验问题,若表示总体方差,则检验的是:
H0:2≤52, H1:2>52;
步骤:选择菜单“统计”→“假设检验”→“方差的单样本检验”,打开“OneSampleTestforaVariance”对话框并按图设置;结果显示,样本方差为12.732,由于2检验的p值=0.9504,所以不能拒绝方差≤25的原假设。结果表明有95%的把握可以认为该模拟考试的成绩太过集中。加之均值高,有理由认为试卷偏容易.3.4.3两样本总体方差的比较【例3-15】已知两只股票深发展(000001)和万科A(000002)在2004年6月21个交易日的收益率如表3-16所示。试在0.05的显著水平下判断深发展的风险是否高于万科A?表3-16深发展和万科A在2004年6月21个交易日的收益率day深发展万科Aday深发展万科Aday深发展万科A200406010.00310.009920040610-0.00220.004120040621-0.00220.0131200406020.0301-0.01372004061100.002200406220.00330.02820040603-0.0231-0.013920040614-0.0209-0.012320040623-0.0066-0.014720040604-0.00820.006200406150.04610.018620040624-0.01440.008520040607-0.0228-0.00820040616-0.0097-0.00220040625-0.0056-0.012720040608-0.02230.00220040617-0.0228-0.042820040628-0.05190.004320040609-0.0109-0.0202200406180.0111-0.0255200406290.02260.0319这是一个双样本方差检验问题,若1和2分别表示深发展和万科A两只股票收益率的方差,则检验的是:
H0:1≥2, H1:1<2;检验步骤:
1)首先,生成数据集mylib.gupiao,深发展和万科的收益率可以用同一变量表示,另加一个分类变量以区别;也可用两个变量表示,如分别用s和w表示。本例用第二种方法。
2)在分析家中打开数据集mylib.gupiao后,选择菜单“统计”→“假设检验”→“方差的双样本检验”,设置如下
结果显示,在0.05的显著性水平下不能拒绝原假设,说明深发展的股票风险要高于万科A。3.5分布检验3.5.1数据的分布研究3.5.2在INSIGHT模块中研究分布3.5.3在“分析家”中研究分布3.5.4使用UNIVARIATE过程3.5.1数据的分布研究检验数据是否来自正态分布检验常用方法分布拟合图QQ图分布检验1.分布拟合图由于密度直方图中矩形的面积是数据落入对应区间中的频率,根据大数定理,数据量很大时,频率近似于概率。所以,如果数据来自一个具有概率密度f(x)的连续型随机变量,密度直方图就可以作为概率密度f(x)的一个估计。所谓分布拟合图就是在限定的参数分布类中通过对参数的估计,用估计得到的参数所对应的密度曲线去拟合直方图顶部的形态。图示为分布拟合图,左图为正态分布拟合图,右图为对数正态分布拟合图。
在SAS系统中提供的参数分布类型有:正态(Normal)分布—最为常用的分布、对数正态(Lognormal)分布、指数分布、Gamma分布、Weibull分布,它们的分布密度分别为:
1)参数为(μ,)的正态分布
2)参数为(,μ,)的对数正态分布
3)参数为(,)的指数分布的密度为
4)参数为(,c,)的指数分布的密度为
5)参数为(,α,)的Gamma分布的密度为
6)参数为(,c,)的Weibull分布的密度为2.QQ图不论密度直方图还是分布拟合图,要从图上鉴别数据的分布是否近似于某种类别的分布是较困难的。QQ图可以帮助我们方便地鉴别数据的分布是否近似于某种类型的分布。
QQ图是一种散点图。若观测数据近似正态分布N(μ,2),则QQ图上的散点近似在直线y=x+μ附近,斜率为标准差,截距为均值。图示为居民家庭收入情况的QQ图,分别为对应于正态分布与对数正态分布的QQ图。
数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,该直线的斜率为标准差,截距为均值。SAS下也可以作对应于对数正态分布、指数分布、Gamma分布、Weibull分布的QQ图,以鉴别样本数据是否来自某一类型的总体分布。
3.5.2在INSIGHT模块中研究分布1.绘制分布拟合图【例3-16】在INSIGHT模块中绘制居民家庭收入情况(参见例2-1)的分布拟合图。选择菜单“Analyze”→“Distribution(Y)”,打开“Distribution(Y)”对话框并按如图3-33所示设置。
图3-34参数估计对话框与income变量的密度拟合图图3-35income变量的参数密度估计
2.绘制QQ图如果在“Distribution(Y)”对话框中选中“NormalQQPlot(正态QQ图)”复选框,,则可以得到QQ图,如右图所示。
选择菜单“曲线”→“QQ参考线”,打开“QQRefLine”对话框。选择“Method(方法)”栏下的“LeastSquares(最小二乘)”,单击“OK”按钮得到带参考线的QQ图。
选择菜单“Graphs(图形)”→“QQPlot(QQ图)”,打开“QQPlot”对话框。选择“Distribution(分布)”栏下的“LognormalQQPlot(对数正态QQ图)”,如图左,单击“OK”按钮得到对数正态QQ图,如图右所示。
虽然从分布拟合图中似乎得到居民家庭收入情况的样本数据接近于对数正态分布,但从QQ图可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论