MINITAB统计基础_第1页
MINITAB统计基础_第2页
MINITAB统计基础_第3页
MINITAB统计基础_第4页
MINITAB统计基础_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、MINITAB统计基础1. 正态总体的抽样分布1) 样本均值 X 的分布标准正态分布及T分布样本标准差计算公式:u T分布的定义:Student t distribution,如果X服从标准正态分布,S2服从个自由度的卡方分布,且它们相互独立,那么随机量所服从的分布称为 个自由度的t分布。其分布密度函数为:当 时的极限分布即是标准正态分布,当 =1 时就是Cauchy分布。T分布只包含1个参数。数学期望和方差分别为0,-2(1时期望不存在,2方差不存在)。我们常常用 t 表示 个自由度的t分布。MINITAB对于更一般的t分布还增加了一个“非中心参数”,当非中心参数为0时,就得到了我们现在所说

2、的t分布。在用MINITAB计算时,只要注意这一点就行了。自由度:可以简单理解为在研究问题中,可以自由独立取值的数据或变量的个数。范例:² ZN(0,1),求Z=1.98时的概率密度。计算->概率分布->正态分布->概率密度->输入常数1.98->确定概率密度函数 正态分布,均值 = 0 和标准差 = 1 x f( x )1.98 0.0561831² ZN0,1,求PZ<2.4。计算->概率分布->正态分布->累积概率->输入常数2.4->确定累积分布函数 正态分布,均值 = 0 和标准差 = 1 x P(

3、 X <= x )2.4 0.991802² ZN(0,1),求使得P(Z<x)=0.95成立的x值,即Z的0.95分位数。计算->概率分布->正态分布->逆累积概率->输入常数0.95->确定逆累积分布函数 正态分布,均值 = 0 和标准差 = 1P( X <= x ) x 0.95 1.64485² 自由度=12,求使得PZ<x=0.95成立的x值。计算->概率分布->t分布->逆累积概率->输入自由度12->输入常数0.95->确定逆累积分布函数 学生 t 分布,12 自由度P(

4、 X <= x ) x 0.95 1.7822² 自由度=12,求使得Pt3。计算->概率分布->t分布->累积概率->输入自由度12->输入常数3->确定累积分布函数 学生 t 分布,12 自由度x P( X <= x )3 0.9944672) 双样本均值差的分布3) 正态样本正态样本方差S2的分布卡房卡方分布若X1,X2,,Xn是从正态总体N,2中抽出的一组样本量为n的独立随机样本,记则当 已知时:当未知时,用 X 替 后可以得到其概率密度函数在正半轴上呈正偏态分布。u 卡方分布的定义:把n个相互独立的标准正态随机变量的平方和称为

5、自由度为n的卡方分布。它的密度表达式为:参数 1 称为自由度。卡方分布有向右的偏斜,特别在较小自由度情况下( 越小,分布越偏斜)。我们常用 2 表达自由度为 的卡方分布。卡方分布有很多用途,其中一项就是用来分析单个正态总体样本方差的状况;还可以用来进行分布的拟合优度检验,即检验资料是否符合某种特定分布;对于离散数据构成的列联表,也可以用来分析两个离散型因子间是否独立等。u 卡方分布的性质a) 卡方分布的加法性:设X和Y彼此独立,且都服从卡方分布,其自由度分别为n1,n2。若令Z=X+Y,则Z服从自由度为n1+n2的卡方分布。b) 若 X2n ,则 EX=n ,VX=2n 。计算下列各卡方分布的

6、相关数值:² 自由度=10,求使得 P2<x=0.95 成立的 x 值。计算 -> 概率分布 -> 卡方分布 -> 逆累积概率 -> 自由度=10 -> 常数=0.95 -> 确定逆累积分布函数 卡方分布,10 自由度P( X <= x ) x 0.95 18.307² 自由度=10,求 P228 。计算 -> 概率分布 -> 卡方分布 -> 累积概率 -> 自由度=10 -> 常数=28 -> 确定累积分布函数 卡方分布,10 自由度 x P( X <= x )28 0.998195

7、4) 两个独立的正态样本方差之比的分布F分布两个独立的正态样本方差之比的分布是F分布。设有两个独立的正态总体 N(1,2) 和 N(2,2) ,它们的方差相等。又设X1,X2,Xn是来自N(1,2)的一个样本Y1,Y2,Yn是来自N(2,2) 的一个样本,这两样相互独立。它们的样本方差之比是自由度为n-1和m-1的F分布:n-1称为分子自由度;m-1为分母自由度;F分布的概率密度函数在正半轴上呈正偏态分布。实际上,F统计量就是由两个卡方随机变量相除所构成的,如果 21 ,Y22 ,且二者相互独立,则称二者比值的分布为F分布,即其密度函数是:F分布的应用非常广泛,尤其是在判断两正态总体方差是否相

8、等以及方差分析(ANOVA)等问题上面。² 计算F0.95(8,,18)的数值。计算 -> 概率分布 -> F分布 -> 逆累积概率 -> 分子自由度=8 -> 分母自由度=18 ->常数=0.95 ->确定逆累积分布函数 F 分布,8 分子自由度和 18 分母自由度P( X <= x ) x 0.95 2.510162. 参数的点估计1) 点估计的概念用单个数值对于总体参数给出估计的方法称为点估计。设是总体的一个未知参数,X1,X2,Xn是从总体中抽取的样本量为n的一个随机样本,那么用来估计未知参数的统计量 (X1,X2,Xn)称为的

9、估计量,或称为的点估计。我们总是在参数上方画一个帽子“”表示该参数的估计量。在工程中经常出现的点估计问题之最好结果是:Ø 对于总体均值 , =X ;Ø 对于总体方差 2 , 2 =S2 ;Ø 对于比率p , p =Xn ,X是样本量为n的随机样本中我们感兴趣的那类出现的次数;Ø 对于 1 - 2 ,1 - 2 = X1-X2(两个独立随机样本均值之差);Ø 对于p1 - p2,估计为 P1 -P2(两个独立随机样本比率之差);2) 点估计的评选标准3. 参数的区间估计设是总体的一个待估参数,从总体中获得样本量为n 的样本是X

10、1,X2,Xn,对给定的显著性水平(01),有统计量:L= L(X1,X2,Xn)与U= U(X1,X2,Xn),若对于任意有P(LU)= 1 - ,则称随机区间L,U是的置信水平为1-的置信区间,L与U分别称为置信下限和置信上限。置信区间的大小表达了区间估计的精确性,置信水平表达了区间估计的可靠性, 1 - 是区间估计的可靠程度,而 表达了区间估计的不可靠程度。在进行区间估计时,必须同时考虑置信水平与置信区间两个方面。对于置信区间的选取,一定要注意,决不能认为置信水平越大的置信区间就越好。实际上,置信水平定的越大,则置信区间相应也一定越宽,当置信水平太大时,则置信区间会宽得没有实际意义了。这

11、两者要结合在一起考虑,才更为实际。通常我们取置信水平为0.95,极个别情况下可取0.99或0.90,一般不取其他的置信水平。1) 单正态总体均值的置信区间当 X N(,2)时,正态总体均值的置信区间有以下三种情况:a) 当总体方差 2 已知时,正态总体均值 的 1 置信区间为:式中,Z1-2是标准正态分布的 1-2 分位数,也就是双侧 分位数。例如=0.05时,Z0.975=1.96。在MINITAB中,我们通过:统计 -> 基本统计量 -> 单样本Z 来实现的。由于实际情况中,已知标准差的情况很少见,因此我们这里重点关注的是标准差位置时的情况。b) 当总体方差 2 未知时, 用样

12、本标准差S代替,此时正态总体均值 的 1 置信区间为:式中,t1-2n-1 表示自由度为n 1的 t 分布的 1-2 分位数,也就是t分布的双侧 分位数。例如=0.05时,样本量n = 16时,t0.97515=2.131,其值略大于Z0.975=1.96。在MINITAB中,我们通过:统计 -> 基本统计量 -> 单样本t 来实现的。² 某集团公司正推进节省运输费用活动,下表为20个月使用的运输费用调查结果数据:17421827168117421676168017921735168718521861177817471678175417991697166418041707

13、假设运输费用是服从正态分布的,求运输费用均值的95%置信区间。统计 -> 基本统计量 -> 单样本t -> 样本所在列 = 运输费用 -> 选项 -> 置信水平 = 95 -> 确定。单样本 T: 运输费用 均值标变量 N 均值 标准差 准误 95% 置信区间运输费用 20 1745.2 61.9 13.8 (1716.2, 1774.2)c) 前两种情况讨论的是当总体为正态分布时, 的区间估计,然而当总体不是正态分布时,如果样本量n 超过30,则可根据中心极限定理知道:X 仍近似服从正态分布,因而仍可用正态分布总提示的均值 的区间估计方法,而且可以直接用样

14、本标准差代替总体标准差,即采用公式:在MINITAB中,通常直接采用:统计 -> 基本统计量 -> 图形化汇总 中得到总体均值的置信区间结果。只不过要注意的是:总体非正态时,在小样本情况下此结果并不可信,只有当样本量超过30后,由于中心极限定理的保证,此结果才是可信的。2) 单正态总体方差和标准差的置信区间当 X N(,2)时,正态总体方差的置信区间是:式中,1-22n-1和22n-1分别是 1-2 分位数与 2 分位数。当 X N(,2)时,正态总体标准差的置信区间是:² 某集团公司正推进节省运输费用活动,下表为20个月使用的运输费用调查结果数据/p>

15、117421676168017921735168718521861177817471678175417991697166418041707假设运输费用是服从正态分布的,求运输费用方差和标准差的95%置信区间。统计 -> 基本统计量 -> 单方差 -> 样本所在列 = 运输费用 -> 选项 -> 置信水平 = 95 -> 确定。单方差检验和置信区间: 运输费用 方法卡方方法仅适用于正态分布。Bonett 方法适用于任何连续分布。统计量变量 N 标准差 方差运输费用 20 61.9 383095% 置信区间 标准差置信 方差置信区变量 方法 区间 间运输费用 卡

16、方 (47.1, 90.4) (2215, 8170) Bonett (49.0, 86.6) (2401, 7507)求总体标准差置信区间另一种方法:统计->基本统计量->图形化汇总->变量:运输费用->置信水平:95 ->确定3) 单总体比率的置信区间当 X b(1,p)时,也就是X取“非0则1”的0-1分布,我们常需要估计总体中感觉的那类比率的置信区间,比如,一批产品中,不合格品率的大致范围;顾客满意度调查中,有抱怨顾客的比率范围等。这里我们记总体比率为p,样本比率为 p 。可以证明,当样本量足够大时(要求np>5及np(1-p)>5),且p值适

17、中(0.1<p<0.9),则可用正态分布去近似二项分布,因而近似有: p N(p,p1-pn)。因此,由 p 服从的正态分布构造总体比率p的置信区间为:² 一电视台为了调查新节目收视率,在节目放映时间内进行了电话调查。在接受调查的2000名被调查者中有1230名正在收看本节目。求此节目收视率的95%置信区间。统计->基本统计量->单比率->汇总数据:事件数=1230,实验数=2000->选项->置信水平:95 ;勾选使用正态分布的检验和区间->确定由于np>5及np(1-p)>5,可用于正态分布近似二项分布,故可以勾选使用基

18、于正态分布的检验和区间。单比率检验和置信区间 样本 X N 样本 p 95% 置信区间1 1230 2000 0.615000 (0.593674, 0.636326)使用正态近似。4) 双总体均值差的置信区间设有两个总体X N(1,12),Y N(2,22),从总体X中抽取的样本X1,X2,Xn,样本均值为 X ,样本方差为 SX2 ,样本标准差为 SX ,从总体Y中抽取的样本Y1,Y2,Yn,样本均值为 Y ,样本方差为 SY2 ,样本标准差为 SY 。对两总体均值差异 1-2 的区间估计常有以下三种情况:a) 两个总体均服从正态分布,且两个总体的方差 12,22 都已知时,两总体均值差异

19、 1 - 2 的1- 置信水平下的置信区间为:只要样本量足够大,无论两总体的方差是否相等,上式都成立。b) 两个总体均服从正态分布,且两个总体的方差 12=22 均未知时,两总体均值差异 1 - 2 的1- 置信水平下的置信区间为:式中,² 一家冶金公司需要减少其排放到废水中的生物氧需求量含量。用于废水处理的活化泥供应商建议,用纯氧取代空气吹入活化泥以改善生物氧需求量含量(此数值越小越好)。从两种处理的废水中分别抽取10个和9个样品,数据如下:空气184194158218186218165172191179氧气163185178183171140155179175已知生物氧需求量含量

20、服从正态分布,试确定:该公司采用空气和采用纯氧减少生物氧需求量含量均值之差的95%置信区间。求两总体1 - 2 的置信区间:统计->基本统计量->双样本t->样本在不同列中:第一=空气,第二=氧气->勾选假定等方差->选项:置信水平=95,备择=不等于->确定。双样本 T 检验和置信区间: 空气, 氧气 空气 与 氧气 的双样本 T 均值标 N 均值 标准差 准误空气 10 186.5 20.0 6.3氧气 9 169.9 14.7 4.9差值 = mu (空气) - mu (氧气)差值估计值: 16.61差值的 95% 置信区间: (-0.58, 33.8

21、0)差值 = 0 (与 ) 的 T 检验: T 值 = 2.04 P 值 = 0.057 自由度 = 17两者都使用合并标准差 = 17.7356c) 当两个总体均服从正态分布,且两个总体的方差 1222 均未知时,两总体均值差异 1 - 2 的1- 置信水平下的置信区间为:式中,自由度的计算公式为:² 假定A,B两名工人生产相同规格的轴棒,关键尺寸是轴棒的直径。由于A使用的是老式车床,B使用的是新式车床,二者精度可能有差异。经检验,他们的直径数据确实来自两个方差不等的正态分布。现他们各测定13根轴棒直径,数据如下:12345678910111213A14.7614.2114.021

22、5.0810.6512.1816.6718.2012.2411.2116.6713.4516.85B12.3710.2813.1813.2613.8010.9610.5712.8311.6713.5412.4213.2412.52试确定A,B生产的轴棒直径差异的95%置信区间。求两总体1 - 2的置信区间:统计->基本统计量->双样本t->样本在不同列中:第一=空气,第二=氧气->选项:置信水平=95,备择=不等于->确定。双样本 T 检验和置信区间: A工人, B工人 A工人 与 B工人 的双样本 T 均值标 N 均值 标准差 准误A工人 13 14.32 2.

23、35 0.65B工人 13 12.36 1.15 0.32差值 = mu (A工人) - mu (B工人)差值估计值: 1.965差值的 95% 置信区间: (0.435, 3.496)差值 = 0 (与 ) 的 T 检验: T 值 = 2.71 P 值 = 0.015 自由度 = 17² 独立随机样本取自均值1, 2 未知,标准差未知的两个正态分布总体,若第一个总体样本标准差S1=0.73,样本量n=25,X=6.9,第二个总体样本标准差S2=0.89,样本量n=20,Y=6.7。求1- 2的95%置信区间。统计->基本统计量->双样本t->汇总数据:第一(样本数量=25

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论