第2章数据检验与处理(假设检验)2017_第1页
第2章数据检验与处理(假设检验)2017_第2页
第2章数据检验与处理(假设检验)2017_第3页
第2章数据检验与处理(假设检验)2017_第4页
第2章数据检验与处理(假设检验)2017_第5页
已阅读5页,还剩175页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章试验数据检验与处理

(假设检验)假设检验的基本问题

一个总体参数的检验

两个总体参数的检验假设检验在统计方法中的地位统计方法描述统计推断统计参数估计假设检验第一节假设检验的基本问题一、假设的陈述二、两类错误与显著性水平三、统计量与拒绝域四、利用P值进行决策假设的陈述什么是假设?

对总体参数的具体数值所作的陈述(一个判断)总体参数包括总体均值、比率、方差等分析之前必须陈述我认为这种新药的疗效比原有的药物更有效!什么是假设检验?

先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程有参数检验和非参数检验逻辑上运用反证法,统计上依据小概率原理假设检验的基本思想...因此我们拒绝假设

=50...如果这是总体的假设均值样本均值m=50抽样分布H0这个值不像我们应该得到的样本均值...20总体假设检验的过程抽取随机样本均值

x=20我认为白领的平均收入是50万元提出假设

拒绝假设别无选择!

作出决策原假设与备择假设原假设研究者想收集证据予以反对的假设又称“0假设”总是有符号,

或表示为H0H0:

=某一数值指定为符号=,或例如,H0:

10cm研究者想收集证据予以支持的假设也称“研究假设”总是有符号,

或表示为H1H1:

<某一数值,或某一数值例如,H1:

<10cm,或10cm备择假设【例】一种零件的生产标准是直径应为10cm,为对生产过程进行控制,质量监测人员定期对一台加工机床检查,确定这台机床生产的零件是否符合标准要求。如果零件的平均直径大于或小于10cm,则表明生产过程不正常,必须进行调整。试陈述用来检验生产过程是否正常的原假设和被择假设提出假设解:研究者想收集证据予以证明的假设应该是“生产过程不正常”。建立的原假设和备择假设为

H0:

10cmH1:

10cm【例】某品牌洗涤剂在它的产品说明书中声称:平均净含量不少于500克。从消费者的利益出发,有关研究人员要通过抽检其中的一批产品来验证该产品制造商的说明是否属实。试陈述用于检验的原假设与备择假设提出假设解:研究者抽检的意图是倾向于证实这种洗涤剂的平均净含量并不符合说明书中的陈述。建立的原假设和备择假设为

H0:

500H1:

<500500g【例】一家研究机构估计,某城市中家庭拥有汽车的比率超过30%。为验证这一估计是否正确,该研究机构随机抽取了一个样本进行检验。试陈述用于检验的原假设与备择假设提出假设解:研究者想收集证据予以支持的假设是“该城市中家庭拥有汽车的比率超过30%”。建立的原假设和备择假设为

H0:

30%H1:

30%原假设和备择假设是一个完备事件组,而且相互对立在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立先确定备择假设,再确定原假设等号“=”总是放在原假设上因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同的结论)提出假设双侧检验与单侧检验备择假设没有特定的方向性,并含有符号“”的假设检验,称为双侧检验或双尾检验(two-tailedtest)备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验(one-tailedtest)备择假设的方向为“<”,称为左侧检验

备择假设的方向为“>”,称为右侧检验

双侧检验与单侧检验双侧检验与单侧检验假设双侧检验单侧检验左侧检验右侧检验原假设H0:m

=m0H0:m

m0H0:m

m0备择假设H1:m

≠m0H1:m<m0H1:m>m0两类错误与显著性水平假设检验中的两类错误1. 第Ⅰ类错误(弃真错误)原假设为真时拒绝原假设第Ⅰ类错误的概率记为被称为显著性水平2. 第Ⅱ类错误(纳伪错误)原假设为假时未拒绝原假设第Ⅱ类错误的概率记为βH0:无罪假设检验中的两类错误(决策结果)陪审团审判裁决实际情况无罪有罪无罪正确错误有罪错误正确H0检验决策实际情况H0为真H0为假未拒绝H0正确决策(1–a)第Ⅱ类错误(b)拒绝H0第Ⅰ类错误(a)正确决策(1-b)假设检验就好像一场审判过程统计检验过程

错误和

错误的关系你不能同时减少两类错误!和的关系就像翘翘板,小就大,大就小影响

错误的因素1. 总体参数的真值随着假设的总体参数的减少而增大2. 显著性水平当

减少时增大3. 总体标准差当增大时增大4. 样本容量n当n减少时增大显著性水平

(significantlevel)1. 是一个概率值2. 原假设为真时,拒绝原假设的概率被称为抽样分布的拒绝域3.

表示为(alpha)常用的

值有0.01,0.05,0.104. 由研究者事先确定假设检验中的小概率原理什么小概率?1. 在一次试验中,一个几乎不可能发生的事件发生的概率2. 在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设3. 小概率由研究者事先确定检验统计量与拒绝域根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量对样本估计量的标准化结果原假设H0为真点估计量的抽样分布检验统计量(teststatistic)

标准化的检验统计量显著性水平和拒绝域

(双侧检验)0临界值临界值a/2a/2

样本统计量拒绝H0拒绝H01-置信水平抽样分布显著性水平和拒绝域

(双侧检验)0临界值临界值a/2

a/2

样本统计量拒绝H0拒绝H0抽样分布1-置信水平显著性水平和拒绝域

(双侧检验)0临界值临界值

a/2a/2

样本统计量拒绝H0拒绝H0抽样分布1-置信水平显著性水平和拒绝域

(双侧检验)0临界值临界值a/2

a/2

样本统计量拒绝H0拒绝H0抽样分布1-置信水平显著性水平和拒绝域

(单侧检验)0临界值a样本统计量拒绝H0抽样分布1-置信水平显著性水平和拒绝域

(左侧检验)0临界值a样本统计量拒绝H0抽样分布1-置信水平观察到的样本统计量显著性水平和拒绝域

(左侧检验)0临界值a样本统计量拒绝H0抽样分布1-置信水平显著性水平和拒绝域

(右侧检验)0临界值a样本统计量拒绝H0抽样分布1-置信水平观察到的样本统计量显著性水平和拒绝域

(右侧检验)0临界值a样本统计量抽样分布1-置信水平拒绝H0决策规则给定显著性水平,查表得出相应的临界值z或z/2,t或t/2将检验统计量的值与水平的临界值进行比较作出决策双侧检验:I统计量I>临界值,拒绝H0左侧检验:统计量<临界值,拒绝H0右侧检验:统计量>临界值,拒绝H0利用P值进行决策什么是P值?

(P-value)在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率双侧检验为分布中两侧面积的总和反映实际观测到的数据与原假设H0之间不一致的程度被称为观察到的(或实测的)显著性水平决策规则:若p值<,拒绝H0双侧检验的P值/

2/

2Z拒绝H0拒绝H00临界值计算出的样本统计量计算出的样本统计量临界值1/2P值1/2P值左侧检验的P值0临界值a样本统计量拒绝H0抽样分布1-置信水平计算出的样本统计量P值右侧检验的P值0临界值a拒绝H0抽样分布1-置信水平计算出的样本统计量P值假设检验步骤的总结1.陈述原假设和备择假设2.从所研究的总体中抽出一个随机样本3.确定一个适当的检验统计量,并利用样本数据算出其具体数值4.确定一个适当的显著性水平,并计算出其临界值,指定拒绝域5.将统计量的值与临界值进行比较,作出决策统计量的值落在拒绝域,拒绝H0,否则不拒绝H0也可以直接利用P值作出决策第二节一个总体参数的检验一、总体均值的检验二、总体比率的检验三、总体方差的检验一个总体参数的检验z检验(单尾和双尾)

t检验(单尾和双尾)z

检验(单尾和双尾)

2检验(单尾和双尾)均值一个总体比率方差总体均值的检验总体均值的检验

(作出判断)是否已知小样本容量n大是否已知否t检验否z检验是z检验

是z检验总体均值的检验

(大样本)总体均值的检验

(大样本)1. 假定条件正态总体或非正态总体大样本(n30)使用z检验统计量2

已知:2

未知:总体均值的检验(2

已知)

(例题分析)H0

=255H1

255

=

0.05n

=

40临界值(c):检验统计量:z01.96-1.960.025拒绝H0拒绝H00.025决策:结论:

不拒绝H0样本提供的证据表明:该天生产的饮料符合标准要求总体均值的检验(2

未知)

(例题分析)【例】一种机床加工的零件尺寸绝对平均误差为1.35mm。生产厂家现采用一种新的机床进行加工以期进一步降低误差。为检验新机床加工的零件平均误差与旧机床相比是否有显著降低,从某天生产的零件中随机抽取50个进行检验。利用这些样本数据,检验新机床加工的零件尺寸的平均误差与旧机床相比是否有显著降低?(=0.01)左侧检验50个零件尺寸的误差数据(mm)1.261.191.310.971.811.130.961.061.000.940.981.101.121.031.161.121.120.951.021.131.230.741.500.500.590.991.451.241.012.031.981.970.911.221.061.111.541.081.101.641.702.371.381.601.261.171.121.230.820.86总体均值的检验(2

未知)

(例题分析)H0

1.35H1

<1.35=0.01n

=50临界值(c):检验统计量:

拒绝H0新机床加工的零件尺寸的平均误差与旧机床相比有显著降低决策:结论:-2.33z0拒绝H00.01总体均值的检验(z检验)

(P值的图示)0-2.33a=0.01z拒绝H0抽样分布1-计算出的样本统计量=2.6061P值P=0.004579

总体均值的检验(2

未知)

(例题分析)【例】某一小麦品种的平均产量为5200kg/hm2

。一家研究机构对小麦品种进行了改良以期提高产量。为检验改良后的新品种产量是否有显著提高,随机抽取了36个地块进行试种,得到的样本平均产量为5275kg/hm2,标准差为120/hm2

。试检验改良后的新品种产量是否有显著提高?(=0.05)

右侧检验总体均值的检验(2

未知)

(例题分析)H0

5200H1

>5200

=0.05n

=

36临界值(c):检验统计量:拒绝H0(P=0.000088<

=0.05)改良后的新品种产量有显著提高决策:结论:z0拒绝H00.051.645总体均值的检验(z检验)

(P值的图示)抽样分布P=0.000088

01.645a=0.05拒绝H01-计算出的样本统计量=3.75P值总体均值的检验

(小样本)总体均值的检验

(小样本)1. 假定条件总体服从正态分布小样本(n<

30)检验统计量2

已知:2

未知:总体均值的检验

(例题分析)【例】一种汽车配件的平均长度要求为12cm,高于或低于该标准均被认为是不合格的。汽车生产企业在购进配件时,通常是经过招标,然后对中标的配件提供商提供的样品进行检验,以决定是否购进。现对一个配件提供商提供的10个样本进行了检验。假定该供货商生产的配件长度服从正态分布,在0.05的显著性水平下,检验该供货商提供的配件是否符合要求?10个零件尺寸的长度(cm)12.210.812.011.811.912.411.312.212.012.3总体均值的检验

(例题分析)H0

=12H1

12

=0.05df=10-1=9临界值(c):检验统计量:不拒绝H0该供货商提供的零件符合要求

决策:结论:t02.262-2.2620.025拒绝

H0拒绝H00.025总体比率的检验适用的数据类型离散数据

连续数据数值型数据数据品质数据总体比率检验1.假定条件总体服从二项分布可用正态分布来近似(大样本)2.检验的z统计量0为假设的总体比率总体比率的检验

(例题分析)【例】一种以休闲和娱乐为主题的杂志,声称其读者群中有80%为女性。为验证这一说法是否属实,某研究部门抽取了由200人组成的一个随机样本,发现有146个女性经常阅读该杂志。分别取显著性水平

=0.05和=0.01

,检验该杂志读者群中女性的比率是否为80%?它们的值各是多少?双侧检验总体比率的检验

(例题分析)H0

=80%H1

80%

=0.05n

=200临界值(c):检验统计量:拒绝H0(P=0.013328<

=0.05)该杂志的说法并不属实

决策:结论:z01.96-1.960.025拒绝

H0拒绝

H00.025总体比率的检验

(例题分析)H0

=80%H1

80%

=

0.01n

=

200临界值(c):检验统计量:不拒绝H0(P=0.013328>=0.01)该杂志的说法属实

决策:结论:z02.58-2.580.025拒绝H0拒绝H00.025总体方差的检验

(2检验)总体方差的检验

(2检验)

检验一个总体的方差或标准差假设总体近似服从正态分布使用2分布检验统计量样本方差假设的总体方差总体方差的检验

(检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0

:2=02H1:

202H0

:202H1:2<02H0:

202H1

:2>02统计量拒绝域P值决策

拒绝H0总体方差的检验

(例题分析)【例】啤酒生产企业采用自动生产线灌装啤酒,每瓶的装填量为640ml,但由于受某些不可控因素的影响,每瓶的装填量会有差异。此时,不仅每瓶的平均装填量很重要,装填量的方差同样很重要。如果方差很大,会出现装填量太多或太少的情况,这样要么生产企业不划算,要么消费者不满意。假定生产标准规定每瓶装填量的标准差不应超过和不应低于4ml。企业质检部门抽取了10瓶啤酒进行检验,得到的样本标准差为s=3.8。试以0.10的显著性水平检验装填量的标准差是否符合要求?朝日BEER朝日BEER朝日BEER朝日总体方差的检验

(例题分析)H0

:2=42H1

:2

42

=0.10df

=

10-1=9临界值(s):统计量:不拒绝H0装填量的标准差否符合要求

2016.91903.32511/2=0.05决策:结论:第三节两个总体参数的检验一、两个总体均值之差的检验二、两个总体比率之差的检验三、两个总体方差比的检验两个总体参数的检验两个总体参数的检验z

检验(大样本)t

检验(小样本)t

检验(小样本)z检验F

检验独立样本配对样本均值比率方差两个总体均值之差的检验

(独立大样本)

两个总体均值之差的检验

(独立大样本)1. 假定条件两个样本是独立的随机样本正态总体或非正态总体大样本(n130和n230)检验统计量12

22

已知:12

,22

未知:两个总体均值之差的检验

(大样本检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0

:m1-m2=0H1:m1-m20

H0

:m1-m20H1:m1-m2<0H0:m1-m20

H1:m1-m2>0统计量12

22

已知12

22

未知拒绝域P值决策拒绝H0两个总体均值之差的检验

(例题分析)

【例】某公司对男女职员的平均小时工资进行了调查,独立抽取了具有同类工作经验的男女职员的两个随机样本,并记录下两个样本的均值、方差等资料如右表。在显著性水平为0.05的条件下,能否认为男性职员与女性职员的平均小时工资存在显著差异?

两个样本的有关数据

男性职员女性职员n1=44n1=32x1=75x2=70S12=64S22=42.25两个总体均值之差的检验

(例题分析)H0

:1-2=0H1

:1-2

0

=0.05n1

=44,n2

=32临界值(c):检验统计量:决策:结论:

拒绝H0该公司男女职员的平均小时工资之间存在显著差异

z01.96-1.960.025拒绝H0拒绝H00.025两个总体均值之差的检验

(独立小样本)

两个总体均值之差的检验

(12,

22

已知)假定条件两个独立的小样本两个总体都是正态分布12,

22已知检验统计量两个总体均值之差的检验

(12,22

未知但12=22)假定条件两个独立的小样本两个总体都是正态分布12、

22未知但相等,即12=22检验统计量其中:自由度:两个总体均值之差的检验

(12,

22

未知且不相等1222)假定条件两个总体都是正态分布12,

22未知且不相等,即1222样本容量相等,即n1=n2=n检验统计量自由度:两个总体均值之差的检验

(12,

22

未知且不相等1222)假定条件两个总体都是正态分布12,22未知且不相等,即1222样本容量不相等,即n1n2检验统计量自由度:两个总体均值之差的检验

(例题分析)【例】甲、乙两台机床同时加工某种同类型的零件,已知两台机床加工的零件直径(单位:cm)分别服从正态分布,并且有12=22

。为比较两台机床的加工精度有无显著差异,分别独立抽取了甲机床加工的8个零件和乙机床加工的7个零件,通过测量得到如下数据。在=0.05的显著性水平下,样本数据是否提供证据支持

“两台机床加工的零件直径不一致”的看法?两台机床加工零件的样本数据

(cm)甲20.519.819.720.420.120.019.019.9乙20.719.819.520.820.419.620.2两个总体均值之差的检验

(例题分析)H0

:1-2

=0H1

:1-2

0

=

0.05n1

=8,n2

=7临界值(c):检验统计量:决策:结论:

不拒绝H0没有理由认为甲、乙两台机床加工的零件直径有显著差异

t02.160-2.1600.025拒绝H0拒绝H00.025两个总体均值之差的估计

(例题分析)【例】为检验两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排12个工人,每个工人组装一件产品所需的时间(分钟)下如表。假定两种方法组装产品的时间服从正态分布,但方差未知且不相等。取显著性水平0.05,能否认为方法1组装产品的平均数量明显地高于方法2?两个方法组装产品所需的时间方法1方法228.336.027.631.730.137.222.226.029.038.531.032.037.634.433.831.232.128.020.033.428.830.030.226.521两个总体均值之差的检验

(匹配样本)

两个总体均值之差的检验

(匹配样本)假定条件两个总体配对差值构成的总体服从正态分布配对差是由差值总体中随机抽取的

数据配对或匹配(重复测量(前/后))检验统计量样本差值均值样本差值标准差匹配样本

(数据形式)

观察序号样本1样本2差值1x11x21d1=x11-x212x12x22d2=x12-x22MMMMix1ix2idi

=x1i

-x2iMMMMnx1nx2ndn

=x1n-x2n两个总体均值之差的检验

(匹配样本检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0

:d=0H1:d0H0

:d0H1:d<0H0:d0

H1:d>0统计量拒绝域P值决策拒绝H0两个总体均值之差的检验

(例题分析)

【例】某饮料公司开发研制出一新产品,为比较消费者对新老产品口感的满意程度,该公司随机抽选一组消费者(8人),每个消费者先品尝一种饮料,然后再品尝另一种饮料,两种饮料的品尝顺序是随机的,而后每个消费者要对两种饮料分别进行评分(0分~10分),评分结果如下表。取显著性水平=0.05,该公司是否有证据认为消费者对两种饮料的评分存在显著差异?两种饮料平均等级的样本数据新饮料54735856旧饮料66743976两个总体比率之差的检验1. 假定条件两个总体都服从二项分布可以用正态分布来近似2.检验统计量检验H0:1-2=0检验H0:1-2=d0两个总体比率之差的检验两个总体比率之差的检验

(检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0

:1-2=0H1:1-20H0

:1-20

H1:1-2<0

H0:1-20

H1:1-2>0

统计量拒绝域P值决策拒绝H0两个总体比率之差的检验

(例题分析)

【例】一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法是否存在差异,分别抽取了200名男学生和200名女学生进行调查,其中的一个问题是:“你是否赞成采取上网收费的措施?”其中男学生表示赞成的比率为27%,女学生表示赞成的比率为35%。调查者认为,男学生中表示赞成的比率显著低于女学生。取显著性水平=0.01,样本提供的证据是否支持调查者的看法?21netnet两个总体比率之差的检验

(例题分析)H0

:1-2

0H1

:1-2<0

=

0.05n1=200,

n2=200临界值(c):检验统计量:决策:结论:

拒绝H0(P=0.041837<

=0.05)样本提供的证据支持调查者的看法

-1.645Z0拒绝域两个总体比率之差的检验

(例题分析)

【例】有两种方法生产同一种产品,方法1的生产成本较高而次品率较低,方法2的生产成本较低而次品率则较高。管理人员在选择生产方法时,决定对两种方法的次品率进行比较,如方法1比方法2的次品率低8%以上,则决定采用方法1,否则就采用方法2。管理人员从方法1生产的产品中随机抽取300个,发现有33个次品,从方法2生产的产品中也随机抽取300个,发现有84个次品。用显著性水平=0.01进行检验,说明管理人员应决定采用哪种方法进行生产?两个总体比率之差的检验

(例题分析)H0

:1-28%H1

:1-2<8%

=

0.01n1=300,n2=300临界值(c):检验统计量:决策:结论:

拒绝H0(P=1.22E-15<

=0.05)方法1的次品率显著低于方法2达8%,应采用方法1进行生产-2.33Z0拒绝域两个总体方差比的检验两个总体方差比的检验

(F

检验)1.假定条件两个总体都服从正态分布,且方差相等两个独立的随机样本检验统计量两个总体方差比的F

检验

(临界值)FF1-F拒绝H0方差比F检验示意图拒绝H0两个总体方差比的检验

(检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0:12/22=1H1:

12/221H0:12/221H1:12/22<1

H0:12/221

H1:12/22>1

统计量拒绝域两个总体方差比的检验

(例题分析)【例】一家房地产开发公司准备购进一批灯泡,公司打算在两个供货商之间选择一家购买。这两家供货商生产的灯泡平均使用寿命差别不大,价格也很相近,考虑的主要因素就是灯泡使用寿命的方差大小。如果方差相同,就选择距离较近的一家供货商进货。为此,公司管理人员对两家供货商提供的样品进行了检测,得到的数据如右表。检验两家供货商灯泡使用寿命的方差是否有显著差异

(=0.05)两家供货商灯泡使用寿命数据样本1650569622630596637628706617624563580711480688723651569709632样本2568540596555496646607562589636529584681539617统计结论中拒绝与接受的含义

在假设检验中,对弃真的概率进行了控制,而对纳伪的概率并没有严加控制。当H0遭到拒绝时,有非常大的把握说这个结论是正确的。当H0不被拒绝时,只能说没有足够的证据来怀疑H0

,而不能肯定H0是完全正确的。在应用回归分析、方差分析等统计分析手段时,对实验数据有一定的要求,即:样本对总体的代表性和样本遵从特定的检验方法的要求。因此,在对实验数据进行统计分析之前,必须对实验数据本身进行检验与处理,使其符合统计分析的要求。回归分析对原始数据的要求原始数据必须相互独立独立性原始数据必须来自正态总体正态性原始数据须合理合理性原始数据各组之间的方差必须一致等方差性独立性、正态性、合理性和方差一致性检验的共性采用假设检验方法,检验步骤和过程相似各自有很多种检验方法(注意每种方法的特点)注意每种方法的需要满足的前提对于同样样本的数据采用不同的方法可能会有不同的结论第四节正态分布的概念和特征一、正态分布(normaldistribution)的概念A.DeMoivre:德国数学家和天文学家Gauss:高斯(JohannCarlFriedrichGauß(Gauss)(1777-1855),德国著名数学家、物理学家、天文学家、大地测量学家。高斯被认为是最重要的数学家,并有“数学王子”的美誉。

正态分布图形

例数更多,分组更细频数分布图全部观察对象BellShaped’Symmetrical自然学科很多资料符合正态分布两头低,中间高,左右对称,呈钟型的单峰曲线。

二、正态分布的特征

1、连续型随机变量及其概率分布变量—研究指标,身高,体重等随机变量—可以等于任意数,不确定的值连续型—-∽≤X≤+∽,中途不间断,即包含小数离散型—中途间断,即只有整数,没有小数2、连续型随机变量的分布函数二、正态分布的特征

(1)概率密度函数(曲线的高度)(2)概率分布函数(曲线的面积)σ—总体标准差μ—总体均数π—圆周率,3.14159….(3)正态分布特征⑴曲线在横轴上方均数处最高;⑵以均数为中心,左右对称;⑶正态分布有两个参数:位置参数μ

、形状参数σ

⑷正态分布曲线下的面积有一定的分布规律。

二、正态分布的特征

正态分布的两个参数(1)μ-位置参数:当σ一定时,μ越大,曲线越向右移动;μ越小,曲线越向左移动。(2)σ-离散度参数,决定曲线的形态:当μ一定时,

σ越大,表示数据越分散,曲线越“胖”;

σ越小,表示数据越集中,曲线越“瘦”。正态分布的两个参数正态曲线下面积分布规律

无论μσ取什么值,正态曲线与横轴间的面积总等于1面积总等于1这个面积等于多少?-∞+∞μx熟记下列常用的曲线下面积分布规律:

1、μ±σ的区间占总面积的68.27%

2、μ±1.96σ的区间占总面积的95%

3、μ±2.58σ的区间占总面积的99%质量控制

+2S+3S上控制线下控制线警戒线警戒线

-2S

-3S第五节标准正态分布及其应用1、标准正态分布与标准化变换

正态分布是一个分布族。对应于不同的参数μ和σ会产生不同位置不同形状的正态分布。(1)概率密度函数(曲线的高度)(2)概率分布函数(曲线的面积)σ—总体标准差μ—总体均数π—圆周率,3.14159….这个面积等于多少?-∞+∞μx为了应用方便,令u服从均数为0、标准差为1的正态分布标准正态分布u变换当μ和σ未知时,用和s来估计u值。标准正态分布:凡均数为0、标准差为1的正态分布。所有的正态分布,经u变换后,都可以转为标准正态分布。2、标准正态分布表-∞-3-2-10+1+2+3+∞Φ(u)附表Ⅰ

查表确定标准正态分布曲线下的面积时,必须注意:

(1)u变换当μ,σ已知时,先按u变换公式求得u值,再用u值查表;

当μ,σ未知时,用样本均数和样本标准差s代替求u值。

(2)查表时,可以利用标准正态分布的两个特征:

a.曲线下对称于0的区间,面积相等;

b.曲线下横轴上的总面积为100%或1。

例求x1=μ-1.96σ与x2=μ+1.96σ区间的面积。查附表,φ1(-1.96)=0.025,φ2(1.96)=1-φ(-1.96)=1-0.025=0.975,区间面积φ=φ2-φ1=0.975-0.025=0.95=95%第六节卡方分布拟合检验如,某钟表厂对生产的钟进行精确性检查,抽取100个钟作试验,拨准后隔24小时以后进行检查,将每个钟的误差(快或慢)按秒记录下来.问该厂生产的钟的误差是否服从正态分布?再如,某工厂制造一批骰子,声称它是均匀的.为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与1/6的差距.也就是说,在投掷中,出现1点,2点,…,6点的概率都应是1/6.得到的数据能否说明“骰子均匀”的假设是可信的?问题是:K.皮尔逊这是一项很重要的工作,不少人把它视为近代统计学的开端.

解决这类问题的工具是英国统计学家K.皮尔逊在1900年发表的一篇文章中引进的所谓

检验法.

检验法是在总体X的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法.

H0:总体X的分布函数为F(x)

然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设.使用

对总体分布进行检验时,我们先提出原假设:检验法这种检验通常称作拟合优度检验,它是一种非参数检验.

在用

检验假设H0时,若在H0下分布类型已知,但其参数未知,这时需要先用极大似然估计法估计参数,然后作检验.检验法分布拟合的

的基本原理和步骤如下:检验法3.根据所假设的理论分布,可以算出总体X的值落入每个Ai的概率pi,于是npi就是落入Ai的样本值的理论频数.1.将总体X的取值范围分成k个互不重迭的小区间,记作A1,A2,…,Ak.2.把落入第i个小区间Ai的样本值的个数记作fi

,称为实测频数.所有实测频数之和f1+f2+…+fk等于样本容量n.标志着经验分布与理论分布之间的差异的大小.皮尔逊引进如下统计量表示经验分布与理论分布之间的差异:统计量的分布是什么?在理论分布已知的条件下,npi是常量实测频数理论频数皮尔逊证明了如下定理:

若原假设中的理论分布F(x)已经完全给定,那么当时,统计量的分布渐近(k-1)个自由度的分布.

如果理论分布F(x)中有r个未知参数需用相应的估计量来代替,那么当时,统计量的分布渐近(k-r-1)个自由度的分布.

为了便于理解,我们对定理作一点直观的说明.

如果根据所给的样本值X1,X2,…,Xn算得统计量的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设.得拒绝域:(不需估计参数)(估计r个参数)查分布表可得临界值,使得

根据这个定理,对给定的显著性水平,

皮尔逊定理是在n无限增大时推导出来的,因而在使用时要注意n要足够大,以及npi

不太小这两个条件.

根据计算实践,要求n不小于50,以及npi

都不小于5.否则应适当合并区间,使npi满足这个要求.143一、采用卡方检验进行正态性检验144分组不同,拟合的结果可能不同。需要有足够的样本含量。

第七节W检验方法对于样本量较小(50n8)的情况,可以用Shapiro—Wilk检验代替偏度一峰度检验。与偏度一峰度检验不同的是,Shapiro—Wilk检验对偏度和峰度以外的非正态性特征也敏感,但不能区分总体对正态分布的偏离表现在什么方面,只是笼统地判断一个样本是否来自正态分布的总体。其统计假设为:H0,样本来自正态分布的总体,H1:样本来自非正态分布的总体。

对样本量等于n的一个样本,将全体观测值按从小到大次序排列,得:

对该样本进行Shapiro-Wilk检验的第一步是根据样本量n从附表A6中查取n个Shapiro-Wilk检验系数,记为k(w)。Shapiro—Wilk检验的统计量为:

其中,当n为偶数时,当n为奇数时,根据和n查表(附表A7)可知w的临界值Z。由此可作出判断:

当w<Z时,拒绝H0,即分布不呈正态。

当wZ时,不拒绝H0,即分布呈正态。[例]测得某种纱的伸长率(%)的数据为:

15.2,15.4,14.8,13.0,14.2,14.6,14.5,14.2。问其是否符合正态分布。解:1.将各值按大小顺序排列:

x1,

x2,

x3,

x4,

x5,x6,x7,x8

13.0,14.2,14.2,14.5,14.6,14.8,15.2,15.4

其平均值为:

2计算统计量W

因为n为偶数,所以查附表A6可知:1(w)=0.6052,2(w)=0.3164,3(w)=0.1743,3(w)=0.0561。

查附表A7知:Z(=0.05)为Z0.05=0.818作出统计判断:W>Z

,不拒绝H0,即数据呈正态分布。。造成试验结果非正态性的原因有两种:一是总体本身就不是正态分布的,二是样本中包含个别异常值。

对于非正态分布的总体,做适当数据变换(如对对数正态分布总体做对数变换,对左偏或右偏数据作Box—Cox变换等),或者改用非参数检验方法都是可行的选择。在有异常值存在的情况下,则应将其先剔除再作方差分析。第八节独立性检验

保证个体的独立性就是要使所采集的每个样品与上一个样本没有关联。一个样本是否能代表它的总体,关键在于采样的随机性。非随机采样一方面可能导致样本特征与总体特征的不一致,另一方面也可能反映在个体的非独立性方面,样本中个体的独立性是指它们的采集过程完全不受其它个体的干扰。对那些分布在某一时间或空间范围内的个体而言,个体间的自相关特性是导致采样非独立性的重要原因。独立性检验两个分类变量的独立性检验问题。在日常生活中,我们常常关心分类变量之间是否有关系:例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?等等。

吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表在不吸烟者中患肺癌的比重是

在吸烟者中患肺癌的比重是

说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大。0.54%2.28%探究不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计98749199651、列联表2、三维柱形图3、二维条形图不患肺癌患肺癌吸烟不吸烟不患肺癌患肺癌吸烟不吸烟080007000600050004000300020001000从三维柱形图能清晰看出各个频数的相对大小。从二维条形图能看出,吸烟者中患肺癌的比例高于不患肺癌的比例。通过图形直观判断两个分类变量是否相关:不吸烟吸烟患肺癌比例不患肺癌比例4、等高条形图等高条形图更清晰地表达了两种情况下患肺癌的比例。

上面我们通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么事实是否真的如此呢?这需要用统计观点来考察这个问题。

现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”,为此先假设

H0:吸烟与患肺癌没有关系.不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d把表中的数字用字母代替,得到如下用字母表示的列联表

用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,即假设H0等价于P(AB)=P(A)P(B).因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;

|ad-bc|越大,说明吸烟与患肺癌之间关系越强。不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事件A和B发生的频数。由于频率接近于概率,所以在H0成立的条件下应该有

为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量-----卡方统计量(1)

若H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:那么这个值到底能告诉我们什么呢?(2)

独立性检验在H0成立的情况下,统计学家估算出如下的概率

即在H0成立的情况下,K2的值大于6.635的概率非常小,近似于0.01。

也就是说,在H0成立的情况下,对随机变量K2进行多次观测,观测值超过6.635的频率约为0.01。思考

答:判断出错的概率为0.01。判断是否成立的规则如果,就判断不成立,即认为吸烟与患肺癌有关系;否则,就判断成立,即认为吸烟与患肺癌有关系。独立性检验的定义

上面这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验。在该规则下,把结论“成立”错判成“不成立”的概率不会差过即有99%的把握认为不成立。独立性检验的基本思想(类似反证法)(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下我们所构造的随机变量K2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论