数理统计课件全集.ppt_第1页
数理统计课件全集.ppt_第2页
数理统计课件全集.ppt_第3页
数理统计课件全集.ppt_第4页
数理统计课件全集.ppt_第5页
已阅读5页,还剩405页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对随机现象进行观测、试验,以取得有代表性的观测值,对已取得的观测值进行整理、分析,作出推断、决策,从而找出所研究的对象的规律性,第一节 基本概念,一、总体和个体,二、样本 简单随机样本,一、总体和个体,一个统计问题总有它明确的研究对象.,研究对象的全体称为总体(母体),,组成总体的每个元素称为个体.,总体,然而在统计研究中,人们关心总体仅仅是关心其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布情况. 这时,每个个体具有的数量指标的全体就是总体.,所研究的对象的某个(或某些)数量指标的全体称为总体,它是一个随机变量(或多维随机变量),记为X .,X 的分布函数和数字特征称为总体分布函数和总体数字特征.,总体:,例如:研究某批灯泡的寿命时,总体X是这批灯泡的寿命,而其中每个灯泡的寿命就是个体。,每个 灯泡的寿命,个体,又如:研究某批国产轿车每公里的耗油量时,总体X是这批轿车每公里的耗油量,而其中每辆轿车的耗油量就是个体。,类似地,在研究某地区中学生的营养状况时,若关心的数量指标是身高和体重,我们用X和Y分别表示身高和体重,那么此总体就可用二维随机变量(X,Y) 来表示,而每个学生的身高和体重就是个体.,为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息,这一抽取过程称为 “抽样”,所抽取的部分个体称为样本. 样本中所包含的个体数目称为样本容量.,二、样本 简单随机样本,1)抽样和样本,样本的抽取是随机的,每个个体是一个随机变量.容量为n的样本可以看作n维随机变量,用X1,X2,Xn表示.,而一旦取定一组样本,得到的是n个具体的数 (x1,x2,xn),称其为样本的一个观察值,简称样本值 .,2.X1,X2,Xn相互独立.,由于抽样的目的是为了对总体进行统计推断,为了使抽取的样本能很好地反映总体的信息,必须考虑抽样方法.最常用的一种抽样方法叫作“简单随机抽样”,它要求抽取的样本满足下面两点:,1. 样本X1,X2,Xn中每一个Xi与所考察的总体X有相同的分布.,2)简单随机样本,由简单随机抽样得到的样本称为简单随机样本,它可以用与总体独立同分布的n个相互独立的随机变量X1,X2,Xn表示.,简单随机样本是应用中最常见的情形,今后,当说到“X1,X2,Xn是取自某总体的样本”时,若不特别说明,就指简单随机样本.,设X1,X2,Xn 是总体X的一个简单随机样本,,1)若X为离散型总体,其分布律是p(x),则X1,X2,Xn的联合分布律为,p(x1) p (x2) p (xn),2)若X为连续型总体,其概率密度是f(x),则X1,X2,Xn的联合分布律为,f (x1) f (x2) f (xn),事实上我们抽样后得到的资料都是具体的、确定的值. 如我们从某班大学生中抽取10人测量身高,得到10个数,它们是样本取到的值而不是样本. 我们只能观察到随机变量取的值而见不到随机变量.,3)总体、样本、样本值的关系,统计是从手中已有的资料 样本值,去推断总体的情况 总体分布F(x)的性质.,总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断总体.,样本是联系二者的桥梁,4)经验分布函数,设X1,X2,Xn为取自总体X的样本, x1,x2,xn为其观察值.对于每个固定的x,设事件Xx在n次观察中出现的次数为vn(x),于是事件Xx发生的频率为:,显然Fn(x)为不减右连续函数,且,称 Fn(x) 为样本分布函数或经验分布函数.,定理(格列文科)当n时,经验分布函数 Fn(x) 依概率1关于x一致收敛与总体分布函数,即,定理表明:当样本容量n充分大时,经验分布函数 Fn(x) 几乎一定会充分趋近总体分布函数F(x),这是用样本来推断总体的理论依据.,第二节 统计量与抽样分布,一、统计量,二、统计学中三个常用分布和上分位点,三、抽样分布定理,一、统计量,由样本值去推断总体情况,需要对样本值进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)信息集中起来.,定义,若 , 2 已知, 则,是统计量,而,例如:,不是统计量.,也是统计量.,是未知参数,几个常用的统计量,样本均值,样本方差,它反映了总体均值 的信息,它反映了总体方差 的信息,样本k阶原点矩,样本k阶中心矩,k=1,2,它反映了总体 k 阶矩 的信息,它反映了总体 k 阶 中心矩的信息,它们的观察值分别为:,由大数定律可知:,依概率收敛于,例1. 从一批相同的电子元件中随机地抽出8个,测得使用寿命(单位:小时)分别为:2300,2430,2580,2400,2280,1960,2460,2000,试计算样本均值、样本方差及样本二阶矩.,解:,抽样分布,统计量是样本的函数,而样本是随机变量,故统计量也是随机变量,因而就有一定的分布,它的分布称为“抽样分布” .,二、统计学中三个常用分布和上分位点,下面介绍三个来自正态总体的抽样分布.,定义: 设 相互独立,都服从标准正态分布,N(0,1), 则称随机变量:,所服从的分布为自由度为 n 的 分布,记为,分布的概率密度为,处的值.,有所改变.,分布的概率密度图形如下:,性质1.,证 明:,设,相互独立,则,分布的性质:,这个性质称为 分布的可加性.,性质2.,设,且,与,相互独立,则,t 的概率密度为:,定义: 设XN( 0 , 1 ) , Y,所服从的分布为自由度为 n 的 t 分布.记为tt (n).,2、t 分布,,且 X 与 Y 相互,独立,则称变量,n=4,n=10,n=1,t分布的概率密度函数关于t=0对称,且 当n充分大时(n30),其图形与标准正态分布的概率密度函数的图形非常接近.但对于较小的n,t 分布与N (0,1)分布相差很大.,由定义可见,,3、F分布,则称统计量,服从自由度为n1及 n2 的F分布,n1称为第一自由度,,F(n2,n1),定义: 设,X 与 Y 相互独立,,n2称为第二自由度,记作 FF(n1,n2) .,若XF(n1,n2),则X的概率密度为,注意:统计的三大分布的定义、基本性质在后面的学习中经常用到,要牢记!,4、上分位点,定义:设随机变量X的概率密度为 f(x),对于,任意给定的(01),若存在实数x,使得:,则称点x为该概率分布的上分位点,正态分布的上分位点,对标准正态分布变量ZN(0, 1)和给定的,上分位数是由:,PZz =,即 PZz =1-,(z) =1-,确定点z.,如图:,例如, =0.05,而,PZ1.645 =0.05,所以, z0.05 =1.645.,说明:,1) 除标准正态分布外, 分布、t分布、F分布的上 分位点都有表可查.,2)对于 分布,当n充分大时(n45),,其中Z是标准正态分布的上分位点,3)对于 t 分布,a)由其对称性,有:,b) 当n充分大时(n45),,4)对于F分布,有:,例2. 查表求下列值:,解:,,,例3.设总体X和Y相互独立,同服从,分布,而 X1,X2,, X9 和 Y1,Y2,, Y9,的分布.,分别是来自X和Y的简单随机样本,求统计量,解:,X1,X2,,X15是来自X的简单随机样本,求,解:,试确定常数 c ,使,解:,故,因此,当总体为正态分布时,教材上给出了几个重要的抽样分布定理.这里我们不加证明地叙述.,三、抽样分布定理,(1)样本均值,(2)样本均值 与样本方差 相互独立。,(3)随机变量,定理 2 设X1,X2,Xn是取自正态总体,则有,定理 3 (两个总体样本均值差的分布),且X与Y独立,分别是这两个样本的样本方差,则有,定理 4 (两个总体样本方差比的分布),且X与Y独立,分别是这两个样本的样本方差,则有,上述4个抽样分布定理很重要,要牢固掌握.,的概率不小于90%,则样本容量至少取多少?,解:设样本容量为 n , 则,令,得,即,所以至少取,n = 20的样本,解: (1),即,故,(2),故,3 掌握给出的四个抽样分布定理。,第六章 小 结,1.给出了总体、个体、样本和统计量的概念,要掌,2.给出了 分布、t分布、F分布的定义和性质,要会,查表求其上分位点。,握样本均值和样本方差的计算及基本性质。,附: 几种重要随机变量的数学期望和方差,一.二点分布,二.二项分布,三.泊松分布,四.均匀分布,五.正态分布,六.指数分布,一.二点分布,若随机变量X服从二点分布,其分布律为:,二.二项分布,随机变量XB(n,p),其分布律为:,由二项分布定义可知,X是n重贝努利试验中事件A发生的次数,且在每次试验中A发生的概率为p,设,则Xk服从二点分布,其分布律为:,若随机变量XB( n , p ),则,即:,三.泊松分布,随机变量 ,其分布律为:,即:,若随机变量X(),则,四.均匀分布,设随机变量X在区间(a,b)上服从均匀分布,其概率密度为,即,若随机变量XU( a , b ),则,五.正态分布,随机变量 ,其概率密度为:,(令 ),(令 ),即,若随机变量XN(,2 ), 则,六.指数分布,随机变量X服从参数为的指数分布,其概率密度为:,若随机变量X服从参数为的指数分布,则,即,例1.已知 求,解:,则,解:,X在区间(1,5)上服从均匀分布,例2.已知X和Y相互独立,且X在区间(1,5)上服从均匀分布, 求(1) (X,Y)的概率密度;(2),由X和Y相互独立得:,概率论中用来阐明大量随机现象平均结果的稳定性的一系列定理,称为大数定律,第一节 大数定律,一个常数,若对于任给的正数0, 总成立,随机变量序列依概率收敛于常数,定义,设,是一个随机变量序列, a 是,则称 随机变量 序列,依概率收敛于a,,记为,性质,设n重贝努里试验中事件A发生的次数为n,A在每次试验中发生的概率为 p ,则对任给的0,总成立,定理1(贝努利大数定律),即:,三个常见的大数定律,贝努里大数定律的意义,贝努里大数定律提供了通过试验来确定事件概率的方法.,定理2(契比雪夫大数定律的特殊情形),设随机变量序列X1,X2, 相互独立,并且具有相同的数学期望和方差,E(Xi)=,D(Xi)=2,i=1,2, ,则对任给的0,总成立,即,定理2的意义,具有相同数学期望和方差的独立随机变量序列的算术平均值依概率收敛于数学期望.当 n 足够大时, 实验结果的算术平均几乎是一常数.,因此,在实际应用中,当试验次数足够大时,可用独立重复试验结果的算术平均数来估计随机变量的数学期望.,定理3(契比雪夫大数定律的一般情形),设随机变量序列X1,X2, 相互独立,它们都具有数学期望:E(Xi)=i,并且都具有被同一常数C所限制的方差:D(Xi)= 0,总成立,即,定理3的意义,设随机变量序列X1,X2, 相互独立,服从同一分布,具有相同的数学期 望E(Xi)=, i=1,2,, 则对于任给正数 0 ,总成立,定理4 (辛钦大数定律),即,即,这一节我们介绍了大数定律,大数定律以严格的数学形式表达了随机现象最根本的性质之一:,它是随机现象统计规律的具体表现.在理论和实际中都有广泛的应用.,平均结果的稳定性,第二节 中心极限定理,客观背景:客观实际中,许多随机变量是由大量 相互独立的偶然因素的综合影响所形成,每一个微小 因素,在总的影响中所起的作用是很小的,但总起来, 却对总和有显著影响,这种随机变量往往近似地服从 正态分布。,概率论中有关论证独立随机变量的和的极限分布是正态分布的一系列定理称为中心极限定理。,由于无穷个随机变量之和可能趋于,故我们不研究n个随机变量之和本身而考虑它的标准化的随机变量,的极限分布.,下面介绍常用的三个中心极限定理。,定理1(独立同分布下的中心极限定理),设X1,X2, 是独立同分布的随机变量序列,且E(Xi)=,D(Xi)=2,i=1,2,,则,定理表明:当n充分大时,标准化随机变量,近似服从标准正态分布.,由此可知:对于独立的随机变量序列 ,不管 服从什么分布,只要它们是同分布,且有有限的数学期望和方差,那么,当n充分大时,这些随机变量之和 近似地服从正态分布,解:设 X k 表示第 k 次轰击命中的炮弹数,,设 X 表示100次轰击命中的炮弹数,则,由独立同分布中心极限定理, 有,则,(1),(2),例2.一食品店有三种蛋糕出售,由于售出哪一种蛋糕是随机的,因而售出一只蛋糕的价格是一个随机变量,它取1(元),1.2 (元),1.5(元)各值的概率分别为0.3,0.2,0.5.某天售出300只蛋糕.求这天的收入至少达400 (元)的概率,解:设第i只蛋糕的价格为Xi,i=1,2,300,则Xi的分布律为,由独立同分布中心极限定理知:,即,定理2(德莫佛拉普拉斯中心极限定理),设n重贝努利试验中事件A发生的次数为n,事件A在每次试验中发生的概率为p,则对于任给实数x,总成立,定理表明:若 服从二项分布,当n很大时,,由此可知:当n很大,0p1是一个定值时(或者说,np(1-p)也不太小时),服从二项分布B(n,p) 的随机变量 近似服从正态分布 N(np,np(1-p).,分布.,例3 某次课堂测验,有200道选择题,每一题有4个答案.试问一位完全不会的学生,想凭着猜测的方法回答此200题中的80题,而答对25题至30题的概率是多少?,设答对的题数为X,则,解:,XB(80,0.25),例4 某电视机厂每周生产10000台电视机,但它的显像管车间的正品率为0.8,为了能以0.997的概率保证出厂的电视机都装上正品显像管,该车间每周应生产多少只显像管?,解:设该车间每周生产n只显像管,其中正品的个数为X,则,XB(n,0.8),即:,查表,知,从而得:,即该车间每周至少应生产12655只显像管,才能以0.997的概率保证出厂的电视机都装上正品显像管.,定理3 (李雅普诺夫中心极限定理),则,第一节 参数估计的意义和种类,一、参数估计问题,二、未知参数的估计量和估计值,三、参数估计的种类,数理统计的基本问题是根据样本提供的信息,对总体的分布以及分布的某些数字特征作出推断。这个问题中的一类是总体分布的类型为已知,而它的某些参数为未知,根据所得样本对这些参数作出推断,这类问题称为参数估计。如:,一、 参数估计问题,已知显象管的使用寿命服从指数分布,但参数未知,现抽样得样本X1 , X2 , , Xn ,依据某理论(后述)用样本来估计参数.这就是参数估计问题.,二、 未知参数的估计量和估计值,样本X1 , X2 , , Xn ,样本值x1 , x2 , , xn .,设有一个总体X,其分布函数为 F(x,),其中为,未知参数 (也可以是未知向量).现从该总体抽样,得,g(X1,X2,Xn)为的估计量, 将样本值x1 , x2 , , xn,若构造出适当的统计量 g(X1,X2,Xn) 来估计,则称,代入,则称g(x1,x2,xn)为的估计值.,估计未知参数的值,估计未知参数的取值范围,并使此范围包含未知参数真值的概率为给定的值.,三、 参数估计的种类,设这5个数是:,1.65 1.67 1.68 1.78 1.69,若估计为1.68,,这是点估计.,这是区间估计.,若估计在区间(1.57, 1.84)内,,现从该总体选取容量为5的样本,我们的任务是要,例如:我们要估计某队男生的平均身高.,且假定身高服从正态分布,根据选出的样本值(5个数)求出总体均值的估计值.,而全部信息就由这5个数组成 .,一、矩估计法,第二节 点估计的求法,二、极大似然估计法,一. 矩估计法,理论依据:,记总体k阶矩为,样本k阶矩为,(辛钦大数定律及其推论),则样本 k 阶矩 依概率收敛于总体 k 阶矩 .,方法:,出待估参数.,建立含有待估参数的方程, 从而解,样本 X1, X2, Xn的前 k 阶矩记为,步骤:,设总体的分布函数的形式已知,待估参数为,总体的前 k 阶矩存在.,(1)求出总体的前 k 阶矩,一般是这 k 个参数的函,函数,记为:,7-12,(3)解此方程组 , 得 k 个统计量:,称为未知参数 1, ,k 的矩估计量,这是含未知参数 1,2, ,k 的k个方程构成的方程组,,(2)令,7-12,代入样本值,得 k 个数:,称为未知参数 1, ,k 的矩估计值,例1.设总体 X B( m, p), 其中p 未知, X1, X2, Xn为总体的样本, 求p 的矩估计量.,解:,令,7-13,得,总体矩,样本矩,例2.设总体X的概率密度为,解:,X1, , Xn为样本,求参数 的矩估计.,令,得,总体矩,样本矩,例3.设X1,X2,Xn是取自总体X的一个样本,其中0, 求,的矩估计.,解:,令,解得,用样本矩估计 总体矩,由课文本节例1知:,例4.设从某灯泡厂某天生产的灯泡中随机 抽取10只灯泡,测得其寿命为(单位:小时) 1050, 1100, 1080, 1120, 1200,1250, 1040, 1130, 1300, 1200,试用矩法估计该厂这天生产的灯泡的平均寿命及寿命分布的方差.,解:,7-14,二、 极大似然估计法,即:在一次试验中,概率最大的事件最有可能发生.,引例: 有两个外形相同的箱子,各装100个球,一箱中,取得的球是白球.问: 所取的球来自哪一箱?,答: 第一箱.,中有99个白球1个红球,一箱中有1个白球99个红球。,现从两箱中任取一箱, 并从箱中任取一球,结果所,一般说,若事件A发生的概率与参数有关, 取值不同,P(A)也不同。则应记事件A发生的概率为P(A| ).若一次试验,事件A发生了,可认为此时的 值应是在中使P(A| ) 达到最大的那一个。这就是极大似然原理.,(极大似然原理),极大似然估计法的理论依据:,X1,X2,Xn是取自总体X的样本,x1 , x2 , xn是样本值.,则样本的联合分布律为:,似然函数:,1. X是离散型总体,其分布律为:,记,2. X是连续型总体,其概率密度为,为其样本的似然函数.,则称,该样本值出现的可能性大小.,极大似然估计的方法:,对于给定的样本值x1 , x2 , ,xn ,选取,使得,7-22,称为未知参数 1, ,k 的极大似然估计值,这样得到的估计值,对应的统计量,称为未知参数1,k 的 极大似然估计量,(1) 由总体分布和所给样本,求得似然函数,步骤:,同时取得最大值),(3) 解方程组,7-12,(4) 得未知参数1, ,k的极大似然估计值,及其对应的极大似然估计量,7-12,若待估参数只有一个,则似然函数是一元函数L(),此时,只须将上述步骤中求偏导改为求导即可。,说明:,布,求参数的极大似然估计量,解:,的样本,样本观察值为,由X 服从泊松分布,得X的分布律为,似然函数为,两边取对数,得,=0,得,对求导,并令其为0,,所以参数的极大似然估计量为:,,其中 0,总体X 的样本值,求参数的极大似然估计值.,例6. 设总体X的概率密度为,解:,两边取对数,得,对求导,并令其为0,,得,这就是的极大似然估计值.,解:,两边取对数,得,对求导,并令其为0,,=0,所以的极大似然估计值为,1.可证明极大似然估计具有下述性质:,设的函数g=g()是 上的实值函数,且有唯一反函数 . 如果 是的极大似然估计,则g( )也是g( )的极大似然估计.,关于极大似然估计的两点说明:,此性质称为极大似然估计的不变性,例8. 设X1 X2 , ,Xn为取自参数为的指数分布总体的样本,a0为一给定实数。求p=PXa的极大似然估计,解:,概率密度和分布函数分别为,由总体X服从参数为的指数分布知, X 的,两边取对数,得,对求导,并令其为0,,得的极大似然估计值为,因为,所以,p=PXa的极大似然估计值为,2、当似然函数不是可微函数时,须用极大似然原理来求待估参数的极大似然估计.,例9. 设 X U (a,b), x1, x2, xn 是 X 的一个样本值, 求 a , b 的极大似然估计值与极大似然估计量.,解:,由X U (a,b)知,X 的密度函数为,似然函数为,似然函数只有当 a xi b, i = 1,2, n 时才能获得最大值, 且 a 越大, b 越小, L(a,b) 越大.,令,xmin = min x1, x2, xn xmax = max x1, x2, xn,取,都有,故,是 a , b 的极大似然估计值.,分别是 a , b 的极大似然估计量.,,其中,例10. 设总体X的概率密度为,解:,令,得的矩估计值:,(1)矩估计,两边取对数,得,(2)极大似然估计,得的极大似然估计值:,对求导,并令其为0,,通过例10可见,对同一个待估参数,用不同的方法进行点估计,可能得到不同的估计量.这样就有必要判断哪一个估计量更好,这就是下一节要讲的内容:,评价估计量优良性的标准,一、无偏性,二、有效性,三、一致性,第三节 估计量的评选标准,一、无偏性,随机变量,每次抽样后得到的的估计值不一定与,提出了无偏性的衡量标准。,定义:,是 的无偏估计量.,总体X服从什么分布,样本的 k 阶矩,是总体X的 一个样本,试证明:不论,证明:,由于X1,X2,,Xn和总体X同分布,因而,的无偏估计,例2.设总体X的期望与方差存在,X 的样本为,(1) 不是 D( X )的无偏估量;,(2) 是 D( X )的无偏估计量.,证明:,先证明,所以,因而,所以 不是 D( X )的无偏估计量;,所以 是 D( X )的无偏估计量.,是的无偏估计,并对于任一值,也是的无偏估计.,证明:,由上例可知:,又,则,由上例我们可知,一个未知参数有时会有多个无偏估计,这就又产生了一个问题:哪一个无偏估计量更优呢?,设 和 都是的无偏估计量,即两个估计量,小的那一个,这就有了有效性的衡量标准.,都是总体参数 的无偏估计量, 且,则称 比 更有效.,设,二、有效性,定义,(2)试判断g1和g2哪一个更有效?,例4.已知总体的数学期望 和方差 都存在, X1,X2,X3是总体的样本.设,(1)证明g1和g2都是 的无偏估计,解:,(1),所以,g1 和g2 都是 的无偏估计,(2),因为,所以g1较g2更有效.,(2)求常数 k1和 k2,使得它在所有形如 的无偏估计量中方差最小.,(1)常数k1和k2为何值时, 也是的无偏估计量.,例5.设 和 是参数的两个相互独立的无偏估计量,且 的方差为 的方差的两倍.,解:,由题意知:,(1),令,得,(2),罗克拉美(Rao Cramer)不等式,其中 p ( x , ) 是 总体 X 的分布律或概率密度,称,计量, 此时称 为最有效的估计量, 简称有效估计量.,为方差的下界.,当 时, 称 为 的达到方差下界的无偏估,证明: 因为总体X是(0-1)分布,即:,而,且,又,参数 的估计量是样本的函数,与样本容量n 有关,我们当然希望,样本容量n 越大,估计量与参数 的真值的偏差越小.这就有了一致性的衡量标准.,三、一致性,设 是总体参数 的估计量.,定义,即对于任意正数,有,一致性是对一个估计量的基本要求,若估计量不具有一致性,那么不论将样本容量 n 取得多么大,都不能将估计得足够准确,这样的估计量是不可取的,证明:,由总体X服从参数为 的指数分布可知:,而,故 是 的有效无偏估计量.,又由辛钦大数定律可知:,所以 是 的无偏、有效、一致估计量.,关于一致性的两个常用结论,1. 样本 k 阶矩是总体 k 阶矩的一致估计量.,一般,矩估计法得到的估计量为一致估计量.,我们已讲了参数的点估计以及评价估计量优良性的标准,参数的点估计是用一个确定的值去估计未知的参数. 但是,估计值与参数真值的误差有多大?估计值的可靠性有多大?这些问题在点估计中是无法回答的。这就需要引入区间估计. 也就是下一节要讲的内容 .,一、假设检验问题的提出,二、显著性检验的推理方法和基本步骤,三、两类错误,第一节 假设检验的基本概念,假设检验是统计推断中另一类重要内容。它是在总体分布未知或虽知其分布类型但含有未知参数的时候,提出有关总体分布或分布中某些未知参数的假设。然后根据样本所提供的信息,推断假设是否合理,并作出接受或拒绝所提出假设的决定。,为了具体了解假设检验解决哪些类型的问题,下面看几个例子:,一、假设检验问题的提出,产记录中随机地抽取 n=25 的样本,算得平均含硅,例1. 某炼铁厂生产的生铁含硅量X服从正态分布,N(0.005,0.032)。现改变原料,并从改变原料后的生,后生铁含硅量的均值有无显著变化?,量 ,均方差没有改变,问改变原料,此实例的问题是:根据抽样的结果推断假设“ ”是否为真。,此实例的问题是:根据抽样的结果来推断假设“总体服从泊松分布”是否为真。,实例2.某电话交换台在一分钟内得到的呼唤次数,统计的记录如下:,试检验电话呼唤次数 X 是否服从泊松分布?,总体分布已知,对未知参数提出的假设进行检验.,总体分布未知,对总体分布形式或类型的假设进行检验.,参数假设检验:,非参数假设检验:,假设检验的种类,在假设检验问题中,把要检验的假设称为原假设(零假设或基本假设),记为H0,把原假设的对立面称为备择假设或对立假设,记为H1 。原假设 H0和备择假设 H1两者中必有且仅有一个为真。,二、显著性检验的推理方法和基本步骤,实例.某厂生产的螺钉,按标准,平均强度应为68mm, 实际生产的强度X 服从N(,3.62 ),现从整批螺钉中取容量为 n=36的样本,其均值为 ,问这批螺钉是否符合要求?,若=68,则认为这批螺钉符合要求,否则认为不符合要求.为此提出如下假设:,原假设,备择假设,若原假设H0正确, 则,因而,应是小概率事件.,应较集中在零的周围.即,取较大值,标准化后,,偏离68不应该太远,乎不发生的.,根据小概率原理,小概率事件在一次试验中是几,那么,概率小到什么程度才能算作“小概率事件”呢?,此小概率记为,一般取为0.1,0.05,0.01等.,为此,可以确定一个常数c 使得,然后,计算,若,即一次试验小概率事件就发生了,可以认为,原假设不合理,拒绝原假设H0而接受备择假设H1.否,则,接受原假设H0而拒绝备择假设H1.此时,称区间,为的H0的拒绝域.,现取 ,原假设为真时,因为小概率事件没发生,无理由认为原假设不合理,,所以,接受原假设H0,认为这批螺钉是符合要求的.,所以,(称U为检验统计量),由此例可见:,1.假设检验的理论依据:,实际推断原理(小概率原理),小概率事件在一次试验中几乎是不可能发生的,2. 假设检验是概率意义下的反证法.即:,首先假定原假设H0成立,依照事先给定的概率(称为显著性水平),构造一个小概率事件。然后根据抽样的结果,观察此小概率事件是否发生。若此小概率事件发生了,则认为原假设是不真的,从而作出拒绝H0的判断。否则,就接受H0。,由此可见:,拒绝原假设是有说服力的, 而接受原假设是没有说服力的.,3.不否定H0并不是肯定H0一定对,而只是说差异还不够显著,还没有达到足以否定H0的程度.,因此应把希望否定的假设作为原假设.,假设检验的一般步骤:,(1) 根据实际问题的要求,充分考虑和利用已知的背景知识,提出原假设H0及备择假设H1 ;,(2) 给定显著性水平,选取检验统计量,并确定其分布;,(3) 由P拒绝H0 | H0为真=确定H0的拒绝域的形式;,(4) 由样本值求得检验统计量的观察值,若观察值在拒绝域内,则拒绝原假设H0 ,否则接受原假设H0 .,第一类错误(弃真错误):,第二类错误(取伪错误):,三、两类错误,原假设H0为真,但拒绝了原假设H0 .,原假设H0不真,但接受了原假设H0 .,P拒绝H0|H0为真=,P接受H0|H0不真= .,显然,显著性水平为犯第一类错误的概率.,记,处理原则:,任何检验方法都不能完全排除犯错误的可能性.理想的检验方法应使犯两类错误的概率都很小,但在样本容量固定时,一类错误概率的减少必会导致另一类错误概率的增加.,控制犯第一类错误的概率,然后,若有必要,通过增大样本容量的方法来减少犯第二类错误的概率 .,关于原假设与备择假设的选取,H0与H1地位应平等,但在控制犯第一类错误的概率 的原则下,使得采取拒绝H0 的决策变得较慎重,即H0 得到特别的保护.因而通常把有把握的、有经验的结论作为原假设,或者尽可能使后果严重的错误成为第一类错误.,注:,一、单一正态总体均值的假设检验,二、单一正态总体方差2的假设检验,三、两个正态总体均值的假设检验,四、两个正态总体方差的假设检验,第二节 正态总体的假设检验,一、单一正态总体均值的假设检验,1已知 时,总体均值 的假设检验,(1) 的双边检验:,设总体XN (, 2). X1 , X2 , , Xn是取自X的样本,,样本均值 样本方差S2,原假设,备择假设,取检验统计量:,则拒绝域为:,N(0, 1),当H0为真时,,此时,因为 是0的无偏估计量, 不应太大.,P拒绝H0|H0为真,所以,即:,由此知,拒绝域为:,推导:,(2) 的单边检验:,原假设,备择假设,检验统计量:,拒绝域为:,统计中把拒绝域在某个区间的两侧的检验称为双边检验(这里是区间 的两侧),(a),(证明略),原假设,备择假设,检验统计量:,拒绝域为:,统计中把拒绝域在某个区间的某一侧的检验称为单边检验(这里是区间 的某一侧),(b),这里由于使用的是服从正态分布的 U 统计量来进行检验,也称为U 检验法(或正态检验法)。, 0, 0, 0, 0, 0, 0,U 检验法 (02已知),双边 检验,单边 检验, 0, 0, 0, 0, 0, 0,T 检验法 ( 2 未知),双边检验,单边 检验,2 未知时,总体均值 的假设检验,例1. 设某次考试的考生的成绩服从正态分布,从中随机地抽取36位考生的成绩,算得平均成绩为66.5分,标准差为15分,问在显著性水平0.05下,是否可以认为在这次考试中全体考生的平均成绩为70分?,解:,原假设,备择假设,检验统计量:,拒绝域:,n=36, =0.05,,所以接受H0,,在显著性水平0.05下,可以认为在这次考试中全体考生的平均成绩为70分。,因为,解:,原假设,备择假设,由2 =0.022知,检验统计量为,拒绝域:,例2.一台机床加工轴的椭圆度 X 服从正态分布N(0.095,0.022)(单位:mm)。机床经调整后随机取20根测量其椭圆度,算得 mm 。已知总体方差不变,问调整后机床加工轴的椭圆度的均值有无显著降低?,n=20,=0.05,,所以接受H0,,在显著性水平0.05下,认为调整后机床加工轴的椭圆度的均值无显著降低.,因为,例3.某种电子元件,要求使用寿命不得低于1000 小时。现从一批这种元件中随机抽取25 件,测其寿命,算得其平均寿命950小时,设该元件的寿命XN(,1002),在显著性水平0.05下,确定这批元件是否合格?,解:,原假设,备择假设,由2 =1002知,检验统计量为,拒绝域:,n=25 , =0.05,,所以拒绝H0,,在显著性水平0.05下,认为这批元件不合格.,因为,2 检验法,双边 检验,单边 检验,1已知 时,总体方差2的假设检验,二、单一正态总体方差2的假设检验,当H0为真时,,P拒绝H0|H0为真,所以拒绝域为:,推导(双边检验情形) :,此时,因为 是2的无偏估计量,拒绝域应表现为 偏小或偏大,,2 检验法,双边 检验,单边 检验,2. 未知时,总体方差2的假设检验,例4. 在生产线上随机地取10只电阻测得电阻值(单位:欧姆)如下:114.2,91.9,107.5,89.1,87.2,87.6,95.8 ,98.4,94.6,85.4 设电阻的电阻值总体服从正态分布,问在显著性水平=0.1下方差与60是否有显著差异?,解:,原假设,备择假设,检验统计量:,拒绝域:,n=10 ,=0.1,,所以接受H0,,因为,即在显著性水平=0.1下,认为方差与60无显著差异.,例5. 某种导线,要求其电阻的标准差不得超过0.005欧姆,今在生产的一批导线中取样本9根,测得s=0.007欧姆.设总体服从正态分布,参数均未知,问在显著性水平=0.05下,能否认为这批导线的标准差显著地偏大?,解:,原假设,备择假设,检验统计量:,拒绝域:,n=9 ,=0.05,,所以拒绝H0,,因为,即在显著性水平=0.05下,认为这批导线的标准差显著地偏大.,三、两个正态总体均值的假设检验,为取自总体 N ( 1 12 ) 的样本,为取自总体 N ( 2 22 ) 的样本,分别表示两样本的样本均值与样本方差,且两总体相互独立。, 1 2,1 2, 1 2,1 2,1 2,1 2,U 检验法,双边 检验,单边 检验,1已知 时,总体均值的假设检验, 1 2,1 2, 1 2,1 2,1 2,1 2,双边 检验,单边 检验,2 未知,但 时,总体均值的假设检验,T 检验法,例6.测得两批小学生的身高(单位:厘米)为: 第一批:140,138,143,142,144,137,141 第二批:135,140,142,136,138,140. 设这两个相互独立的总体都服从正态分布,且方差相同,试判断这两批学生的平均身高是否相等(=0.10 )。,解:,原假设,检验统计量:,拒绝域:,备择假设,=0.10,所以接受H0,,因为,认为这两批学生的平均身高是相等的.,例7.某校从经常参加体育锻炼的男生中随机地选出50名,测得平均身高174.34cm,从不经常参加体育锻炼的男生中随机地选出50名,测得平均身高172.42cm,统计资料表明两种男生的身高都服从正态分布,其标准差分别为5.35cm和6.11cm,问该校经常参加体育锻炼的男生是否比不经常参加体育锻炼的男生平均身高要高些? (=0.05 ),解:,原假设,检验统计量:,拒绝域:,备择假设,所以拒绝H0,,因为,认为该校经常参加体育锻炼的男生比不经常参加体育锻炼的男生平均身高要高些.,F 检验法,双边 检验,单边 检验,1已知 时,总体方差的假设检验,四、两个正态总体方差的假设检验,F 检验法,双边 检验,单边 检验,2 未知时,总体方差的假设检验,例8.设两家银行储户的年存款余额均服从正态分布,经市场调查,分别抽取容量为21和16的样本,得样本均值分别为650元和800元,样本方差分别为802和702,能否认为第二家银行储户的平均年存款余额显著高于第一家银行储户的平均年存款余额。 ( =0.10 ),解:,检验统计量:,拒绝域:,(1)先检验两家银行储户的年存款余额的方差有无显著性差异。,原假设,备择假设,=0.10,所以接受H0,,因为,认为两家银行储户的年存款余额的方差无显著性差异.,原假设,检验统计量:,拒绝域:,备择假设,(2)再检验第二家银行储户的平均年存款余额是否显著高于第一家银行储户的平均年存款余额。,=0.10,所以拒绝H0,,因为,认为第二家银行储户的平均年存款余额显著高于第一家银行储户的平均年存款余额,第三节 (0-1) 总体参数 p 的大样本检验,在实际问题中,经常会遇到要对(0-1)总体中参数 p 进行检验的问题。这时,一般是抽取大容量(n30)的样本,利用中心极限定理,对参数 p 进行假设检验.,下面先用此方法对双边检验进行假设检验,然后推广到单边检验。,已知总体X 服从(0-1)分布,其分布律为,现抽取容量为n(n30)的样本X1 , X2 , , Xn,,样本均值为,则,对参数 p 的双边检验:,极限定理可知:,当原假设,为真时,由独立同分布中心,原假设,备择假设,得:,因为 是 p 的达到方差界的无偏估计,所以U的,为 |U| 偏大。即拒绝域应形如:,设显著性水平为,由,值应较集中在零附近,而 的拒绝域应体现,p p0,p p0,p p0,p p0,p p0,p p0,U 检验法,双边 检验,单边 检验,例1. 某药厂在广告上声称该药品对某种疾病的治愈率为80%,一家医院对这种药品临床使用120例,治愈85人,问该药品的广告是否真实(=0.02)?,解:,由于n=120为大样本,设随机变量X为,则X(0-1)分布.,原假设,备择假设,检验统计量为,拒绝域:,=0.02,,所以拒绝H0,,因为,认为该药品的广告不真实.,例2. 若在猜硬币正反面的游戏中,某人在100次试猜中共猜中 60次,是否可以认为此人有诀窍?(=0.05),解:,由于n=100为大样本,设随机变量X为,则X(0-1)分布.,原假设,备择假设,检验统计量为,拒绝域:,=0.05,,若有诀窍,则 猜中的概率 p 应大于1/2.,所以拒绝H0,,因为,可以认为此人猜硬币有某种诀窍。,第三节 单因素方差分析,在第八章第二节中,我们讨论了两个方差相等的正态总体对均值比较的假设检验问题,而在实际应用中还经常需要对有相同方差的多个正态总体均值进行比较的假设检验问题.方差分析就是解决这类问题的有效方法,在实际中有着广泛的应用。,一、基本概念,二、单因素方差分析的数学模型,四、部分总体均值j 和方差2的估计,三、单因素方差分析的假设检验,一、基本概念,我们将要考察的对象的某种特征称为指标,影响指标的各种因素称为因子,一般将因子控制在几个不同的状态上,每一个状态称为因子的一个水平.,若一项试验中只有一个因子在改变,而其它的因子保持不变,称这样的试验为单因素试验.多于一个因子在改变的的试验为多因素试验.这里,我们只讨论单因素试验.,实例1. 对某种型号的电池进行抽查,随机抽取了来自A,B,C三个工厂的产品,测得其寿命(h )见下表,设各工厂所生产的电池的寿命服从有相同方差的正态分布,问这三个工厂所生产的电池的平均寿命有无显著差异?,电池的寿命(h),试验的目的是为了考察不同厂家生产的电池平均寿命是否有显著差异。如果有显著差异,表明生产工厂这一因子对电池寿命的影响是显著的.,在此实例中,,指标:,电池的寿命;,因子:,生产电池的工厂;,水平:,工厂A1、A2、A3,在此试验中,除生产电池的工厂这一因子外,其它因子不变,这是一个单因素试验。,实例2. 为了比较各个工作日进入某一商场的顾客人数,测得各工作日下午4时5时进入商场的顾客人数如下表,问各个工作日对顾客人数有无显著影响?,试验的目的是为了考察不同工作日顾客的人数是否有显著差异。如果有显著差异,表明工作日这一因子对顾客人数的影响是显著的.,在此实例中,,指标:,顾客人数;,因子:,工作日;,水平:,周一、周二、周一、周四、周五,在此试验中,除工作日这一因子外,其它因子不变,这是一个单因素试验。,二、单因素方差分析的数学模型,设在单因素试验中,影响指标的因子A 有 s 个水平A1, A2 ,As ,将每个水平Aj下要考察的指标作为一个总体称为部分总体,仍记为Aj ,则共有s个总体,假设,假设前提:,2)部分总体的方差都相等,即:,1)每个部分总体都服从正态分布,即:,3)不同的部分总体下的样本是相互独立的。,在水平Aj下进行nj次独立试验,得样本,则,记 称其为随机误差,则,由此得:,单因素方差分析的数学模型:,各个随机误差 相互独立, 和 未知.,对每个水平Aj下的样本 引进统计量:,样本和:,样本均值:,将单因素试验的数据列表如下:,样本总均值:,单因素试验数据表,(1)检验假设:,不全相等.,(2)求出未知参数 和 的估计量,单因素方差分析的任务:,根据样本提供的信息,,三、单因素方差分析的假设检验,单因素方差分析法是将样本全部偏差的平方和分解成两个平方和,通过这两个平方和之间的比较,导出假设检验的统计量和拒绝域.,偏差平方和及其分解,总平方和:,效应(组间)平方和:,说明:,SA反映了在每个水平下的样本均值与样本总均值的差异,它是由因子A 取不同水平引起的,所以,称SA是因子A的效应(组间)平方和.,误差(组内)平方和:,平方和分解公式:,说明:,SE 表示在每个水平下的样本值与该水平下的样本均值的差异,它是由随机误差引起的,所以,称SE是误差(组内)平方和.,证明:,又,所以,即:,总平方和=效应(组间)平方和+误差(组内)平方和,SA和 SE 的统计特征,在单因素方差分析的模型下,,(2)SA 和 SE 相互独立。,定理:,(1),由定理(1),有,即,结合定理(1)(2)(3),有,ST ,SA ,SE 的计算方法,记,化简得,单因素方差分析的假设检验:,(1)提出统计假设,不全相等.,(2)取假设统计量,(3)拒绝域:,说明:如果组间差异比组内差异大得多,则说明各水平间有显著差异,H0不真。,单因素方差分析的假设检验的步骤:,(1)提出统计假设,不全相等.,(2)编制单因素试验数据表,(3)根据数据表计算,(4)填制单因素方差分析表,单因素方差分析表,(5)检验,若,否则接受H0 ,认为因子A对指标没有显著影响.,则拒绝H0,,例1. 在显著性水平=0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论