Ch6样本及其分布课件_第1页
Ch6样本及其分布课件_第2页
Ch6样本及其分布课件_第3页
Ch6样本及其分布课件_第4页
Ch6样本及其分布课件_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

在概率论中,我们研究的随机变量,它的分布,都是假设已知的,在这一前提下去研究它的性质、特点和规律性,例如求出它的数字特征,讨论随机变量函数的分布等。1要求某种元件的平均使用寿命不得低于1000小时,现从这批元件中随机抽取25件,测得其寿命的平均值为950小时.试问该批元件是否达到了要求?某工厂生产了一大批产品,从中随机抽检了n件产品,发现有

m件次品,如何估计整批产品的次品率p

?例例这些问题都是统计推断问题现在转入课程的第二部分数理统计2作出精确而可靠的结论.从总体上来说,数理统计可以分为两大类:一类是如何科学地安排试验,此部分内容称为描述统计学如:试验设计、抽样方法。另一类是研究如何分析所获得的随机数据,对所研究的问题进行科学的、合理的估计和推断,尽可能地为采取一定的决策提供依据,这部分的内容称为推断统计学,如:参数估计、假设检验等。我们主要讨论有关推断统计学中几个最基本的问题。以获取有效的随机数据。3100个样品进行强度测试,于是面临下列几个问题:例如某厂生产一型号的合金材料,用随机的方法选取1、估计这批合金材料的强度均值是多少?(参数的点估计问题)2、强度均值在什么范围内?(参数的区间估计问题)3、若规定强度均值不小于某个定值为合格,那么这批材料是否合格?(参数的假设检验问题)4、这批合金的强度是否服从正态分布?5、若这批材料是由两种不同工艺生产的,那么不同的工艺对合金强度有否影响?若有影响,那一种工艺生产的强度较好?(分布检验问题)(方差分析问题)46、若这批合金由几种原料用不同的比例合成,那么如何表达这批合金的强度与原料比例之间的关系?(回归分析问题)统计推断内容参数估计区间估计参数假设检验非参数假设检验方差分析回归分析5一

总体与随机样本总体与个体样本与简单随机样本统计量与统计值6研究对象的全体称为总体这样定义的总体和个体是具体的对象,不符合数学研究的特点---抽象考察某班级学生的英语课程学习成绩,则全体学生构成了一个总体,每个同学就是一个个体.考察某工厂生产的某批灯泡的寿命,则该厂生产的该批灯泡构成了一个总体,每个灯泡就是一个个体.数理统计的几个基本概念总体个体总体中的一个具体对象称为个体例例问题如何改进?不是研究它们而是研究数量指标这些数量指标是服从某种分布的r.v总体:研究对象的数量指标

个体:

的值7总体 个体 特征一批产品 每件产品 等级一批灯泡 每个灯泡 寿命一年的日平均气温 每天日平均气温 度数数轴上某一线段 线段中每一点 坐标一批彩票 每张彩票 号码人们感兴趣的是总体的某一个或几个数量指标的分布情况。每个个体所取的值不同,但它按一定规律分布。8考察某工厂生产的零件是否合格,记考察某班级学生的英语课程学习成绩X,因为每个学生的成绩都在全班平均成绩u

的附近波动,所以总体可视为例考察某工厂生产的某批灯泡的寿命X,

因为每个灯泡的寿命都在该批灯泡平均寿命u的附近波动,所以总体可视为例例零件合格零件不合格为零件的次品率.则总体可视为并常用随机变量的记号或用其分布函数表示总体.比如说总体

X

或总体F(x).很自然地,我们就用随机变量

X

来表示所考察的总体.可见,X的概率分布反映了总体中各个值的分布情况.X的分布函数和数字特征就是总体的分布函数和数字特征.今后不必区分总体和其相应的随机变量.也就是说,总体可以用一个随机变量X或其分布来描述.

9坏性的试验更是不允许对整个总体进行考察.考察某工厂生产的灯泡寿命考察某型号手机的质量考察吸烟和患肺癌的关系在实际问题中,要考察整个总体往往是不可能的,因为它需要耗费太多的资源和太多的时间.有些破10如何收集数据这一过程称为抽样问从研究对象中任取

个“个体”,观察它们的数量指标抽样的特点每次取出的样品与总体有相同的分布样本的特点?称为容量为的样本.是相互独立,与总体同分布的r.v观察前:观察后:样本值为个具体的观察数据样本的二重性独立性:要求各次取样的结果互不影响代表性:在相同条件下对总体

进行

次重复、独立观察样本观察值11某厂生产了一大批灯泡,现从中随机抽取5只进行检测,测得其寿命(小时)分别为总体为灯泡的寿命样本容量为5,样本为分析例样本观察值为样本二重性总体为工件长度样本容量为6,样本为分析例样本二重性对长度为的工件进行了6次测量,测量值为??样本观察值为工件实际长度未知连续型总体12总体分析(零件合格或不合格)二重性总体分布律为考察某工厂生产的零件是否合格,从该厂生产的一批产品中随机抽检了100个,若合格则记为0,若不合格则记为1,100个产品的检查结果为其中

为零件的次品率。例样本(独立同分布分布)样本观察值离散型总体13

样本中所包含的个体数目称为样本容量.但是,一旦取定一组样本,得到的是n个具体的数x1,x2,…,xn

,按一定规则从总体中抽取若干个体进行观察试验以获得有关总体的信息.为推断总体分布及各种特征,从国产轿车中抽5辆进行耗油量试验样本容量为

52样本样本是随机变量抽到哪5辆是随机的!容量为

n的样本可以看作n维随机变量(X1,X2,

…,Xn).所抽取的部分个体称为样本.这一抽取过程称为抽样,称为样本(X1,X2,…,Xn)的一组观测值,简称样本值.14要求抽取的样本X1,X2,…,Xn

满足下面两点:它可以用与总体同分布的n个相互独立的随机变量

X1,X2,…,Xn

表示.2.代表性:Xi(i=1,2,…,n)与所考察的总体X同分布.

为了使抽取的样本能很好地反映总体的信息,必须考虑抽样方法.最常用的一种抽样方法叫作简单随机抽样,1.独立性:X1,X2,…,Xn

是相互独立的随机变量

;抽样的目的是为了对总体进行统计推断由简单随机抽样得到的样本称为简单随机样本,15

简单随机样本是应用中最常见的情形,今后,说到

“X1,…,Xn

是来自某总体的样本”时,若不特别说明,就指简单随机样本.16样本分布设总体的分布函数为由样本的独立性,简单随机样本的联合分布函数为并称其为样本分布.(1)其概率分布为则样本的概率分布为则为离散型随机变量,若总体称其为离散样本密度.(2)其概率密度为为连续型随机变量,若总体17样本分布则样本的概率密度为称其为连续样本密度.(1)其概率分布为则样本的概率分布为为离散型随机变量,若总体称其为离散样本密度.(2)其概率密度为为连续型随机变量,若总体18统计推断问题简述通过总体的一个样本分布进行推断,此即为统计推断问题.样本值的关系:总体推断(个体)样本样本值抽样对总体的总体、样本、在实际应用中,总体的分布一般是未知的,或虽然知道总体分布所属的类型,但其中包含有未知参数.为对总体分布进行推断,可对总体进行抽样研究,19统计推断问题简述在实际应用中,总体的分布一般是未知的,或虽然知道总体分布所属的类型,但其中包含有未知参数.为对总体分布进行推断,可对总体进行抽样研究,对总体的每次抽样,均得到样本的一组确定的值——样本值,统计推断就是利用通过大量抽样得到的样本值,反过来对总体分布的属的类型,分布中所含的未知参数进行推断.或总体20这必须把样本中所含的(某一方面)的信息集中这种不含任何未知参数的样本的值去推断总体情况,起来,对样本值进行“加工”。这就要构造一些合适的依赖于样本的函数,它是完全由样本决定的量.在数理统计中,从总体X中抽取样本由样本推断总体X的分布与数字特征。针对不同的问题构造出样本的各种函数。函数称为统计量。

21统计量定义设为总体的一个样本,样本的任一不含总体分布未知参数的函数为该样本的统计量.称此注:样本是维随机向量,这个随机向量的函数,用大写字母,如:等;但是,体取定一组观察值时,统计量就是一个具统计量是当样本具体的实数值,用小写字母,如:等.22是一个样本,则均为统计量。当参数未知时,均不是统计量。当参数已知时,其为统计量。例如总体23

例6

设X1,X2,…,X100是来自正态总体X的样本.那么,以下函数中谁有可能不是统计量?▲24是不是Ex.25常用统计量以下设为总体的一个样本.1.样本均值2.样本方差表示数据集中的位置,反映了总体X取值的平均信息。描述了数据对于均值x的离散程度,反映了总体方差的信息。263.样本标准差4.样本(k阶)原点矩5.样本(k阶)中心矩它反映了总体k阶矩的信息它反映了总体k阶中心矩的信息27从表面上看,样本观察值往往表现为一大堆杂乱无章的数据,引进统计量之后,一大堆数据加工成若干个较简单又往往是较本质的量,以便我们今后用来推测总体分布中未知的值。统计量是数理统计中的一个重要概念,相当于把这28小结(3)简单随机样本:设X1,X2,…,Xn

为来自总体X的样本.若X1,X2,…,Xn

相互独立且与均总体X同分布,称X1,X2,…,Xn

为来自总体X的简单随机样本.29在实际中遇到的总体往往是有限总体,它对应一个离散型随机变量;当总体中包含的个体的个数很大时,在理论上可认为它是一个无限总体.总体有限总体无限总体30引言取得总体的样本后,通常是借助样本的统计量对未知的总体分布进行推断,须进一步确定相应的统计量所服从的分布,概率论中的所提到的常用分布外,几个在统计学中常用的统计分布:分布分布分布为此除在本节还要介绍31常用抽样分布标准正态量之平方和的χ2

分布标准正态量与之商的t

分布量与量之商的F

分布(正态量常用函数的分布)32分位数设随机变量的分布函数为对给定的实数若实数满足不等式(1)则称为随机变量的分布的水平为的上侧分位数.若实数满足不等式(2)分位数.则称为随机变量的分布的水平为的双侧例如,标准正态分布的上侧分位数和双侧分位数33分位数例如,标准正态分布的上侧分位数和双侧分位数分别如下图:分位数的性质:通常,直接求解分位数是很困难的,对常用的统计分布,可利用附录中给出的分布函数值表来得到分位数的值.34例1设求标准正态分布的水平0.05的上侧分位数和双侧分位数.解由于查标准正态分布函数值表可得而水平0.05的双侧分位数为它满足:查标准正态分布函数值表可得今后,分别记与为标准正态分布的上侧注:分位数与双侧分位数.35二、统计三大抽样分布记为分布1、定义:

设相互独立,都服从正态分布N(0,1),则称随机变量:

所服从的分布为自由度为

n

的分布.分布是由正态分布派生出来的一种分布.这里,自由度是指等式右端所包含的独立变量的个数.361.

设相互独立,都服从正态分布则这个性质叫分布的可加性.3.若近似正态分布N(0,1).(应用中心极限定理可得)2.设且X1,X2相互独立,37E(X)=n,D(X)=2n.38分布的密度函数为来定义.其中伽玛函数通过积分39分布的分位数对给定的实数称满足条件的数为分布的水平的上侧分位数.与对不同的分位数的值已经编制成表供查用(参见附表5).例如,查表得:40例2设是来自总体的样本,又设试求常数使服从分布.解因为所以且相互独立,于是41例2设是来自总体的样本,又设试求常数使服从分布.解且相互独立,于是故应取则有42分布定义设且与相互独立,则称服从自由度为的分布,记为分布的概率密度:的图形当充分大时类似于标准正态分布,43分布分布的概率密度:的图形当充分大时类似于标准正态分布,事实上,但对于较小的分布与标准正态分布仍相差较大.注:分布的密度函数是偶函数.英国统计学家兼化学家戈塞特(GossetWS1876-1937

)于1908年用笔名Student

发表了关于

t

分布的论文,这是一篇在统计学发展史上划时代的文章,它创立了小样本代替大样本的方法,开创了现代统计学的新纪元.

Gosset,Student

的最后一个字母都是t,故取名为“t

分布”,又称为“学生氏分布”.-分布是怎样产生的t?44对给定的实数称满足条件的数为上侧分位数.分布的水平的类似地,可给出分布的双侧分位数.由的对称性及定义有对不同的与分布的上侧分位数可自附表查分布的分位数45不同的与分布的上侧分位数可自附表4查分布的分位数得.例如,设当自由度充分大时,分布近似于标准正态分布,故有标准正态分布的上侧分位数一般当时,分布的分位数可用正态近似.46例3设随机变量随机变量均服从且都相互独立,令试求的分布,并确定的值,使解由于47例3解由于故由分布的定义知即服从自由度为4的分布:由对于查附表4,得48分布定义设且与相互独立,则称服从自由度为的分布,记为分布的概率密度:49该密度函数的图象也是一只取非负值的偏态分布

50分布分布的概率密度:分布的性质:若则51分布的分位数对给定的实数称满足条件的数为位数.分布的的上侧分水平分布的重要性质:分布的上侧分位数可自附表查得.52分布的分位数分布的重要性质:分布的上侧分位数可自附表6查得.例如,对表中未列出的常用上侧分位数,可用上述性质求之.分布是为了纪念著名统计学家费歇耳(R.A.Fisher1890-1962)而命名53例4设总体服从标准正态分布,是来自总体的一个简单随

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论