第1章-统计量及其抽样分布_第1页
第1章-统计量及其抽样分布_第2页
第1章-统计量及其抽样分布_第3页
第1章-统计量及其抽样分布_第4页
第1章-统计量及其抽样分布_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

参考书目:1.《高等数理统计》,峁诗松,王静龙等编著,高等教育出版社,19982.《概率论与数理统计教程》,峁诗松,程依明等编著,高等教育出版社,20043.《多元统计分析引论》,张尧庭,方开泰著,科学出版社,20034.《应用回归分析》(第二版),何晓群,刘文卿编著,中国人民大学出版社,2007主要内容数理统计回归分析方差分析多元统计方法统计量及其分布参数估计假设检验聚类分析判别分析主成分分析因子分析数理统计(MathematicalStatistics)什么是数理统计学?例1:某工厂生产大批的电子元件,(由概率论知识)我们认为有理由假定元件的寿命服从指数分布。在实际应用中,提出问题:1.元件的平均寿命如何?2.如果你是使用单位,要求平均寿命能达到某个指定的数,例如,问这批元件可否被接受?例2,3从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,说明人们很早就开始了统计的工作.但是当时的统计,只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作出超越这些数据范围之外的推断.到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学这门学科.数理统计学概率论的研究开始于意大利文艺复兴时期,源于赌博。数理统计是伴随着概率论而发展的,最早见于国家的人口统计中。概率论侧重于理论上的研究,介绍随机现象反映的基本概念,建立相应的定理和公式,找出计算统计规律的方法;而数理统计是以概率论为理论依据,研究如何设计试验,并对试验结果进行整理和统计分析。课程的内容重点:介绍数理统计的一些重要概念和典型的统计方法。是实际中最常用的知识.数理统计是研究随机现象并找出其统计规律的一门学科,是广泛应用于社会、科学、经济等领域的定量和定性分析的科学体系。通过该课程的学习,使学生掌握数理统计的基本概念、数据处理、数据分析、数据推断的各种基本方法,并用掌握的方法具体解决社会经济等领域中的各种问题。

观点:学习统计无须把过多时间花在计算上,可以更有效地把时间用在基本概念、方法原理的正确理解上.国内外著名的统计软件包:

S-PLUS,SAS,SPSS,STAT等可以快速、简便地进行数据处理和分析.

数理统计学是一门应用性很强的学科.它的任务是研究怎样以有效的方式收集、整理和分析带有随机性的数据,以便对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议.

由于推断是基于抽样数据,抽样数据又不能包括研究对象的全部信息.因而由此获得的结论必然包含不肯定性.在数理统计中,不是对所研究的对象全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断.(1)怎样设计试验,决定观察的数目;(2)怎样利用试验观察的结果作出一个“好”的推断等.这都是数理统计所要研究的问题.这就涉及到第一个问题是怎样进行抽样,使抽得的样本更合理,并有更好的代表性?这是抽样方法和试验设计问题:最简单易行的是进行随机抽样.

第二个问题是怎样从取得的样本去推断总体?这种推断具有多大的可靠性?这是统计推断问题.本课程着重讨论第二个问题,即最常用的统计推断方法.数理统计数理统计有许多分支,大致可分为抽样技术和试验设计统计推断:参数估计和假设检验,抽样分布

概率论是数理统计的基础,而数理统计是概率论的重要应用.但它们是并列的两个学科,并无从属关系.可见,在数理统计中必然要用到概率论的理论和方法.因为随机抽样的结果带有随机性,不能不把它当作随机现象来处理.

由此也可以说,第一章统计量及其分布本章要求:1.理解总体、简单随机样本、统计量、样本均值、样本方差及样本矩的概念;2.了解分布、t分布、F分布的概念及其性质;了解分位数的概念,并会查表计算;3.掌握正态总体的抽样分布。本章重点、难点:总体、样本、统计量的概念,分布、t分布、F分布的定义及计算,正态总体的抽样分布。一个统计问题总有它明确的研究对象.1.总体…研究某批灯泡的质量研究对象的全体称为总体(母体),总体中每个成员称为个体.总体1.1.1、基本概念1.1、基本概念、顺序统计量与经验分布函数总体的分类:有限总体无限总体然而在统计研究中,人们关心总体仅仅是关心其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布情况.这时,每个个体具有的数量指标的全体就是总体.某批灯泡的寿命该批灯泡寿命的全体就是总体由于每个个体的出现是随机的,所以相应的数量指标的出现也带有随机性.从而可以把这种数量指标看作一个随机变量,这样一个总体对应一个随机变量。随机变量的分布就是该数量指标在总体中的分布.这样,总体就可以用一个随机变量及其分布来描述.例如:研究某批灯泡的寿命时,关心的数量指标就是寿命,那么,此总体就可以用随机变量X表示,或用其分布函数F(x)表示.某批灯泡的寿命总体寿命X可用一概率分布来刻划鉴于此,常用随机变量的记号或用其分布函数表示总体.如说总体X或总体F(x).F(x)

类似地,在研究某地区中学生的营养状况时,若关心的数量指标是身高和体重,我们用X和Y分别表示身高和体重,那么此总体就可用二维随机变量(X,Y)或其联合分布函数F(x,y)来表示.统计中,总体这个概念的要旨是:总体就是一个概率分布.为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息,这一抽取过程称为“抽样”,所抽取的部分个体称为样本.样本中所包含的个体数目称为样本容量.

样本从国产轿车中抽5辆进行耗油量试验样本容量为5但是,一旦取定一组样本,得到的是n个具体的数(X1,X2,…,Xn),称为样本的一次观察值,简称样本值.样本是随机变量.抽到哪5辆是随机的容量为n的样本可以看作n维随机变量.2.独立性:X1,X2,…,Xn是相互独立的随机变量.由于抽样的目的是为了对总体进行统计推断,为了使抽取的样本能很好地反映总体的信息,必须考虑抽样方法.最常用的一种抽样方法叫作“简单随机抽样”,它要求抽取的样本满足下面两点:1.代表性:X1,X2,…,Xn中每一个与所考察的总体有相同的分布.由简单随机抽样得到的样本称为简单随机样本,它可以用与总体独立同分布的n个相互独立的随机变量X1,X2,…,Xn表示.简单随机样本是应用中最常见的情形,今后,当说到“X1,X2,…,Xn是取自某总体的样本”时,若不特别说明,就指简单随机样本.若总体的分布函数为F(x),则其简单随机样本的联合分布函数为F(x1)F(x2)…

F(xn)已知总体的分布写出子样的分布(1)已知总体X~F(x),则样品Xi~F(xi)i=1,2…n样本(X1,X2…,Xn)

的联合分布为:F(x1,x2…,xn)=P(X1<x1,X2<x2…Xn<xn)=P(Xi<xi)=F(xi)若总体X密度函数为f(x),样品X密度函数为f(xi)i=1,2……n,样本(X1,X2……Xn)的联合密度是:

f(x1,x2…,xn)=f(xi)若总体X是离散型随机变量,称f(xk)=P(X=xk)=pk,k=1,2……,为X的概率函数,样本的联合概率函数是:f(x1,x2……xn)=f(xi)例2:总体X~B(1,p),0

p

1写出其样本(X1,X2,…Xn)的联合概率函数。例例1:总体X~

,样本(X1,X2…Xn)联合密度由样本值去推断总体情况,需要对样本值进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来.2.统计量这种不含任何未知参数的样本的函数称为统计量.它是完全由样本决定的量.例题分析直方图、茎叶图例3:某公司对应聘人员进行能力测试,测试成绩总分为150分。50位应聘人员的测试成绩为646770727476767980818282838586889191929393939595

95979799100100102104106106107108108112112114116118119119122123125126128133数值分开茎和叶11211︳2112

茎678910111213叶47024669012235681123335667790024667882246899235683比较两组样本,可用背靠背的茎叶图。例4

某厂两个车间某天各40名员工生产的产品数量如下表,对其进行比较。甲车间乙车间

505256616162646565

656767676871727474767677777882838587889091869286939397100100103105

5666676768687272747575

75757676

76

767878798081818383838484

8486868787889292939598107甲车间

62056乙车间

87775554211667788877664421722455556668898766532801133344466778732109223585300107两车间产量的背靠背茎叶图样本均值及其抽样分布几个常见统计量样本均值样本方差它反映了总体均值的信息它反映了总体方差的信息例1某单位收集到20名青年人的某月的娱乐支出费用数据:79848488929394979899100101101102102108110113118125则该月这20名青年的平均娱乐支出为:组序分组区间组中值频数频率12345合计(77,87](87,97](97,107](107,117](117,127]829210211212235732200.150.250.350.150.11用分组样本计算样本均值为:频数频率分布为:该样本的样本方差与样本标准差分别为:也可用分组样本计算:组中值频数8292102112122和35732202464607143362442000-18-821222972320284329682720分组样本方差的计算表:(样本均值也由分组样本计算)样本均值的分布例2:设有一个由20个数组成的总体,现从该总体抽取容量为5的样本,一共抽出4个样本,每个样本有5个观测值,计算各个样本的样本均值,可以看出每个样本的样本均值都有差别样本1样本2样本3样本41111910881310119131111109129101011样本均值9.810.210.810.48139101181012119111013总体频率/频数样本k阶原点矩样本k阶中心矩

k=1,2,…它反映了总体k阶矩的信息它反映了总体k阶中心矩的信息样本均值的特征函数1.1.2、顺序统计量定义1.1.4(书中第3页)顺序统计量X(k)是样本X1,…,Xn,中第k个最小的样品,1≤k≤nM=max(X,Y)及N=min(X,Y)的分布设X,Y是两个相互独立的随机变量,它们的分布函数分别为FX(x)和FY(y),我们来求M=max(X,Y)及N=min(X,Y)的分布函数.又由于X和Y

相互独立,于是得到M=max(X,Y)的分布函数为:即有FM(z)=FX(z)FY(z)FM(z)=P(M≤z)=P(X≤z)P(Y≤z)=P(X≤z,Y≤z)

由于M=max(X,Y)不大于z等价于X和Y都不大于z,故有分析:P(M≤z)=P(max(X,Y)≤z)=P(X≤z,Y≤z)

类似地,可得N=min(X,Y)的分布函数是下面进行推广

即有FN(z)=1-[1-FX(z)][1-FY(z)]=1-P(X>z,Y>z)FN(z)=P(N≤z))=P(min(X,Y)≤z)=1-P(min(X,Y)>z)=1-P(X>z)P(Y>z)设X1,…,Xn是n个相互独立的随机变量,它们的分布函数分别为

我们来求M=max(X1,…,Xn)和N=min(X1,…,Xn)的分布函数.(i=0,1,…,n)

用与二维时完全类似的方法,可得

特别,当X1,…,Xn相互独立且具有相同分布函数F(x)时,有

N=min(X1,…,Xn)的分布函数是

M=max(X1,…,Xn)的分布函数为:FM(z)=[F(z)]nFN(z)=1-[1-F(z)]n……若X1,…,Xn是连续型随机变量,在求得M=max(X1,…,Xn)和N=min(X1,…,Xn)的分布函数后,不难求得M和N的密度函数.当X1,…,Xn相互独立且具有相同分布函数F(x)时,有

FM(z)=[F(z)]nFN(z)=1-[1-F(z)]nfM(z)=nf(z)

[F(z)]n-1fN(z)=nf(z)

[1-F(z)]n-1需要指出的是,当X1,…,Xn相互独立且具有相同分布函数F(x)时,常称M=max(X1,…,Xn),N=min(X1,…,Xn)为极值.由于一些灾害性的自然现象,如地震、洪水等等都是极值,研究极值分布具有重要的意义和实用价值.在一个简单随机样本中,是独立同分布的,而次序统计量则既不独立,也不同分布,看下例。例6:设总体的分布为仅取0,1,2的离散均匀分布,分布列为012

1/31/3

1/3

现从中抽取容量为3的样本,其一切可能取值有种,将它们列在下表:000001010100002020200011101110012021102201000001001001002002002011011011012012012012

120210022202220112121211122212221111222

012012022022022112112112122122122111222例9:下表是某厂160名销售人员某月的销售量数据的有序样本,计算。例3:

系统L

由两个相互独立的子系统L1,L2联结而成。已知L1,L2的使用寿命X,Y分别服从参数为

>0,

>0,

)。分别在下列三种情况下,求系统L的使用寿命Z的分布.子系统L1,L2串联;子系统L1,L2并联;子系统L2冷备.解:X,Y的分布函数为子系统L1,L2串联:

当子系统L1,L2有一个损坏时,系统L就停止工作,所以系统L

的寿命为

Z=min(X,Y),Z的分布函数为解:

(2)子系统L1,L2并联:

当且仅当子系统L1,L2全部损坏时,系统L就停止工作,所以系统L

的寿命为

Z=max(X,Y),Z的分布函数,密度函数为解:

(3)备用:

首先子系统L1开始工作,当子系统L1

损坏时,子系统L2开始工作,子系统L1,L2全部损坏时,系统L就停止工作,所以系统L

的寿命为

Z=X+Y,当Z≤0时Z=X+Y密度函数为0

当Z>0时Z=X+Y密度函数为

下面我们再举一例,说明当X1,X2为离散型r.v时,如何求Y=max(X1,X2)的分布.解一:P(Y=n)=P(max(X1,X2)=n)=P(X1=n,X2≤n)+P(X2=n,X1<n)记1-p=q例4:

设随机变量X1,X2相互独立,并且有相同的几何分布:P(Xi=k)=p(1-p)k-1,k=1,2,…(i=1,2)求Y=max(X1,X2)的分布.n=0,1,2,…解二:{Y≤n}={Y=n}U{Y≤n-1}P(Y=n)=P(Y≤n)-P(Y≤n-1)=P(max(X1,X2)≤n)-P(max(X1,X2)≤n-1)=P(X1≤n,X2≤n)-P(X1≤n-1,X2≤n-1)n=0,1,2,…1.1.3、经验分布函数定义1.1.5(书中第6页)(1)分布

1.1.4.几个重要的分布其中伽玛函数随机变量密度函数为

统计量既然是依赖于样本的,而后者又是随机变量,故统计量也是随机变量,因而就有一定的分布,这个分布叫做统计量的“抽样分布”

.

抽样分布就是通常的随机变量函数的分布.只是强调这一分布是由一个统计量所产生的.研究统计量的性质和评价一个统计推断的优良性,完全取决于其抽样分布的性质.抽样分布精确抽样分布渐近分布(小样本问题中使用)(大样本问题中使用)记为分布2、定义:设相互独立,都服从正态分布N(0,1),则称随机变量:

所服从的分布为自由度为

n

的分布.分布是由正态分布派生出来的一种分布.分布的密度函数为来定义.其中伽玛函数通过积分由分布的定义,不难得到:1.

设相互独立,都服从正态分布则2.设且X1,X2相互独立,则这个性质叫分布的可加性.应用中心极限定理可得,若,则当n充分大时,若的分布近似正态分布N(0,1).则可以求得,

E(X)=n,D(X)=2n若

上侧分位数:设X~F(x),对于给定的正数(0<<1),若存在一个实数A满足:P{X>A}=则称A为X的上侧分位数,简称上分位数;若X服从某分布,称A为某分布的上分位数。

下侧分位数:设X~F(x),对于给定的正数

(0<<1),若存在一个实数A满足:P{X≤A}=则称A为X的下侧分位数,简称下分位数;若X服从某分布,称A

为某分布的下分位数。

设〜,称满足的数为自由度为n的分布的下分位数。查表①P245n≤45②n>45时,

设,称满足的数为标准正态分布的下分位数。查表P243T的密度函数为:记为T~t(n).

定义:设X~N(0,1),Y~,且X与Y相互独立,则称变量所服从的分布为自由度为n的t分布.3、t分布具有自由度为n的t分布的随机变量T的数学期望和方差为:

E(T)=0;D(T)=n/(n-2),对n>2当n充分大时,其图形类似于标准正态分布密度函数的图形.t分布的密度函数关于x=0对称,且不难看到,当n充分大时,t分布近似N

(0,1)分布.但对于较小的n,t分布与N(0,1)分布相差很大.下侧分位数T~t(n),称满足P{T≤tα(n)}=的数tα(n)为t(n)上分位数。易知:查表:①n≤45时,直接查表P244。②n>45时,,tα(n)=uα

。由定义可见,4、F分布定义:设X与Y相互独立,则称统计量服从自由度为n1及n2的F分布,n1称为第一自由度,n2称为第二自由度,记作F~F(n1,n2).~F(n2,n1)即它的数学期望并不依赖于第一自由度n1.X的数学期望为:若n2>2若X~F(n1,n2),X的概率密度为性质:①若

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论