数理统计的基本概念_第1页
数理统计的基本概念_第2页
数理统计的基本概念_第3页
数理统计的基本概念_第4页
数理统计的基本概念_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

变量函数的分布等。但是对一个实际问题,随机变量的概率分布往往是不知道的,如何确定随机变量的概率分布或数字特征就是数理统计要解决的问题。在概率论中,我们所研究的随机变量,它的分布都是假设已知的,在这一前提下去研究它的性质、特点和规律性,例如求出它的数字特征,讨论随机数理统计是一个内容十分丰富的数学分支。它既有严格的理论,更有极其广泛的应用。而且随着科技的发展其研究内容还在不断地充实提高。数理统计的基本概念

从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,说明人们很早就开始了统计的工作.但是当时的统计,只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作出超越这些数据范围之外的推断.

数理统计学是一门应用性很强的学科.它是研究怎样以有效的方式收集、整理和分析带有随机性的数据,以便对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议.

到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学这门学科.作出精确而可靠的结论.从总体上来说,数理统计可以分为两大类:一类是如何科学地安排试验,此部分内容称为描述统计学如:试验设计、抽样方法。另一类是研究如何分析所获得的随机数据,对所研究的问题进行科学的、合理的估计和推断,尽可能地为采取一定的决策提供依据,这部分的内容称为推断统计学,如:参数估计、假设检验等。我们主要讨论有关推断统计学中几个最基本的问题。以获取有效的随机数据。参数估计(第7章)假设检验(第8章)回归分析(第9章)方差分析(第9章)

推断统计学100个样品进行强度测试,于是面临下列几个问题:例如

某厂生产一型号的合金材料,用随机的方法选取1、估计这批合金材料的强度均值是多少?(参数的点估计问题)2、强度均值在什么范围内?(参数的区间估计问题)3、若规定强度均值不小于某个定值为合格,那么这批材料是否合格?(参数的假设检验问题)4、这批合金的强度是否服从正态分布?5、若这批材料是由两种不同工艺生产的,那么不同的工艺对合金强度有否影响?若有影响,那一种工艺生产的强度较好?(分布检验问题)(方差分析问题)6、若这批合金由几种原料用不同的比例合成,那么如何表达这批合金的强度与原料比例之间的关系?(回归分析问题)我们依次讨论参数的点估计、区间估计、假设检验等内容。首先我们讨论数理统计中的一些基本概念。第6章样本及其分布本章作为数理统计基础,学习总体、样本、统计量与抽样分布等有关概念,以及有关正态总体的重要的抽样分布定理.6.1简单随机样本

总体容量有限的称为有限总体,

总体

一个统计问题总有它明确的研究对象.1.总体研究对象的全体称为总体(母体),总体中每个对象称为个体.研究某批灯泡的质量总体考察国产轿车的质量§1总体和样本

不过在统计研究中,人们关心总体仅仅是关心其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布情况.该批灯泡寿命的全体就是总体

灯泡的寿命

每公里的耗油量所有国产轿车每公里耗油量的全体就是总体这时,每个个体具有的数量指标的全体就是总体.称总体中所含个体的数目为总体容量,总体容量无限的称为无限总体.当个体个数很大时通常把有限总体看作无限总体。

那么,此总体就可用描述其寿命的随机变量

X

或用其分布函数

F(x)表示.

因此在理论上可以把总体与概率分布等同起来.概率分布是刻划这种集体性质最适当的工具.统计的任务,是根据从总体中抽取的样本,去推断总体的性质.

由于我们关心的是总体中的个体的某项指标(如人的身高、体重,灯泡的寿命,汽车的耗油量…),从另一方面看:如研究某批灯泡的寿命时,关心的数量指标就是寿命,

所谓总体的性质,无非就是这些指标值集体的性质.

我们用X和Y分别表示身高和体重,那么此总体就可用二维随机变量(X,Y)或其联合分布函数

F(x,y)来表示.总体概念的要旨:总体就是一个概率分布

再如,若研究某地区中学生的营养状况时,关心的数量指标是身高和体重,当X为离散型时,称X的概率函数(分布列)为总体概率函数。当X为连续型时,称X的概率密度为总体密度函数。当总体分布为指数分布时,称为指数分布总体;当总体分布为正态分布时,称为正态分布总体或简称正态总体等等.例如本市家庭的月收入X是个随机变量,X服从什么在数理统计中总体X的分布永远是未知的,有足够的理由可以认为总体X服从某种类型的分布,但这个分布的参数还是未知的。分布事先是不清楚的,根据资料可确信即使但究竟取什么值还是未知的,由于总体X的分布是未知的,因此X的数字特征如均值、方差等往往也是一个未知的值。对于这些未知值可以根据有关数据来推测。坏性的试验更是不允许对整个总体进行考察.考察某工厂生产的灯泡寿命考察某型号手机的质量考察吸烟和患肺癌的关系在实际问题中,要考察整个总体往往是不可能的,因为它需要耗费太多的资源和太多的时间.有些破2、样本与简单样本

样本中所包含的个体数目称为样本容量.但是,一旦取定一组样本,得到的是n个具体的数x1,x2,…,xn

,

按一定规则从总体中抽取若干个体进行观察试验以获得有关总体的信息.为推断总体分布及各种特征,从国产轿车中抽5辆进行耗油量试验样本容量为

5样本是随机变量抽到哪5辆是随机的!容量为

n的样本可以看作一n维随机变量(X1,X2,

…,Xn).所抽取的部分个体称为样本.这一抽取过程称为抽样,称为样本(X1,X2,…,Xn)的一组观测值,简称样本值

.样本的值域称为样本空间。

它要求抽取的样本X1,X2,…,Xn

满足下面两点:

它可以用与总体同分布的n个相互独立的随机变量

X1,X2,…,Xn

表示.2.代表性:Xi(i=1,2,…,n)

与所考察的总体X同分布.

为了使抽取的样本能很好地反映总体的信息,必须考虑抽样方法.最常用的一种抽样方法叫作简单随机抽样,1.独立性:X1,X2,…,Xn

是相互独立的随机变量

;抽样的目的是为了对总体进行统计推断,由简单随机抽样得到的样本称为简单随机样本,

今后,说到

“X1,

…,Xn是取自某总体的样本”时,若不特别说明,就指简单随机样本.则其简单随机样本的联合分布函数为F(

x1,x2,…,

xn

)=F(x1)F(x2)…F(xn)

简单随机样本是应用中最常见的情形,

若总体

X

的分布函数为F(x),若总体

X

的概率密度为

f

(x),则其简单随机样本的联合概率密度为

求样本(X1,X2,X3)的概率分布.ex1.设总体

X

~

B(1,p),即

P(X=x)=p

x(1-p)1-x,X

=

0

,1

.设X1,X2,

X3

为X的一个样本,解

x

i=0,1;

i=1,2,3.∴

(X1,X2,X3)的分布律P(X1=

x1,X2=

x2,X3=

x3)又∵

x1+

x2+

x3=0,1,2,3,

P(X1=

x1,X2=

x2,X3=

x3)k=0,1,2,3.ex2.设总体X服从均值为1/2的指数分布,X1,X2,X3,X4为来自X的样本,求X1,X2,X3,X4的联合概率密度和联合分布函数.解:X的概率密度为其分布函数为则X1,X2,X3,X4的联合概率密度为:

比如我们从某班大学生中抽取10人测量身高,得到10个数.

我们只能观察到随机变量取的值而见不到随机变量.

它们是样本取到的值而不是样本.3.总体、样本、样本值的关系总体(理论分布)?

样本

样本值

统计是从手中已有的资料—

样本值,去推断总体的情况

—总体分布F(x)的性质.

总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,事实上,我们抽样后得到的资料都是具体的、确定的值.因而可以由样本值去推断总体.???是总体的代表,含有总体的信息分散、复杂

样本是联系二者的桥梁其中

已知,

未知

,

则称g(x1,…,xn)是一个统计量.

一个有效的方法就是构造一些样本的函数,若样本函数g(x1,…,xn)中不含任何未知参数,由样本值去推断总体情况,需要对样本值进行“加工”,1.统计量这种不含任何未知参数、完全由样本决定的量称为统计量

通过样本函数把样本中所含的(某一方面)的信息集中起来.定义设X1,X2,…,Xn

是来自总体

X

的容量为

n

的样本,样本的函数ex1.设

X1,X2,X3

是取自正态总体

X~(

,

2)

的一个样本,问下列样本函数中哪些是统计量,那些不是?×X1,X2+1,(X1+

X2

+

Xn)/3,Max{X1,X2,X3},

我们主要研究两种基本的统计量:样本矩和顺序统计量§2统计量几个常见的统计量样本均值样本方差反映了总体均值的信息它反映了总体方差的信息样本

k

阶原点矩样本

k

阶中心矩

k=1,2,…它反映了总体k阶矩的信息反映了总体k阶中心矩的信息并称他们相应的观测值样本标准差它反映了总体标准差的信息

k=1,2,…仍分别为:

样本均值、样本方差、样本标准差、样本k阶原点矩、样本k阶中心矩.10样本矩——统称为样本矩

统计量的重要性质设

X1,

X2,…,

Xn

是来自总体

X

的容量为

n

的样本,若

X

有期望EX=

和方差DX

=

2,

ex3.=

,(1)

E(S

2)

?

=

2,(2)

=

2/n;ex4.设总体X的概率密度函数为为总体的样本,求(1)的数学期望与方差(2)(3)解(1)(近似),(3)由中心极限定理(2)2

顺序统计量与极差设为样本,为样本值,且当取值为时,定义r.v.则称统计量为顺序统计量.其中,称为极差总体样本统计量描述作出推断随机抽样我们介绍了数理统计的基本概念.小结6.2抽样分布

统计量的分布称为抽样分布。 在使用统计量进行统计推断时常需知道它的分布。当总体的分布函数已知时,抽样分布是确定的,然而要求出统计量的精确分布,一般来说是困难的。 本节介绍来自正态总体的几个常用统计量的分布。今后,我们将看到这些分布在数理统计中有重要的应用。正态分布则特别地,则若若~伽玛函数为

函数。定义函数

函数具有以下性质:一、统计学的三大分布为了讨论正态总体下的抽样分布,先引入由正态分布导出的统计中的三个重要分布,即分布,分布,分布。

1、分布设是来自总体的样本,则称统计量(1)服从自由度为的分布,记为此处,自由度是指(1)式右端包含独立变量个数分布的概率密度为的图形如图6-1所示。(2)图6-1此结论可推广:设且相互独立分布的可加性设,并且独立,则(证明略)则若,则有分布的数学期望和方差证:因故因此又所以也相互独立由于相互独立于是

ex1.设是总体的简单随机样本,试确定c和d使得解:容易求得并求出n。并且它们是相互独立的,由χ2分布的定义知由此可知,c=1/3,d=1/2,n=2。则称点为的上分位点分布的分位点定义设有分布函数对给定的若有(6)当有密度函数时,式(6)可写成(7)由上述定义得分布的上分位点为(8)图6-2如图6-2所示,对于不同的上分位点的值已制成表格,可以查用(参见附表5)。例如由(9)式可得(由更详细的表得)例如对于,查得但该表只详列到费歇(R.A.Fisher)曾证明,当充分大时,近似地有

(9)其中是标准正态分布的上分位点。利用(9)式可以求得当时,分布的上分位点的近似值2、分布设,,且独立服从自由度为的分布则称随机变量(10)记为分布又称为学生氏(student)分布分布的概率密度函数为(11)图6-3图6-3中画出了的图形。的图形关于对称,当充分大时,其图形类似于标准正态变量概率密度的图形。事实上,利用函数的性质可得

故当足够大时,分布近似于分布。但对于较小的,分布与分布相差较大(见附表3与附表4)(12)的点为分布的上分位点。(见图6-4)分布的分位点对于给定的,,称满足条件(13)图6-4由分布上分位点的定义及图形的对称性知在时,对于常用的的值,就用正态近似(14)(15)

ex2.设T~t(50),求满足的c值解:由得再由t分布的对称性知于是ex3.设总体X与Y相互独立且均服从X1,X2,…,X9和Y1,Y2,…,Y9分别为来自总体X和Y的一个样本,证明:服从t分布,并指出其自由度.证:由题设知独立,故进而

另一方面,由题设知独立,从而U=3.分布设且独立,则称随机变量服从自由度为的分布记为(16)的概率密度为(17)图6-5中画出了的图形由定义可知,若则(18)图6-5分布的分位点对于给定的称满足条件(19)的点为分布的上分位点(图6-6)图6-6容易证明等式:(20)利用这个等式,查附录表,可以计算当时的的值例如F分布的上分位点有表格可查(见附表6)ex4.若则有证:可设且Y与Z相互独立,那么二、几个常见的抽样分布假设是来自正态总体的样本,即它们是独立同分布的皆服从分布样本均值与样本方差分别是

研究数理统计的问题时,往往需要知道所讨论的统计量的分布。一般说来,要确定某个统计量的分布是困难,有的甚至是不可能的。然而,对于总体服从正态分布的情形已经有了详尽的研究。 下面我们讨论服从正态分布的总体的统计量的分布。定理1

设总体服从正态分布,(21)即则

因为随机变量相互独立且与总体服从相同的正态分布证所以由正态分布的性质可知,它们的线性组合服从正态分布即这个定理的证明从略,我们仅对自由度作一些说明定理2

设总体服从正态分布则(1)样本均值与样本方差相互独立;(2)统计量服从自由度的分布即(22)虽然是个随机变量的平方和,但是这些随机变量不是相互独立的。因为它们的和恒等于零:由样本方差的定义易知所以统计量由于受到一个条件的约束,所以自由度为

上述两定理是正态总体统计推断的基础,因而是十分重要的,下面列举其应用.

定理3设是来自的样本,则统计量(23)由定理1知,统计量又由定理2知,统计量因为与相互独立与也相互独立所以证于是,由分布的定义可知,统计量定理4设来自,是来自的两个独立样本,记则统计量(24)由定理1可知,统计量证且与相互独立由正态分布的性质知即又由定理2知:(25)因为与相互独立,与相互独立所以统计量与也相互独立因为与相互独立,所以由分布的可加性可知统计量于是,由分布定义可知,统计量由假设,、相互独立,则由分布的定义定理5(前提同定理4)记则(26)证由定理2知注:若两个正态分布的方差与不相等,则统计量(27)

本节所介绍的几个分布以及几个重要结论,在下面各章中都起着重要的作用。应注意,它们都是在总体为正态这一基本假定下得到的。ex5.在总体中,随机地抽取一个容量为36的样本,求样本均值落在50.8到53.8之间的概率.解故解:ex6.解ex7.练习.设X1,X2,…,X16是来自正态总体的一个样本,这里均未知,分别为样本均值和样本方差.(1)求(2)解:样本容量n=16,从而(1)所求=查表(2)进而有ex8.解容量为10与15的两个独立样本,求它们的均值差大于0.3的概率。ex9.

设总体,分别从X中抽取解

设与分别表示容量为10与15的两个样本的均值,则又由于与相互独立,从而有

因此••Za-Za查标准正态分布表:解其中则解因为所以查表得因此

三、直方图直方图与经验分布函数如前所述,数理统计所研究的实际问题(总体)的分布一般来说是未知的,需要通过样本来推断.但如果对总体一无所知,那么,做出推断的可信度一般也极为有限.在很多情况下,我们往往可以通过具体的应用背景或以往的经验,再通过观察样本观测值的分布情况,对总体的分布形式有个大致了解.观察样本观测值的分布规律,了解总体X的概率密度和分布函数,常用直方图和经验分布函数.1.直方图直方图是对一组数据x1,x2,...,xn的分布情况的图形描述.将数据的取值范围分成若干区间(一般是等间隔的),在等间隔的情况,每个区间的长度称为组距.考察这些数据落入每一个小区间的频数和频率,在每一个区间上画一个矩形,它的宽度是组距,高度可以是频数、频率或频率/组距,所得直方图分别称为频数直方图、频率直方图和密度直方图.图5-6密度直方图如果数据x1,x2,...,xn是来自连续总体X的样本观测值,其密度直方图中,每一个矩形的面积恰好是观测数据落入对应区间的频率,这种密度直方图可以用来估计总体的概率密度(用密度直方图的顶部折线估计X的概率密度曲线).组距对直方图的形态有很大的影响,组距太小或太大,直方图反映概率密度的形态就不够准确.作直方图的步骤如下:1找出样本观测值中的最小值与最大值,分别记作与,即2适当选取略小于的数与略大于的数,并用分点把区间分成个子区间

第个子区间的长度为各子区间的长度可以相等,也可以不等;若使各子区间的长度相等,则有子区间的个数一般取为8至15个,太多则由于频率的随机摆动而使分布显得杂乱,太少则难于显示分布的特征。3

把所有样本观测值逐个分到各子区间内,并计算样本观测值落在各子区间内的频数及频率

此外,为了方便起见,分点应比样本观测值多取一位小数。4

在轴上截取各子区间,并以各子区间为底,以为高作小矩形,各个小矩形的面积就等于样本观测值落在该子区间内的频率,即所有小矩形的面积的和这样作出的所有小矩形就构成了直方图。

因为样本容量充分大时,随机变量落在各个子区间内的频率近似等于其概率即所以直方图大致地描述了总体的概率分布。ex8.

测量100个某种机械零件的质量,得到样本观测值如下(单位:g)

246251259254246253237252250251249244249244243246256247252252250247255249247252252242245240260263254240255250256246249253246255244245257252250249255248258242252259249244251250241253250265247249253247248251251249246250252256245254258248255251249252254246250251247253252255254247252257258247252264248244写出零件质量的频率分布表并作直方图。解因为样本观测中最小值为237,最大值为265,所以我们把数据的分布区间确定为(236.5,266.5)并把这个区间等分为10个子区间(236.5,239.5),(239.5,242.5),…,(263.5,266.5)由此得到零件质量的频率分布表:

零件质量/频数频率

236.5~239.510.01239.5~242.550.05242.5~245.590.09245.5~248.5190.19248.5~251.5240.24251.5~254

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论