概率论完整版本_第1页
概率论完整版本_第2页
概率论完整版本_第3页
概率论完整版本_第4页
概率论完整版本_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章随机事件与概率§1.1随机事件一、基本概念

1.随机现象:预先不能断定结果的现象(有多种结果)投掷硬币、抽取牌张、观察天气、测量潮位、射击目标、顾客到来、考试排座、交通事故

2.随机试验:对随机事件进行实验或观察,简称试验。有的是人为设置,有的是必须经历。

通常所指的试验具有以下2个特征:

(1)可以重复进行;

(2)事先明确所有基本结果

3.随机事件:试验的某种结果,事前不能确定,事后可观察到是否发生,简称事件(是个判断句)以、、,…等表示。

例1教师任取一个学号(随机),请对应的学生回答问题,站起来的可能“是男生”,“是女生”,“是戴眼镜的学生”,“是穿红衣服的学生”,“是高个子”,“是体重在60公斤以上的”“是叫张华的学生”——这些都是随机事件。

4.基本事件:不能再分解的“最简单”的事件,试验中各种最基本的可能结果。

例2在52张扑克牌中,任取一张,=“抽到

”,=“抽到K”都是事件,其中可分解为13个最基本的结果,可分解为4个。

5.样本点:即基本事件,记为。随机事件是某些基本事件(样本点)构成的集合。

6.样本空间:样本点的全体,即全集,记为Ω。如投币:Ω={正,反}抽牌:Ω=随机事件都是样本空间的子集。例1中抽到任何一张

,都认为已发生,类似地,抽到任何一张牌,都认为Ω已发生。7.必然事件:试验中必然发生的事件,即Ω。如投币:Ω=“正面朝上或反面朝上”。抽牌:Ω=“抽到一张牌”。8.不可能事件:试验中不可能发生的事件,是一个空集,记为。如投币:=“正面朝上且反面朝上”。抽牌:=“抽到一张电影票”。

例3在一批灯泡里,任取一只测试它的寿命(1000~3000小时):(1)试述一个事件;(2)指出一个样本点;(3)指出样本空间。二、事件的关系与运算

事件是集合,可以进行集合的运算,要求除了会用集合的语言表述外,还要会用事件的语言表述,并且着重于后者。

1.包含关系

(或)

集合语言:A中的样本点,全在内。

事件语言:若发生,则必发生。(如“抽到

”“抽到红牌”)

2.相等关系

=(且):、是同一个事件。

3.事件的和

=+:、至少有一个发生(发生或发生)

如:“抽到红牌”=“抽到

”+“抽到红桃”

++:、、至少有一个发生。

4.事件的积

=:、同时发生(发生且发生)

5.互不相容事件(简称不相容)

若=,则称、互不相容,即、不能同时发生

6.逆事件(对立事件):不发生显然=(不相容)且+=(完备)

例4生产加工三个零件,表示第个零件实在正品

(1):没有一个零件是次品,全是正品

(2):只有第一个是次品

(3)恰有一个是次品:++(是否等于?)

(4)至少有一个是次品:++(是否等于?)

事件的语言见P7的表格§1.2事件的概率一、古典概型概率即可能性大小:事件A的概率记为投币时,出现正、反面的可能性相同,各为50%,故(正)=0.5,(反)=0.5若试验满足以下条件:(1)样本空间中的元素(样本点)有限:(2)基本事件发生的可能性相同:则称之为古典概型,古典概型的概率很容易计算上节例1中抽到

和抽到K的概率分别是

(注)此处关心的是基本事件的个数,而不是具体的哪些基本条件。

例1在52张扑克中,抽2张,“抽到的都是

”,求

解:这里样本点总数是(注)同时抽两张于无放回的先后抽2张,效果是一样的(对不讲次序的事件)有放回的抽取以后在分析例2从一批9个正品,3个次品的产品中,依次任取5件,求概率

(1)=“恰有两件次品”,

(2)=“至少有一件次品”,

(3)=“至少有2件次品”(分为二件与三件次品的计算)

解:

二、概率的性质

1.

2.,3.可加性(加法定理)

(点击见图1>>)

、不相容时,,

、、两两不相容时,

4.

5.若,则(单调性)三、概率的统计定义

1.古典概型的局限性

例如任选一人测量体重(样本点无限)或投掷不均匀的股子(可能性不均等),都无法用古典概型计算概率,即使是古典概型,也有计算难以进行的时候。

2.概率的背景

说某人射击命中目标的概率为0.7,这个0.7是怎么得来得呢?是来自于以往大量的射击实践,比如他曾有过100次射击经历,其中命中70次,射击次数越多,这个概率就越可靠。可见概率的背后有大量的试验,这是支撑概率的条件。

3.统计规律

一般地,随机现象在一次试验中,无法断言其结果,但经过大量的试验会呈现某种规律性(如频率稳定性),这叫做统计规律性。概率的实质就是统计规律,可能性大小要与大量的试验相联系。

4.概率的统计定义

为了研究事件的概率,在相同的条件下,重复进行次试验,若出现(发生)了次,则称为事件的频率。理论和试验都表明,当充分大时,频率具有稳定性(稳定于某个数值),因此定义:理论证明见第五章,实验结果见P9表格,在这一定义下,概率的性质依旧(证明略,自阅P8)。

5.概率的统计观点

⑴从概率的来源看,概率取值需要有统计的支撑

如果一个从来未打过枪的人,声称他的命中率为0.7,那么他不是在吹牛,便是对概率一无所知,或者仅是开玩笑而已。类似的例子很多,比如“明天下雨的可能性是60%”,同样一句话,出自于气象部门,往往背后有大量的统计资料,而出自于其他人,则是一句不必负责任的空话、套话。⑵从概率值对实践的指导意义看,也需要面对统计的过程

还是以射击为例。命中率0.7,对于一次射击意义不大,因为0.7不能保证命中,即使打不中,也不能否定这个0.7。概率等于0.7的意义在于:若做多次射击,他将有70%左右的次数会击中目标,反之,命中次数与70%差异很大就有理由怀疑这个0.7。

再以投币为例,(正面)=0.5的依据是均匀,(等可能性),那么均匀的依据又是什么呢?正是(正面)=0.5(造币厂没有责任鉴定均匀性,也不必保证均匀性,两面图案不同,可以不均匀,因为投掷概率不是造币的目的)。

6.小概率原理

当概率很大(超过0.9)或很小(小于0.1)时,对一次试验是有指导意义的。可以认为小概率事件在一次试验中基本上不会发生,这就是小概率原理。(试验次数多时,就不适用了,概率再小,也有可能发生。比如飞机失事的报道很多,但是人们仍然向往着坐飞机出行,又比如人们在做决策时,有90%以上的把握,都会断言“不出意外的话肯定成功”不过应当指出的是:小概率原理不能保证没有风险,以概率的观点看问题,凡有随机因素,便不可能有绝对的把握,对此要有清醒的认识。§1.3条件概率一、条件概率

例1袋中有3个红球,2个白球,无放回地依次取2个

=“第一次取到红球”,=“第二次取到红球”

(1)=?(“两次都抽到红球”)

(2)已知第一次取到红球,求第二次取到红球的概率。(第二次取时为4个球,其中2个红球)简记为

(3)与不同,后者还要计算第一次取到红球的机会,可以算得(计算过程不作要求,但不显然)

一般是已知发生的条件下,发生的概率,称为条件概率。本例中显然

这是一般规律,同样

二、乘法公式

将上面两式改写,即这就是乘法公式,可推广到多个事件,以三个事件为例:

例2(1)52张扑克牌。依次取三张(无放回),求三张都是

的概率。

、、依次为第一、二、三次是

(2)一次性抽取三张,三张都是

的概率为这两个概率是相同的。无放回的取K张与同时取K张,效果相同(对不讲次序的结果)。

例3

已知

,,;

解:

,三、全概率公式

如图(点击见图2>>),分为4块,计算各块的样本点数,不难得到

类似的有全概率公式:

若(1)两两互不相容,且

(2)(把分为n份);则不易直接求时有效,特别的当n=2时

例4设仓库内有10箱产品,分别来自于甲(5箱),乙(3箱),丙(2箱)厂,而三个厂的次品概率依次为,先任取一箱,再从中取一产品,求取得正品的概率解:=取得正品,=甲厂生产,=乙厂生产,=丙厂生产,则

注意:做题目先要将事件,概率字母化,符号化,并加以明确。§1.4事件的独立性一、两个事件的独立性

事件的发生与否不影响的概率(如烧香和下雨),可认为、是相互独立的,即、

例1在52张牌中,有放回地抽取两次,=“第一次是

”。=“第二次是K”则

说明:第二次仍面对52张牌。第三个概率用排列组合的乘法原理。显然

定义:若,满足上式,则称、相互独立,简称独立。事件的独立性可根据实际经验判断。如:天气好坏与学习成绩,二人打枪各自的命中率。又:甲乙两人上课讲话(不独立),前后两次抽牌(无放回和有放回)。

,独立,;

,;

,也相互独立。

例2两人射击,甲射中概率0.9,乙射中概率0.8,各射一次,求目标被击中的概率

解:=“甲中”,=“乙中”。“目标被击中”=+,,独立或者

二、多个事件的独立性

若干事件相互独立诸事件乘积的概率等于概率的乘积。对于三个事件、、C,相互独立是指以下4个等式都成立,,,这些等式称为独立条件下的乘法公式

例3对目标进行三次射击,命中率依次为0.4,0.5,0.7,求至少有一次命中的概率

解:设”第次命中”,以下计算太麻烦(展开有7项,4正,3负):另一种算法是:未击中的概率所以

“三保险”,命中率大,提高系统的可靠性,有类似做法(P22例5)。三、强调几个概念

(1)和不要混淆。

(2)独立性和不相容性不要混淆(不影响与不相交)。

(3)有放回的抽样是相互独立的,无放回的取样是不独立的。当总数很庞大时,可认为近似独立。(4)事件的独立性是很普遍的现象,概率性质简单。第二章随机变量及其概率分布§2.1离散型随机变量及其分布律一.随机变量

随机试验的结果往往表现为数量,如:击中次数、潮位数值、投掷骰子,若不表现为数量,可使其数量化,如抽牌时,将牌张编号。

以X表示试验的数值结果,则X是随机变量。(解释“随机”)掷币:X为“出现正面的次数”,X的可能取值为1、0。{X=1}=“正面朝上”,{X=0}=“反面朝上”,P{X=1}=P{X=1}=0.5抽牌:X为“抽得牌张编号“,X的可能取值为1,2,3,…,52。{14≤X≤26}=“抽到红心”

随机变量用大写字母X、Y、Z等表示。随机变量的取值或取值范围表示随机事件(随机变量X本身不是事件)。二.离散型随机变量

X的取值可以一一列出(有限或无限),则X是离散型的。设X的可能取值为Xk(k=1,2,…,n),若相应的概率P{X=xk}=pk都知道,则该随机变量的规律就完全搞清楚了。X的规律是指①弄清可能取值②知道概率。写成表格形式:Xx1x2…xk…pp1p2…pk…称为分布律(分布列)。分布律应满足以下条件(性质):(1)

(2)

分别叫做概率的非负性和概率的完备性。

例1求的值,使X的分布律为

解:

(注):分布律可以列表,也可用公式表示。

例210件产品中,有3件次品,任取两件,X是“抽得的次品数”,求分布律。

解:X可能取值为0,1,2,(这是关键步骤,常被忽视而致思维受阻)。概率分别为

分布律为X

0

1

2p

(注)求分布律,首先弄清X的确切含义及其所有可能取值。

例3有奖储蓄,20万户为一开奖组,设特等奖20名,奖金4000元;一等奖120名,奖金400元;二等奖1200名,奖金40元;末等奖4万名,奖金4元。求一户得奖额X的分布律。

解:X的可能取值为4000,400,40,4,0(最后一值易漏),易求分布律X40004004040p0.00010.00060.0060.20.7933以下讨论三种常见的分布:两点分布、二项分布、泊松分布(名称易混淆)三.两点分布

X的可能取值仅两点0和1,且P{X=1}=p,分布律为X

1

0p

p

q其中q=1-p,则称X服从参数为p的两点分布(0-1分布)。

例4袋中装6只白球和4只红球,任取一只,X为“取得白球数”,求X的分布律。

解:P{X=1}=0.6分布律为X

1

0p

0.4

0.6(注)任何随机试验都可与两点分布相联系:设A是试验中某一事件,X是“一次试验中A出现的次数”,若P(A)=p,则X的分布律为(X=0表示A未出现)X

1

0p

p

q四.二项分布

1.贝努里试验

将随机试验在相同条件下独立地重复n次,观察事件A出现的次数,称为贝努里试验,或n重独立试验。如:射击n次,中几次?有放回的抽样(抽牌、模球、取产品)。事件A出现k次的概率记为Pn(k)。

例5产品次品率为0.2,有放回地抽5次,求出现2次次品的概率。

解即求P5(2),出现次品为A,5次抽样情况可以是

这样的情况共有

种,互不相容,其概率都是0.22,0.83,所以

一般地,在贝努里试验中,A出现的概率是p,q=1-p,则这种概率模型称为贝努里概型。(点击进入贝努里试验动态模拟>>)

2.二项分布

X是n重独立试验中A事件出现的次数,P(A)=p,则

()称X服从参数为n,p的二项分布(或贝努里分布),记为X~B(n,p)。

例6产品次品率为10%,任意抽取5件样品,求最多有2件次品的概率。

解:产品量很大时,不放回近似于放回,所以这是贝努里概型且p=10%=0.1,现在求P{X≤2}:(注)要重视应用二项分布的现成结论。常见的二项分布实际问题:

①有放回或总量大的无放回抽样;

②打枪、投篮问题(试验n次发生k次);

③设备使用、设备故障问题。

例7螺丝次品率为0.05,十个一包出售,多于一个次品可退货,求退货率。

解:螺丝量大,近似于有放回抽样,次品数X~B(10,0.05),求P{X>1}。直接不易求,可先求不多于一个次品的概率(可以查表)。所以退货率为1-0.9139=0.0861=8.6%。五.泊松分布(Poisson)

若X的可能取值为0,1,2,...,k,...(无穷)且(和为1),则称X服从参数为的泊松分布,记为X~P(λ)。泊松分布来自于“排队现象”,如某时间段内的电话呼叫、纱线断头、顾客到来、车辆通过等。

当n很大时,二项分布近似于泊松分布,即

§2.2连续型随机变量及其概率密度一.连续型随机变量

1.概率密度

X的取值连成一片(成为一些区间),就是连续型随机变量。如零件尺寸、电池寿命、降雨量等。P{a≤X≤b}是连续和,应是定积分(a,b)可不同,但被积函数相同)

(注意大、小写勿相混)这里函数f(x)称为随机变量X的概率密度函数,简称密度。密度f(x)决定了X的变化规律,不同的随机变量有不同的密度。定积分的几何意义是面积,所以概率的几何意义是密度函数曲线下方的面积。

2.密度的性质

连续型的概率非负性和概率完备性表现为(1);(2)

例1设下列函数是概率密度,求k及P{1≤X≤3},P{X≤1}解:由完备性(注意分段函数的积分处理)

3.单点概率这说明单点概率为零。概率为零的事件不一定是不可能事件。于是

进一步的考虑是当Δx很小时即单点概率是和密度函数值成正比的无穷小量。

4.概率的几何意义表明概率的几何意义是曲线y=f(x)下方的面积,并且整个曲线下方的面积等于1。又说明密度f(x)本身不是概率,但它表示各点概率(无穷小)之间的比例。(几何意义点击见图3>>)以下讨论三种常见的分布:均匀分布、指数分布、正态分布。二.均匀分布

各点的概率(比例)相同,即f(x)恒等于常数。若X的概率密度为则称X服从区间[a,b]上的均匀分布,记为X~U(a,b)。均匀分布是最简单的分布(图形点击见图4>>)。问:(1)常数为何是区间长度的倒数?(2)均匀(概率)分布的概率如何简单求得?三.指数分布

若X的密度为则称X服从参数为λ的指数分布。显然有指数分布也来自于“排队现象”,与泊松分布紧密联系。四.正态分布

最重要的分布,将在第四节着重讨论。§2.3分布函数与函数的分布一.分布函数

1.概念

设X是随机变量,x是一个数,则P{X≤x}与x有关。称F(x)=P{X≤x}为X的分布函数。F(x)是在区间(-∞,x]内的“累积概率”,不要与单点概率混淆。

2.性质

(1)

(2)

F(x)单调不减

(3)

(4)

这是累积概率之差额。可见利用分布函数计算概率很方便。

3.求法

对于离散型,F(x)是概率之和;对于连续型,F(x)是积分。计算公式分别是分布函数对于连续型随机变量比较有用。F(x)连续,且F'(x)=f(x)在连续点成立。

例1设X~U(a,b)(均匀分布)求分布函数F(x)。

解:当x∈(a,b)时,利用概率的几何意义(面积)得

F(x)的图形连续,尖点处无导数,恰为f(x)的间断点(图形点击见图5>>)。二.函数的分布

已知X的分布,求Y=g(X)的分布。如动能对速度Y=mX2∕2,面积对半径Y=πX2。

1.X为离散型随机变量。

例2已知X的分布律如下,求Y=X2的分布律。X-10125p0.10.3

解:事件{Y=4}={X=2},概率也相等,但{Y=1}={X=±1},所以Y01425p0.3即Y=g(X)的可能取值为概率不变。

2.X为连续型随机变量

已知X的分布密度为fX(x),求Y=g(X)的密度fY()。先要求出Y的分布函数,

(与y有关),再通过求导得到

,由于计算比较复杂,此处从略。第三章随机变量的数字特征分布律和概率密度描述了随机变量的全貌(完整性),但还可以用几个数字来说明随机变量的“概况”。在许多情况下知道概状已足够了,而且更有利。如全国人口平均年龄与13亿人年龄的大表(数万本)。§3.1数学期望一.数学期望的概念与计算公式

例1某工人工作水平为:全天不出废品的日子占30%,出一个废品的日子占40%,出二个废品占20%,出三个废品占10%。

(1)设X为一天中的废品数,求X的分布律;

(2)这个工人平均每天出几个废品?

解:(1)分布律X0123p0.1

(2)考虑工作1000天,其中约300天不出废品,400天中各出一个,200天中出二个,100天中出三个,平均废品数

=0×0.3+1×0.4+2×0.2+3×0.1=1.1(个/天)

数学期望,即随机变量X取值的平均数(加权平均),记为E(X)(是一个实数,不是随机变量)。

离散型:分布律为P{X=xk}=pk(k=1,2,…)时即两两相乘再相加(无穷级数绝对收敛)。

连续型:概率密度为f(x)时,以单点概率f(x)dx代替pk,去掉下标,和号改为积分即有

例2甲、乙两人废品数的分布如下。在产量相同时,哪个技术高?甲

X0123乙Y0123

p0.2p0

解:E(X)=0+0.3+0.4+0.6=1.3,

E(Y)=0+0.5+0.4+0=0.9,说明乙的技术好。

从本例看出,数学期望是评价随机变量的一个重要指标,数学期望简称为期望或均值。二.常见分布的数学期望

1.两点分布

X

1

0

p

p

1-p

2.二项分布这一推导比较难懂,比较复杂,记住结论,还有更好的推导。

3.泊松分布(推导略)

4.均匀分布

5.指数分布(推导略)

6、正态分布

积分中运用了积分换元和对称性,最后的等号用到了概率积分。正态分布的前一个参数是它的均值。三.数学期望的性质

1.C为常数时,E(C)=C;

2.E(CX

)=CE(X)(常数提取);

3.E(X+Y)=E(X)+E(Y);

4.若X,Y相互独立,则E(XY)=E(X)E(Y)(注意前提条件——独立:X,Y的取值相互独立)。

例3计算二项分布X~B(n,p)的数学期望。

解:X是n次独立试验中A事件出现的次数。引入随机变量Xi是第i次试验中A出现的次数(取0或1),显然这里Xi均服从两点分布,故

这是数理统计中常用的方法,应熟悉这一方法。

例4传染病患病率约为10%,对1000名师生抽血化验,采用二种方案(1)逐个化验;(2)4个人一组(分250组)抽血化验,有问题再逐个化验。试比较两个方案的化验次数。

解:方案(1)要化验1000次。方案(2)的次数是随机变量,设Xi表示第i组化验的次数(i=1,2,…,250),则总的化验次数X是所有Xi之和。显然Xi分布律相同均为P{Xi=1}=0.94,P{Xi=5}=1-0.94,则这里E(X)=594次应理解为“期望次数”(样本大,期望可达)。四.随机变量函数的数学期望

1、一维函数

已知X的分布,求Y=g(X)的分布较困难(连续型要通过分布函数),但求E(Y)是否能简单些呢?

(1)离散型

设X的分布为P{X=xk}=pk(k=1,2,…),则Y=g(X)的分布律为P{Y=g(xk)}=pk于是这是E(X)计算公式的推广。

(2)连续型

设X的密度为f(x),在上述离散型计算公式中,将pk换成单点概率f(x)dx,略去下标,和号改为积分,可得这也是E(X)计算公式的推广。

例3设X~U(0,a),求Y=kX2(k>0)的数学期望。

解:§3.2方差一.方差的概念与计算公式

例1两人的5次测验成绩如下:

X:50,100,100,60,50

E(X)=72;

Y:73,70,75,72,70

E(Y)=72。平均成绩相同,但X不稳定,对平均值的偏离大。

方差描述随机变量对于数学期望的偏离程度。单个偏离是

消除符号影响方差即偏离平方的均值,记为D(X):直接计算公式分离散型和连续型,具体为:这里是一个数。推导另一种计算公式得到:“方差等于平方的均值减去均值的平方”,即

,其中分别为离散型和连续型计算公式。称为标准差或均方差,方差描述波动程度。二.方差的性质

1.设C为常数,则D(C)=0(常数无波动);

2.D(CX)=C2D(X)(常数平方提取);

证:特别地

D(-X)=D(X),D(-2X)=4D(X)(方差无负值)

3.若X、Y相互独立,则

证:记

则前面两项恰为D(X)和D(Y),第三项展开后为当X、Y相互独立时,

,故第三项为零。特别地独立前提的逐项求和,可推广到有限项。三.常用分布的方差

1.两点分布

2.二项分布X~B(n,p)引入随机变量Xi(第i次试验中A出现的次数,服从两点分布),

3.泊松分布(推导略)

4.均匀分布

另一计算过程为

5.指数分布(推导略)

6.正态分布(推导略)~正态分布的后一参数反映它与均值的偏离程度,即波动程度(随机波动),这与图形的特征是相符的。

例2求上节例2的方差。

解根据上节例2给出的分布律,计算得到工人乙废品数少,波动也小,稳定性好。第四章数理统计§4.1样本与统计量一.总体与样本

例1欲了解一批灯泡的寿命X(小时)的分布情况,只能抽取n个作破坏性试验,根据试验结果来推断X的分布。

1.总体

研究对象的全体称为总体。例1中,我们关心的是全体灯泡寿命的分布情况,即寿命X的所有可能的取值及其概率分布。因此寿命X是连续的随机变量。一般地把我们关心的随机变量X称为总体。

2.个体

组成总体的每个单元称为个体。例1中,我们关心的是灯泡的寿命。所以个体也可理解为总体X的取值。

3.简单随机抽样

为了使抽样具有充分的代表性,所以要求:

(1)每个个体被抽到的机会均等;

(2)每次抽取是独立的(共抽取n次)。

这样的抽样叫做简单随机抽样。通常的抽样都是无放回的,当总体很大时,可以满足独立性。

4.样本

在总体中抽取n个个体,称为总体的一个样本,记为(X1,X2,...,Xn),其中每次抽样Xi(i=1,2,...

,n)也都是随机变量(解释),共n个随机变量,加上括号,表示样本是一个整体。

5.样本的容量

抽取的个体数n,称为样本的容量。

6.独立同分布

每次抽取的Xi来自总体,应该与总体X有相同的分布(概率密度相同),所以说样本是一组具有独立同分布的随机变量。

7.样本观察值(样本值)

样本的测试结果记为(x1,x2,...,xn),是一组数据,在容易产生误会时,大小写要分清,尤其在作理论分析时,一般都取大写,作为随机变量处理。二.统计量

1.三个重要统计量(1)样本均值:(2)样本方差:(3)样本标准差(又称为样本均方差):

其中作为均值可以反映总体X的均值(不是等同),S2是数据与均值偏离值平方的平均,体现样本的离散程度,因而可以反映总体X的方差。和s(计算值)可以利用函数计算器的统计功能快速得到。

2.统计量的概念

统计量是含有样本X1,X2,...,Xn的一个数学表达式,并且式中不含未知参数,因而可以在得到样本值后立即算出它的数值来。在抽样之前,统计量的值无法确定,抽样测试之后,可以观察到它的取值,因此统计量是随机变量,是由样本派生出来的随机变量。三.抽样分布

统计量既然是随机变量,当然有它的概率分布,称为抽样分布。以下仅给出结论,结论都对正态总体而言。

1.样本均值的分布

(1)若总体,则

(独立同分布),于是作为线性函数(2)特别地,标准化以后,得

2.t分布

当总体标准差未知时,U不再是统计量,这时可用样本标准差S代替,但不再是正态分布,而是一种新的分布叫做服从于自由度的t分布。它的密度曲线与正态曲线相类似(点击见图8>>)。

3.分布

为了将样本方差S2和总体相比较、联系。构造出叫做服从于自由度的分布,也是一种新的分布。其密度曲线在原点右侧,这是因为统计量是不会出现负值的(图形点击见图9>>)。

、、是继、、后第二轮复合而成的统计量,可以更有利于实际的应用。四.临界值

设U~N(0,1),有关U的概率可查表。如果反过来,已知概率,求使

,倒查表得到的称为标准正态分布的右侧临界值,意为右侧的概率为,又叫分位点,记为.(示意图形点击见图10>>)若求使则查表得到的是称为双侧临界值(示意图形点击见图11>>),意为对称两侧的概率之和为,它们的概率意义分别是

比如U0.05=1.645,U0.025=1.96。

t分布和分布的右侧临界值记为和。括号内的n是自由度,不要与样本容量相混淆,如,的概率意义为,(几何意义点击见图12>>,图13>>)

t分布表和分布表已直接编为临界值表,不必“倒查表”。正态分布和t分布的左侧临界值是对称值和(左侧概率为),不必另行查表,而分布无对称性,左侧临界值是(点击见图14>>)(右侧概率是,左侧概率当然是),需另行查表。

分布的双侧临界值是(左)和(右)(几何意义点击见图15>>)。

例2求满足以下概率式的临界值并给出对应的记号

(1),则;

(2),则;

(3),则;

(4),则;

(5),则。

例3对于查表得到的和,给出它们的概率意义。

解:,,,,。§4.2参数估计一.点估计

1.点估计的概念

总体X的分布类型往往是已知的,如,但它的参数不知道,要通过样本来估计,称为点估计。

2.样本数字特征法

用样本的均值、方差来估计总体的均值、方差是很自然的,即这里在字母上加一个“帽子”是为了表明这仅仅是估计值而非准确值。这样的估计方法称为样本数字特征法。

例1某果园有1000株果树,在采摘前欲估计果树的产量,随机抽选了10株,产量(公斤)分别为:161,68,45,102,38,87,100,92,76,90假设果树的产量服从正态分布,试求果树产量的均值与标准差的估计值,并估计一株果树产量超过100公斤

解:利用计算器的统计功能,可计算得到产量均值公斤,标准差公斤。于是即一株果树产量超过100公斤的概率为0.34

3.估计量及其评选标准

用来估计未知参数的统计量(如,)称为估计量。一般的提法是:设是总体X的未知参数,找一个统计量(表达式)来估计,即以的观测值作为的估计值,则称为的估计量。这里是未知的但客观存在的固定常数,不是随机变量,而是随样本值而变动的,是随机变量。估计量不是唯一的,可以通过多种途径和方法去寻找、构造,如矩估计法、最大似然估计法等,应该制定一套评判标准来评价它们的优劣。(1)无偏性

设是的估计值,若,则称是的无偏估计量。其统计意义是:是随机变量,它的波动中心(均值)等于,即经过多次抽样,的观察值将围绕着变动,没有“系统”误差,当然是较好的。

和S2都分别是总体均值,总体方差的无偏估计,其中显然,而的推导复杂,S2的表达式中,分母是而不是n,正是为了满足无偏性。(2)有效性

对于多个无偏估计量,方差小的波动小,稳定性好。即方差越小越好,设(都是无偏估计),若,则称比有效。是的所有无偏估计中最有效的。二.区间估计1.置信度与置信区间

有了点估计,还要进一步作误差估计,数理统计中的误差估计必然具有概率特征,即要用概率去描述,要与概率相联系。设是未知参数,希望确定一个区间(a,b),使它包含的把握很大,写成概率式,即

取时,把握是0.95%。往往事先取定,称为置信度。(a,b)

称为参数的置信区间,称为置信下限,称为置信上限。

2.置信区间的求法

直接求置信区间难度较大,实际求解时,往往从已知的统计量入手。比如统计量分布已知,如果总体标准差已知,那么关于U的不等式变形可得到关于的不等式,所以只需求A,B,使即可。满足此式的区间很多,其中“区间居中”是效果最好的,所谓“区间居中”是指区间左侧和右侧的概率相等,都等于。因为正态分布有对称性,区间居中的概率公式是

于是可确定,将不等式变形可得(1)正态总体方差已知时,均值的置信区间按上面的公式,置信区间是注意:已知时,应借助于U统计量,要查正态分布表;置信区间有两个端点,所以要找双侧临界值(下标带有)

例2设总体测得n=4的样本观测值为:12.6,13.4,12.8,13.2,求的0.95置信区间。

解,已知,采用U统计量,查表得U0.025=1.96,计算,所以置信限为置信区间为(12.706,13.294)。

(2)正态总体方差未知时,均值的置信区间未知,以S代替,得到的是t统计量,要查t分布表;置信区间公式相类似,为

例3例2中设

,未知,求的置信区间(取)。

解:计算得,。未知,采用t统计量,查表得t0.025(4-1)=3.1824,所以置信限为置信区间为(12.419,13.581)。例3的信息量比例2少(未知),在同样的置信度下置信区间比较宽,精度比较小是很自然的。

(3)正态总体方差及标准差的置信区间

统计量就是为提取的信息而设计的,所以借助于统计量,由概率式

及区间居中原理。可得,

,利用不等式变形,得到的置信区间是

的置信区间,只需将端点开平方即可

例4设零件长度(mm)抽取n=16件零件测量,经计算得,,求零件长度与标准差的置信区间()。

解未知,求的置信区间应采用统计量,查表得t0.025(15)=2.1315,置信限为均值的置信区间为(12.049,12.125)。求的置信区间,采用统计量,查表得,,的置信区间为开方后即标准差的置信区间:(0.0526,0.1102)

3.置信度的选择

对于同一个样本,信息量是固定的,于是会出现“有得必有失”的局面:如果提高置信度,就会降低估计精度(置信区间变宽);反之,想提高估计精度,就需降低置信度。如果希望两者都提高,则只有增加样本容量,即增加信息量。

前面提到的“区间居中”效果最好,指的是在同一个样本,同一个置信度之下,区间居中可得到最窄的置信区间。在做区间估计时,首先要选择合适的统计量(三种情形),这不仅关系到查哪一张表,用哪一个置信区间公式的问题,还为下一节学习假设检验打下必要的基础。§4.3假设检验一.原假设与拒绝域

例1自动包装机装箱,箱重额定标准每箱重公斤,某日开工后,随机抽取n=10箱,称得它们的重量(公斤)为:99.3,98.9,101.0,99.6,98.7,102.2,100.8,99.8,100.9,问包装机工作是否正常?(已知总体标准差公斤)

1.原假设

本例实际上是检验结论是否成立。H0代表一个结论,一句话,便于简称。通常先假设H0为真,然后考虑拒绝还是接受H0。H0叫做原假设,解决这类问题叫做假设检验。

2.临界值

总体期望未知,可用近似代替(计算值是),但因随机波动,不能以来否定H0,只有当误差大到一定程度,才能认为效应显著而否定H0,这里的“一定程度”要用概率的观点来描述:一旦认定显著(拒绝H0),要有很大的把握,犯错误的概率很小,即H0成立时是事先设定的数,比如。由于已知,所以上述概率式等同于

当H0成立时,统计量分布已知,可查表得到这样,“一定程度”就确定下来了,它正是标准正态分布的双侧临界值。

3.拒绝域

确定了临界值后,不等式就成为拒绝还是接受原假设H0的判断依据,因而称为拒绝域。当统计量U的计算值落入拒绝域,便拒绝H0,否则接受H0

。特别提醒:拒绝域与原假设呈相反的形态,为了更好地体现这一点,往往需要附上与H0相反的结论H1,称为备择假设。例1的备择假设是:二.假设检验的一般步骤

(1)根据实际问题的特性,认定检验的对象(还是),建立原假设和备择假设;

(2)选择一个与检验对象相联系的统计量(参照区间估计),找出与之相对应的临界值表;

(3)写出拒绝域的形式,双侧检验(参看H0

或H1

)含两个不等式,单侧检验含一个不等式,拒绝域的不等式方向与备择假设H1呈相同形态,查临界值表确定拒绝域的端点;

(4)计算统计量的值,视其是否落入拒绝域而决定拒绝还是接受原假设H0。

按此步骤,例1的求解过程如下:(1)检验假设,:;(2)当H0成立时,;

(3)拒绝域,取,查表得;

(4)计算

,因为,所以接受H0

,即认为包装机工作正常(未见异常)。

例2在例1中,若未知,检验包装机工作是否正常。(取)未知,应以样本标准差S代替总体标准差,因而选择t统计量。

解:(1)检验假设,:;

(2)H0成立时,

(3)拒绝域查表得

(4)计算

,

,因为,所以接受H0,即认为包装机工作正常。三.正态分布的均值与方差的假设检验

1.统计量的选择若总体~,则统计量有三种不同的选择:

(1)已知,对的检验,选用

(2)未知,对的检验,选用

(3)对(或)的检验,选用在统计学中,这三种检验分别称作检验,检验和检验。

例3某种电子元件的寿命服从正态分布,要求其标准差不超过小时,现取25只,测量后算得小时,小时,问这批元件是否合格(取)?

解(1)检验假设,;

(2)选择统计量

(3)拒绝域,查表得单侧临界值;

(4)计算因为31.106<36.415,所以接受H0,即认为这批元件的标准差没有明显超标。

2.双侧检验与单侧检验

例3中,原假设H0和备择假设H1都以不等式给出,所以是单侧检验,拒绝域含一个不等式,且与有相同的形态,查表得到的是单侧临界值。H0以等式给出的检验是双侧检验,拒绝域含二个不等式:如

和按照双侧还是单侧检验,原假设可以有六种情况,如下表:检验类型拒绝域检验或检验或检验或检验或检验或检验或检验和检验检验

例4设木材的小头直径

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论