版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
抽样分布
§6-1.簡單隨機抽樣總體與樣本(一)總體
(二)樣本
簡單隨機抽樣
作為n元隨機變數的樣本總體與樣本總體
(母體):在數理統計中,所研究對象的全體.個體:組成母體的每一個成員。例:研究某工廠生產某種規格的10萬只燈泡的品質,這10萬只燈泡就是一個總體,每個燈泡是一個個體。例:某水文站,所有年平均流量的全體是一個總體,而每一年的平均流量則是一個個體。總體可以按其所含個體的多少分為有限總體和無限總體。總體我們所研究的往往是對象的某一特性值。將特性值看成一個隨機變數。總體正好體現一個隨機變數的分佈。以後,凡是提到總體就是指一個隨機變數,提到隨機變數就是指一個總體。所謂總體已知,就是指隨機變數的概率分佈已知。
常用表示隨機變數的大寫字母X,Y,Z等表示總體。
樣本
抽樣:在數理統計中,為了研究總體的性質,需要進行的觀測或試驗。樣本(觀測資料或實測資料):通過試驗或觀測得到的總體中一部分個體構成的集合。水文中習慣稱之為實測系列。樣本容量:樣本中所含個體的數目,水文中常稱之為系列長度,記為n。例如:我們在一條河流的某一斷面處觀測年最大洪峰流量,觀測50年,就得到一個長度為50的年最大洪峰流量的實測系列。簡單隨機抽樣
隨機樣本:因為在概率論和數理統計中所說的試驗都是指隨機試驗,所以,所得樣本就叫做隨機樣本.簡單隨機抽樣:n次試驗是相互獨立的(前面的試驗結果並不影響後面的試驗出現什麼結果)的抽樣方法.簡單隨機樣本(樣本或子樣):簡單隨機抽樣得到的樣本稱為簡單隨機樣本.作為n元隨機變數的樣本
袋中裝有2個白球和3個紅球,現有放回地從中隨機抽球,每次抽一球。觀察球的顏色,設X=0表示抽得白球,X=1表示抽得紅球。則P(X=0)=2/5,P(X=1)=3/5,抽球n次以後即得容量為n的樣本(x1,x2,…xn)。x1為第一次抽球結果,可能值為0和1,
x1是0的概率為2/5,
x1是1的概率為3/5,因此,
x1可以看作是隨機變數X1的取值,而且X1的分佈與X的分佈相同。同理,xi
(i=1,2,…,n)都可以看作是Xi
(i=1,2,…,n)的取值,而且Xi是相互獨立,都具有與總體X相同的分佈。獲得的實際樣本(x1,x2,…,xn
)(或稱實現或觀察值)可以看作是隨機變數X的n次試驗的結果,也可看作n元隨機變數(X1,X2,…,Xn
)一次試驗的結果。通常將樣本看作n元隨機變數。
必須注意(x1,x2,…,xn
)與(X1,X2,…,Xn)的區別
。如前所述,由於(X1,X2,…Xn)是獨立同分佈的隨機變數,若總體X的分佈函數為F(x),則(X1,X2,…,Xn)的聯合分佈函數應為若總體X為連續型隨機變數,其密度函數為f(x),則(X1,X2,…,Xn)的聯合密度函數為§6-2樣本分佈頻率直方圖樣本分佈函數
樣本數字特徵
頻率直方圖設
為連續型隨機變數X的樣本,在X值域[a,b]內插入許多分點
統計樣本
中落入區間
內觀測值的個數(稱為頻數),記為
,則在樣本容量n很大時,頻率
可近似表示隨機變數X在區間
中取值的概率
,若
以表示區間內頻率的平均密度,則可作出以
為高,為底寬的許多相鄰矩形。如圖6-1:每個矩形的面積為稱圖6-1為樣本
的頻率密度直方圖
樣本分佈函數樣本分佈:如果我們從隨機變數X的總體中抽取了一個樣本,把樣本的n個值x1,x2,…,xn加以排隊並把它看成是某個離散隨機變數Xne的全部可能取值,它的概率分佈為
那麼可以求得Xne的分佈函數:
樣本分佈函數與總體分佈函數的關係
:
格利汶科-肯達利定理
設F(x)是隨機變數X的分佈函數,
是X的經驗分佈函數,則
格利汶科-肯達利定理是用簡單隨機樣本推斷總體的依據。樣本數字特徵對於一個給定的樣本x1,
x2
,…,
xn,有了樣本分佈函數後就可以計算它的數字特徵,為了區別於總體數字特徵,我們稱它們為樣本數字特徵。樣本數字特徵就是離散型隨機變數Xne的數字特徵
。樣本k階原點矩樣本平均值樣本方差樣本均方差樣本k階中心矩
樣本變差係數
樣本偏態係數上述兩式中,對於二元隨機變數(X,Y),每次試驗得到一對數值(x,y),因此其樣本可記為(x1,y1),(x2,y2),…,(xn,yn),利用類似於一元隨機變數樣本分佈的定義方法可定義二元隨機變數的樣本分佈函數,也可以計算樣本數字特徵,除了每一個變數的均值、方差和矩外,還有樣本協方差和樣本相關係數,它們的公式可按離散型二元隨機變數數字特徵公式得到,即樣本協方差樣本相關係數例:用測溫儀對一物體的溫度測量5次,其結果為(℃):1250,1565,1245,1260,1275,試求樣本均值、方差、樣本離勢係數及偏態係數。解:樣本均值
樣本均方差
樣本離勢函數樣本偏態係數
§6-3抽樣分佈的概念
統計量
抽樣分佈
的概念抽樣分佈的數字特徵統計量
設X1
,
X2
,…,
Xn為總體X的一個樣本,
U=U(X1,X2,…,Xn)為樣本的連續函數,如果函數中不包含任何未知參數,則稱U為統計量。
例如則
因為
未知。樣本k階原點矩樣本平均值樣本方差樣本均方差樣本k階中心矩
樣本變差係數樣本偏態係數上述兩式中,樣本相關係數抽樣分佈的概念樣本是進行統計推斷的主要依據,統計量則是根據特定的統計推斷需要而對樣本進行的加工和整理,是進行統計推斷的主要手段和工具,統計量也是隨機變數,它的分佈稱為抽樣分佈。統計量的分佈有精確分佈和極限分佈(或稱漸進分佈)兩種形式。若總體X的分佈函數運算式已知,如對任一自然數n,都能給出統計量U(X1,X2,……,Xn)的分佈函數,則稱此分佈函數為統計量U的精確分佈。導出統計量的精確分佈,是用小樣本進行統計推斷的基礎和前提,但是,一般而言,要導出各種統計量的精確分佈,僅在某些特別簡單的情況下才能做到,在大多數情況下是很難做到的,甚至是不可能做到的。若統計量U的精確分佈無法求得,則可退而求其次,求出其當
時的極限分佈,這是用大樣本進行統計推斷的一般做法。應當注意的是,在實際問題中,應用極限分佈作統計推斷是,應該有足夠大的樣本容量n,但究竟n有多大才算大樣本,並沒有嚴格的限定,而且對於不同的統計量,要求也是不一樣的。抽樣分佈的數字特徵1.樣本均值的數學期望與方差2.樣本k階原點矩的數學期望和方差3.樣本方差的數學期望與方差§6-4幾種統計量的抽樣分佈
例:設總體X服從的分佈,求樣本的平均值
的分佈。解:因為X的特徵函數為
所以
的特徵函數為
可見(1)(2)(3)
(4)
(5)§6-5順序統計量及其分佈順序統計量的概念:設(X1,X2,…,Xn)為X的樣本,定義樣本函數
,
=g(X1,X2,…,Xn),(m=1,2,…,n)
含義:當(X1,X2,…,Xn
)取值(x1,x2,…,xn
)時,
取(x1,x2,…,xn
)中從大到小排列的第m項數值。即當把(x1,x2,…,xn)按由大到小的順序排列成
順序統計量。順序統計量的分佈
假定X為連續型隨機變數,其分佈函數為F(x),密度函數為f(x)。
記
Xm*的分佈函數為Fm(x),密度函數為fm(x)。
圖
6-4所以
利用Bata函數
本章小結本章介紹了總體、樣本、經驗分佈、統計量等基本概念,以及常用的幾種抽樣分佈。順序統計量及其抽樣分佈在水文頻率計算中有著重要的運用,應很好掌握。在生產實際中,隨機變數的概率分佈通常是未知的,往往需要通過研究其經驗分佈來對總體進行推斷,因此本章學習的有關抽樣分佈的知識是學習後面估計理論的基礎。
多元隨機變數及其分佈
多維隨機變數與聯合分佈
多元隨機變數聯合分佈二元離散型隨機變數
二元連續型隨機變數
多元隨機變數
例如:打靶時的彈著點位置(X,Y)是一個二元隨機變數。每爐鋼的基本指標硬度(X),含碳量(Y),含硫量(Z),(X,Y,Z)是一個三元隨機變數。聯合分佈
定義:設(X1,X2,…,Xn
)為多元隨機變數,x1,x2,…,xn是n個任意的實數,則稱
F(x1,x2,…,xn)
=P(X1<x1
,X2<
x2
,…,Xn
<
xn
)
為多元隨機變數(X1,X2,…,Xn)的聯合分佈函數,簡稱聯合分佈或分佈函數。二元隨機變數分佈函數
可以寫成F(x,y),F(x,y)=P(X<x,Y<y)分佈函數F(x,y)在(x,y)處的函數值,就是(X,Y)落在D內的概率。分佈函數的性質
二元離散型隨機變數
如果二元隨機變數(X,Y)的所有可能取值是有限對或可列無限對時,則稱(X,Y)為離散型隨機變數。稱X=xi,Y=yi同時發生的概率為(X,Y)的聯合概率函數或聯合分佈律。
例:在五個產品中有兩個是正品,每次從中任取一個檢驗其品質,若不放回地連續抽取兩次,用Xk=0表示第k次取到正品,Xk=1表示第k次取到次品,k=1,2,試寫出(X1,X2)的聯合分佈律。解:
同理
X20101X1二元連續型隨機變數
二元連續型隨機變數設二元隨機變數(X,Y)的分佈函數F(x,y),如果存在非負函數f(x,y)使對任意實數x,y,有
則稱(X,Y)是二元連續型隨機變數。函數f(x,y)稱為二元隨機變數(X,Y)聯合分佈密度函數,簡稱聯合密度或密度函數。聯合密度的性質
例:設二元隨機變數的密度函數為
§3-2邊際分佈邊際分佈
二元離散型隨機變數的邊際概率與邊際分佈二元連續型隨機變數的邊際密度與邊際分佈
邊際分佈定義設F(x,y)是二元隨機變數(X,Y)的分佈函數,則稱
二元離散型隨機變數的
邊際概率與邊際分佈聯合概率函數:X的邊際概率:Y的邊際概率:對二元離散型隨機變數(X,Y),其邊際分佈函數為
二元離散型隨機變數邊際分佈列表二元連續型隨機變數的
邊際密度與邊際分佈
隨機變數X的邊際分佈密度(邊際密度)設(X,Y)為二元連續型隨機變數,其聯合分佈密為f(x,y),則
例:設(X,Y)的聯合密度為
n元連續型隨機變數的邊際密度與邊際分佈n元隨機變數(X1,X2,…,Xn),任一分量Xi的邊際分佈為
§3-3條件分佈
設(X,Y)是二元離散型隨機變數。其聯合概率函數為
在已知X=xi條件下Y的條件概率上述條件概率具有概率分佈的特性
例:設二元隨即變數(X,Y)的聯合分佈為
Y的條件分佈函數
連續型隨機變數的條件分佈先考慮隨機變數取值於任意社區間上的條件概率,然後用極限方法處理。
事件
發生條件下,事件(Y<y)的條件概率,為隨機變數Y在已知X=x條件下的條件分佈函數為
例:設(X,Y)的聯合密度為解:§3-4隨機變數的獨立性設(X,Y)為二元隨機變數。x,y為二任意實數,A表示事件(X<x),B表示事件(Y<y),由A、B相互獨立的充要條件P(AB)=P(A)P(B),可得到隨機變數相互獨立的充要條件為
P(X<x,Y<y)=P(X<x)P(Y<y)即F(x,y)=FX(x)FY(y)離散型隨機變數的獨立性對於二元離散型隨機變數,X與Y相互獨立的充要條件等價於:對
(X,Y)的所有可能取值(xi,yi)有
充分性:如果對一切i,j有下麵證必要性。用反正法,不妨設x1<x2<…,y1<y2<…。設存在i,j,使得P(X=xi,Y=yi
)≠P(X=xi)P(Y=yi),即pij≠pi.p.j
記i0和j0為使不等式成立的最小下標,即pi0
j0≠pi0.p.j0
而對於所有的i<i0或j<j0都有pij=pi.p.j
這與X與Y相互獨立相矛盾。例:擲一枚硬幣和一顆骰子,以X表示硬幣出現正面的次數,以Y表示骰子出現的點數,則(X,Y
)的聯合概率函數為?解:連續型隨機變數的獨立性對於二元連續型隨機變數(X,Y),設其聯合分佈密度為f(x,y),X與Y相互獨立的充要條件:充分性:設
f(xy)=fX(x)fY(y),則必要性:設F(x,y)=FX(x)FY
(y),則不難驗證若X與Y相互獨立,則對任意實數a<b,c<d有
設隨機變數(X,Y)的聯合密度為
解:n元隨機變數的獨立性如果F(
X1,
X2
,
…
,
Xn)=FX1(x1)FX2(x2)…FXn(xn)
,則X1,
X2
,
…
,
Xn相互獨立。(
X1,
X2
,
…
,
Xn)是n元離散型隨機變數,等價於
P(
X1=x1,
X2=x2,
…
,
Xn=xn)=P(
X1=x1)
P(
X2=x2)
…
P(
Xn=xn)(
X1,
X2
,
…
,
Xn)是n元連續型隨機變數,等價於
f(x1,x2,…,xn)=fX1
(x1)fX2
(x2)…fXn
(xn)兩個概念設FX1(x1)FX2
(x2)…FXn
(xn)是隨機變數X1,X2
,
…
,
Xn的分佈函數,若對任意實數x,有
FX1
(x1)=FX2
(x2)=…=FXn
(xn)=F(x)
則稱X1,X2
,
…
,
Xn是同分佈的隨機變數。若X1,X2
,
…
,
Xn還是相互獨立的,則稱他們是獨立同分佈的。此時設(
X1,
X2
,
…
,
Xn)是n元隨機變數,若對任意實數x,y,有F(Xi<x,Xj<y)=FXi(x)FXj(y)i≠j
則稱X1,
X2
,
…
,
Xn是兩兩獨立的。特別說明若n個隨機變數X1,X2
,
…
,
Xn相互獨立,則其中任意m(<n)個隨機變數也是相互獨立的。證明:對前m個隨機變數X1,X2
,
…
,
Xm進行證明。X1,X2
,
…
,
Xn相互獨立兩兩獨立兩兩獨立X1,X2
,
…
,
Xn相互獨立若X1,X2,…Xn為n個相互獨立的隨機變數,Y1=g1(X1),Y2=g2(X2),…,Yn
=gn(Xn)是n個單值連續函數,則Y1,Y2,…,Yn也相互獨立。
於是,記Di={xi;gi(xi)<yi},則事件{gi(xi)<yi}等價於事件{Xi∈Di},i=1,2,…,n.§3-5多元隨機變數函數的分佈
離散型隨機變數函數的分佈
連續型隨機變數函數的分佈離散型隨機變數函數的分佈設隨機變數X與Y相互獨立,它們的分佈列為
Z-1012PiX-101Pi
Y01Pi
求Z=X+Y的分佈列連續型隨機變數函數的分佈和的分佈差的分佈積的分佈商的分佈和的分布設二元隨機變數(X,Y)的聯合密度是f(x,y),求Z=X+Y的分佈密度。先求Z=X+Y的分佈函數例:設X與Y是兩個相互獨立的隨機變數,它們都具有標準化正態分佈,即
求Z=X+Y的概率密度。解:即Z具有N(0,2)分佈。差
的
分
布設二元隨機變數(X,Y)的聯合密
,
求Z=X-Y的分佈密度。先求Z=X-Y的分佈函數所以,其中,
於是例:設隨機變數(X,Y)具有密度函數
試求Z=X-Y的分佈函數和分佈密度。解:如圖所示,(X,Y)的聯合密度在圖中△OAB內有非零值。先求分佈函數積
的
分
布設二元隨機變數(X,Y)的聯合密度是
,
求Z=XY的分佈密度。解:先求Z=XY的分佈函數當
,所以當z>0時,同理可得上式。例:設二元隨機變數(X,Y)的聯合密度為試求Z=XY的分佈密度解:商
的
分
布設二元隨機變數(X,Y)的聯合密度是
,求Z=X/Y的分佈密度。解:先求Z=X/Y的分佈函數其中對
z>0有對z<0,同理可得上式。所以例:設隨機變數X與Y相互獨立,且都在區間[0,a]上服從均勻分佈,求的分佈密度。解:X與Y的分佈密度分佈是設Z的取值為z,則
。按題意z0,因此當z<0時,fZ(z)=0下麵討論在水文統計中常用的4個分佈
分佈
t分佈
F分佈
極值分佈若則稱隨機變數
的分佈為具有自由度n的
分佈。記為
。若則對任意均有分
布由
分佈的可加性,利用和的分佈公式及數學歸納法,不難證明,密度函數為:t
分
布F分
布極值分布設X1,X2
,
…
,
Xn是n個相互獨立的隨機變數,且具有相同的分佈密度f(x)和分佈函數F(x),設M=max(X1,X2
,
…
,
Xn)FM
(x)
=P(M<x)=P(X1<x,X2
<x,
…
,
Xn<x)=P(X1<x)P(X2
<x)
…
P(Xn<x)=F
(x)
F
(x)
…
F
(x)=
[F
(x)]nM的密度函數為
fM
(x)=F/M
(x)
=n[F
(x)]n-1
f
(x)極值分布設X1,X2
,
…
,
Xn是n個相互獨立的隨機變數,且具有相同的分佈密度f(x)和分佈函數F(x),設L=min(X1,X2
,
…
,
Xn)
n元隨機變數向量函數的分佈當m=n=1時,就是一元隨機變數函數的情況;當n=1時,就是n元隨機變數標量函數的情況。下麵討論m=n的情況但需指出兩點:第一,若反函數不唯一,如由k個反函數則第二,如果只有m(<n)個函數,則可補充定義n-m個函數,再利用前面的公式計算,然後利用邊際分佈和聯合分佈的關係,可得到Y=(Y1,Y2,…,Ym)的密度函數。例:設(x1,x2)的分佈密度為試求Y=(Y1,Y2)的分佈密度fy(y1,y2)
解:由解得反函數§3-6
二
元
正
態
分
布邊際分佈條件分佈聯合密度設(X,Y)的密度函數如下則稱(X,Y)服從二元正態分佈,其中,聯合密度函數邊
際
分
布X的邊際密度為因為令則於是所以同理得條
件
分
布二元正態分佈中Y關於X的條件密度為即同理可得本章小結
上章介紹了一元隨機變數,本章介紹多元隨機變數,著重討論了二元隨機變數。本章有許多基本概念與上章十分類似,因此
,在學習本章時,應注意與上章相關內容作對照比較,以便加深理解。
二元隨機變數可以看作是平面(二維空間)上的“隨機點”,三元隨機變數可以看作是空間(三維空間)中的隨機點。多元隨機變數中的每一個分量都是隨機變數,它們的分佈稱為邊際分佈。
本章還介紹了條件分佈及多元隨機變數函數的分佈,當求多元隨機變數的標量函數的分佈時,採用先求分佈函數,再求導得密度函數的方法,這種方法概念清楚,比較簡單,而且不容易錯。
隨機變數的獨立性是一個重要的概念,在數理統計中有重要應用,應牢固掌握有關概念。
關於水文統計中常用的3個分佈,分佈,t分佈,F分佈,只需瞭解它們的由來及掌握查表方法。
回歸分析
基本概念變數間的關係自然界中的許多變數,它們之間的關係可概括為三種類型。
第一種類型是確定性關係,即一個變數的值完全由另一個或另幾個變數的值所確定,這種關係可以用函數式來表述。例如:自由落體運動中,物體下落的距離S與下落時間t之間就有如下的函數關係
第二種類型是一個變數的取值與另一個變數的值毫無關係。
第三種類型是一個變數的取值既不象確定性關係中那樣完全由另一個變數值決定,也不象第二種類型所述的與另一個變數值完全無關,它與另一個變數有一定的關係,這種關係稱為相關關係。具有相關關係的兩個變數中,一個變數的取值,除受到另一個變數值的制約之外,還受到其他變數的影響,因此,它不完全由另一個變數確定。在水文工作中所研究的變數,很多屬於相關關係。例如,河流某斷面處的流量與水位的關係,對某個確定的水位,流量是不確定的,而是在一個數值上下變動。這是因為影響流量大小的,除了水位以外,還有水面比降、河道糙率等因素。因此,同一水位下各次測得的流量不同。但是,一般來說,水位高,流量大;水位低,流量小,因此,稱水位與流量之間存在相關關係。再例如,測流斷面的徑流量與斷面以上流域內的平均降雨量之間的關係,也屬於相關關係。由於徑流量除了主要受降雨量影響外,還受其他因素的影響,如土壤含水量、河湖蓄水量以及蒸發量等。因此,對於相同的降水量,並不對應著一個確定的徑流量。但是,總的來說,降雨量大,徑流量也大;降雨量小,徑流量也小。相關關係雖然不是確定性的,但往往也存在一定規律。回歸分析就是研究變數間相關關係的一種數學方法。回歸分析的主要任務,就是根據因變數和引數的觀測數據,確定它們之間的趨勢函數並對其進行統計分析。在水文學的研究和實踐中,回歸分析是極其重要的工具。線性模型具有相關關係的變數之間,因變數雖然不能由引數唯一確定,但因變數的變化趨勢卻是可以由引數確定的,如果能夠找出因變數隨引數變化的趨勢函數,就可以根據這種趨勢函數對因變數的未來發展作出預報或控制。設隨機變數Y與m個引數x1,x2,…
,
xm之間存在相關關係,假定它們之間可用下述關係表示
式中g(x1,x2,…,xm;β0,β1,…,βm,)是Y依x1,x2,…
,
xm變化的趨勢函數(也稱為主值函數),β0,β1,…,βm為參數,ε為隨機變數,它表示除去x1,x2,…
,
xm對Y的影響外,其他隨機因素對Y的影響,也刻劃了用趨勢函數g(x1,x2,…
,
xm;β0,β1,…,βm,)表示Y的值時產生的誤差,所以ε也稱為隨機誤差。Y=g(x1,x2,…,xm;β0,β1,…,βm)+ε
在實際問題中,要找到函數g的準確形式常常是很困難的,甚至是不可能的。因此,在回歸分析中,常把函數g限定為x1,x2,…,xm的線性函數,這不僅使理論研究變得較為方便,而且能夠滿足大多數實際應用的要求。此時式變成Y
=β0+β1x1+β2x2…+βmxm+ε
上述模型稱為線性回歸模型。β0,β1,β2,…,βm稱為回歸係數,ε除表示x1,x2,…,xm
以外其他因素對Y的影響外,還包括x1,x2,…,xm對Y的非線性影響。而β0+β1x1+β1x1…+βmxm僅表示x1,x2,…,xm對Y的線性影響程度。Y=g(x1,x2,…,xm;β0,β1,…,βm,)+ε
將(x1,x2,…,xm
)的一組觀測值(x1i,x2i,…,xmi)
代入公式:Y=β0+β1x1+β2x2…+βmxm+ε
得Yi=β0+β1x1i+β2x2i…+βmxmi+εi
由於隨機誤差εi的干擾,對給定的一組(x1i,x2i,…,xmi),Yi不是一個確定值,而是一個隨機變數(注意:Yi是對應於引數(x1,x2,…,xm
)取固定值(x1i,x2i,…,xmi)的Y值),它有一個概率分佈。我們也可以把的Yi概率分佈理解為在引數(x1,x2,…,xm
)取值(x1i,x2i,…,xmi)的Y的條件分佈。(i=1,2,…,n)在回歸分析中,對εi有如下假定:①獨立性即對任意i與j,εi與εj相互對立,從而Cov(εi,εj)=0,i≠j;②零均值性即對任意εi有E(εi)=0;③共方差性即對任意i有D(εi)=
;④正態性即對任意i有εi~N(0,)。以上四點可用一句話概括為“隨機誤差εi是相互獨立服從同一正態分佈N(0,)的隨機變數”。
從式Yi=β0+β1x1i+β2x2i…+βmxmi+εi中看到Yi是εi的線性函數,因此,根據上述對εi的假定可知,Yi是相互獨立的正態隨機變數,且有
E(Yi)=β0+β1x1i+β2x2i…+βmxmiD(Yi)=D(εi)=
(與i無關)也可以把它們看成是當引數(x1,x2,…,xm
)取固定值(x1i,x2i,…,xmi)時隨機變數(因變數)Y的條件期望與條件方差(注意區別E(Y)和E(Yi)及D(Y)和D(Yi)的不同意義)。(i=1,2,…,n)由於i的任意性,通常略去上式中的下標i,於是可得因變數Y依引數的(線性)回歸方程,如下:§9-2一元線性回歸回歸方程估計量b0,b1的性質回歸方程的顯著性檢驗預報及其誤差回歸方程線性模型中只含有一個引數x,則稱為一元線性回歸,即為了利用回歸方程對因變數y的未來發展作出預測或控制,必須通過觀測或試驗,根據樣本對回歸係數作出估計。 下麵介紹在一元線性回歸情況下,如何根據實測資料估計式中。設有引數x的一組觀測值及與之對應的因變數Y的一組觀測值這樣就得到引數x與因變數y的n
對觀測值,將它們點繪在直角坐標中,如右圖那樣,點據大致分佈在一條不平行於x軸的直線附近,就可猜想,x與y之間可能存在線性相關關係。x0y以表示的估計量,則經驗回歸直線為理論回歸直線的估計線。那麼,應該怎樣選擇才能使這種估計達到最好呢?根據方差的定義及方差的最小性質可知,隨機變數Y對理論回歸直線上的離差平方和應該是最小的,自然也應要求觀測值對經驗回歸直線的離差的平方和達到最小。即這一原則稱為最小二乘原理。根據這一原理求得的稱為的最小二乘估計量。下麵推求估計量的計算公式。根據高等數學中求極值的原理可知,使達極小的可由下列正規方程組解出:
回歸直線的另一種形式:若記:
則的計算公式為事實上,還可表示為:其中:為變數x與y的樣本相關關係
為y系列的均方差
為x系列的均方差
例1:現有河南省洛陽市瓦廟站和興華站的年降雨量同步觀測系列,見下表。假設興華站缺測1996年~1999年4年的年降雨量,要求建立兩站年降雨量的回歸方程。瓦廟站、興華站年降雨量表
單位:mm
年份瓦廟站年降雨量興華站年降雨量年份瓦廟站年降雨量興華站年降雨量1977558.2524.91989871.5796.51978730.7624.81990578.1503.91979885.5843.51991571.2475.11980756.4852.51992788.16751981572.5595.11993773.7660.41982841.2858.91994631.3619.71983895.6770.91995531.5507.619841019.9870.91996974.5(900.9)1985740.9616.61997439.2(380.9)1986569.2442.71998735.2(714.3)1987820.6742.11999630.4(618.1)1988728.7699.2解:選擇1977
年~1995年兩站同步觀測資料進行分析計算。設瓦廟站年降雨量系列為xi,興華站年降雨量系列為yi。點繪兩站年降雨量的散點圖,如上圖,兩變數的關係在圖上呈直線趨勢,故決定建立y對x的回歸直線方程。計算按下表(回歸方程計算表)進行。yx年份xiyixiyi1977558.2524.9311587.2275520.0292999.21978730.7624.8533922.5390375.0456541.41979885.5843.5784110.3711492.3746919.31980756.4852.5572141.0726756.3644831.01981572.5595.1327756.3354144.0340694.81982841.2858.9707617.4737709.2722506.71983895.6770.9802099.4594286.8690418.019841019.9870.91040196.0758466.8888230.91985740.9616.6548932.8380195.6456838.91986569.2442.7323988.6195983.3251984.81987820.6742.1673384.4550712.4608967.31988728.7699.2531003.7488880.6509507.01989871.5796.5759512.3634412.3694149.81990578.1503.9334199.6253915.2291304.61991571.2475.1326269.4225720.0271377.11992788.1675621101.6455625.0531967.51993773.7660.4598611.7436128.2510951.51994631.3619.7398539.7384028.1391216.61995531.5507.6282492.3257657.8269789.4總和13865.112680.310477997.48812008.89571448.8平均729.7667.4551473.5463789.9503760.5由表得:因此,所配直線回歸方程為估計量b0,b1的性質由於b0和b1都是樣本的函數,因此,當用不同的樣本推求b0和b1時,所得的數值一般是不相同的,因此,容易理解,b0
和b1
都是隨機變數,並且可以計算其數學期望值和方差值,藉以描述它們的性質。因為yi(i=1,2,…,n)
是n個相互獨立的隨機變數,而且所以,b0、b1的數學期望值分別為即b0和b1分別是α和β的無偏估計。由於即是的無偏估計。同樣可以求得b0和b1的方差值由於方差反映了隨機變數取值的分散程度,上式表明,回歸係數b1的波動大小不僅與誤差的方差有關,而且還取決於觀測中變數x的分散程度,當x的值比較分散時,b1值的波動才能比較小,所得的估計比較精確。
由於方差反映了隨機變數取值的分散程度,上式表明,b0的方差不僅與誤差的方差以及x的分散程度有關,而且還和觀測值的個數n有關,n越大,x值越分散,b0
越精確。因此,為了求得滿意的樣本回歸方程,應儘量增加觀測資料,擴大樣本容量。另一方面,應使x的取值盡可能的分散。b0的方差值:估計量b0和b1的分佈因為yi是相互獨立且都服從正態分佈的隨機變數,而b1又是yi
(i=1,2,…,n)的線性組合,因此也服從正態分佈。同樣,b0也是yi
(i=1,2,…,n)的線性組合,所以,也服從正態分佈。即b0,b1的協方差為其中的無偏估計量為回歸方程的顯著性檢驗
從求回歸方程的過程可以看出,對任何一組觀測值,不管x和y之間是否存在線性關係,都可以用最小二乘法求得形如的線性方程。但是,如果x和y根本不存在線性相關關係,則這個方程就不能描述x和y之間的真正關係了。因此,需要對變數x和y間是否存在線性相關關係,或者說對所得到的回歸方程是否有實際意義,進行檢驗。Y的總變數可以用觀測值yi與其算術平均值的離差平方和表示,現記為,稱為總平方和則有於是有
由於則記
:回歸平方和殘差平方和或剩餘平方和於是,可將下式簡化為
由可知,要判斷x和y之間是否存在線性相關關係,可以把S回和S剩進行比較,如果在S總中S回所占的比重大,則S剩所占的比重就小,這說明x對y的線性影響較大。從而可以認為x和y之間存在線性相關關係。
如果x和y之間不符合線性回歸數學模型,那麼一次項係數所以,檢驗兩個變數x和y是否具有相關
關係,事實上為檢驗下列假設:。根據F分佈的定義可知,在成立時根據給定的顯著性水準,查表求得滿足關係式的臨界值,如果由樣本求得的F值大於,則否定原假設,即認為x和y之間有線性相關關係,或稱回歸方程顯著,反之不顯著,表示該回歸方程沒有意義。這種用F檢驗對回歸方程進行顯著性檢驗的方法也稱為方差分析。顯然上式中的分母就是的無偏估計量。在檢驗中,為方便計算,S回與S剩常用下來公式計算其中
預報及其誤差分析回歸方程通過檢驗,如果是顯著的,則可以利用它進行預報和插補。即對於給定的x0,以作為真值的預報值或插補值。例:用上例中建立的回歸方程
插補興華站1996年~1999年4年缺測的年降雨量。解:按將已知的x值代入上述回歸方程或直接從圖上可插補出興華站缺測年份的年降雨量。結果如下表:興華站年降雨量插補值表單位:mm瓦廟站興華站興華站實際年降雨量年份1996974.5882.9900.91997439.2411.8380.91998735.2672.3714.31999630.4580.1618.1由上表可以看出,插補出的興華站年降雨量
與其真值
是有誤差的,該誤差可以看作是由其他隨機因素綜合作用的結果。下麵討論以估計真值的誤差。記考慮到與相互獨立,則整理後可得:以的無偏估計量代替上式中的可得用估計的均方誤差為:還可以證明,統計量於是,可以利用t分佈求得y0的置信區間,當n較大時,且x0較接近均值時,可近似表示為其中:,又因為n較大時,自由度為
n-2的t分佈接近N(0,1),所以也可用正態分佈表近似求得。例:在上例中,給定=0.05,=974.5,求y0的預測區間。解:所以置信度為0.95的y0的預測區間為
§9-3
多元線性回歸多元回歸的數學模型在實際問題中,和因變數相關的往往不只是一個引數,而可能有多個引數,此時因變量與引數的定量關係就是多元回歸問題,與一元回歸一樣,多元回歸中最簡單而又最常用的多元線性回歸問題。多元線性回歸的數學模型如下:
將y和x1,x2,…,xm的n組觀測值代入可得記:記:則有:多元線性回歸的回歸方程式如下:回歸係數的最小二乘估計
設為因變數與引數的n組觀測值,若以表示的估計值,則觀測值yi可表示為這裏使得
故得:
根據高等數學中求極值的原理,使Q剩達極小值的b0,b1,…,bm應滿足方程組:
將代入上式,即得正規方程組。正規方程組形式如下:其中b0,b1,…,bm為未知量,其他量都可由實測樣本算出。記:於是,正規方程組的矩陣形式為:AB1=D1從而解得B1=A-1D1=C1D1式中C1=A-1為A的逆矩陣,即:這樣從正規方程組第一式中解出代入
可得
此時剩餘平方和可寫成令
可得
將上式展開即得正規方程的中心化形式。正規方程組的中心化形式:其中
也稱為協方差。
正規方程組及其中心化形式的係數和常數項的數量級及其差異一般都比較大,以致計算比較繁難,而且計算誤差也難以控制,因此實際計算中常用標準化形式的正規方程組,形式如下:多元線性回歸的統計檢驗在作因變數與引數之間的回歸分析時,選擇線性模型只是一種假設,這種假定是否符合實際,即因變數的變化趨勢與引數之間是否真的存在線性關係,是需要檢驗的;另一方面,回歸分析中的引數是人們選擇的,每個引數是否都與因變數的變化有顯著關係也是需要檢驗的。因此,在求出回歸方程以後,還必須進行統計檢驗,才能確定所求得的回歸方程是否有效。檢驗命題“因變數與引數總體間是否存在線性回歸關係”的原假設是“因變數與引數的總體間不存在線性回歸關係”,如果接受這一假設,就說明所求得的經驗回歸方程無效,不能採用。如果否定這一假設就說明所求得的經驗回歸方程有意義。和一元回歸一樣,多元回歸的總平方和S總、回歸平方和S回以及剩餘平方和S剩(或稱殘差平方和)為:S回與S剩的計算利用求回歸係數過程中的一些過程推求S回與S剩式中Sij是xi與xj的協方差
複相關系數前面說過S回刻劃了在因變數y的總變化中由於引數x1,x2,…,xm的線性影響所作的貢獻,而S剩刻劃了除x1,x2,…,xm對y的線性影響以外的其他隨機因素的貢獻,因此,可以用S回在S總中所占比值來刻劃y與x1,x2,…,xm間線性關係的密切程度,這個比值的方根就稱為因變數y與引數x1,x2,…,xm間的複相關係數,記為R,即按簡單的相關關係定義,應有可推求得:
回歸方程的顯著性檢驗回歸方程顯著性檢驗的原假設為:統計量
於是可用F檢驗法進行檢驗,即對給定的顯著性水準,查F分佈表得到臨界值F,這裏F滿足關係式:
當時,拒絕H0,認為線性回歸方程時顯著的。否則認為總體中因變數與引數不存在線性回歸關係。
回歸方程的顯著性檢驗一般用方差檢驗表來表示。回歸分析方差檢驗表方差來源差方和自由度方差方差比臨界值回歸mS回/m總和n-1Fα(m,n-m-1)剩餘S剩=S總-S回n-m-1各個引數的顯著性檢驗如果一個回歸方程經檢驗後認為是顯著的,這並不說明方程中的所有引數與因變數間的線性關係都是顯著的。所以,為了判明回歸方程中各個引數的作用,在確認回歸方程顯著後,還必須對每個引數的顯著性進行檢驗,把不顯著的引數從方程中剔出。檢驗某個引數xk是否顯著的原假設是如果接受這一假設,則xk
就應從回歸方程中剔除,反之,則保留不動。各個引數的方差貢獻用Vk表示引數xk對y的方差貢獻:也稱為xk的偏回歸平方和。則Y與xk的偏相關係數為:
它表示,除去x1,x2,…,xk-1,xk+1,…,xm,這m-1個引數的作用後,xk可將y的剩餘平方和進一步降低的程度。應該注意,在多元相關分析中,只有偏相關係數才真正反映xk與y的線性關係好壞,而不考慮其他因素的簡單相關係數r則不能。簡單相關係數的數值與偏相關係數的數值可能相差很大,甚至符號相反。各個引數的顯著性檢驗為了檢驗引數xk的作用是否顯著,可作原假設統計量於是可用F檢驗法進行檢驗,即對給定的顯著性水準,查F分佈表得到臨界值F
,這裏Fα滿足關係式:當時,拒絕H0,說明xk的作用顯著,應於保留;反之,說明xk的作用不顯著,應於剔除。回歸預測的誤差回歸方程經各種檢驗通過以後,已知引數的一組值x10,x20,…,xm0,可用作為與該組引數值相對應的因變數的真值y0的估計值。若以表示此估計值的誤差,則此估計的均方誤差為:§9-4非線性回歸前面幾節中討論了線性回歸問題,即總體回歸方程是線性的情形。但在實際問題中,常常遇到回歸方程為非線性函數的情況,例如,水文計算中,設計洪峰流量Q與流域面積F之間的經驗公式Q=CFb就是個非線性函數。本節僅就一元非線性回歸問題,討論其參數估計。一元非線性回歸方程參數估計常採用線性化方法、直接最小二乘法和二步法等。本章小結回歸分析是常用的統計分析方法,是統計推斷方法的具體應用。回歸分析主要是根據觀測數據,運用統計推斷原理,對引數與因變數之間的相關關係作種種統計推斷,找出其平均關係——回歸方程。通過本章的學習,應學會用最小二乘法建立回歸方程,對回歸方程進行顯著性檢驗,並利用回歸方程對因變數進行預報和插補。
極限定理
隨機變數的兩種收斂性一、幾乎處處收斂(以概率1收斂)二、依概率收斂一、幾乎處處收斂(以概率1收斂)二、依概率收斂§5-2大數定理車貝雪夫定理設X1,…,Xn獨立,E(Xi),i=1,…,n存在,且存在常數C,使得D(Xi)<C,i=1,…,n,則對任意正數ε有式中表示N個獨立隨機變數的平均值對其數學期望平均值的偏差,它是一個隨機變數,車貝雪夫定理表明,當n→∞時,這種偏差的絕對值幾乎肯定(依概率)小於任意正數ε。貝努裏定理
設貝努裏試驗中事件A在每次試驗中出現的概率p(0≤p≤1),以nA表示在n次試驗中A出現的次數,則對任意ε>0,有我們知道,是在n次試驗中事件A出現的頻率,因此這個定理說明,當試驗次數無限增大時,事件A出現的頻率依概率收斂於事件的概率,這就是頻率穩定性的數學表達,也是用大量試驗中事件的頻率作為概率近似值的理論根據。或泊松定理設在一個試驗序列中,事件A在第i次試驗中出現的概率為pi,若在前n次試驗中,A出現了nA次,則對任意ε>0,有辛欽定理設Xi(i=1,2,…)為獨立同分佈的隨機變數序列,且具有相同的數學期望E(Xi)=μ,(i=1,2,…),則對任意ε>0,有強大數定律
定義
設{Xn}為隨機序列,且各Xi的數學期望值E(Xi),i=1,…,n均存在,若幾乎處處(或以概率1)收斂到,則稱{Xn}服從強大數定理。包括
1.波雷爾定理
2.柯爾莫哥洛夫定理1.波雷爾定理設在貝努裏試驗中,事件A每次出現的概率為p(0≤p≤1),以nA表示在n次試驗中A出現的次數,則事件A的頻率幾乎收斂到概率p,即波雷爾定理表明:
頻率nA/n幾乎對所有ω∈Ω都趨於概率p,換句話說,成立的概率為1,而發生這一事件的概率為0。(儘管不能說這是不可能事件,但至少是幾乎不可能發生)。這就更進一步闡明了大量重複試驗中,事件出現的頻率穩定於其概率這一客觀規律的確切含義。2.柯爾莫哥洛夫定理
(1)設X1,X2,…為相互獨立的隨機變數序列,若<∞,則{Xn}服從強大數定律,即(2)設X1,X2,…為相互獨立同分佈的隨機變數序列,若E(Xi)
<∞,i=1,2…(即各Xi的數學期望存在),則{Xn}服從強大數定律。即有§5-2中心極限定理定義:設{Xn}為相互獨立的隨機變數序列,各Xi數學期望和方差均存在,記
ai=E(Xi),=D(Xi),i=1,2…,Yn=記Yn的標準化變數為若對所有的x∈R,一致地有(即當n→∞時,的分佈函數趨於標準化正態分佈),則稱隨機變數序列{Xn}服從中心極限定理。林德伯格——勒維定理設X1,X2,…Xn是獨立同分佈的隨機變數,且E(Xi)=a,D(Xi)=,i=1,2…,n,若0<<+∞,則隨機變數
當n→∞時,服從正態分佈N(0,1),即對任意實數x,有上述定理表明,當n→∞時,這個標準化隨機變數服從標準化正態分佈。因此應服從N(a,)分佈。德莫佛——拉普拉斯定理設隨機變數Zn(n=1,2,…)服從參數為n,p(0≤p≤1)的二項分佈,則隨機變數
當n→∞時,服從正態分佈N(0,1),即對任意x,有
由此可知,當n→∞時,二項分佈變數漸近地服從正態分佈N(np,)。林德伯格定理設獨立隨機變數序列{Xn}滿足林德伯條件,即對任意ε>0,有其中Fi(x)為Xi的分佈函數,i=1,2…,Bn的意義同前,則{Xn}服從中心極限定理。即對所有x∈R,一致地有李雅普諾夫定理設隨機變數X1,X2,…,Xn相互獨立,具有有限的數學期望和方差,E(Xi)=ai
,
D(Xi)=≠0,(i=1,2…,n),記若存在正數δ,使得則隨機變數當n→∞時,服從正態分佈N(0,1),
即對任意實數x,有本定理表明無論各個隨機變數Xi具有怎樣的分佈,只要滿足定理的條件,那麼它們的和,當n很大時,就近似地服從正態分佈。本章小結本章介紹了大數定律和中心極限值定理的概念,並介紹了幾種常用的大數定律和中心極限定理。它們在理論上和應用上都有重要價值。貝努裏定理以嚴格的數學形式論證並表達了頻率的穩定性,揭示了頻率與概率的關係。德莫佛——拉普拉斯定理揭示了二項分佈與正態分佈的關係,當n充分大時,可用正態分佈代替二項分佈。
假設檢驗
基本概念
基本思想
假設檢驗的一般步驟兩類錯誤
小概率事件(實際推斷原理)將概率很小、接近於0的事件(小概率事件)在一次試驗中看成實際上的不可能事件;將概率較大、接近1的事件(大概率事件)在一次試驗中看成實際上的必然事件。這就是概率論中的一個重要原理,即實際推斷原則。例如,交通事故時有發生,但對每個人來講,遇到車禍的概率是很小的,可看成實際上的不可能事件;又例如,若某種彩票中頭獎的概率為1/500萬,則買一張彩票就中頭獎是一個小概率事件,也可看成實際上的不可能事件。假設檢驗的基本方法
假設檢驗的基本方法是所謂的概率反證法。即:假定某種假設H0是正確的。在此前提下構造一個小概率事件A,作一次實驗,如果事件A沒有發生,就接受H0
;反之,就有理由拒絕H0。
例:某車間用一臺自動包裝機包裝奶粉,額定標準假設檢驗的一般步驟下麵通過例子來說明假設檢驗的一般步驟為每袋淨重0.5公斤,設包裝機稱得的奶粉重量服從正態分佈,且根據長期的經驗知其標準差是0.015(公斤),某天開工後,為檢驗包裝機的工作是否正常,隨機抽取它所包裝的奶粉9袋,稱得淨重為:0.497,0.506,0.518,0.524,0.488,0.511,0.510,0.515,0.512。問這天包裝機的工作是否正常?
解:設這天包裝機所包裝的奶粉重量為X,已知X~N
(a,0.0152)。首先,假設a=0.5,記作H0:
a=0.5。如果H0成立,
取一臨界值,使之在H0
成立的條件下,則設
因為|1.8|<1.96,這表明小概率事件沒有發生,我們沒有理由否定原來的假設,只能認為原假設成立,接受原假設H0
,即認為這天包裝機工作正常。這種檢驗又稱顯著性檢驗。假設檢驗的內容和形式儘管很多,但檢驗步驟一般如下:①②③④⑤假設檢驗中的基本術語
上例中“H0:a=0.5”為原假設或零假設,而把相反的結論稱作對立假設或備擇假設,上例中的備擇假設為“H1:a
≠0.5”。如果拒絕H0
,則就接受H1
。給定的小概率為顯著水準。拒絕原假設的區域稱為拒絕域或否定域。接受原假設的區域稱為接受域。
兩類錯誤
第一類錯誤(“以真作假”錯誤或“棄真”錯誤):在原假設為真的情況下,如果一次試驗中,小概率事件A發生了,我們就拒絕原假設,實際上,在成立條件下,雖然
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论