数理统计学课件_第1页
数理统计学课件_第2页
数理统计学课件_第3页
数理统计学课件_第4页
数理统计学课件_第5页
已阅读5页,还剩410页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

統計量與抽樣分佈數理統計學是探討隨機現象統計規律性的一門學科,它以概率論為理論基礎,研究如何以有效的方式收集、整理和分析受到隨機因素影響的數據,從而對所研究對象的某些特徵做出判斷。例1.0.1某地環境保護法規定:傾入河流的廢水中某種有毒物質的平均含量不得超過3ppm(1ppm=10-6)。該地區環保組織對某廠傾入河流的廢水中該有毒物質含量連續進行20天測定,記錄了20個數據(單位:ppm):

x1,x2,…,x20現要用這20個數據作如下統計推斷:●該有毒物質含量X的分佈是否為正態分佈?●若是正態分佈N(μ,σ2),其參數μ和σ2如何估計?●對命題“μ≤3.0”(符合排放標準)作出判斷:是或否。1.1總體和樣本1.1.1總體和分佈在一個統計問題的研究中,我們把研究對象的全體稱為總體,其中每個成員稱為個體。人、物某個指標(一堆數)概率分佈某總體抽樣某分佈抽樣1.1.1總體和分佈例1.1.1

網上購物已在我國很多城市興起。為了解網上購物情況,特在某市調查如下三個問題:1.網上購物居民占全市居民的比例;2.過去一年內網購居民的購物次數;3.過去一年內網購居民的購物金額。1.1.1總體和分佈例1.1.2彩色濃度是彩電品質好壞的一個重要指標。20世紀70年代在美國銷售的SONY牌彩電有兩個產地:美國和日本,兩地的工廠按照同一設計、同一工藝、同一品質標準進行生產。其彩色濃度的標準值為m,允許範圍是(m-5,m+5),否則為不合格。在70年代後期,美國消費者購買日產SONY彩電的熱情明顯高於購買美產SONY彩電,這是為什麼呢?1.1.1總體和分佈一維總體二維或多維總體(聯合概率分佈)有限總體(抽樣調查)無限總體(本書)1.1.2樣本研究總體分佈及其特徵數有如下兩種方法:(1)普查,又稱全數檢查,即對總體中每個個體都進行檢查或觀察。因普查費用高,時間長,不常使用,破壞性檢查(如燈泡壽命試驗)更不會使用。只有在少數重要場合才會使用普查。如我國規定每十年進行一次人口普查,期間九年中每年進行一次人口抽樣調查。1.1.2樣本(2)抽樣,即從總體抽取若干個個體進行檢查或觀察,用所獲得的數據對總體進行統計推斷。由於抽樣費用低,時間短,實際使用頻繁。本書將在簡單隨機抽樣的基礎上研究各種合理的統計推斷方法,這是統計學的基本內容。應該說,沒有抽樣就沒有統計學1.1.2樣本從總體中抽出的部分(多數場合是小部分)個體組成的集合稱為樣本。樣本中所含的個體稱為樣品。樣本中樣品個數稱為樣本量或樣本容量。一切可能觀察值的全體X={(x1,x2,…,xn)}稱為n維樣本空間。1.1.2樣本例1.1.3

樣本的例子1.香港海洋公園的一次性門票為250港幣,可以一年內無限次入場的年票價格為695港幣。為檢驗該票價制度的合理性,隨機抽取1000位年票持有者,記錄了他們2009年1—4月入園遊覽的次數,見表1.1.2。表1.1.2這是一個容量為1000的樣本。遊覽次數012345+人數54532511015501.1.2樣本

2.某廠生產的掛麵包裝上說明“淨含量450克”,隨機抽取48包,稱得重量如表1.1.3所示。表1.1.3這是一個容量為48的樣本。449.5461457.5444.7456.1454.7441.5446.0454.9446.2446.1456.7451.4452.5452.4442.0452.1452.8442.9449.8458.5442.7447.9450.5448.3451.4449.7446.6441.7455.6451.3452.9457.2448.4444.5443.1442.3439.6446.5447.2449.4441.6444.7441.4

457.3452.4442.9445.81.1.2樣本

3.在某林區,隨機抽取340株樹木測量其胸徑,經整理後得到如表1.1.4所示的數據。表1.1.4這是一個容量為340的樣本。胸徑長度(cm)10~1414~1818~2222~2626~3030~3434~3838~4242~46株數411347611266221051.1.2樣本簡單隨機抽樣,它滿足如下兩個要求:1.隨機性:即要求總體中每個個體都有同等的機會被

選到樣本中。2.獨立性:樣本中每個個體的選取並不影響其他個體

的選取。由簡單隨機抽樣得到的樣本稱為簡單隨機樣本,簡稱樣本。如何才能獲得簡單隨機樣本呢?1.1.2樣本例1.1.4有一批燈泡600只,現要從中抽取6只做壽命試驗,如何從600只燈泡中抽取這6只燈泡,使所得樣本為簡單隨機樣本?1.1.3從樣本認識總體的圖表方法1.頻數頻率表例1.1.5光通量是燈泡亮度的品質特徵。現有一批220伏25瓦白熾燈泡要測其光通量的分佈,為此從中隨機抽取120只,測得其光通量如表1.1.5所示。2.直方圖

1.2統計量與估計量1.2.1統計量定義1.2.1

不含任何未知參數的樣本函數稱為統計量樣本均值

1.2.2估計量在對總體分佈作出假定下,從樣本對總體的某些特徵作出一些推理,此種推理都具有統計學的味道,故稱為統計推斷。R.A.費希爾把統計推斷歸為如下三大類:

●抽樣分佈(精確的與近似的);

●參數估計(點估計與區間估計);

●假設檢驗(參數檢驗與非參數檢驗)。

1.2.2估計量定義1.2.2

用於估計未知參數的統計量稱為點估計(量),或簡稱為估計(量)。參數θ的估計量常用(x1,x2,…,xn),表示,參數θ的可能取值範圍稱為參數空間,記為Θ={θ}。這裏參數常指如下幾種:

1.分佈中所含的未知參數;

2.分佈中的期望、方差、標準差、分位數等特徵數;

3.某事件的概率等。1.2.2估計量一個參數的估計量常不止一個,如何評價其優劣性呢?常用的評價標準有多個,如無偏性、有效性、均方誤差最小與相合性。這裏先講無偏性,其他幾個評價標準以後介紹。1.2.2估計量定義1.2.3

設是參數的一個估計,若對於參數空間Θ={θ}中任一個θ都有則稱為θ的無偏估計,否則稱為θ的有偏估計。當估計將隨著樣本量n的增加而逐漸趨於其真值θ,這時若記,則有則稱為θ的漸近無偏估計。1.2.2估計量在統計中三個常用統計量是:

1.樣本均值:

2.樣本方差:

3.樣本標準差:

1.2.2估計量在剖析樣本方差的構造中討論這三個統計量的優劣。1.樣本均值是總體期望的無偏估計2.樣本偏差·自由度:n-13.偏差平方和·例1.2.1·樣本量相等的情況下,偏差平方和大小可以比較出

樣本散佈的大小。1.2.2估計量4.消除樣本量的影響·樣本方差·例1.2.25.樣本修正方差·無偏估計6.樣本標準差·無偏性不具有不變性·例1.2.31.2.2估計量7.偏差平方和的計算·平移不變性8.分組樣本·例1.2.41.2.3樣本的經驗分佈函數及樣本矩1.經驗分佈函數定義1.2.4設總體X的分佈函數為F(x),從中獲得的樣本觀察值為x1,x2,…,xn。將它們從小到大排序重新編號為x(1),x(2),…,x(n),又稱為有序樣本。令

則稱Fn(x)為該樣本的經驗分佈函數。1.2.3樣本的經驗分佈函數及樣本矩例1.2.5某食品廠生產午餐肉罐頭,從生產線上隨機抽取5只罐頭,稱其淨重(單位:g)為:351,347,355,344,351計算其經驗分佈函數。Fn(x)依概率收斂於F(x)1.2.3樣本的經驗分佈函數及樣本矩定理1.2.1(格裏汶科定理)對任給的自然數n,設x1,x2,…,xn是取自總體分佈函數F(x)的一組樣本觀察值,Fn(x)為其經驗分佈函數,記則有1.2.3樣本的經驗分佈函數及樣本矩2.樣本矩·k階原點矩·k階中心矩·樣本偏度·樣本峰度1.2.3樣本的經驗分佈函數及樣本矩例1.2.6某廠多種設備的維修時間(單位:分)在某月內有132次記錄,據此132個維修時間可算得樣本均值=37和前幾階樣本中心矩。B2=193.23,B3=3652.82,B4=192289.92由此可對該廠設備維修時間的總體的均值、方差、標準差、偏度與峰度作出估計。1.3抽樣分佈定義1.3.1

統計量的概率分佈稱為抽樣分佈。具體可以分為:①精確(抽樣)分佈。②漸近(抽樣)分佈。③近似(抽樣)分佈。1.3.1樣本均值的抽樣分佈定理1.3.1設x1,x2,…,xn是來自某個總體的樣本,為其樣本均值。

(1)若總體分佈為N(μ,σ2),則

的精確分佈為N(μ,σ2/n);(2)若總體分佈未知或不是正態分佈,但E(x)=μ,Var(x)=σ2存在,則n較大時的漸近分佈為N(μ,σ2/n),常記為N(μ,σ2/n)。1.3.1樣本均值的抽樣分佈

例1.3.1一項隨機試驗下圖有一個由20個數組成的總體X,該總體分佈、總體均值μ、總體方差σ2與總體標準差分別為:μ=10.2,σ2=2.36,σ=1.57,現從該總體進行有放回的隨機抽樣,每次從中抽取樣本量為5的樣本,求其抽樣分佈。

圖1.3.1總體及其四個樣本的樣本均值1.3.1樣本均值的抽樣分佈

例1.3.2下圖給出三個不同總體均值樣本的分佈,三個總體分別是:(1)均勻分佈;(2)倒三角分佈;(3)指數分佈。隨著樣本量的增加,樣本均值

的抽樣分佈逐漸向正態分佈逼近,它們的均值保持不變,而方差則縮小為原來的1/n。當樣本量為30時,我們看到三個抽樣分佈都近似於正態分佈。樣本量的計算。1.3.1樣本均值的抽樣分佈圖1.3.3不同總體樣本均值的分佈1.3.2樣本方差的抽樣分佈定義1.3.2設u1,u2,…,um為m個相互獨立同分佈的標準正態變數,則其平方和

的分佈稱為自由度為m的χ2分佈,記為χ2(m),其密度函數為:卡方分佈的期望與方差。1.3.2樣本方差的抽樣分佈多維隨機變數的期望與方差。定理1.3.2設在兩個n維隨機向量X=(x1,x2,…,xn)'與Y=(y1,y2,…,yn)'間有一個線性變換Y=AX,其中A=(aij)為一個n×n階方陣,則它們的期望向量和方差協方差陣之間有如下關係:

E(Y)=A·E(X)

Var(Y)=A·Var(X)·A'1.3.2樣本方差的抽樣分佈定理1.3.3設X=(x1,x2,…,xn)為來自正態總體N(μ,σ2)的樣本,其樣本均值和樣本方差分別為:

則有(1)~N(μ,σ2/n);(2)~χ2(n-1);(3)與s2相互獨立。1.3.2樣本方差的抽樣分佈例1.3.3分別從正態總體N(μ1,σ2)和N(μ2,σ2)中抽取容量為n1和n2的兩個獨立樣本,其樣本方差分別為

。(1)證明:對α∈(0,1),是σ2的無偏估計。(2)求α使

的方差在估計類

是最小的。1.3.3樣本均值與樣本方差之比的抽樣分佈定義1.3.3若隨機變數t的密度函數是

則稱t服從自由度為n的t分佈,記為t~t(n)。定理1.3.4設X~N(0,1),Y~χ2(n),且X與Y獨立,則隨機變數

服從自由度為n的t分佈。1.3.3樣本均值與樣本方差之比的抽樣分佈定理1.3.5設x1,x2,…,xn是來自正態總體N(μ,σ2)的一個樣本,與s分別是其樣本均值與樣本標準差,則有

~t(n-1)1.3.3樣本均值與樣本方差之比的抽樣分佈t分佈有以下性質:自由度為1的t分佈為柯西分佈,它的期望不存在。n>1時,t分佈的數學期望存在,且為0。n>2時,t分佈的方差存在,且為n/(n-2)。自由度n越大,t(n)分佈越接近N(0,1)。當n→∞時,t(n)分佈的極限分佈為標準正態分佈。一般認為,當n>30時,t(n)可用標準正態分佈近似。t分佈的歷史。1.3.3樣本均值與樣本方差之比的抽樣分佈

例1.3.4設x1,x2,…,x17是來自正態總體N(μ,σ2)的一個樣本

與s2分別是其樣本均值與樣本方差,求k,使得1.3.4兩個獨立正態樣本方差比的F分佈定理1.3.6設X1~χ2(n1),X2~χ2(n2),且X1與X2獨立,則統計量

的概率密度函數為:

1.3.4兩個獨立正態樣本方差比的F分佈F分佈有以下性質:n2>2時,F分佈的數學期望存在,且為n2/(n2-2)。n2>4時,F分佈的方差存在,且為

。若F~F(n1,n2),則1/F~F(n2,n1)。若t~t(n),則t2~F(1,n)。1.3.5用隨機模擬法尋找統計量的近似分佈隨機模擬法的基本思想如下:

設總體X的分佈函數為F(x),從中抽取一個容量為n的樣本,其觀測值為x1,x2,…,xn,從而可得統計量T=T(x1,x2,…,xn)的一個觀測值t。將上述過程重複N次,可得T的N個觀測值t1,t2,…,tN,只要N充分大,那麼樣本分位數的觀測值便是T的分佈的分位數的一個近似值,並且N越大,近似程度越好,因而可將它作為T的分位數。1.3.5用隨機模擬法尋找統計量的近似分佈

例1.3.5

用隨機模擬方法求來自正態總N(μ,σ2)的樣本峰度

的分佈。1.4次序統計量1.4.1次序統計量的概念定義1.4.1設X1,X2,…,Xn是取自總體X的一個樣本,X(k)稱為該樣本的第k個次序統計量,假如每當獲得樣本觀測值後將其從小到大排序可得如下有序樣本:x(1)≤x(2)≤…≤x(k)≤…≤x(n)

其中第k個觀測值x(k)就是X(k)的取值,並稱X(1),X(2),…,X(n)為該樣本的次序統計量,其中X(1)=min(X1,X2,…,Xn)稱為該樣本的最小次序統計量,X(n)=max(X1,X2,…,Xn)稱為該樣本的最大次序統計量。1.4.1次序統計量的概念次序統計量中各分量既不獨立,也不同分佈。

例1.4.1

設總體X的分佈為僅取0,1,2的離散均勻分佈,即

現從中隨機抽取容量為3的樣本,列出所有可能的樣本及相應的次序統計量。X012P1/31/31/31.4.2次序統計量的分佈

定理1.4.1設總體X的密度函數為p(x),分佈函數為F(x),x1,x2,…xn為樣本,則第k個次序統計量x(k)的密度函數為:最大與最小次序統計量的分佈。

1.4.2次序統計量的分佈

例1.4.2設x1,x2,…,xn是取自(0,1)上均勻分佈的樣本,求第k個次序統計量x(k)的期望,其中1≤k≤n。

例1.4.3設x1,x2,…,xn是取自如下指數分佈的樣本:

F(x)=1-e-λx,

x>0求P(x(1)>a)與P(x(n)<b),其中a,b為給定的正數。1.4.3樣本極差定義1.4.2容量為n的樣本最大次序統計量x(n)與樣本最小次序統計量x(1)之差稱為樣本極差,簡稱極差,常用R=x(n)-x(1)表示。反映總體標準差的資訊。受樣本量的影響很大。1.4.3樣本極差例1.4.4正態分佈極差例1.4.5樣本方差是總體方差無偏估計的另一認識。1.4.4樣本中位數與樣本p分位數定義1.4.3設x(1)≤x(2)≤…≤x(n)是容量為n的樣本的次序統計量,則稱如下統計量

為該樣本中位數。1.4.4樣本中位數與樣本p分位數例1.4.6一批磚在交付客戶之前要抽檢其抗壓強度(單位:Mpa),現從中隨機抽取10塊磚,測得其抗壓強度為(已排序):

4.7

5.4

6.0

6.5

7.3

7.7

8.2

9.0

10.1

17.2計算其樣本中位數。1.4.4樣本中位數與樣本p分位數

定義1.4.4設x(1)≤x(2)…≤x(n)是容量為n的樣本的次序統計量,對給定的p(0<p<1),稱

為該樣本的樣本p分位數,其中[np]為np的整數部分。樣本p分位數mp是總體p分位xp(概率方程F(xp)=p的解)的估計量。1.4.4樣本中位數與樣本p分位數例1.4.7

軸承的壽命特徵常用10%分位數表示,記為L10,並稱為基本額定壽命。為了估計L10可用樣本的10%分位數m0.1去估計它。譬如n=20,可從一批軸承中隨機抽取20只作壽命試驗,由於np=20×0.1=2是整數,按定義1.4.4可用第2與第3個次序統計量的值的平均去估計它,即

1.4.4樣本中位數與樣本p分位數若在20只軸承壽命試驗中最早損壞的三個軸承的時間(單位:小時)為:

705

1079

1873則其基本額定壽命L10的估計為:

=(1079+1873)=1476用樣本0.1分位數估計軸承基本額定壽命L10可以節省大量試驗時間,這已成為軸承行業採用的統計方法。1.4.4樣本中位數與樣本p分位數定理1.4.2設總體密度函數為p(x),xp為其p分位數,若p(x)在xp處連續,且p(xp)>0,則當n→∞時,樣本p分位數mp的漸近分佈為:

特別地,對樣本中位數,當n→∞時近似地有

1.4.4樣本中位數與樣本p分位數

例1.4.8設總體為柯西分佈,密度函數為:

其分佈函數為:

不難看出θ是該總體的中位數,即x0.5=θ。設x1,x2,…,xn是來自該總體的樣本,當樣本量n較大時,樣本中位數m0.5的漸近分佈為:

1.4.5五數概括及其箱線圖五數概括:例1.4.9表1.4.3(見下頁)是某廠160名銷售人員某月銷售量數據(已排序),畫出其箱線圖。1.5充分統計量1.5.1充分統計量的概念直觀含義

(1)樣本分佈函數中含有樣本x中有關的資訊。

(2)統計量的抽樣分佈中含有的資訊。(3)

(4)考察條件分佈是否與有關。1.5.1充分統計量的概念例1.5.2

設x1,x2,…,xn是來自二點分佈b(1,p)的一個樣本,其中0<p<1,n>2,考察如下兩個統計量,看其是否是充分統計量。

1.5.1充分統計量的概念定義1.5.1設有一個分佈族={F},x1,x2,…,xn是從某分佈

∈F中抽取的一個樣本。T=T(x1,x2,…,xn)是一個統計量(也可以是向量統計量)。若在給定T=t下,樣本x的條件分佈與總體分佈F無關,則稱T為此分佈族

的充分統計量。假如={Fθ,θ∈Θ}是參數分佈族(θ可以是向量),在給定T=t下,樣本x的條件分佈與參數θ無關,則稱T為參數θ的充分統計量。1.5.1充分統計量的概念定理1.5.1設T=T(x)是參數θ的充分統計量,s=Ψ(t)是嚴格單調函數,則S=Ψ(t(x))=Ψ(x)也是θ的一個充分統計量。例1.5.3

設x1,x2,…,xn是來自幾何分佈P(X=x)=θ(1-θ)x(x=0,1,2,…)的一個樣本,其中,0<θ<1,則

是參數θ的充分統計量。1.5.1充分統計量的概念引理1.5.1設x=(x1,…,xn)是來自密度函數pθ(x)的一個樣本,T=T(x)是一個統計量,則在T=t下,樣本x的條件密度函數pθ(x|t)可表示為:

其中,I{T(x)=t}是事件“T(x)=t”的示性函數。1.5.1充分統計量的概念例1.5.4

設x=(x1,x2,…,xn)是來自正態分佈N(μ,1)的一個樣本,則

是參數μ的充分統計量。例1.5.5

討論次序統計量的充分性,分連續分佈族和離散分佈族進行。1.5.2因數分解定理定理1.5.2(因數分解定理)設有一個參數分佈族

={pθ(x):θ∈Θ}

其中pθ(x)(x∈X)在離散總體的情況下表示樣本的分佈列,在連續總體的情況下表示樣本的密度函數,則在樣本空間X上取值的統計量T(x)是充分的,當且僅當存在這樣兩個函數:1.X上的非負函數h(x);2.在統計量T(x)取值的空間T上的函數gθ(t),使得

pθ(x)=gθ(T(x))h(x),θ∈Θ,x∈X1.5.2因數分解定理例1.5.6均勻分佈U(0,θ)例1.5.7正態分佈

*1.5.3最小充分統計量例1.5.8

設x=(x1,x2,…,xn)是取自二點分佈b(1,p)的一個樣本,其中0<p<1,則樣本的聯合分佈列為:

其中,xi=0或1(i=1,2,…,n)。根據因數分解定理,可以判定下

面幾個統計量都是充分的。

T1=(x1,x2,…,xn)

T2=(x1+x2,x3,…,xn)…

Tk=(x1+x2+…+xk,xk+1,…,xn)

*1.5.3最小充分統計量為了比較這n個充分統計量的簡化程度,我們來計算幾個數字。記Tk的維數為dim(Tk),Tk的取值空間中點的個數為N(Tk),Tk的一切取值可能組成不同事件的個數為σ(Tk)。這些量的計算結果見表1.5.1。從下表可以看出,無論在維數和取值情況方面,統計量Tn是其中最簡化的充分統計量,它比T1簡化了很多。現在考慮是否還存在其他充分統計量比Tn還要簡化一些呢?*1.5.3最小充分統計量表1.5.1n個充分統計量的比較Tkdim(Tk)N(Tk)σ(Tk)n=10時的σ(Tk)T1n2n21024T2n-13·2n-22786︙︙︙︙︙Tkn-k+1(k+1)2n-k︙︙︙︙︙Tn1n+12n+1211*1.5.3最小充分統計量定義1.5.2設S是分佈族

的充分統計量,假如對

的任一個充分統計量T,存在一個函數fT(·),使得S=fT(T),則稱S是此分佈族F的最小充分統計量。常用的充分統計量都是最小的,它們常可用因數分解定理求出來。1.6常用的概率分佈族1.6.1常用概率分佈族表表1.6.1所列的分佈族又稱為參數分佈族,這類分佈族中的分佈能被有限個參數唯一確定。此外還有一類非參數分佈族,該族內的分佈都不能被有限個參數所確定,譬如

P1={p(x);p(x)是連續分佈}P2={F(x);F(x)的一二階矩存在}P3={p(x);p(x)是對稱的連續分佈}1.6.2伽瑪分佈族1.伽瑪函數

稱以下函數

為伽瑪函數,其中參數α>0。伽瑪函數具有如下性質:(1)Γ(1)=1,Γ(0.5)=;(2)Γ(α+1)=αΓ(α)(可用分部積分法證得)。當α為自然數n時,有

Γ(n+1)=nΓ(n)=n!1.6.2伽瑪分佈族2.伽瑪分佈

若隨機變數X的密度函數為:

則稱X服從伽瑪分佈,記做X~Ga(α,λ),其中α>0為形狀參數,λ>0為尺度參數,伽瑪分佈族記為{Ga(α,λ);α>0,λ>0}。1.6.2伽瑪分佈族下圖給出若干條λ固定、α不同的伽瑪密度函數曲線,從圖中可以看出:●0<α<1時,p(x)是嚴格下降函數,且在x=0處有奇異點;●α=1時,p(x)是嚴格下降函數,且在x=0處p(0)=λ;●1<α≤2時,p(x)是單峰函數,先上凸、後下凸;●α>2時,p(x)是單峰函數,先下凸、中間上凸、後下凸。且α越大,p(x)越近似於正態密度。1.6.2伽瑪分佈族1.6.2伽瑪分佈族伽瑪分佈Ga(α,λ)的k階矩為:

由此算得其期望、方差、偏度βs與峰度βk分別為:

可見,影響伽瑪分佈形狀的偏度βs與峰度βk只與α有關,這就是稱α為形狀參數的原因,且隨著α增大,βs與βk越來越小,最後趨於正態分佈的狀態:βs=0與βk=0。1.6.2伽瑪分佈族3.伽瑪分佈的兩個特例

伽瑪分佈有兩個常用的特例:(1)α=1時的伽瑪分佈就是指數分佈,即

Ga(1,λ)=exp(λ)(2)稱α=n/2,λ=1/2時的伽瑪分佈是自由度為n的χ2分佈,記為χ2(n),即

1.6.2伽瑪分佈族定理1.6.1

設X1~Ga(α1,λ),X2~Ga(α2,λ),且X1與X2獨立,則

X1+X2~Ga(α1+α2,λ)1.6.2伽瑪分佈族定理1.6.2設X~Ga(α,λ),則

y=kX~Ga(α,λ/k),

k≠0定理1.6.3設X1,X2,…,Xn是正態總體N(0,σ2)的一個樣本,則

1.6.2伽瑪分佈族例1.6.1

電子產品的失效常由於外界的“衝擊引起”。若在(0,t)內發生衝擊的次數N(t)服從參數為λt的泊松分佈,試證第n次衝擊來到的時間Sn服從伽瑪分佈Ga(n,λ)。1.6.3貝塔分佈族1.貝塔函數

稱以下函數

為貝塔函數,其中參數a>0,b>0。貝塔函數具有如下性質:(1)B(a,b)=B(b,a)。(2)貝塔函數與伽瑪函數間有如下關係:

1.6.3貝塔分佈族2.貝塔分佈

若隨機變數X的密度函數為:

則稱X服從貝塔分佈,記做X~Be(a,b),其中a>0,b>0都是形狀參數,故貝塔分佈族可表示為{Be(a,b);a>0,b>0}。1.6.3貝塔分佈族下圖給出了幾種典型的貝塔密度函數曲線。1.6.3貝塔分佈族從上圖可以看出:●a<1,b<1時,p(x)是下凸函數。●a>1,b>1時,p(x)是上凸的單峰函數。●a<1,b≥1時,p(x)是下凸的單調減函數。●a≥1,b<1時,p(x)是下凸的單調增函數。●a=1,b=1時,p(x)是常數函數,且

Be(1,1)=U(0,1)。1.6.3貝塔分佈族貝塔分佈Be(a,b)的k階矩為:

由此可得Be(a,b)的期望與方差

類似可算得Be(a,b)的偏度與峰度,它們都依賴a和b。可見參數a與b對貝塔分佈的位置、散佈、形狀都有影響,很難區分個別參數的特殊貢獻。1.6.4指數型分佈族定義1.6.1

一個概率分佈族P={pθ(x)∶θ∈Θ}又稱為指數型分佈族,假如P中的分佈(分佈列或密度函數)都可表示為如下形式:

其中k為自然數,分佈的支撐{x∶p(x)>0}與參數θ無關,諸c(θ),c1(θ),…,ck(θ)是定義在參數空間Θ上的函數,諸h(x),T1(x),…,Tk(x)是x的函數,但h(x)>0,T1(x),…,Tk(x)線性無關。1.6.4指數型分佈族例1.6.2

很多常用概率分佈族都是指數型分佈族,如:(1)正態分佈族是指數型分佈族,因為其密度函數可表示為:

其支撐為(-∞,∞),且

c(μ,σ)=,h(x)=1

c1(μ,σ)=μ/σ2,c2(μ,σ)=-1/2σ2

T1(x)=x,T2(x)=x21.6.4指數型分佈族(2)二項分佈族是指數型分佈族,因為其分佈列可表示為:

其支撐為{0,1,…,n},與參數p無關,且

c(p)=(1-p)n,h(x)=

c1(p)=,T1(x)=x1.6.4指數型分佈族(3)伽瑪分佈族是指數型分佈族,因其密度函數可表示為:

其支撐為{x>0}與參數α,λ無關,且

c(α,λ)=λα/Γ(α),h(x)=1

c1(α,λ)=α-1,T1(x)=lnx

c2(α,λ)=-λ,T2(x)=x1.6.4指數型分佈族(4)多項分佈族是指數型分佈族,因其分佈列可表示為:

其支撐為{x1+…+xr=n},與諸參數pj無關,且

c(p)=1,

h(x)=n!/x1!…xr!

cj(p)=lnpj,Tj(x)=xj,j=1,2,…,r1.6.4指數型分佈族

但由於

諸xj間存在線性關,x1+x2+…+xr=n,若取xr=n-x1-x2-…-xr-1,上式可改寫為:

其支撐不變,但函數有變化,即

c(p)=exp{nlnpr},

h(x)=n!/x1!…xr!

cj(p)=ln(pj/pr),

Tj(x)=xj,j=1,2,…,r-1

其中x=(x1,x2,…,xr),p=(p1,p2,…,pr)。1.6.4指數型分佈族

例1.6.3

不是指數型分佈族的常用分佈族也是有的,如:(1)均勻分佈族{U(0,θ),θ>0}不是指數型分佈族。因為其支撐{x:0<x<θ}與參數θ有關。(2)單參數指數分佈族

是指數型分佈族,1.6.4指數型分佈族

但雙參數指數分佈族

不是指數型分佈族,因為其支撐{x:x≥μ}依賴於參數μ。

(3)威布爾分佈族

不是指數型分佈族,因為

不能分解為有限項之和

。1.6.4指數型分佈族設是來自於某指數型分佈族中某分佈的一個樣本,則其樣本聯合分佈仍是指數型分佈從而由因數分解定理知,其中

為該指數分佈族的充分統計量。

1.6.4指數型分佈族例1.6.4

在例1.6.2中若設x1,x2,…,xn是來自其中一個分佈的樣本,則有(1)正態分佈族的充分統計量為

。(2)二項分佈族的充分統計量為

。1.6.4指數型分佈族(3)伽瑪分佈族的充分統計量為

。(4)多項分佈族的充分統計為

其中xji為其第j個變數第i個觀察值(j=1,2,…,r-1;i=1,2,…,n)。

點估計2.1矩估計與相合性矩估計的基本思想是“替代”,具體是:●用樣本矩(即矩統計量)估計總體矩;●用樣本矩的函數估計總體矩的相應函數。

這裏的矩可以是各階原點矩,也可以是各階中心矩。這一思想是英國統計學家皮爾遜在1900年提出的。2.1.1矩估計例2.1.1

設x1,x2,…,xn是來自某總體的一個樣本,只要該總體的各階矩存在,都可對總體若干參數用矩法獲得矩估計,常用的矩估計有:●總體均值μ=E(x)的矩估計為,它是μ的無偏估計。●總體方差σ2=E(x-μ)2與標準差σ的矩估計分別為:

它們分別是σ2與σ的漸近無偏估計。2.1.1矩估計2.1.1矩估計例2.1.1若記vk=E(x-μ)k為總體k階中心矩,為樣本的k階中心矩,則有:●總體偏度βs=v3/(v2)3/2的矩估計為:

●總體峰度βk=v4/(v2)2-3的矩估計為:

2.1.1矩估計例2.1.1●二維總體的相關係數的矩估計是二維樣本(x1,y1),(x2,y2),…,(xn,yn)的樣本相關係數:

例2.12

設x1,x2,…,xn是來自均勻分佈U(a,b)的一個樣本,試求a,b的矩法估計。若從均勻分佈U(a,b)獲得如下一個容量為5的樣本:4.5,5.0,4.7,4.0,4.2,求a,b的矩法估計。2.1.1矩估計例2.1.3

設樣本x1,x2,…,xn來自正態總體N(μ,σ2),μ與σ未知,求p=P(X<1)的估計。從正態總體中獲得一個容量為n=25的樣本,由樣本觀察值得到樣本均值與樣本標準差分別為

0.95和0.04,求p=P(X<1)的矩法估計。2.1.1矩估計矩估計的優缺點優點:統計思想簡單明確,易為人們接受,且在總體分佈未知場合也可使用。缺點:1.不唯一,

2.樣本各階矩的觀測值受異常值影響較大,不夠穩健,實際中要儘量避免使用樣本的高階矩。2.1.1矩估計

2.1.2相合性

2.1.2相合性定理2.1.1(辛欽大數定律)

設x1,x2,…,xn是一列獨立同分佈的隨機變數序列,若其數學期望μ有限,則對任意給定的ε>0,有

P→0(n→∞)

樣本K階矩是總體K階矩的相合估計。特別地,樣本均值是總體均值的相合估計。2.1.2相合性定理2.1.2

分別是的相合估計,若

元連續函數,則

是的相合估計。例2.1.4常用的矩估計都具有相合性。從上述兩個定理立即可以得出以下結論:●樣本階矩是總體階矩的相合估計。●樣本

階中心矩是總體

階中心矩的相合估計,因為總體

階中心矩總可展開成若干個

階矩和低於

階矩的多項式。

2.1.2相合性

例2.1.4●樣本變異係數(或),樣本偏度,峰度分別是相應總體參數的相合估計。●在例2.1.3中,是正態概率的相合估計。這表明在樣本量較大時,矩估計

偏離較大的可能性會很小。2.1.2相合性2.2最大似然估計與漸近正態性2.2.1最大似然估計定義2.2.1

設x=(x1,x2,…,xn)是來自某分佈p(x;θ)(密度函數或分佈列)的一個樣本。在給定樣本觀察值x時,該樣本x的聯合分佈p(x;θ)是θ的函數,稱其為θ的似然函數,記為L(θ;x),有時還把x省略,記為L(θ)=L(θ;x)=p(x;θ)=若在參數空間Θ={θ}上存在這樣的,使L()達到最大,即L()=L(θ)(2.2.2)則稱

為θ的最大似然估計,簡記為MLE。例2.2.1設x=(x1,x2,…,xn)是來自二點分佈b(1,θ)的一個樣本,其中諸xi非0即1,θ∈[0,1]是成功概率,該樣本的聯合分佈為:其中是的充分統計量,當給定樣本x(等價於給定充分統計量t)後,譬如,給定n=10,t=2,就得到一個的似然函數(見圖2.2.1),即

2.2.1最大似然估計2.2.1最大似然估計例2.2.1

圖2.2.1成功概率的似然函數這是一個上凸函數,先增後減,有一個使達到最大,它最像產生樣本(n=10,t=2)的參數真值。它就是的最大似然估計。

如何求出最大似然估計呢?2.2.1最大似然估計從上述定義和例子中還應該強調以下幾點:(1)最大似然估計的基本思想是:用“最像”θ的統計量去估計θ,這一統計思想在我們日常生活中常用到。(2)最大似然估計只能在參數分佈族中使用,在非參數場合不能使用。(3)對似然函數添加或剔去一個與參數θ無關的量c(x)>0,不影響尋求最大似然估計的最終結果,故c(x)L(θ;x)仍稱為θ的似然函數。換句話說,保留樣本分佈的核就足夠了。(4)當參數分佈族存在充分統計量T(x)時,其最大似然估計一定是該充分統計量的函數,因為由因數分解定理知,其樣本分佈p(x;θ)一定可表示為:

p(x;θ)=g(T(x);θ)h(x)使該式對θ達到最大的充要條件是使g(T(x);θ)對θ達到最大,而由後者求得的θ的最大似然估計必有形式=(T(x))。(5)與的最大似然值是相同的。

2.2.1最大似然估計例2.2.2設某機床加工的軸的直徑與圖紙規定的尺寸的偏差服從N(μ,σ2),其中μ,σ2未知。為估計μ與σ2,從中隨機抽取n=100根軸,測得其偏差為x1,x2,…,x100。試求μ,σ2的最大似然估計。例2.2.3設x=(x1,x2,…,xn)是來自均勻分佈U(0,θ)的一個樣本,求θ的MLE。2.2.1最大似然估計2.2.1最大似然估計例2.2.4設x=(x1,x2,…,xn)是來自均勻分佈U(θ,θ+1)的一個樣其中θ可為任意實數,現要尋求θ的MLE。例2.2.5設x=(x1,x2,…,xn)是來自雙參數指數分佈exp(μ,σ)的一個樣本,該分佈的密度函數為:

p(x;μ,σ)=,

μ≤x它有兩個參數,μ可取任意實數,稱為位置參數,σ>0稱為尺度參數。現求μ與σ的MLE。2.2.1最大似然估計例2.2.6設

是來自二元正態總體:

的一個二維樣本,求與

的MLE。

2.2.2最大似然估計的不變原理

定理2.2.1(不變原理)

設若

的最大似然估計為,則對

任意函數

,關於導出似然函數的最大似然估計為

這個定理條件很寬,致使最大似然估計應用廣泛。

2.2.2最大似然估計的不變原理例2.2.7某產品生產現場有多臺設備,設備故障的維修時間T服從對數正態分佈LN(μ,σ2)。現在一周內共發生24次故障,其維修時間t(單位:分)為:

55

28

125

47

58

53

36

88

51

110

40

75

64

115

48

52

60

72

87

105

55

82

66

65求:(1)平均維修時間μT與維修時間的標準差σT的MLE;(2)可完成95%故障的維修時間t0.95的MLE。2.2.2最大似然估計的不變原理例2.2.8設某電子設備的壽命(從開始工作到首次發生故障的連續工作時間,單位:小時)服從指數分佈exp(λ)。現任取15臺進行壽命試驗,按規定到第7臺發生故障時試驗止,所得7個壽命數據為:

500

1350

2130

2500

3120

3500

3800這是一個不完全樣本,常稱為定數截尾樣本,現要對其尋求平均壽命θ=1/λ的MLE。2.2.3最大似然估計的漸近正態性漸近正態性與相合性相同點:漸近正態性與相合性一樣是某些估計的大樣本性質。區別:相合性是對估計的一種較低要求,它只要求估計序列

將隨樣本量n的增加以越來越大的概率接近被估參數,但沒有告訴人們,對相對大的n,誤差

將以什麼速度收斂於標準正態分佈N(0,1),而漸近正態性的討論正補充了這一點,它是在相合性基礎上討論收斂速度問題。2.2.3最大似然估計的漸近正態性定義2.2.2設是的一個相合估計序列,若存在一個趨於零的正數列,使得規範變數的分佈函數收斂於標準正態函數,即(2.2.3)或依分佈收斂符號L記為:則稱是的漸近正態估計,或稱具有漸近正態性,即,其中,稱為的漸近方差。2.2.3最大似然估計的漸近正態性還應指出,滿足式(2.2.3)中的

並不唯一,若有另一個可使則依概率收斂性質可知,必有此時,亦稱為的漸近方差。2.2.3最大似然估計的漸近正態性例2.2.9設x1,x2,…,xn是來自某總體的一個樣本,該總體的均值μ與方差σ2均存在。其樣本均值

是μ的無偏估計,相合估計。按照中心極限定理,還是μ的漸近正態估計,即

:例2.2.10設x1,x2,…,xn是來自正態總體N(μ,σ2)的一個樣本,是正態方差σ2的無偏、相合估計。這裏將用中心極限定理指出s2是否是σ2的漸近正態估計。2.2.3最大似然估計的漸近正態性在一定條件下,最大似然估計具有漸近正態性。定理2.2.2

設p(x;θ)是某密度函數,其參數空間Θ={θ}是直線上的非退化區間,假如:(1)對一切θ∈Θ,p=p(x;θ)對θ的如下偏導數都存在2.2.3最大似然估計的漸近正態性(2)對一切θ∈Θ,有成立,其中與在實數軸上可積,而滿足這裏與無關。2.2.3最大似然估計的漸近正態性(3)對一切θ∈Θ,有則在參數真值θ為參數空間Θ內點的情況下,其似然方程有一個解存在,此解依概率收斂於真值θ,且其中,I(θ)為分佈p(x;θ)中含有θ的資訊量,又稱費希爾資訊量,有時還簡稱資訊量。2.2.3最大似然估計的漸近正態性最大似然估計的漸近方差完全由費希爾資訊量I(θ)決定,且費希爾資訊量I(θ)越大,漸近方差就越小,從而最大似然估計的效果就越好。Cramer-Rao正則(分佈)族中的分佈的費希爾資訊量都存在。該正則族定義如下:2.2.3最大似然估計的漸近正態性定義2.2.3

分佈p(x;θ),θ∈Θ屬於Cramer-Rao正則族,如果該分佈滿足如下五個條件:(1)參數空間Θ是直線上的開區間;(2)對所有θ∈Θ都存在;(3)分佈的支撐{x:p(x;θ)>0}與θ無關;(4)p(x;θ)對x的微分與積分運算可交換;(5)對所有θ∈Θ,期望注意,均勻分佈不是Cramer-Rao正則族,因為其支撐與有關。2.2.3最大似然估計的漸近正態性例2.2.11求二點分佈b(1,θ)含θ的費希爾資訊量,其分佈列為:例2.2.12設x1,x2,…,xn是來自正態總體N(μ,σ2)的一個樣本,可以驗證,正態分佈屬於Cramer-Rao正則族。2.3最小方差無偏估計設=(x1,x2,…,xn)是參數θ的一個估計。評價估計

優劣的標準在前面已提出三個,它們是:(1)無偏性,見定義1.2.3;(2)相合性,見定義2.1.1;(3)漸近正態性,見定義2.2.2。其中(2)和(3)是估計的大樣本性質。常用的評價標準還有兩個,它們是:(4)無偏估計的有效性;(5)有偏估計的均方誤差準則。

2.3.1無偏估計的有效性參數θ的無偏估計常有多個,如何在諸無偏估計中選擇呢?圖2.3.1

θ的兩個無偏估計的密度函數示意圖2.3.1無偏估計的有效性定義2.3.1

設=(x1,x2,…,xn)與=(x1,x2,…,xn)都是參數

的無偏估計,如果

且至少對一個,有嚴格不等號成立,則稱

有效。

2.3.1無偏估計的有效性例2.3.1設x1,x2,…,xn是取自總體X的樣本,且E(X)=μ,Var(X)=σ2均有限,則都是的無偏估計,哪個估計是更為有效的估計?

2.3.1無偏估計的有效性例2.3.2在例2.2.3中曾指出,均勻分佈U(0,)中的最大似然估計為,由於

,所以不是

的無偏估計,但經修偏後可得

的一個無偏估計

,另一方面,用矩法可得

的另一個無偏估計,和相比,哪個更有效?定義2.3.2

設與是參數的兩個估計量,如果且至少對一個有嚴格不等式成立,則稱在均方誤差意義下,優於。其中稱為的均方誤差,常記為。2.3.2有偏估計的均方誤差準則2.3.2有偏估計的均方誤差準則例2.3.3設x1,x2,…,xn是來自正態分佈N(μ,σ2)的一個樣本,利用χ2分佈的性質可知該樣本的偏差平方和的期望與方差分別為:現對總體方差構造如下三個估計

現比較這三個估計的優劣2.3.3一致最小方差無偏估計這裏我們將參數

用其函數代替,的估計用

表示。參數的一切可能的無偏估計組成的類稱為

的無偏估計類,記為

,即

有可能是空的,因為存在這樣的參數,它沒有無偏估計,而對空類作研究是沒有意義的。例2.3.4考察二項分佈族{b(m,p):0<p<1}。不管樣本容量n多大,參數g(p)=1/p的無偏估計都不存在。

2.3.3一致最小方差無偏估計定義2.3.3

假如參數的無偏估計存在,則稱此參數為可估參數。定義2.3.4設

={p(x;θ):θ∈Θ}是一個參數分佈族。g(θ)是Θ上的一個可估參數,Ug是g(θ)的無偏估計類。假如

是這樣的一個無偏估計,對一切

,有則稱

是g(θ)的一致最小方差無偏估計,記為UMVUE。

2.3.3一致最小方差無偏估計定理2.3.1設

={p(x;θ):θ∈Θ}是一個參數分佈族,Ug是可估參數g(θ)的無偏估計類,U0是0的無偏估計類,在各估計量方差均有限的場合下,是g(θ)的UMVUE的充要條件為:

(2.3.3)條件(2.3.3)等價於g(θ)的UMVUE與任一個U∈U0不相關。

2.3.3一致最小方差無偏估計例2.3.5設(x1,x2,…,xn)是來自指數分佈exp(1/)的樣本,其中=E(x1)。可見樣本均值

是的無偏估計。證明

的UMVUE。2.3.3一致最小方差無偏估計定理2.3.2設T(x)是參數分佈族

={p(x;θ):}的一個充分統計量,設是參數

的一個無偏估計,則

亦是g(θ)的無偏估計,並且

其中等號成立的充要條件是即

是的函數的概率為1。2.3.3一致最小方差無偏估計例2.3.6設x1,x2,…,xn是來自二點分佈b(1,p)的一個樣本,其中0<p<1,下麵我們來討論參數p的無偏估計。2.3.4完備性及其應用定義2.3.5

完備分佈族,完備統計量例2.3.7正態分佈族{N(0,σ2):σ>0}是不完備的。統計量Tn誘導出的Gamma分佈族是完備的。2.3.4完備性及其應用現在不加證明的指出三個結果:●設x1,x2,…,xn是來自指數型分佈(見1.6.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论