生物统计与试验设计课件_第1页
生物统计与试验设计课件_第2页
生物统计与试验设计课件_第3页
生物统计与试验设计课件_第4页
生物统计与试验设计课件_第5页
已阅读5页,还剩246页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物統計與試驗設計

第一章概論

生物統計學常用術語

生物統計學的內容

生物統計學的特點

生物統計學的概念第一節生物統計學的概念生物統計學(biostatistics)就是用概率論和數理統計學的原理與方法來處理生物學資料的學科■達爾文時代以前的生物學,一般以描述為主顏色形狀大小羽色冠形體格白羽黑羽黃羽橫斑紋白來航雞

狼山雞正陽三黃雞

蘆花雞

單冠豆冠玫瑰冠草莓冠茶花雞舊院黑雞

泰和烏雞♂

泰和烏雞♀大型雞小型雞蕭山雞

矮小雞

■隨著生物學的發展,描述已無法滿足科學研究的需要,於是就有了度量有了度量以後就產生了大量的數據資料,那麼,如何來處理、分析這些看似雜亂無章的數據資料,並且發現其內在的規律採用一般的數學方法來進行計算用概率論和數理統計學的原理與方法生物統計學是動物科學生產實踐和科學研究中必不可少的工具,現已被廣泛應用於各個方面:

動物育種學

動物遺傳學

動物營養學

動物生產學

動物繁殖學在國外特別是經濟發達的國家,生物統計學已經滲透到生物學相關的各個領域課題申請論文審稿新藥研發專設機構生物統計學的思維和方法已經滲透到動物生產實踐和科學研究之中與國外相比,國內缺乏從事生物統計學研究的專業人員

《畜牧與獸醫》雜誌的審稿

與農業部動物檢疫所(青島)的合作

本科畢業論文答辯孟德爾遺傳定律、生物進化理論、分子數量遺傳學和生物資訊學等,它們的發現、誕生和發展,都離不開生物統計學的參與隨著分子生物學的發展,生物統計學越來越顯示出它的重要性第二節生物統計學的特點1.概率性(Probability)2.二元性(Duality)3.歸納性(Induction)1.概率性生物學數據具有變異性針對生物性狀進行研究得出一個結論時,這個結論的正確性往往是相對的、有條件的,這個條件可以用概率值來表示不能通過描述性的定性科學或決定性的數量科學來解決生物學領域中的很多問題

動物的血液是紅色的冰魚的血液是黃色的馬蹄蟹的血液是藍色的天下烏鴉一般黑

形容萬惡的舊社會官官相護2004年《央視國際》報導:在印度南部的一個小村莊發現了一只白色的烏鴉出現了白色的烏鴉,就認為“天下烏鴉一般黑”的觀點就是錯誤的出現了黃色血液的冰魚,就認為“動物的血液是紅色的”的結論是不正確的

按照某些學科的推理,如果出現反例就必須要否定原來的結論如果從生物統計學的角度來看,結果會完全不同至少有95%以上的動物的血液是紅色的至少有99%以上的烏鴉的羽色是黑色的■經典數學的計算結果是絕對的、明確的,也是唯一的■生物統計學從複雜多變的生物性狀中得出的結論一般都只能在一定的概率保證下認為是正確的,同時得到的結果也不是唯一的生物統計學不同於經典數學現在概率的思想越來越深入到每個人的生活中

午後有陣雨,雷雨時短時陣風……降水概率75%,東南風轉西北風……2.二元性■生物統計學的理論體系——概率論■大量的、來源於生產實踐的數據資料生物統計學是理論與實踐並重的一門學科,有時處理實踐資料甚至重於理論指導生物統計學的二元性:理論與實踐並重理論與實踐密切結合3.歸納性理論上我們總希望能獲得並處理具有同一性質的所有資料歸納性是生物統計學的主要精神,簡單地說就是從部分資料(統計學中稱為樣本)中歸納出一般性的原理並把它應用到較大的範圍(總體)豬鏈球菌病研究

四川地區病人主要是通過接觸性的傷口感染豬鏈球菌病人感染豬鏈球菌病,主要是通過接觸性的傷口傳播

廣東東京紐約在科學研究和生產實踐中只能獲得其中很小的、但具有代表性的一部分個體來進行研究、分析和處理第三節生物統計學的主要內容生物統計學是動物科學專業的專業基礎課程生物統計學主要包括兩大部分內容:1.統計部分1.1描述性統計主要是數據資料的整理、分析,是生物統計學的基礎內容(1)數據資料的整理(2)數據資料特徵值的計算(3)概率分佈和抽樣分佈1.2統計推斷又稱假設檢驗,是生物統計學的核心內容

(1)t-檢驗主要用於檢驗2個平均數間差異是否顯著(2)χ2-檢驗主要用於檢驗由品質性狀得來的次數資料的顯著性(3)F-檢驗主要用於檢驗多個平均數間差異是否顯著(4)非參數檢驗主要用於檢驗樣本容量小、未知分佈資料的顯著性1.3相關與回歸分析通過對數據資料的相關、回歸分析,揭示出試驗指標間的內在聯繫,為動物生產提供強有力的依據(1)簡單相關(2)簡單回歸(3)曲線回歸(4)多元回歸2.試驗設計部分主要是試驗設計的基本原理、方法

完全隨機設計

配對設計

拉丁方設計

正交設計

隨機區組設計

交叉設計第四節生物統計學常用術語1.變數與觀測值變數(variable)是指不同個體間表現變異性的某種特徵對於一個個體來說,通過度量所得到的某一變數的具有變異性質的數值就稱為觀測值(observation)2.總體與樣本總體(population)是指研究的全部對象,即具有相同性質的觀測值所組成的的集合相似的生物體所組成的集合,如同一物種,不是統計學意義上的總體只有相似生物體所具有的某一相同性狀所表現出來的值的集合才能作為統計學中的總體禽流感雞的產蛋量總體中的每一個研究對象稱為個體(individual)無限總體既有時間內涵,又有空間(地域)內涵。當我們把某一總體限定於某一時間、某一地域時,無限總體就成了有限總體

總體按所含的個體數量可以分為無限總體和有限總體無限總體2005年遼寧黑山有限總體

總體按研究對象又可以分為現實總體和假想總體

豬鏈球菌病2型疫苗的免疫效果假想這一部分被試豬就來自於已注射新疫苗的豬的總體這一總體在疫苗推廣之前並不存在假想總體當新疫苗試驗成功並加以推廣後這一總體就存在了現實總體(1)總體往往是無限的、假想的■在實際工作中不可能對總體中所有的觀測值一一加以考察,而只能對其中具有代表性的一小部分觀測值進行研究(2)有限的總體有時也包含數目相當多的個體,要獲得全部觀測值需花費大量人力、物力和時間(3)有些性狀的測定、觀測值的獲得帶有破壞性樣本(sample)就是從總體中抽得的一部分具有代表性的觀測值所組成的子集為了使所得到的樣本能無偏地估計總體,必須使總體中每一觀測值都有同等的機會進入樣本,這種抽樣方法稱為隨機抽樣(randomsampling)隨機抽樣法所得到的樣本稱為隨機樣本(randomsample)樣本中所包含的觀測值的個數,稱為樣本容量

用n表示有限總體的大小(總體容量),用N表示n≤30的樣本稱為小樣本n>30的稱為大樣本◆原則:大動物樣本容量可小一些,小動物樣本容量可適當大一些3.參數與統計量反映數據集中趨勢的總體平均數參數(parameter):由總體各觀測值所獲得的、用來描述總體特徵的數值反映數據變異程度的總體標準差◆參數是一個真值、一個定值,不變化用σ表示用μ表示統計量(statistic):由樣本各觀測值計算得到的、用來描述樣本特徵的數值樣本平均數

樣本標準差用S表示◆統計量是變化的,不固定的用

表示統計量和參數的關係

從同一總體中抽取不同的樣本所計算得到的同一性質的統計量是不相同的,但這些統計量都可以用來估計相應的參數

在絕大多數情況下,參數很難直接由計算得到,而只能通過樣本的統計量來進行估計4.準確度與精確度準確度(accuracy)也稱為準確性,是指觀測值與真值接近的程度精確度(precise)也稱為精確性,指在同一處理條件下,同一批觀測值間相互接近的程度■準確度高、精確度高在很多情況下,準確度和精確度兩者往往不可兼得,因此在制訂試驗方案或進行試驗時,應當很好地加以權衡■準確度低、精確度低■準確度低、精確度高原則上,可以適當放棄一些精確度以保證足夠的準確度5.隨機誤差和系統誤差誤差(error):試驗結果和真值之間的差異和偏離5.1隨機誤差隨機誤差(randomerror)又稱為偶然誤差,是指由各種偶然因素引起的、無法加以預測和控制的無規律的偏差(1)偶然性隨機誤差的性質:(2)恒在性(3)獨立性(4)影響精確度

隨機誤差是進行統計假設檢驗的基礎,沒有隨機誤差就沒有統計假設檢驗

生物統計學就是為誤差而誕生的,生物統計學的全部意義就是處理和估計誤差5.2系統誤差系統誤差(systematicerror)也稱為片面誤差,是指由於某些特定的非試驗條件所造成的使試驗結果朝某一個方向發生有規律的偏移(1)度量工具的不正確(5)試驗人員操作或觀測時的偏愛和習慣(2)試驗儀器未經校正(3)外界試驗條件發生了很大的變化(4)觀測時間的影響(6)試驗動物分組時發生的偏差■當發生系統誤差時,觀測值都會有規律地向某一個方向偏離真值,因而降低了試驗的準確度。系統誤差是可以被消除的生物學數據資料(觀測值)的分佈具有兩個重要的特徵:

集中性

離散性

觀測值向中心位置聚集的趨勢反映數據資料集中性的特徵值是平均數觀測值偏離中心位置的分散情況反映數據資料離散性的特徵值是極差、方差、標準差和變異係數等眾數算術平均數幾何平均數調和平均數中位數第一節集中性特徵值平均數(mean)是統計學中最常用的統計量,用來表明數據中各觀測值相對集中較多的中心位置,反映了一組觀察值的平均水準,是一組數據資料的代表值

可以用來說明一組數據資料的平均水準或集中趨勢,具有典型性

可以用來進行組間比較,以判斷一組數據資料與另一組數據資料的差別,具有代表性平均數的作用:1.算術平均數算術平均數(arithmeticmean):數據資料中各觀測值的總和除以觀測值的個數所得的商,簡稱平均數或均數。記為1.1基本概念■算術平均數適合描述對稱分佈資料的集中趨勢1.2計算公式觀測值為:x1,x2,…,xn,則:對於總體來說,則有:設有一隨機變數x,1.3重要性質

樣本各觀測值與平均數之差的和為0,即離均差之和為0

證明

樣本各觀測值與平均數之差的平方和為最小,即離均差平方和最小

證明則有:1.4加權平均數對於樣本容量≥30且已分組的資料,可以在次數分佈表的基礎上採用加權法計算平均數xi—第i組的組中值

fi—第i組的次數

k—組數

採用加權法計算得到的平均數就稱為加權平均數(weightedmean)

加權平均數不具備算術平均數的兩個性質幾何平均數(geometricmean):n個觀測值相乘之積的n次方根■適用於利率、畜禽數的增長率、藥物的效價、抗體的滴度等非線性數據例1為研究人群中流感的抗體水準,測得12名兒童的血清對流感病毒的血凝抑制抗體效價的倒數為:5,5,5,5,5,5,5,10,10,10,20,40,試計算平均血凝抑制抗體效價。解:

答:平均血凝抑制抗體效價約為1∶8平均血凝抑制抗體效價約為1∶10

2.幾何平均數3.調和平均數調和平均數(harmonicmean):資料中各觀測值倒數的算術平均數的倒數■調和平均數主要適用於速度類的資料,或有個別極端大觀測值的數據資料4.中位數中位數(median):將資料中所有觀測值按從小到大依次排列,位於中間位置的那個觀測值,簡稱為中數5.眾數眾數(mode):在數據資料中出現次數最多的一個觀測值或次數最多一組的組中值

有的資料可出現多個眾數當觀測值的個數是偶數時,以中間兩個觀測值的平均數作為中位數

■數據資料呈偏態分佈或分佈情況不清楚時,中位數的代表性優於算術平均數

有的資料則沒有眾數第二節離散性特徵值平均數主要是用來說明數據的集中趨勢和集中程度的,是一組數據的代表值平均數的代表性如何,還要看數據的變異情況:

數據越是集中,

則平均數的代表性就越強

僅用平均數對一個數據資料的特徵進行統計描述是不完善的,還必須要有另外一個統計量來衡量數據變異程度的大小、說明平均數的代表性

數據越是分散(離散),則平均數的代表性就越弱

用來衡量數據變異程度的統計量有很多,常用的有:極差、方差、標準差和變異係數1.極差

極差(range):數據資料中最大觀測值與最小觀測值之間的差■極差主要用來說明傳染病和食物中毒的最短、最長潛伏期(1)沒有充分利用數據中全部觀測值的資訊

優點:極差是衡量數據資料變異程度大小的最簡便的統計量

缺點:(2)不能準確反映數據中各觀測值的分佈狀況(3)樣本之間難以進行比較(4)極差的抽樣誤差較大,不穩定2.方差

極差:僅用全部觀測值中較為特殊的兩個點值,比較粗糙充分利用數據資料中的每一個觀測值,將每一觀測值都和某一個特定的值相比,可以求出每一個觀測值與平均數的差值,即離均差有多少個觀測值就可以得到多少個離均差,還是不能說明整個數據資料的變異程度將各個離均差相加是最簡單的方法,■可以用離均差平方和來衡量數據的變異程度僅僅進行簡單地相加,還是不能反映數據資料中所有觀測值的總偏離程度

最理想的特定值就是平均數根據平均數的第二個性質可知,離均差平方和最小,也就是說將離均差平方後相加之和是最穩定的一個值,而且這個值不等於0

離均差平方和簡稱為平方和(sumofsquares),用SS表示

樣本平方和:總體平方和:用平方和衡量數據的變異程度:

離均差平方和消除了離均差正、負值的影響

離均差平方和的大小除了與變異程度有關外,還隨樣本容量的大小而改變為了消除樣本容量大小的影響,可以取其平均數,即用平方和除以樣本容量,即平方和的平均數稱為方差(variance)

為了使所得的統計量是相應總體參數的無偏估計量,在求離均差平方和的平均數時,分母不用樣本容量n,而用自由度n-1

樣本方差:總體方差:樣本均方S2是總體方差σ2的無偏估計值3.標準差

用方差衡量數據的變異程度:■同類資料進行比較時,方差越大就意味著數據資料的變異程度越大,因此方差是衡量數據資料變異程度的一個重要指標

■方差是通過平方求和得來的,在對觀測值進行平方的同時,它的單位也相應地進行了平方,因此在實際應用時很不方便樣本方差S2的平方根稱為樣本標準差(standarddeviation)3.1關於自由度的討論(1)對於樣本容量為n的樣本來說,每一個觀測值都要與平均數相比,都有一個離均差,即有n個離均差,但由於受到“離均差之和為0”的限制,其中只有n-1個離均差是自由的,有一個離均差必定失去自由(2)在統計學中,計算某個統計量時,如果該統計量受到了k個條件的限制,那麼它的自由度就為n-k

(3)使用自由度的目的之一就是為了使樣本方差能無偏地估計總體方差

總體方差σ2的平方根稱為總體標準差3.2標準差的計算

(1)直接法對於未分組或小樣本資料,可用標準差的概念公式來直接計算:

(2)校正值法大樣本資料一般採用校正值法(3)加權法對於分組資料可用加權法計算標準差:

3.3標準差的性質(1)標準差的大小,受數據資料中每個觀測值的影響觀測值間變異大,標準差大;觀測值間變異小,則標準差小(2)各觀測值同時加減一個常數,標準差不變(3)各觀測值乘上一個常數a,所得標準差將擴大a倍,各觀測值除以一個常數a,所得標準差將縮小a倍(4)標準差可以近似地估計觀測值的分佈情況。當資料服從正態分佈時,觀測值的分佈為:68.26%的觀測值分佈在μ±σ的範圍內95.45%的觀測值分佈在μ±2σ的範圍內99.73%的觀測值分佈在μ±3σ的範圍內μ±1.96σ的範圍內包含了95%的觀測值μ±2.58σ的範圍內包含了99%的觀測值第一節概率分佈一個總體是由一個隨機變數的所有可能取值來構成的,而樣本只是這些所有可能取值的一部分隨機變數中某一個值出現的概率,只是隨機變數一個側面的反映,若要全面瞭解隨機變數則必須知道隨機變數的全部值和各個值出現的概率,即隨機變數的概率分佈■概率和概率分佈是由樣本推斷總體的理論基礎隨機變數的種類很多,每一種隨機變數都有其特定的概率分佈

連續型隨機變數

離散型隨機變數在一定範圍內可連續取值的變數在一定範圍內只取有限種可能的值的變數正態分佈

二項分佈、泊松分佈

1.正態分佈

正態分佈(normaldistribution)是動物科學中應用最廣泛的一種連續型分佈類型許多生物學領域的隨機變數都服從或者近似服從正態分佈或通過某種轉換後服從正態分佈,許多其他類型分佈基本上都與正態分佈有關,它們的極限就是正態分佈

1.1正態分佈的定義

在日常工作中所遇到的變數大多是連續型隨機變數,當這一類隨機變數呈線性,往往服從正態分佈和正態分佈相對應的曲線稱為正態分佈密度曲線,簡稱為正態曲線用來描述正態曲線的函數稱為正態分佈密度函數μ—

總體平均數σ2—

總體方差π—

圓周率3.14σ—

總體標準差■任何一個正態分佈均由參數μ和σ所決定如果一個隨機變數x服從平均數為μ、方差為σ2的正態分佈,可記為x~N(μ,σ2)1.2正態分佈的特點

(1)正態分佈曲線以直線x=μ為對稱軸,左右完全對稱(3)正態分佈曲線有兩個拐點,拐點座標分別為(μ-σ,f(μ-σ))和(μ+σ,f(μ+σ)),在這兩個拐點處曲線改變方向,即曲線在(-∞,μ-σ)和(μ+σ,+∞)區間上是下凹的,在[μ-σ,μ+σ]區間內是上凸的●●●(2)在x=μ處,f(x)有最大值

(4)正態分佈曲線的位置由μ決定(μ為位置參數),形狀由σ決定(σ為形狀參數)(5)正態分佈曲線向兩邊無限延伸,以x軸為漸近線,分佈從-∞到+∞μ的大小決定了曲線在x軸上的位置σ的大小則決定了曲線的胖瘦程度當σ恒定時,μ愈大,則曲線沿x軸愈向右移動μ愈小,曲線沿x軸愈向左移動σ越大表示數據越分散,曲線越胖σ越小表示數據越集中,曲線越瘦1.3標準正態分佈正態分佈由μ和σ所決定,不同的μ值就決定了不同的正態分佈密度函數,因此在實際計算中很不方便為了能使正態分佈應用起來更方便一些,可以將x作一變換,令:由於x是隨機變數,因此u也是隨機變數,變換後的正態分佈密度函數為:標準正態分佈(standardnormaldistribution)均具有μ=0,σ2=1的特性如果隨機變數u服從標準正態分佈,可記為:u~N(0,1)

1.4正態分佈的概率計算

根據概率論原理,可知隨機變數x在區間[a,b)內取值的概率是一塊面積:面積由曲線所圍成的曲邊梯形所組成:隨機變數x在(-∞,+∞)間取值的概率為1,即:■求隨機變數x在某一區段內取值的概率就轉化成了求由該區段與相應曲線所圍成的曲邊梯形的面積由於正態分佈的概率密度函數比較複雜,積分的計算也比較麻煩,而這些計算在動物科學研究和生產實踐中又經常會用到

最好的解決辦法:將正態分佈轉化為標準正態分佈,然後根據標準正態分佈表(附表1)直接查出概率值

(1)標準正態分佈的概率計算

附表1列出了標準正態分佈隨機變數u在區間(

,uα]內取值的概率:例1:若u~N(0,1),求:(1)(2)(3)解:(1)(2)(3)關於標準正態分佈,以下幾種概率應當熟記:P(-1≤u<1)=0.6826P(-2≤u<2)=0.9545P(-3≤u<3)=0.9973P(-1.96≤u<1.96)=0.95P(-2.58≤u<2.58)=0.99P(|u|≥1)u變數在上述區間以外取值的概率,即兩尾概率:=1-P(-1≤u<1)

=1-0.6826=0.3174

P(|u|≥2)=1-P(-2≤u<2)=0.0455P(|u|≥3)=1-0.9973=0.0027P(|u|≥1.96)=1-0.95=0.05P(|u|≥2.58)=1-0.99=0.01(2)正態分佈的概率計算

例2:設x~N(30,102)試求x≥40的概率。對於服從任意正態分佈N(μ,σ2)的隨機變數,欲求其在某個區間的取值概率,需先將它標準化為標準正態分佈N(0,1)的隨機變數,然後查表即可解:首先將正態分佈

轉化為標準正態分佈,令:則u服從標準正態分佈,故:關於一般正態分佈,經常用到以下幾個概率:P(μ-σ≤x<μ+σ)=0.6826P(μ-2σ≤x<μ+2σ)=0.9545P(μ-3σ≤x<μ+3σ)=0.9973P(μ-1.96σ≤x<μ+1.96σ)=0.95P(μ-2.58σ≤x<μ+2.58σ)=0.99把隨機變數x落在平均數μ加減不同倍數標準差σ區間之外的概率稱為兩尾概率(雙側概率),記作α對應於兩尾概率可以求得隨機變數x小於μ-kσ或大於μ+kσ的概率,稱為一尾概率(單側概率),記作α/2α0.31730.0455

0.0027

0.050.01

α/2附表2:給出了滿足兩尾臨界值uα

因此,可以根據兩尾概率α,由附表2查出相應的臨界值uα

例3:已知u~N(0,1),試求uα:

(1)(2)解:(1)(2)2.二項分佈

二項分佈(binomialdistribution)是一種最常見的、典型的離散型隨機變數的概率分佈有些試驗只有非此即彼兩種結果,這種由非此即彼的事件構成的總體,稱為二項總體結果“此”用變數1表示,概率為p

結果“彼”用變數0表示,概率為q

對於n次獨立的試驗,如果每次試驗結果出現且只出現對立事件A與A-中之一,在每次試驗中出現A的概率是p(0<p<1),因而出現對立事A-件的概率是1-p=q,則稱這一連串重複的獨立試驗稱為n重貝努利試驗貝努利試驗在n重貝努利試驗中,事件A恰好發生m(0≤m≤n)次的概率為:其中:

m=0,1,2…,n

2.1二項分佈的定義

設隨機變數x所有可能取的值為零和正整數:0,1,2,…,n,且有其中:

m=0,1,2…,n

則稱隨機變數x服從參數為n和p的二項分佈,記為x~B(n,p)

■只有兩種可能結果的屬性資料服從二項分佈2.2二項分佈的特點

(1)當p值較小且n不大時,分佈是偏倚的,隨著n的增大,分佈逐漸趨於對稱p=0.3n=5n=20n=50(2)當p值趨於0.5時,分佈趨於對稱(3)對於固定的n及p,當m增加時,Pn(m)先隨之增加並達到其極大值,以後又下降(4)二項分佈在n較大,且np>5,nq>5時,接近正態分佈,n→∞時服從正態分佈,即二項分佈的極限是正態分佈(5)二項分佈的平均數為:

方差為:標準差為:例4:某奶牛場情期受胎率為0.6,該場對30頭髮情母牛配種,使24頭母牛一次配種受胎的概率為多少?解:2.3二項分佈的概率計算課堂練習:用某種常規藥物治療豬瘟的治癒率為0.7,對20頭患豬瘟的肥育豬進行治療,問20頭豬中16頭豬治癒的概率是多少?

解:3.泊松分佈

當二項分佈中的n→∞,p→0時,二項分佈趨向於一種新的分佈——泊松分佈(普哇松分佈)(Poisson’sdistribution)當試驗次數(或稱觀測次數)很大,而某事件出現的概率很小,則離散型隨機變數x服從於泊松分佈3.1泊松分佈的定義

若隨機變數x(x=m)只取零和正整數值0,1,2,…,且其概率分佈為:其中:則稱x服從參數為λ的泊松分佈,記為x~P(λ)

■泊松分佈主要是用來描述小概率事件發生的概率單位空間中某些野生動物數畜群中的畸形個體數畜群中某些遺傳性疾病的患病數

■泊松分佈不是用來描述幾乎不可能發生的事件的概率山無棱,天地合南京六月飛雪(1)泊松分佈只有一個參數λ,λ=np

3.2泊松分佈的特點

λ既是泊松分佈的平均值μ,又是方差σ2,即:(2)泊松分佈的圖形決定於λ,λ值愈小分佈愈偏倚,隨著λ的增大,分佈趨於對稱λ<1時P(x>0)為最大,1<λ<2時P(x=1)最大,2<λ<3時,P(x=2)最大,以此類推當λ=20時分布接近於正態分佈;當λ=50時,可以認為泊松分佈呈正態分佈統計假設檢驗是生物統計學的核心內容,是統計推斷的主要組成部分第一節統計假設檢驗的基本原理統計推斷(statisticalinference)就是通過樣本特徵(統計量)來推斷相應總體特徵(參數)的方法

參數估計(parametricestimate)通過樣本統計量估計總體參數的方法

點估計(pointestimate)

區間估計(intervalestimate)直接用樣本統計量的數值估計出相應總體參數具體值的方法在一定的概率保證下(一般為95%或99%),根據樣本統計量的分佈,計算出總體參數出現的數值範圍或區間,用該區間來估計總體參數的方法■參數估計是對總體參數的定量分析

統計假設檢驗(hypothesistest)根據某種實際需要,對未知的或不完全知道的總體參數提出一些假設,然後根據樣本觀測值和統計量的分佈,通過一定的計算,再作出在一定概率意義上應當接受哪種假設的方法統計假設檢驗的假設是對總體提出的,最後檢驗的結論只有兩種:比較的總體參數間要麼存在顯著差異,要麼不存在顯著差異■統計假設檢驗是對總體參數的定性分析

1.統計假設檢驗的意義

以兩個平均數之間差異的顯著性檢驗——t-檢驗為例現隨機挑選10名中國美女和10名韓國美女,請世界選美大賽評委和觀眾進行評分,試比較哪個國家美女更美?9.999.859.999.959.989.979.959.95中國美女的平均得分9.98韓國美女的平均得分9.91兩個國家美女的平均得分並不相等,其差值(表面效應)為:根據兩個樣本平均數的差值0.07,是否可以給兩個樣本所在總體的總體平均數下這樣的結論:中國美女總體的平均得分高於韓國美女總體的平均得分中國美女比韓國美女漂亮◆如果從經典數學的角度來看,答案應該是肯定◆如果從生物統計學的角度來看,在未經過統計假設檢驗以前,只能說“不一定”

事實上,僅僅憑藉2個樣本平均數之差不等於0就得出其所屬的2個總體平均數不相等是不可靠的實際上,進行試驗研究的目的並不在於瞭解樣本的結果,而是要通過樣本瞭解總體,通過樣本來推斷總體,從而對總體給出一個全面的結論在統計學中,一般用樣本平均數、作為統計假設檢驗的對象

、以樣本平均數差數的大小來對樣本所在的總體平均數μ1與μ2是否相同作出統計推斷

以樣本平均數作為檢驗對象的依據:

離均差平方和為最小,說明樣本平均數與樣本中各個觀測值之間相差最小,因此,平均數是一個樣本資料的最好代表值

樣本平均數是總體平均數的無偏估計值

根據中心極限定理,樣本平均數服從或逼近正態分佈實際上,每個觀測值(數據)都只是試驗的表面效應,而表面效應一般由兩部分組成:

試驗的處理效應

試驗的隨機誤差

樣本中每一觀測值xi可以被分解成兩部分:處理效應:用總體平均數μ表示誤差效應:用隨機誤差ε表示

樣本平均數為:總體平均數樣本平均數的差數也可分解成2部分:誤差平均數表面效應處理效應抽樣誤差2.統計假設檢驗的步驟

統計假設檢驗的基本原理和思路:■首先根據具體試驗目的提出一個假設■然後在假定該假設成立(或正確)的前提下進行試驗,並取得數據,接著對這些資料進行統計分析,獲得該假設成立的概率■最後根據所獲得的概率值的大小來判斷假設是否成立如果所得概率較大,就表明我們沒有足夠的理由來否定所作假設,即必須接受這一假設如果所得概率較小,就表明這一假設不大可能成立,應予否定,從而接受其對立假設例1:某地成年黑白花奶牛產奶量為52.3,標準差為5.38,現測得10頭黑白花奶牛產奶量分別為53.6,55.3,46.4,57.2,46.0,43.2,48.1,51.1,49.9,44.5;=49.53。試問這批黑白花奶牛是否來自於某地黑白花奶牛總體?(1)對所研究的總體提出假設研究某一隨機樣本所在的總體(用μ表示)和一已知總體(用μ0表示)是否為同一總體,也就是研究這一隨機樣本是否來自於已知總體假設:兩個總體為同一個總體(即兩個總體的總體平均數相等)無效假設(nullhypothesis)用H0表示即H0:μ=μ0

無效假設的含義:例1:無效假設就是假設兩總體的平均數相等,即H0:假設樣本平均數與已知總體平均數由抽樣誤差引起的,並不是兩總體之間的真實差異兩總體之間的差異是由抽樣誤差所引起的為了在無效假設被否定後有可以被接受的假設,因此應在設立無效假設的同時設立一個後備假設備擇假設(alternativehypothesis)用HA表示即HA:

備擇假設的統計學意義:例1:樣本所在總體與已知總體不是同一個總體,即兩總體平均數不等,即:兩總體之間的差異是真實差異,而不是由抽樣誤差引起的統計假設檢驗中完整的假設是:

兩總體之間的差異是真實差異(2)在假定無效假設成立的前提下,研究樣本平均數的抽樣分佈,計算樣本平均數出現的概率樣本平均數與總體平均數間有一個實際存在的差值:這個差值就是表面效應,可能是抽樣誤差,也可能是真實差異,因此需要借助概率原理來進行判斷

第一種方法:計算差值-2.77出現的概率在無效假設成立的前提下,樣本所在的總體與已知總體為同一個總體,因此樣本所在總體的總體平均數和方差已知,即:由於總體方差已知,根據標準正態分佈就可以計算出差值-2.77出現的概率

0.1~0.11

第二種方法:計算樣本平均數的接受區間根據標準化公式計算樣本平均數的接受區間:接受區間否定區間接受區間和否定區間是有一定的概率保證的,保證概率為1-α,常用的保證概率為95%和99%;α為顯著水準,常用的顯著水準有0.05和0.01倘若樣本平均數落在接受區間內,就接受H0,反之,倘若樣本平均數落在接受區間之外,就否定H0,接受HA作為0.05顯著水準上接受或否定無效假設的兩個臨界值作為0.01顯著水準上接受或否定無效假設的兩個臨界值95%的接受區間為:99%的接受區間為:(3)根據“小概率事件實際不可能性原理”接受或否定無效假設小概率事件實際不可能性原理是指在一次試驗中,概率很小的事件是不可能出現的當樣本平均數與總體平均數差值出現的概率小於5%時,就認為這種差異由抽樣誤差引起的概率較小,而是兩總體間的真實性差異,從而否定無效假設差值-2.77出現的概率為0.1~0.11,大於0.05,概率較大;說明樣本平均數與已知總體的總體平均數之間的差異是抽樣誤差的概率較大,而不大可能是真實差異接受無效假設,也就是說這批黑白花奶牛是來自於某地黑白花奶牛總體總結:統計假設檢驗的步驟(1)提出假設(2)計算樣本平均數抽樣分佈的t值或u值(3)查附表,根據小概率原理作出接受或者否定無效假設的推斷,並結合專業知識作出合理的、科學的解釋例2:1995年,已知某地20歲應徵男青年的平均身高為168.5cm。2005年在當地20歲應徵男青年中隨機抽取85人,平均身高為171.2cm,標準差為5.3cm,問2005年當地20歲應徵男青年的身高與1995年的是否相同?解:(1)提出假設H0:μ=168.5HA:μ≠168.5與1995年相比,2005年當地20歲應徵男青年的身高沒有變化與1995年相比,2005年當地20歲應徵男青年的身高有變化(2)計算u值(3)查表,作出推斷u0.05=1.96,u0.01=2.58|u|=4.70>2.58=u0.01,

P<0.01根據“小概率事件原理”可以認為無效假設不成立,因此否定無效假設,接受備擇假設樣本不是來自於已知總體,即2005年當地20歲應徵男青年的身高有變化,比1995年增高了在顯著性檢驗中,否定或接受無效假設的依據是“小概率事件實際不可能性原理”

用來確定否定或接受無效假設的概率標準稱為顯著水準,記作α

若|u|<u0.05

P>0.05,

說明表面效應屬於試驗誤差的可能性大,不能否定無效假設,兩個總體平均數間差異不顯著

若u0.05≤|u|<u0.01

P≤0.05,

說明表面效應屬於試驗誤差的概率P在0.01-0.05之間,表面效應屬於試驗誤差的可能性較小,應否定無效假設,接受備擇假設兩個總體平均數間差異顯著

標記*

若|u|≥u0.01

P≤0.01,

說明表面效應屬於試驗誤差的概率P不超過0.01,表面效應屬於試驗誤差的可能性更小,應否定無效假設,接受備擇假設

兩個總體平均數間差異極顯著

標記

**課堂練習:太湖豬母豬成年體重為75㎏,現從太湖豬產區隨機抽得60個個體,平均成年體重為70.8㎏,S=11.32㎏,問該樣本群就成年體重這一性狀來看,是否與總體符合?3.一尾檢驗和兩尾檢驗

所研究樣本的樣本平均數,有可能大於已知總體的總體平均數,也有可能小於已知總體的總體平均數,即計算所得的u值可能會落在標準正態分佈左邊否定區,也有可能會落在右邊否定區既考慮左邊否定區又考慮右邊否定區即考慮分佈曲線兩尾的檢驗稱為兩尾檢驗(two-tailedtest)在很多情況下,事先並不知道所抽樣本的樣本平均數是不是肯定大於總體平均數或肯定小於總體平均數因此,備擇假設HA:μ≠μ0中,有兩種可能性存在,既包括μ>μ0,又包括μ<μ0■兩尾檢驗是生物統計學中最常用的方法,應用範圍極其廣泛

有些時候,試驗目的是明確的,即所抽樣本的樣本平均數只可能大於總體平均數μ>μ0,或只可能小於總體平均數μ<μ0

在這種情況下,無效假設否定後的備擇假設只有一種情況:要麼μ<μ0

,要麼μ>μ0

只有一個否定區(一尾)的假設檢驗稱為一尾檢驗(one-tailedtest)

兩尾檢驗的假設:H0:μ=μ0,HA:μ≠μ0

一尾檢驗的假設:H0:μ>μ0,HA:μ<μ0

在樣本容量和顯著水準相同的情況下,一尾檢驗的效率高於兩尾檢驗,一尾檢驗比兩尾檢驗更容易否定無效假設若對同一資料進行兩尾檢驗和一尾檢驗,那麼在α水準上一尾檢驗顯著,只相當於兩尾檢驗在2α水準上顯著。所以,同一資料兩尾檢驗與一尾檢驗所得的結論不一定相同兩尾檢驗顯著,一尾檢驗一定顯著一尾檢驗顯著,兩尾檢驗未必顯著4.假設檢驗的兩類錯誤在假設檢驗中,接受或者否定無效假設的依據是“小概率事件實際不可能性原理”,因此所得出的結論(不論是接受還是否定無效假設)都沒有100%的把握,只是在一定的概率範圍內認為這種結論是正確的

4.1第一類錯誤如果無效假設H0成立,即H0:μ=μ0為真,但:

檢驗結果發現“差異顯著”而否定了它(此時,只有95%的把握,要冒5%下錯結論的風險)檢驗結果發現“差異極顯著”而否定了它(此時,只有99%的把握,要冒1%下錯結論的風險)這一類錯誤稱為Ⅰ型錯誤或α型錯誤Ⅰ型錯誤的實質就是把非真實差異(抽樣誤差)錯判為真實差異,即:H0:μ=μ0為真,卻接受了HA:μ≠μ0

棄真H0正確被否定犯Ⅰ型錯誤的概率不會超過顯著水準α(5%、1%)

4.2第二類錯誤

如果無效假設H0不成立,即H0:μ=μ0為假,但:

檢驗結果發現“差異不顯著”而接受了它,同時放棄了正確的備擇假設

在統計學中所謂的“差異不顯著”就是指沒有充分的理由去否定無效假設,但也沒有充分的理由去接受備擇假設,但生物統計學實行的是“非此即彼”的原則,因此,既然“差異不顯著”就必須接受無效假設。

這一類錯誤稱為Ⅱ型錯誤或β型錯誤Ⅱ型錯誤的實質就是把真實差異錯判為非真實差異,即雖然H0:μ=μ0是假的,但通過檢驗卻接受了存偽H0錯誤被接受“差異不顯著”不是指沒有差異,它存在2種可能:一是兩總體間的確沒有差異,平均數間的差異純屬抽樣誤差;二是兩總體間有差異,但由於實驗誤差大而掩蓋了這一差異統計推斷的基本特點就是“有很大的可靠性,但也有一定的錯誤率”

在動物科學研究和生產實踐中有很多品質性狀的數據資料(次數資料):■將其轉化成百分率資料,用u-檢驗進行分析■直接使用χ2檢驗來進行分析

單個樣本百分率的假設檢驗

兩個樣本百分率差異的假設檢驗第一節χ2檢驗原理1.基本原理從一個已知平均數為μ,方差為σ2的正態總體中,進行獨立地抽樣,可獲得隨機變數x,則其標準正態離差:~

N(0,1)如果連續進行n次獨立抽樣,可得n個標準正態離差ui,對這n個獨立的標準正態離差ui進行平方求和就得到一個新的統計量χ2:如果用樣本進行計算:在實際應用時,χ2定義為理論次數與觀察次數間的符合程度:O—觀察次數E—理論次數χ2檢驗主要應用於:□在遺傳學中,研究雜交後代某一性狀的分離比例是否符合孟德爾定律□在動物醫學中,研究某種疾病的發生與某種致病因素是否相關聯□在生物學中,研究群體的性別分離比例是否符合1∶1的比例孟德爾在利用豌豆進行遺傳學試驗時,發現F2代中紅花和白花的數量分別為705和224,經過分析提出了著名的分離定律(lawofsegregation),認為豌豆花顏色是由一對等位基因控制的按照孟德爾的分離定律,可以計算出F2代紅花和白花的理論次數:紅花的理論次數:929×3/4=696.75白花的理論次數:929×1/4=232.25可以看出,理論次數與觀察次數之間存在一定的差異:705-696.75=8.25224-232.25=-8.25觀察次數與理論次數之間的差異越小,說明觀察結果與理論值越相符

觀察次數與理論次數之間的差異越大,說明觀察結果與理論值越不符如何來定量地界定這種相符或不相符?■兩個差值相加(705-596.75)+(224-232.5)=8.25+(-8.25)=0推而廣之,觀察次數與理論次數的離差之和等於0,即:

因此,簡單相加根本不能反映出觀察次數和理論次數之間的差異程度進行平方相加,和就不會再等於零了,即:■兩個差值平方後相加平方後,可以使較大的差值變得更大,因而增加了分析問題的靈敏度

因此,平方相加可以反映出觀察次數和理論次數之間的變異程度

由於每個樣本的樣本容量可能不相等,因而不同樣本之間缺乏可比性■如果以理論次數為標準進行比較,則就可以順利解決這個問題了,即:紅花的χ2值:

白花的χ2值:

總的χ2值:

得到χ2值後,可以根據χ2分佈來推斷觀察次數與理論次數之間是否相符

2.χ2的顯著性檢驗

根據研究目的不同,χ2檢驗可分為2類:2.1適合性檢驗

適合性檢驗(testforgoodnessoffit)是用來檢驗某性狀的觀察次數與理論比例是否相符的一種χ2檢驗方法適合性檢驗的步驟為:

(1)提出假設H0:觀察次數與理論次數是相符的HA:觀察次數與理論次數是不相符的(3)查表,推斷(2)計算χ2值2.2獨立性檢驗

獨立性檢驗(testforindependence)是研究兩類試驗因數之間是相互獨立還是相互影響的一種χ2檢驗方法■獨立性檢驗與適合性檢驗不同,獨立性檢驗沒有一個給定的理論次數■獨立性檢驗所用的理論次數是在無效假設成立的前提下推算出來的

獨立性檢驗的步驟為:(1)提出假設(2)計算χ2值(3)查表,推斷H0:兩類試驗因數之間是相互獨立的HA:兩類試驗因數之間是有關聯的3.χ2的連續性校正◆χ2分佈是一種連續型的分佈類型◆在科學研究和臨床實踐中所得的次數資料屬於離散型分佈由次數資料得到的χ2統計量的抽樣分佈也具有離散性質,往往會造成偏低的估計,特別是在df=1時為了改善χ2統計量抽樣分佈的連續性,統計學家提出了一個校正公式:

將觀察次數與理論次數之差的絕對值減去0.5

連續性校正—

校正χ2值

0.5為連續性校正常數

連續性校正僅適用於df=1的情況,當df≥2時一般不作校正4.χ2檢驗的自由度

t-檢驗的自由度與樣本容量(n)有關配對數據:非配對數據:

χ2檢驗的自由度與觀察次數、理論次數的多少無關而是由類別(n)來確定的豌豆花的顏色有紅花和白花2類,自由度為:果蠅有4種類型:長灰、長黑、殘灰和殘黑,自由度為:第二節適合性檢驗適合性檢驗是用來檢驗實際的觀察次數與理論比例是否相符的一種χ2檢驗方法適合性檢驗主要用於以下幾個領域:(1)遺傳學分析

(2)品質鑒定和規範化作業

(3)檢驗觀測值的分佈是否符合某種理論分佈

◆孟德爾遺傳定律◆哈代-溫伯格平衡定律◆正態分佈◆二項分佈◆泊松分佈例1:為了研究人口性別比例,現對某一地區2006-2009年新生嬰兒進行抽樣調查,發現20500名新生嬰兒中男嬰11200名,試問此地男女兩性人口是否均衡?人口出生性別比(新生嬰兒性別比)是衡量男女兩性人口是否均衡的重要標誌,國際上一般以每出生100名女性人口相對應出生的男性人口的數值來表示

絕大多數國家的人口生育史表明,在不進行人為控制的情況下,新生嬰兒的性別比在102-107之間,為了計算方便,這裏取105(1)提出假設H0:此地男女兩性人口符合105:100的性別比例HA:此地男女兩性人口不符合105:100的性別比例先根據105:100的理論比例計算理論次數:男性的理論次數:20500×105/205=10500

女性的理論次數:20500×100/205=10000

(3)查表,推斷根據自由度df=1,查χ2值表:P<0.01差異極顯著此地男女兩性人口不符合105:100的性別比例,男女兩性人口嚴重失衡否定H0,接受HA課堂練習1:純種白豬和純種黑豬交配,F1後代全為白豬,F1代內橫交,F2代毛色發生了分離。現統計了某一個豬場內F2代680頭仔豬,發現白色仔豬494頭,黑色仔豬186頭,試問F2代仔豬的毛色性狀是否符合孟德爾分離定律?例2:果蠅兩對性狀F2代表現出的4種不同的表型,觀察次數分別為154、43、53、6,試問該批資料是否符合9:3:3:1的遺傳比例?(1)提出假設H0:F2代表型符合9:3:3:1的遺傳比例HA:F2代表型不符合9:3:3:1的遺傳比例(2)計算χ2值根據9:3:3:1的理論比例計算理論次數:總觀察次數:154+43+53+6=256A-B-:256×9/16=144A-bb:256×3/16=48aaB-:256×3/16=48

aabb:256×1/16=16(3)查表,推斷根據自由度df=3查表,可得:P<0.05說明F2代表型不符合9:3:3:1的遺傳比例否定H0,接受HA當df≥2,χ2檢驗差異顯著或極顯著,表示整批資料不符合某一理論比例

根據總的χ2值無法判斷出:到底是全部資料均不符合理論比例還是其中的部分資料不符合比例?為了確定各部分的符合程度,應當對總的χ2值進行分割,即χ2再分割(4)χ2再分割χ2再分割是建立在χ2具有可加性的特點上的,即:但這種可加性只有在次數資料各部分相互獨立,並不作χ2的連續性校正時才成立的差異顯著前三部分的χ2值均較小,因此可先取前三部分的比率作χ2檢驗,即檢驗前三部分是否符合9:3:3的比例(a)檢驗前三部分是否符合9:3:3的遺傳比例總觀察次數為154+43+53=250計算理論次數:A-B-:250×9/15=150

A-bb:250×3/15=50

aaB-:250×3/15=50

接受H0,否定HA

說明前三部分實際觀測值符合9:3:3的遺傳比例P>0.05差異不顯著(b)檢驗前三部分組合與aabb是否符合15:1的比例理論次數分別為:組合:256×15/16=240aabb:256×1/16=16P<0.05,差異顯著,否定H0,接受HA

說明aabb不符合理論比例■χ2適合性檢驗一般應針對大樣本資料,樣本容量過小會影響到檢驗的正確性,特別是理論比例中有較小值時,更應注意樣本容量第三節獨立性檢驗獨立性檢驗是檢驗兩個變數、兩個試驗因數之間是相互獨立的還是相關的一種χ2檢驗方法獨立性檢驗的無效假設H0:兩因數相互獨立(無關);備擇假設HA:兩因數相關獨立性檢驗無已知的理論比例,因此必須用列表的方式根據現有的觀察次數來推算理論次數獨立性檢驗用列表的方式來推算理論次數的方法是建立在無效假設成立,也就是兩因數無關的基礎上的1.2×2列聯表

獨立性檢驗所列的兩向表格稱為列聯表根據分組數的多少,列聯表可分為2×2、2×C和R×C三種形式2×2列聯表是列聯表中最簡單的一種形式C1C2R1abR2cd總和總和a+b=TR1c+d=TR2a+c=TC1b+d=TC2a+b+c+d=T例1:在將苗雞放進雞舍前一般要先對雞舍進行消毒,以降低疾病的發生。現進行雞舍消毒試驗,得數據如下,試問消毒能否有效降低疾病的發生?

發病未發病合計消毒3092122不消毒5863121合計88155243(44.18)(43.82)(77.82)(77.18)(1)提出假設

H0:雞舍消毒與疾病的發生無關HA:雞舍消毒與疾病的發生相關獨立性檢驗的自由度為:a格的理論次數:

b格的理論次數:(3)查表,推斷P<0.01差異極顯著雞舍消毒可極顯著地降低疾病的發生否定無效假設,接受備擇假設2.2×C或R×2表例2:為了研究雞的飼養密度與雞的啄癖有無關系,設計了如下試驗,按密度大小分為三種飼養方式,檢查不同密度下有啄癖的雞只數,得數據如下,並列成2×3表,試分析飼養密度與雞的啄癖有無關系。較低中等較高合計啄癖數141722正常數798683248合計8090100270(6.52)(73.48)(7.33)(82.67)(8.15)(91.85)(1)提出假設

H0:雞的啄癖與飼養密度無關HA:雞的啄癖與飼養密度有關(2)計算χ2值

=(2-1)(3-1)=2(3)查表,推斷P<0.01差異極顯著否定無效假設,接受備擇假設,即雞的啄癖與飼養密度有極顯著地關聯(4)χ2再分割A.檢驗中等密度是否與雞的啄癖有關分析較低飼養密度、中等飼養密度與啄癖的關係低中合計啄癖數1(2.35)4(2.65)5正常數79(77.65)86(87.35)165合計8090170經計算,可得:P>0.05中等飼養密度並不顯著增加雞的啄癖數B.檢驗高等飼養密度是否與啄癖有關將飼養較低飼養密度和中等飼養密度的合併起來檢驗較高飼養密度

合併高合計啄癖數5(13.85)17(8.15)22正常數165(156.15)83(91.85)248合計170100270經計算,可得:P<0.01差異極顯著高的飼養密度可極顯著地引發雞的啄癖的發生第一節方差分析的基本概念2個平均數之間差異的顯著性檢驗一般用t-檢驗或u-檢驗來進行分析3個或3個以上平均數之間差異的顯著性檢驗是否仍然可以採用t-檢驗或u-檢驗來進行分析呢?(I)工作量相當大如果對k個(k≥3)樣本平均數進行t-檢驗時,需要假設檢驗的次數為:對5個平均數進行t-檢驗時需要進行10次t-檢驗對10個平均數進行t-檢驗時需要進行45次t-檢驗(II)無統一的試驗誤差對同一個試驗的多個樣本平均數進行比較時,應當有一個統一的試驗誤差但是,如果用t-檢驗對多個樣本平均數進行兩兩比較時:每進行一次t-檢驗都需要計算一個標準誤:(III)誤差估計的精確性低假設一個試驗中,有k個(k≥3)樣本,每個樣本的樣本容量均為n■用t-檢驗進行兩兩比較,那麼,每次只能利用兩個樣本共2n個觀測值估計試驗誤差,誤差自由度為2(n-1)■利用整個試驗的kn個觀測值估計試驗誤差,誤差自由度為k(n-1)用t-檢驗對3個或3個以上的樣本平均數進行分析時,由於誤差自由度小,誤差估計的精確性低,使檢驗的靈敏度降低,容易掩蓋差異的顯著性(IV)犯I型錯誤的概率大

用t-檢驗進行多個樣本平均數間差異的顯著性檢驗,隨著樣本數量的增大而增大犯I型錯誤的概率用t-檢驗來比較5個樣本平均數,就會有10個差數,對這10個差數都以α=0.05為顯著水準進行假設檢驗■每一差數獲得正確結論的概率是1-α=0.95■10個差數都獲得正確結論的概率只有0.9510=0.5987■在10個兩兩比較中,犯I型錯誤的概率就不再是α=0.05,而是α=1-0.5987=0.4013方差是衡量數據變異程度的特徵值

平方和的平均數引起變數發生變異的原因稱為變異因素或變異來源◆方差分析就是發現各類變異來源相對重要性的一種方法方差分析的基本思路

把整個試驗(設有k個樣本)資料作為一個整體來考慮,把整個試驗的總變異按照變異的來源分解成不同來源的變異,即把總方差分解成不同來源的方差由於樣本方差等於平方和除以自由度,因此把總方差分解成不同來源的方差,就等於把總方差中的平方和、自由度分解為相應的不同變異來源的平方和、自由度,進而獲得不同變異來源方差的估計值,從而發現不同變異來源方差的相對重要性第二節單因素方差分析1.組內樣本容量相同的單因素資料

單因素資料是指在試驗時僅考慮一個因素,除這一因素外,其餘因素均控制在同一水準上當每一組內的供試動物個數相等時,就稱為組內樣本容量相等的單因素資料試驗因素(experimentalfactor)試驗中所研究的影響試驗指標的因素

因素水準(level)試驗因素所處的某種特定狀態或數量等級1.1數學模型和數據結構從一個正態總體N(μ,σ2)中隨機抽取一個樣本容量為n的樣本,則樣本中每一觀測值為:樣本平均數為:如果對上述總體施加效應為a的處理,則樣本中每一個觀測值為:如果將N(μ,σ2)的總體分成k個亞總體,每一個亞總體施加一個效應為ai的處理,則每一亞總體的平均數為:從每一亞總體內抽取一個樣本容量為n的樣本,則有k個樣本:

樣本12…i…k觀測值x11…x12x1j…x1nx2nx21xi2xi1xk1x2jxk2xknxkjxinxijx22………………………………………………任何一個觀測值均具有線性模型:

1.2平方和、自由度的剖分全部觀測值的總平方和為:第1個樣本內的平方和為:第2個樣本內的平方和為:第i個樣本內的平方和為:第k個樣本內的平方和為:組內平方和(誤差平方和):組間變異就是k個樣本平均數的變異,其平方和、自由度為:組間均方:

組內均方:

獲得3個均方:總均方:組內均方:組間均方:三個均方的平方和、自由度之間的關係

三個均方的自由度之間的關係

總自由度=組間自由度+組內自由度

總自由度可以剖分為兩部分:組間自由度、組內自由度

三個均方的平方和之間的關係

同理,第2個樣本、第i個樣本、第k個樣本都有相似的等式:第一個樣本的每個觀測值與總平均數的離差平方和:總平方和=組間平方和+組內平方和總平方和可以剖分為兩部分:組間平方和、組內平方和1.3F-檢驗組間均方:組間平方和除以組間自由度組內均方:組內平方和除以組內自由度如果對各亞總體施加的處理效應足夠大,樣本平均數之間的差距就會足夠大,則組間均方就會顯著大於組內均方,F值就會達到顯著水準用F值進行的假設檢驗稱為F-檢驗,又稱為方差分析F-檢驗的步驟

無效假設H0:(1)提出假設備擇假設HA:至少有兩個均數不相等(2)計算F值(3)查表,推斷根據第一自由度dfb、第二自由度dfe由附表5查出顯著水準α=0.05和0.01的兩個臨界值,將計算的F值與之相比較,作出推斷

■方差分析表例1:選用4種不同劑型的配合飼料作太湖豬的配合飼料劑型試驗,每一劑型飼喂5頭太湖豬,得增重數據如下,試對不同劑型飼料對太湖豬增重效果的差異進行檢驗。無效假設H0:(1)提出假設備擇假設HA:4個均數不全相等(2)計算F值解:檢驗步驟如下:計算均方(MS)值、F值並建立方差分析表:(3)查表,推斷查附表5,F0.05(3,16)=3.24,F0.01(3,16)=5.29F>F0.01,即P<0.01,F值極顯著

否定H0,接受HA,即4種劑型的飼料對太湖豬增重的影響有極顯著的差異**課堂練習:為了研究長白豬、杜洛克、太湖豬、新淮豬等4個不同豬種的生長速度,現從每個品種豬中隨機抽取5頭同日齡的架子豬,在相同的飼養條件下飼養一個月後得到增重量如下,試進行方差分析。1.4多重比較(multiplecomparisons)

多重比較的總體原則都是構建平均數差數的顯著尺度

多重比較的第一步就是求出尺度值多重比較的第二步是用平均數差數值與相應的尺度值比較

差數值大於尺度值,就表示兩平均數間差異顯著或極顯著

差數值小於尺度值,就表示兩平均數間差異不顯著1.4.1LSD法

LSD法即最小顯著差數法(leastsignificantdifference),是多重比較中一種最簡便的方法LSD法多重比較步驟:■建立平均數的多重比較表,將各組按其平均數從大到小自上而下排列■計算最小顯著差數LSD0.05和LSD0.01

■將平均數多重比較表中兩兩平均數的差數與LSD0.05和LSD0.01比較,作出推斷例1:選用4種不同劑型的配合飼料作太湖豬的配合飼料劑型試驗,每一劑型飼喂5頭太湖豬,得增重數據如下,試對不同劑型飼料對太湖豬增重效果的差異進行檢驗。**a.建立平均數多重比較表組(劑型)A4A3

A1

A2

25.022.820.217.67.45.22.64.82.62.2b.計算最小顯著差數c.比較,推斷將平均數差數與最小顯著差數比較:

小於LSD0.05者為不顯著

介於LSD0.05與LSD0.01之間者顯著,在差數的右上方標記*

大於LSD0.01者極顯著,在差數的右上方標記********A3劑型飼料對太湖豬的增重效果極顯著高於A2

A4劑型飼料對太湖豬的增重效果極顯著高於A2

A3劑型飼料對太湖豬的增重效果極顯著高於A1

1.4.2LSR法

LSR法即最小顯著極差法(Leastsignificantranges)LSR法的特點是把平均數的差數看成是平均數的極差,根據極距r(平均數的距離)的不同而採用不同的檢驗尺度■克服了LSD法的不足■檢驗的工作量有所增加(1)q法(qtest)q法為一種比較客觀的方法,其尺度公式為:q法多重比較的步驟:■建立平均數多重比較表■由自由度dfe、極距r查臨界q值,計算最小顯著極差LSR0.05,r和LSR0.01,r■將平均數多重比較表中的各極差與相應的最小顯著極差LSR0.05,r和LSR0.01,r比較,作出推斷例1:選用4種不同劑型的配合飼料作太湖豬的配合飼料劑型試驗,每一劑型飼喂5頭太湖豬,得增重數據如下,試對不同劑型飼料對太湖豬增重效果的差異進行檢驗。**a.建立平均數多重比較表b.計算最小顯著極差極距(r)234q0.05q0.013.004.133.654.78

4.055.19LSR0.05LSR0.013.435

4.7294.1785.4714.6355.940查qα值,計算最小顯著極差c.比較,推斷****(2)SSR法SSR法(shortestsignificantranges)又稱為新複極差法(newmultiplerangemethod)和Duncan法

SSR法的尺度公式為:SSR法與q法的檢驗步驟相同■LSD法、q法和SSR法檢驗尺度的關係LSD法≤SSR法≤q法

極距r=2時,取等於號

極距r≥3時,取小於號2.組內樣本容量不等的單因素資料

2.1平方和、自由度的剖分2.2F檢驗步驟與組內樣本容量相等的單因素資料相同

2.3多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论