生物统计学课件_第1页
生物统计学课件_第2页
生物统计学课件_第3页
生物统计学课件_第4页
生物统计学课件_第5页
已阅读5页,还剩970页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章概論第一節什麼是統計學?一、概念

統計學(Statistics)是把數學的語言引入具體的科學領域,把具體科學領域中要待研究的問題抽象為數學問題的過程,它是收集、分析、列示和解釋數據的一門藝術和科學。二、發展概況原始社會奴隸社會封建社會資本主義社會迅速發展形成分支生物統計學形成不同學派:1、政治算術學派起源於17世紀60年代的英國代表人物:威廉.配第(WilliamPetty,1623~1687)約翰.格朗托(JohnGraunt,1620~1674)代表作:《政治算術》但未採用“統計學”這個詞2、國勢學派,又叫記述學派創建於17世紀的德國代表人物:海爾曼.康令(HermanConring,1606~1681)

阿痕瓦爾(GottfriedAchenwall,1791~1772)代表作:《近代歐洲各國國勢論》首次採用“stastistik”

德國經濟學家和統計學家克尼斯(K.G.AKnies,1821~1898)在1850年發表的論文《獨立科學的統計學》中主張把“國家論”作為“國勢學”的科學命名,“統計學”作為“政治算術”的科學命名。3、數理統計學派產生於19世紀中葉代表人物:阿道夫.凱特勒(L.A.JQuetelet,1796~1874)

高爾登(F.Galtonl,1822~1911)

皮爾遜(K.Pearson,1857~1936)逐漸形成一門獨立的應用數學。

1867年韋特斯坦(T.Wittstein)把既是數學,又是統計學的新生科學命名為數理統計學。4、社會統計學派以德國為中心,創建於19世紀後期代表人物:恩格爾(C.I.E.Engel,1821~1896)

梅爾(C.G.V.Mager,1841~1925)認為統計學研究的對象是社會科學,而數理統計學是一門應用數學。19世紀中葉誕生了馬克思主義的統計理論,後來,列寧對其進行了豐富和發展。三、統計學發展史中的重大事件與重要代表人物J.Bernoulli(貝努裏,瑞士,1654~1705)

系統論證了“大數定律”,即樣本容量越大,樣本統計數與總體參數之差越小。P.S.Laplace(拉普拉斯,法國,1749~1827)

最早系統的把概率論方法運用到統計學研究中去,建立了嚴密的概率數學理論,並應用到人口統計、天文學等方面的研究上。Gauss(高斯,德國,1777~1855)

正態分佈理論最早由DeMoiver於1733年發現,後來Gauss在進行天文觀察和研究土地測量誤差理論時又一次獨立發現了正態分佈(又稱常態分佈)的理論方程,提出“誤差分佈曲線”,後人為了紀念他,將正態分佈也稱為Gauss分佈。F.Galton(高爾登,英國,1822~1911)

19世紀末統計學開始用於生物學的研究。1882年Galton開設“人體測量實驗室”,測量9337人的資料,探索能把大量數據加以描述與比較的方法和途徑,引入了中位數、百分位數、四分位數、四分位差以及分佈、相關、回歸等重要的統計學概念與方法。1889年發表第一篇生物統計論文《自然界的遺傳》。1901年Galton和他的學生Pearson創辦了“Biometrika(生物統計學報)”雜誌,首次明確“Biometry(生物統計)”一詞。所以後人推崇Galton為生物統計學的創始人。K.Pearson(卡.皮爾遜,英國,1857~1936)

Pearson的一生是統計研究的一生。他首創頻數分佈表與頻數分佈圖,如今已成為最基本的統計方法之一;觀察到許多生物的度量並不呈現正態分佈,利用相對斜率得到矩形分佈、J型分佈、U型分佈或鈴型分佈等;1900年獨立發現了X2分佈,提出了有名的卡方檢驗法,後經Fisher補充,成為小樣本推斷統計的早期方法之一;Pearson對“回歸與相關”進一步作了發展,在1897~1905年,Pearson還提出複相關、總相關、相關比等概念,不僅發展了Galton的相關理論,還為之建立了數學基礎。W.S.Gosset(歌賽特,英國,1777~1855)

在生產實踐中對樣本標準差進行了大量研究。於1908年以“Student(學生)”為筆名在該年的Biometrika上發表了論文《平均數的概率誤差》,創立了小樣本檢驗代替大樣本檢驗的理論,即t分佈和t檢驗法,也稱為學生式分佈。t檢驗已成為當代生物統計工作的基本工具之一,為多元分析理論的形成和應用奠定了基礎,為此,許多統計學家把1908年看作是統計推斷理論發展史上的里程碑。R.A.Fisher(費歇爾,英國,1890~1962)

Fisher一生論著頗多,共寫了329篇。他跨進統計學界是從研究概率分佈開始的,1915年在Biometrika上發表論文《無限總體樣本相關係數值的頻率分佈》,被稱為現代推斷統計學的第一篇論文。1923年發展了顯著性檢驗及估計理論,提出了F分佈和F檢驗,1918年在《孟德爾遺傳試驗設計間的相對關係》一文中首創“方差”和“方差分析”兩個概念,1925年提出隨機區組和正交拉丁方試驗設計,並在盧桑姆斯坦德農業試驗站得到檢驗與應用,他還在試驗設計中提出“隨機化”原則,1938年和Yates合編了FisherYates亂數字表。另外,

Neyman(1894~1981)和S.Pearson進行了統計理論研究,分別與1936和1938年提出一種統計假說檢驗學說。P.C.Mabeilinrobis對作物抽樣調查、A.Waecl對序貫抽樣、Finney對毒理統計、K.Mather對生統遺傳學、F.Yates對田間試驗設計等都作出了傑出貢獻。四、統計學在中國的傳播

我國在解放前,社會經濟發展緩慢,統計的應用和發展受到了很大的限制。1913年,顧澄教授(1882~?)翻譯了英國統計學家尤爾的著作《統計學之理論》(1911),即為英美數理統計學傳入中國之始。之後又有一些英美統計著作被翻譯成中文,Fisher的理論和方法也很快傳入中國。在20世紀30年代,《生物統計與田間試驗》就作為農學系的必修課,1935年王綬(1876~1972)編著出版的《實用生物統計法》是我國出版最早的生物統計專著之一。隨後1942年範福仁出版了《田間試驗技術》等,這些對推動我國農業生物統計和田間試驗方法的應用都產生了很大影響。

新中國成立後,許多學者翻譯、編著了統計學論著,有力的推動了數理統計方法在中國的普及和應用。1978年12月國家統計局在四川峨眉召開了統計教學、科研規劃座談會,全面引進了前蘇聯的社會經濟統計理論和統計制度,對我國社會經濟統計學的發展起到了一定的積極作用。這以後有關統計學的教材與論著如雨後春筍般湧現,統計工作和統計科研迅速發展。1984年1月1日頒佈實施《中華人民共和國統計法》,1987年2月國家統計局又發佈《中華人民共和國統計法實施細則》,1996年5月八屆人大十九次會議通過了《關於修改<中華人民共和國統計法>的決定》。隨著電腦的迅速普及,統計電算程式SAS(StatisticalAnalysisSystem)、SPSS(StatisticalPackageforSocialScience)、Excel等的引進,統計學在中國的應用與研究出現了嶄新的局面。

第二節

生物統計學的概念及主要內容一、概念

生物統計學(Biostatistics)是數理統計在生物學研究中的應用,它是應用數理統計的原理,運用統計方法來認識、分析、推斷和解釋生命過程中的各種現象和試驗調查資料的科學。屬於生物數學的範疇。二、主要內容生的物基統本計內學容試驗設計統計分析基本原則方案制定常用試驗設計方法資料的搜集和整理數據特徵數的計算統計推斷方差分析回歸和相關分析協方差分析主成分分析聚類分析對比設計隨機區組設計裂區設計拉丁方設計正交設計生物統計學的基本作用:提供整理和描述數據資料的科學方法,確定某些性狀和特徵的數量特徵。運用顯著檢驗,判斷試驗結果的可靠性或可行性。提供由樣本推斷總體的方法。提供試驗設計的的一些重要原則。第三節常用統計學術語一、總體與樣本具有相同性質或屬性的個體所組成的集合稱為總體(population),它是指研究對象的全體;組成總體的基本單元稱為個體(individual);從總體中抽出若干個體所構成的集合稱為樣本(sample);總體又分為有限總體和無限總體:含有有限個個體的總體稱為有限總體(finitudepopuoation);包含有極多或無限多個體的總體稱為無限總體(infinitudepopuoation).

構成樣本的每個個體稱為樣本單位;樣本中所包含的個體數目叫樣本容量或樣本大小(samplesize),樣本容量常記為n。一般在生物學研究中,通常把n≤30的樣本叫小樣本,n>30的樣本叫大樣本。對於小樣本和大樣本,在一些統計數的計算和分析檢驗上是不一樣的。研究的目的是要瞭解總體,然而能觀測到的卻是樣本,通過樣本來推斷總體是統計分析的基本特點。二、變數與常量

變數,或變數,指相同性質的事物間表現差異性或差異特徵的數據。

常數,表示能代表事物特徵和性質的數值,通常由變數計算而來,在一定過程中是不變的。變量定性變數定量變數連續變數非連續變數只有整數出現可以有任何小數出現

為了表示總體和樣本的數量特徵,需要計算出幾個特徵數,包括平均數和變異數(極差、方差、標準差等)。描述總體特徵的數量稱為參數(parameter),也稱參量。常用希臘字母表示參數,例如用μ表示總體平均數,用σ表示總體標準差;描述樣本特徵的數量稱為統計數(staistic),也稱統計量。常用拉丁字母表示統計數,例如用表示樣本平均數,用S表示樣本標準差。三、參數與統計數四、效應與互作

通過施加試驗處理,引起試驗差異的作用稱為效應。效應是一個相對量,而非絕對量,表現為施加處理前後的差異。效應有正效應與負效應之分。

互作,又叫連應,是指兩個或兩個以上處理因素間相互作用產生的效應。互作也有正效應(協同作用)與負效應(拮抗作用)之分。五、機誤與錯誤變異效應誤差隨機誤差/機誤(Randomerror)系統誤差/錯誤(Systematicerror)

隨機誤差,也叫抽樣誤差(samplingerror)。這是由於試驗中無法控制的內在和外在的偶然因素所造成。如試驗動物的初始條件、飼養條件、管理措施等儘管在試驗中力求一致,但也不可能達到絕對一致,所以隨機誤差帶有偶然性質,在試驗中,即使十分小心也是不可避免的。如果通過良好的試驗設計、正確的試驗操作,增加抽樣或試驗次數,隨機誤差可能減小,但不可能完全消滅。統計上的試驗誤差一般都指隨機誤差。隨機誤差越小,試驗精確性越高。

系統誤差,也叫片面誤差(lopsidederror)。這是由於試驗條件控制不一致、測量儀器不准、試劑配製不當、試驗人員粗心大意使稱量、觀測、記載、抄錄、計算中出現錯誤等人為因素而引起的。系統誤差影響試驗的準確性。只要以認真負責的態度和細心的工作作風是完全可以避免的。六、準確性與精確性

準確性(accuracy),也叫準確度,指在調查或試驗中某一試驗指標或性狀的觀測值與其真值接近的程度。設某一試驗指標或性狀的真值為μ,觀測值為

x,若x與μ相差的絕對值|x-μ|越小,則觀測值x的準確性越高;反之則低。精確性(precision),也叫精確度,指調查或試驗中同一試驗指標或性狀的重複觀測值彼此接近的程度。若觀測值彼此接近,即任意二個觀測值xi、xj

相差的絕對值|xi-xj|越小,則觀測值精確性越高;反之則低。試驗資料的整理特徵數的計算與第二章第一節:試驗資料的搜集與整理一、試驗資料的類型二、試驗資料的搜集三、試驗資料的整理對試驗資料進行分類是統計歸納的基礎。試驗資料類型數量性狀資料品質性狀資料/屬性性狀資料計數資料/非連續變數資料計量資料/連續變數資料

數量性狀(quantitativecharacter)是指能夠以計數和測量或度量的方式表示其特徵的性狀。觀察測定數量性狀而獲得的數據就是數量性狀資料(dataofquantitativecharacteristics)。數量性狀資料的獲得有計數和測量兩種方式,因而數量性狀資料又分為計數資料和計量資料兩種。一、數量性狀資料

1、計數資料

指用計數方式獲得的數量性狀資料。在這類資料中,它的各個觀察值只能以整數表示,在兩個相鄰整數間不得有任何帶小數的數值出現,因此各觀察值是不連續的,所以該類資料也稱為非連續變數資料或間斷變數資料或離散變數資料。

2、計量資料

指用測量或度量法獲得的數量性狀資料,即用度、量、衡等計量工具直接測定獲得的數據資料。其數據是用長度、重量、容積、溫度、濃度等來表示,要帶單位。這種資料的各個觀測值不一定是整數,兩個相鄰的整數間可以有帶小數的任何數值出現,其小數位數的多少由度量工具的精確度而定,它們之間的變異是連續性的,因此計量資料也稱為連續變數資料。

二、品質性狀資料

品質性狀(qualitativecharacter)是指能觀察到而不能直接測量的性狀。觀察品質性狀而獲得的數據就是品質性狀資料(dataofqualitativecharacteristics),也稱為屬性性狀資料。這類性狀本身不能直接用數值表示,要獲得這類性狀的數據資料,須對其觀察結果作數量化處理,其方法有以下兩種:

1、統計次數法

在一定的總體或樣本中,根據某一品質性狀的類別統計其次數,以次數作為品質性狀的數據。例如,在研究豌豆的花色遺傳時,紅花與白花雜交,子二代中紅花、紫花和白花的株數分類統計如下表。株數頻率紅花26626.6%紫花49449.4%白花24024.0%總計1000100.0%這種由品質性狀數量化得來的資料又叫次數資料。

2、評分法

對某一品質性狀分成不同級別,對不同級別進行評分來表示其性狀差異的方法。從而將品質性狀進行數量化,以便統計分析。第一節:試驗資料的搜集與整理一、試驗資料的類型二、試驗資料的搜集三、試驗資料的整理調查試驗資料搜集的方法一、調查

調查是對已經存在的事情的資料按某種方案進行收集的方法。資料的調查又可以分為兩種:普查和抽樣調查。1、普查

是對研究對象的全部個體逐一進行調查的方法。普查一般要求在一定的時間或範圍進行,要求準確和全面。2、抽樣調查

是根據一定的原則從研究對象中抽取一部分具有代表性的個體進行調查的方法。通過抽樣將獲得的樣本資料進行統計處理,然後利用樣本的特徵數對總體進行推斷。生物學研究中,進行普查的情況較少,多數情況下還是進行抽樣調查。隨機抽樣必須滿足2個條件:一是總體中每個個體被抽中的機會是均等的;二是總體中任意一個個體是相互獨立的,是否被抽中不受其他個體的影響。二、試驗

試驗是對已有的或沒有的事物加以處理的方法。常見的試驗設計方法有:對比設計、隨機區組設計、平衡不完全區組設計、裂區設計、拉丁方設計、正交設計、正交旋轉設計等等。試驗設計須遵循的三大原則是:隨機、重複和局部控制。第一節:試驗資料的搜集與整理一、試驗資料的類型二、試驗資料的搜集三、試驗資料的整理三、試驗資料的整理(一)原始資料的檢查與核對調查試驗原始數據核對檢查訂正

檢查和核對原始資料的目的:確保原始資料的完整性和正確性。三、試驗資料的整理(二)次數分佈表統計表的結構和要求:結構簡單,層次分明,安排合理,重點突出,數據準確。總橫標目(或空白)縱標目1縱標目2……橫標目1橫標目2數字資料……表號標題1、標題簡明扼要、準確地說明表的內容,有時須注明時間、地點。2、標目標目分橫標目和縱標目兩項。橫標目列在表的左側,縱標目列在表的上端,標目需注明計算單位,如%、kg、cm等等。3、數字一律用阿拉伯數字,數字以小數點對齊,小數位數一致,無數字的用“─”表示,數字是“0”的,則填寫“0”。4、線條多用三線表,上下兩條邊線略粗。三、試驗資料的整理1計數資料的整理計數資料基本上採用單項式分組法進行整理。特點:用樣本變數自然值進行分組,每組用一個或幾個變數值來表示。1712141314121114131614141317151414161414151514141411131214131413151413151413141516161413141513151315151514141614151713161416151314141414161213121412151615161413151714131412171415表2-1

100只來亨雞每月的產蛋數11~17來亨雞每月產蛋數變動範圍:分為7組統計各組次數計算頻率和累積頻率製錶每月產蛋數次數頻率累積頻率

FrequencyPercentCumulativePercent1120.020.021270.070.0913190.190.2814350.350.6315210.210.8416110.110.951750.051.00表2-2

100只來亨雞每月產蛋數次數分佈表每月產蛋數次數頻率累積頻率

FrequencyPercentCumulativePercent1120.020.021270.070.0913190.190.28

14350.350.6315210.210.8416110.110.951750.051.00表2-2

100只來亨雞每月產蛋數次數分佈表1自然值進行分組,最大值17,最小值11。2數據主要集中在14,向兩側分佈逐漸減少。表2-3小麥品種300個麥穗穗粒數的次數分佈表每穗粒數次數頻率累積頻率

FrequencyPercentCumulativePercent

18-2230.01000.010023-27180.06000.0700

28-32

380.12670.1967

33-37510.17000.3667

38-42680.22670.5934

43-47530.17660.7700

48-52410.13670.906753-57220.07330.980058-6260.02001.000045組?9組三、試驗資料的整理2計量資料的整理計量資料一般採用組距式分組法。全距組數組距組限歸組製錶表2-4

150尾鰱魚體長(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585

5958546248634661625738585254556652485675725737467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263(1)求全距,又稱極差

(range):R=Xmax-Xmin

=85-37=48(cm)(2)確定組數和組距(classboundary)

組數是根據樣本觀測數的多少及組距的大小來確定的,同時考慮到對資料要求的精確度以及進一步計算是否方便。組數組距多小統計數精確,計算不方便少大統計數不精確,計算方便組數的確定樣本容量分組數

30~60

5~860~100

7~10100~200

9~12200~500

10~18>500

15~30表2-5樣本容量與分組數的關係組距的確定即每組內的上下限範圍。組距=全距/組數=48/10=4.810組5cm(3)確定組限(classlimit)和組中值(classmidvalue)組限

是指每個組變數值的起止界限。上限下限組中值是兩個組限的中間值。組中值=下限+上限2=組距2下限+=組距2上限-表2-4

150尾鰱魚體長(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585

5958546248634661625738585254556652485675725737

467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263最小一組的下限必須小於資料中的最小值,最大一組的上限必須大於資料中的最大值;組限可取到10分位或5分位上;臨界值就高不就低。35~,40~,45~,…,85~。(4)分組確定好組數和各組上下限後,可按原始資料中各觀測值的次序,將各個數值歸於各組,計算各組的觀測數次數、頻率、累積頻率,製成一個次數分佈表。計數的方法卡片法唱票法畫“正”字畫“”

組限組中值次數頻率累積頻率

FrequencyPercentCumulativePercent35~37.530.02000.020040~42.540.02670.046745~47.5170.11330.160050~52.5280.18670.3467

55~57.540

0.26660.613360~62.5250.16670.780065~67.5170.11330.897370~72.560.04000.933375~77.570.04670.980080~82.520.01330.993385~87.510.00671.0000表2-6

150尾鰱魚體長的次數分佈表三、試驗資料的整理(三)次數分佈圖和頻率分佈圖定義:把次數(頻率)分佈資料畫成統計圖形。特點:直觀、形象包括:條形圖、直方圖、多邊形圖、餅圖和散點圖三、試驗資料的整理統計圖繪製的基本要求:(1)標題簡明扼要,列於圖的下方;(2)縱、橫兩軸應有刻度,注明單位;(3)橫軸由左至右,縱軸由下而上,數值由小到大;圖形長寬比例約5:4或6:5;(4)圖中需用不同顏色或線條代表不同事物時,應有圖例說明。圖2.1月產蛋數次數分佈柱形圖圖2.2月產蛋數頻率分佈柱形圖條形圖(barchart),又稱柱形圖計數資料特點:柱形之間要間隔一定的距離

2餅圖(piechart)圖1來亨雞月產蛋次數分佈圖計數資料品質性狀資料圖2.3鰱魚體長次數分佈圖3直方圖(histogram),又稱矩形圖計量資料354045505560657075808590特點:各組之間沒有距離

三、試驗資料的整理圖2.3鰱魚體長次數分佈圖3540455055606570758085904多邊形圖(polygon),又稱折線圖(broken-linechart)計量資料圖2.3鰱魚體長次數分佈圖5散點圖(scatter)123456432112345643211234564321a.正向直線關係b.負向直線關係c.曲線關係試驗資料的整理特徵數的計算與第二章第二節試驗資料特徵數的計算集中性是變數在趨勢上有著向某一中心聚集,或者說以某一數值為中心而分佈的性質。離散性是變數有著離中分散變異的性質。變數的分佈具有兩種明顯的基本特徵:集中性和離散性。集中性離散性平均數變異數算術平均數中位數眾數幾何平均數極差方差標準差變異係數調和平均數特徵數一、平均數

平均數平均數是統計學中最常用的統計量,是計量資料的代表值,表示資料中觀測數的中心位置,並且可作為資料的代表與另一組相比較,以確定二者的差異情況。一、平均數(一)平均數的種類算術平均數中位數眾數幾何平均數調和平均數一、平均數1.算術平均數(arithmeticmean)定義:總體或樣本資料中所有觀測數的總和除以觀測數的個數所得的商,簡稱平均數、均數或均值。總體:μ=x1+x2+x3+…+xNN=N1樣本:=x1+x2+x3+…+xnnx=n1一、平均數2.中位數(median)

資料中所有觀測數依大小順序排列,居於中間位置的觀測數稱為中位數或中數。Md1、當觀測值個數n為奇數時,(n+1)/2位置的觀測值,即x(n+1)/2為中位數:

Md=

2、當觀測值個數為偶數時,n/2和(n/2+1)位置的兩個觀測值之和的1/2為中位數,即:

一、平均數3.眾數(mode)

資料中出現次數最多的那個觀測值或次數最多一組的組中值或中點值。M0注意:(1)對於某些數據而言,如均勻分佈,並不存在眾數;(2)對於某些數據存在兩個或兩個以下的眾數;(3)主要用來描述頻率分佈。一、平均數4.幾何平均數(geometricmean)資料中有n個觀測數,其乘積開n次方所得數值。G適用範圍:幾何均數適用於變數X為對數正態分佈,經對數轉換後呈正態分佈的資料。G=一、平均數5.調和平均數(harmonicmean)資料中各觀測值倒數的算術平均數的倒數。H適用範圍:主要用於反映生物不同階段的平均增長率或不同規模的平均規模。H=1一、平均數(二)算術平均數的計算方法直接計算法減去常數法加權平均法1、直接計算法主要用於樣本含量n≤30以下、未經分組資料平均數的計算。例:隨機抽取20株小麥測量它們的株高(cm)分別為:

79858486848382838384818081828182828280

求小麥的平均株高。=Σxn=20(82+79+…+80)=82.3(cm)2、減去(加上)常數法若變數的值都比較大(或都比較小),且接近某一常數a時,可將它們的值都減去(或加上)常數a,得到一組新的數據,在計算其平均數。例:設a為80(cm)則有:

798584868483828383

2-154643233818081828182828280

4101212220=20(2-1+5+…+0)=82.3(cm)+80“-80”3、加權平均法對於樣本含量n>30以上且已分組的資料,可以在次數分佈表的基礎上採用加權法計算平均數,計算公式為:

若為計數資料,不分組,且Σf=n,此時直接用自然值乘以次數來計算,即=Σfx/n。

第i組的次數fi是權衡第i個自然值xi在資料中所占比重大小的數量,因此將fi稱為是xi的“權數”,加權法也由此而得名。例:=201=82.3(cm)×(79×1+80×2+…+86×1)株高x次數ffx791798021608132438264928332498432528518586186式中:—

第i組的組中值;

第i組的次數;

分組數

若為分組資料,則用每組組中值乘以該組次數之和再除以總次數來計算:例:將100頭長白母豬的仔豬一月窩重(單位:kg)資料整理成次數分佈表如下,求其加權數平均數。

表100頭長白母豬仔豬一月窩重次數分佈表組別組中值(x)次數(f)fx10~1534520~25615030~352691040~4530135050~5524132060~65852070~753225合計1004520即這100頭長白母豬仔豬一月齡平均窩重為45.2kg

計算若干個來自同一總體的樣本平均數的平均數時,如果樣本含量不等,也應採用加權法計算。

例:某牛群有黑白花奶牛1500頭,其平均體重為750kg,而另一牛群有黑白花奶牛1200頭,平均體重為725kg,如果將這兩個牛群混合在一起,其混合後平均體重為多少?此例兩個牛群所包含的牛的頭數不等,要計算兩個牛群混合後的平均體重,應以兩個牛群牛的頭數為權,求兩個牛群平均體重的加權平均數,即:

離均差之和等於零。離均差平方和最小。Σ(x-x)=0Σ(x-x)2<Σ(x-a)2

(三)算術平均數的重要性質一、平均數(四)算術平均數的作用(1)指出一組數據資料內變數的中心位置,標誌著資料所代表性狀的數量水準和品質水準。(2)作為樣本或資料的代表數與其他資料進行比較。(3)通過平均數提供計算樣本變異數的基本數據。(4)用樣本的平均數估計總體平均數。二、變異數變異數的種類極差方差標準差變異係數二、變異數(一)極差(全距,range)

極差是數據分佈的兩端變異的最大範圍,即樣本變數值最大值和最小值之差,用R表示。它是資料中各觀測值變異程度大小的最簡便的統計量。例:150尾鰱魚體長R=85-37=48(cm)R=max{x1,x2,……,xn}-min{x1,x2,……,xn}={x1,x2,……,xn}max-{x1,x2,……,xn}min二、變異數簡單明瞭當資料很多而又要迅速對資料的變異程度作出判斷時,可以利用極差。(1)除了最大、最小值,不能反映組內其他數據的變異。優點缺點用途(2)樣本較大時抽到較大值與較小值的可能性也較大,因而樣本極差也較大,故樣本含量相差較大時,不宜用極差來比較分佈的離散度。極差二、變異數如何準確地表示樣本內各個觀測值的變異程度平均數可以求出各個觀測值與平均數的離差,即離均差。離均差可以反映出一個觀測值偏離平均數的性質和程度。離均差之和為零。(x-x)=0?二、變異數平方和(SS)平方和的平均數(x-x)2(x-x)2

n二、變異數(x-x)2n(x-x)2

n-1自由度(degreeoffreedom)二、變異數(x-x)2

n-1均方(meansquare,MS)方差(variance)二、變異數(二)方差(Variance)(x-x)2n-1S2=σ2=(x-μ)2N樣本總體二、變異數

樣本方差帶有原觀測單位的平方單位,在僅表示一個資料中各觀測值的變異程度而不作其他分析時,常需要與平均數配合使用,這時應將平方單位還原,即求出樣本方差的平方根。標準差二、變異數(三)標準差(standarddeviation,Sd)S

=(x-x)2n-1σ=(x-μ)2N樣本總體二、變異數(三)標準差(standarddeviation,Sd)(x-x)2n-1S

=S

=x2-x)2(nn-1二、變異數x=411x2=18841X’=6X’2=76

表2-89名男子前臂長(cm)標準差計算前臂長x2x’=x-45x’245202500421764-39441936-11411681-416472209245025005254722092446211611492401416二、變異數18841-411*41199-1S==3.0(cm)76-6*699-1S==3.0(cm)二、變異數(三)標準差(standarddeviation,Sd)fx2

fx)2(n-n-1S=例:=201=82.3(cm)×(79×1+80×2+…+86×1)株高x次數ffxfx27917962418021601280081324319683826492403448332492066784325221168851857225861867396二、變異數(三)標準差(standarddeviation,Sd)特性標準差的大小,受多個觀測數影響,如果觀測數與觀測數間差異較大,則離均差也大,因而標準差也大,反之則小。1各觀測數加上或減去一個常數,其標準差不變;2各觀測數乘以或除以一個常數a,其標準差擴大或縮小a倍。二、變異數(三)標準差(standarddeviation,Sd)3正態分佈2s3s68.27%95.46%99.73%二、變異數(三)標準差(standarddeviation,Sd)作用1表示變數分佈的離散程度。4估計平均數的標準誤。3進行平均數的區間估計和變異係數計算。2可以概括估計出變數的次數分佈及各類觀測數在總體中所占的比例。二、變異數(四)變異係數(coefficientofvariability,CV)定義:樣本的標準差除以樣本平均數,所得到的比值就是變異係數。CV=s/x×100%特點:是樣本變數的相對變異量,不帶單位。可以比較不同樣本相對變異程度的大小。二、變異數(四)變異係數(coefficientofvariability,CV)中粳“農墾57”大田,穗粒數44.6,標準差18.9豐產田,穗粒數65.0,標準差18.3大田,CV=42.38%豐產田,CV=28.15%豐產田中粳穗粒數的整齊度優於大田二、變異數(四)變異係數(coefficientofvariability,CV)用途1比較度量衡單位不同的多組資料的變異度。例:某地20歲男子100人,其身高均數為166.06cm,標準差為4.95cm;其體重均數為53.72kg,標準差為4.96kg。比較身高與體重的變異情況。身高:CV=2.98%體重:CV=9.23%該地20歲男子體重的變異大於身高的變異。二、變異數(四)變異係數(coefficientofvariability,CV)用途2比較均數相差懸殊的多組資料的變異度

表某地不同年齡組男子身高(CM)的變異程度年齡組人數均數標準差變異係數3-3.5歲10096.13.10.03230-35歲100170.25.00.03概率概率分佈與第三章第一節:概率基礎知識一、概率的概念二、概率的計算三、概率的分佈四、大數定律一、概率基本概念(一)事件定義:在一定條件下,某種事物出現與否就稱為是事件。自然界和社會生活上發生的現象是各種各樣的,常見的有兩類。在一定條件下必然出現某種結果或必然不出現某種結果。確定性事件必然事件(U)(certainevent)不可能事件(V)(impossibleevent)一、概率基本概念在一定條件下可能發生也可能不發生。隨機事件(randomevent)不確定事件(indefiniteevent)一、概率基本概念為了研究隨機現象,需要進行大量重複的調查、實驗、測試等,這些統稱為試驗。一、概率基本概念隨機事件事件一、概率基本概念(二)頻率(frequency)若在相同的條件下,進行了n次試驗,在這n次試驗中,事件A出現的次數m稱為事件A出現的頻數,比值m/n稱為事件A出現的頻率(frequency),記為W(A)=m/n。0≤W(A)≤1一、概率基本概念

表3-1玉米種子發芽試驗結果種子總數(n)1020501002005001000發芽種子數(m)9194791186458920種子發芽率(m/n)0.9000.9500.9400.9100.9300.9180.920種子發芽與否是不能事先確定的,但從表中可以看出,試驗隨著n值的不同,種子發芽率也不相同,當n充分大時,發芽率在0.92附近擺動。例:一、概率基本概念頻率表明了事件頻繁出現的程度,因而其穩定性說明了隨機事件發生的可能性大小,是其本身固有的客觀屬性,提示了隱藏在隨機現象中的規律性。概率一、概率基本概念(三)概率(probability,P)概率的統計定義:設在相同的條件下,進行大量重複試驗,若事件A的頻率穩定地在某一確定值p的附近擺動,則稱p為事件A出現的概率。P(A)=p統計概率(statisticsprobability)後驗概率(posteriorprobability)統計概率一、概率基本概念

拋擲一枚硬幣發生正面朝上的試驗記錄實驗者投擲次數發生正面朝上的次數頻率(m/n)

蒲豐404020480.5069K皮爾遜1200060190.5016K皮爾遜24000120120.5005隨著實驗次數的增多,正面朝上這個事件發生的頻率穩定接近0.5,我們稱0.5作為這個事件的概率。一、概率基本概念(三)概率(probability,P)P(A)=p=lim

在一般情況下,隨機事件的概率P是不可能準確得到的。通常以試驗次數n充分大時,隨機事件A的頻率作為該隨機事件概率的近似值。mnmn概率的古典定義一、概率基本概念對於某些隨機事件,不用進行多次重複試驗來確定其概率,而是根據隨機事件本身的特性直接計算其概率。隨機事件(1)試驗的所有可能結果只有有限個,即樣本空間中的基本事件只有有限個;(2)各個試驗的可能結果出現的可能性相等,即所有基本事件的發生是等可能的;(3)試驗的所有可能結果兩兩互不相容。概率的古典定義一、概率基本概念具有上述特徵的隨機試驗,稱為古典概型(classicalmodel).設樣本空間有n個等可能的基本事件所構成,其中事件A包含有m個基本事件,則事件A的概率為m/n,即P(A)=m/n。古典概率(classicalprobability)先驗概率(priorprobability)一、概率基本概念12345678910隨機抽取一個球,求下列事件的概率;(1)事件A=抽得一個編號<4(2)事件B=抽得一個編號是2的倍數該試驗樣本空間由10個等可能的基本事件構成,即n=10,而事件A所包含的基本事件有3個,即抽得編號為1、2、3中的任何一個,事件A便發生。P(A)=3/10=0.3P(B)=5/10=0.5一、概率基本概念12345678910A=“一次取一個球,取得紅球的概率”10個球中取一個球,其可能結果有10個基本事件(即每個球被取到的可能性是相等的),即n=10事件A:取得紅球,則A事件包含3個基本事件,即m=3P(A)=3/10=0.3一、概率基本概念12345678910B=“一次取5個球,其中有2個紅球的概率”10個球中任意取5個,其可能結果有C105個基本事件,即n=C105事件B=5個球中有2個紅球,則B包含的基本事件數m=C32C73P(B)=C32C73/

C105=0.417一、概率基本概念0≤P(A)≤1

任何事件P(U)=1

必然事件P(V)=0

不可能事件0<P(A)<1

隨機事件概率的基本性質概率的計算第二部分二、概率的計算(一)事件的相互關係和事件積事件互斥事件對立事件獨立事件完全事件系二、概率的計算1和事件事件A和事件B中至少有一個發生而構成的新事件稱為事件A和事件B的和事件,記作A+B。n個事件的和,可表示為A1+A2+…+An二、概率的計算2積事件事件A和事件B中同時發生而構成的新事件稱為事件A和事件B的積事件,記作A•B。n個事件的積,可表示為A1•

A2•

…•An二、概率的計算3互斥事件(互不相容事件)事件A和事件B不能同時發生,則稱這兩個事件A和B互不相容或互斥。n個事件兩兩互不相容,則稱這n個事件互斥。二、概率的計算4對立事件事件A和事件B必有一個發生,但二者不能同時發生,且A和B的和事件組成整個樣本空間。即A+B=U,AB=V。我們稱事件B為事件A的對立事件。B=A二、概率的計算5獨立事件事件A和事件B的發生無關,事件B的發生與事件A的發生無關,則事件A和事件B為獨立事件。如果多個事件A1、A2、A3、…、An

彼此獨立,則稱之為獨立事件群。二、概率的計算6完全事件系如果多個事件A1、A2、A3、…、An兩兩互斥,且每次試驗結果必然發生其一,則稱事件A1、A2、A3、…、An為完全事件系。完全事件系的和事件概率為1,任何一個事件發生的概率為1/n。即:

P(A1+A2+…+An)=1二、概率的計算(二)概率的計算法則1互斥事件加法定理定理:若事件A與B互斥,則P(A+B)=P(A)+P(B)

試驗的全部結果包含n個基本事件,事件A包含其中m1個基本事件,事件B包含其中m2個基本事件。由於A和B互斥,因而它們各包含的基本事件應該完全不同。所以事件A+B所包含的基本事件數為m1+m2。P(A+B)=m1+m2/n=m1/n+m2/n=P(A)+P(B)二、概率的計算1互斥事件加法定理推理1P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)推理2P(A)=1-P(A)推理3完全事件系的和事件的概率為1。二、概率的計算1互斥事件加法定理例:玉米田中,一穗株(A)占67.2%,雙穗株(B)占30.7%,空穗株(C)占2.1%,試計算一穗株和雙穗株的概率。P(A+B)=P(A)+P(B)=0.672+0.307=0.979因為P(A)+P(B)+P(C)=1P(A+B)=1-P(C)=1-0.021=0.979或二、概率的計算2獨立事件乘法定理定理:事件A和事件B為獨立事件,則事件A與事件B同時發生的概率為各自概率的乘積。

P(AB)=P(A)P(B)推理:A1、A2、…An彼此獨立,則

P(A1A2A3…An)=P(A1)P(A2)P(A3)…P(An)二、概率的計算2獨立事件乘法定理例:播種玉米,種子的發芽率為90%,每穴兩粒,則:A:第一粒種子發芽,P(A)=0.9,P(A)=0.1B:第二粒種子發芽,P(B)=0.9,P(B)=0.1C:兩粒種子均發芽,C=AB,P(C)=P(A)P(B)=0.81D:一粒種子發芽:D=AB+AB,P(D)=0.9*0.1+0.1*0.9=0.18E:兩粒種子均不發芽:E=AB,P(E)=P(A)P(B)=0.1*0.1=0.01求:概率分布第三部分三、概率分佈(一)離散型變數的概率分佈要瞭解離散型隨機變數x的統計規律,必須知道它的一切可能值xi及取每種可能值的概率pi。對離散型變數x的一切可能值xi(i=1,2,3…),及其對應的概率piP(x=xi)=pi,i=1,2,3…三、概率分佈例:

表3-2某魚群的年齡組成年齡(x)1234567頻率(W)0.45970.33350.12540.05070.02150.00800.0012此表給出了該魚群年齡構成的全部,我們稱之為該魚群年齡的概率分佈。三、概率分佈

表嬰兒的性別情況表性別(x)0(男)1(女)概率(P)0.5170.483此表列出了性別變數的取值及相應值的概率,揭示了觀察嬰兒性別試驗的統計規律。用隨機變數的可能取值及取相應值的概率來表示隨機試驗的規律稱為隨機變數的分佈律或概率函數。例:三、概率分佈

表3-3離散型變數的概率分佈變數(x)x1x2x3x4……..xn概率(P)p1p2p3p4…….pnP(x=xi)=pi,i=1,2,3…設離散型變數x的所有一切可能值xi(i=1,2,3…),取相應值的概率為pi,則P(x=xi)稱為離散型隨機變數x的概率函數。三、概率分佈離散型變數的概率分佈的特點特點Pi≥0(i=1,2,…)=1三、概率分佈(二)連續型變數的概率分佈當試驗資料為連續型變數,一般通過分組整理成頻率分佈表。如果從總體中抽取樣本的容量n相當大,則頻率分佈就趨於穩定,我們將它近似地看成總體概率分佈。圖3.1鰱魚體長的頻率分佈圖354045505560657075808590直方圖中同一組內的頻率是相等的。三、概率分佈直方圖中每一矩形的面積就表示該組的頻率。三、概率分佈當n無限大時,頻率轉化為概率,頻率密度也轉化為概率密度,階梯形曲線也就轉化為一條光滑的連續曲線,這時頻率分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论