版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1
緒論
2第一節統計學與醫學統計方法
3一.統計與統計學的定義
一.統計與統計學的定義
4什麼是衛生統計學科技的迅速發展,資訊的大量產生。數據作為資訊的主要載體廣泛存在。面對紛亂複雜的數據世界我們該如何去認識,這就要借助統計學這個工具,在混沌中發現規律。統計學就是研究數據及其存在規律的科學。51.統計
是一種對客觀現象數量方面進行的調查研究活動;是收集、整理、分析、推斷、判斷等認識活動的總稱。數據匯總僅僅是統計工作的一小部分內容。
62.統計學作為一門學科的定義是:關於數據收集、表達和分析的普遍原理和方法。
73.醫學統計學
是用統計學原理和方法研究生物醫學問題的一門學科。醫學統計方法在醫學研究中的運用主要有三個方面:8工作生活中常見的統計學問題如何判斷藥物的療效?(假設檢驗)明天是否下雨?體育彩票能否中獎?(概率論)子女為什麼象父母,其強度有多大?(相關與回歸)美國的民意測驗是如何進行的?(設計,抽樣)中國的市場調查的可信性有多大?(現場調查)
統計學是對令人困惑費解的數字問題做出設想的藝術。9①以正確的方式收集數據,如實驗設計、調查設計等。②描述數據的統計特徵,如數據化簡、統計指標的選擇與計算、統計結果的表達等。③統計分析及得出正確結論,如根據概率分佈,對實驗和觀察結果存在的差異和關聯作出統計推斷。
10二.統計學的發展簡史
11統計計算歷史:筆、紙、算盤、對數表、乘方表、計算尺、計算器等統計發展歷史:德國數學家GUASS(1777-1855)數字計算題,表現出極高的統計計算天賦。最先提出“相關與回歸”的英國人類學家Galton,在人類學和優生學研究中萌發的統計思想,其中最重要的一個:wheneveryoucando,count。小樣本均數Student-t檢驗的發現者、英國生物統計學家Gosset(1876-1937)為了解決t檢驗的理論和應用問題,通過使用卡片進行抽樣試驗和計算統計量得出t分佈曲線,成為Monte-Carlo計算方法的先行者。12現代實驗設計方法和統計分析技術的奠基者、英國生物統計學家fisher(1890-1962)在20世紀20年代撰寫的實驗設計和統計方法專著時,因不可能計算出所有小概率對應的t分佈和F分佈的臨界值,只好給出了a=0.05,0.01時對應的t分佈和F分佈的臨界值表。令他未曾想到的是這種因統計計算方法的限制而人為i設定的兩個數字,至今仍然被許多人當作小概率的唯一數量標準。因此,Fisher的同事、卡方檢驗、“Yates校正”公式的提出者Yates(1902-1994)強烈主張統計學家使用電子電腦,並說:Tobeagoodtheoeticalstatisticianonemustalsocompute,andmustthereforehavethebestcomputingaids.20世紀20年代,英國統計學家R.A.Fisher爵士(1890-1962)創立了實驗設計方法和統計分析技術,奠定現代生物統計的基礎。1948年,英國發表了評價鏈黴素治療肺結核療效的隨機對照的臨床試驗報告,第一次採用生物統計方法進行臨床干預試驗。1948年,郭祖超教授(1912~1999)編著的《醫學與生物統計方法》,是我國第一部醫學統計方法的教科書。14將電腦用於統計計算,主要是通過統計軟體實現;SASandSPSS1.實例
遺傳學家F.Galton爵士(1822-1911)對上千家庭父親身高和兒子身高的觀察發現遺傳的“回歸”現象1960年英國醫生Doll,Hill等發現吸煙與肺癌有關2.醫學論文中的統計學問題60年代到80年代,國外醫學雜誌調查結果:有統計錯誤的論文20%~72%。1996年對4586篇論文統計(中華醫學會系列雜誌占6.9%),數據分析方法誤用達55.7%。3.偽造統計數據違反科學道德1976年NewScience雜誌關於科研舞弊行為的調查(1)74%的調查表反映有不正當修改數據的情況(2)17%拼湊實驗結果(3)7%憑空捏造數據(4)2%故意曲解結果FancystatisticalmethodscannotrescuegarbagedataFancystatisticalmethodscanhelpyougaininsightintoyourdata,overandabovewhatseemsobviousonitsfaceYoushouldalwaysworryaboutwhetherthesampledresultsarerepresentativeofthepopulation,andwhetheryoursampleallowsyoutomakeinferencesaboutthepopulation.AWarning!191.早期
西元前3050年古埃及人為修建金字塔籌集建築費,對全國的人口和財產進行了普查。
歷史
20
2.近代
19世紀,應用數學家為解決賭徒們在博彩中出現的輸贏概率問題逐漸形成和發展了概率論,從而為統計學的發展奠定了堅實的基礎。21
3.現代
電腦和統計軟體如SAS、SPSS的出現使統計學得到了突飛猛進的發展。22
統計方法是建立在現代科學方法之上,由統計學理論指導的數據收集、表達和分析的方法,現代科學方法可以概括為以下幾點:23問題的識別與表達(發現問題、提出問題)。搜集有關資料。通過歸納得出假說:因果聯繫及重要的模式。從假說作出演繹:進行實驗或收集更多的資料。推理:結果與演繹相符,假說得到加強,但不是被證明(例某地區食鹽與高血壓的關係)。24三.統計學的特點
醫學+數學,側重醫學,淡化數學。用數量反映品質,如平均期望壽命,解放前為35歲,現在70歲,可反映國家醫療衛生服務總體水準的提高。大量觀察+實驗數據分析→可以揭示醫學規律。
25
第二節
統計工作的基本步驟261.專業設計:選題、建立假說、確定研究對象和技術方法等→個性
2.統計設計:圍繞專業設計確定統計設類型、樣本大小、分組方法、統計分析指標及統計分析方法。
一、設計
27二、收集資料
(一)資料來源第一手資料
①
經常性:統計報表(死亡登記、疫情報告等),工作記錄(病歷、化驗);②一時性:專題調查、實驗或臨床試驗。第二手資料:已公佈的資料,如數據銀行、全國、全省衛生統計資料。
28(二)資料要求
1.完整:觀察單位及觀察專案完整。
觀察單位:最基本的獲取數據的單元。可以是一個體,亦可以是一個單位、家庭、地區,一批樣品,一個採樣點。
29
2.準確:即真實、可靠。真實是統計學的靈魂。
3.及時:即時限性。如人口普查規定調查開始日期和截止日期。30三.整理資料
整理資料即原始數據的條理化、系統化的過程。所採取的手段→合理化分組,目的→實現專業目標。質分組:按事物的屬性或性質分組→分類變數;量分組:按數據的大小→數值變數。31四.分析資料
1.統計描述:用統計指標、統計圖表對資料的數量特徵及分佈規律進行測定和描述。
2.統計推斷:用樣本資訊推斷總體特徵:①參數估計,②假設檢驗。32
第三節統計資料的類型
有三種類型的資料:計量資料,計數資料,等級資料
基本概念:變數及變數值,研究者對每個觀察單位的某項特徵進行觀察和測量,這種特徵稱為變數,變數的測得值叫變數值(也叫觀察值),稱為資料。按變數值的性質可將資料分為定量資料和定性資料。331.計量資料定義:通過度量衡的方法,測量每一個觀察單位的某項研究指標的量的大小,得到的一系列數據資料。例如:體重與身高特點:有度量衡單位多為連續性資料(通過測量得到)34定義:將全體觀測單位按照某種性質或特徵分組,然後再分別清點各組觀察單位的個數。特點:沒有度量衡單位
多為間斷性資料
(通過枚舉或記數得來)
2.計數資料35定義:介於計量資料和計數資料之間的一種資料,通過半定量方法測量得到。特點:每一個觀察單位沒有確切值各組之間有性質上的差別或程度上的不同。3.等級資料36(三)資料的轉化(變數類型的轉化)
數值變數分類變數
37例如:測得5人的WBC(個/m3)數如下:
300060005000800012000數值變數過低正常正常正常異常分類變數若按正常3人,異常2人分組→二分類變數若按過低1人,正常3人,過高1人分組→等級資料38
*提示:
①多途徑;②儘量用定量指標,否則損失資訊量;③定性指標可轉化為定量指標,但較粗糙。39第四節統計學中的幾個基本概念1、變異2、總體與樣本3、抽樣方法4、誤差5、頻率與概率
401.變異
同質事物個體間的差異。來源於一些未加控制或無法控制的甚至不明原因的因素。是統計學存在的基礎,從本質上說,統計學就是研究變異的科學。
41對變異的認識:
(1)自然變異的範圍是有限的,可以度量;參差不齊的測量值,通過大量重複觀測可以顯現出統計分佈規律,如表1-1數據的變異特徵至少有以下兩點:42①變異的範圍在3.2~6.2;②有明顯的統計分佈規律,4.7~5.0的人數最多。根據表1-1的數據,統計上還可以進一步推論出正常成年男子紅細胞計數的正常值參考範圍。43表1-1120名正常成年男子紅細胞計數值
5.125.134.584.314.094.414.334.584.245.454.324.844.915.145.254.894.794.905.094.645.145.464.664.204.213.735.175.795.464.494.855.284.784.324.945.214.685.094.684.915.135.263.844.174.563.526.004.054.924.874.284.465.035.695.254.565.534.584.864.974.704.284.375.334.784.755.395.274.896.184.135.224.444.134.434.025.865.125.363.864.685.485.314.534.834.113.294.184.134.063.424.684.525.193.705.514.644.924.934.903.925.044.704.543.954.404.313.774.164.585.353.715.274.525.214.374.804.753.865.69最大值=6.18,最小值=3.29,極差=2.89。算術均數=4.72,標準差=0.5744
(2)用統計的方法可以確定出所有研究對象的變異範圍,如正常成年男性的細胞數的範圍。身高範圍等等。
(3)沒有變異就沒有統計,變異使統計有了用武之地。4546總體:根據研究目的確定的研究對象的全體。當研究有具體而明確的指標時,總體是指該項變數植的全體。樣本:總體中有代表性的一部分。觀察單位(個體):最基本的研究單位分為有限總體和無限總體。由於調查總體的不可能性、巨大性和沒必要。對其中的一部分對象進行調查----樣本(總體與樣本的關係。舉例。)樣本選擇的原則--??樣本量(samplesize)2.總體與樣本(populationandsample)populationandsample總體:根據研究目的確定的同質研究對象的全體(集合)。分有限總體與無限總體樣本:從總體中隨機抽取的部分觀察單位
隨機抽樣randomsampling為了保證樣本的可靠性和代表性,需要採用隨機的抽樣方法(在總體中每個個體具有相同的機會被抽到)。503、抽樣方法選擇樣本的方法:概率抽樣和非概率抽樣
等概率抽樣非等概率抽樣簡單隨機抽樣系統抽樣分層抽樣整群抽樣514.誤差誤差:統計上所說的誤差泛指測量值與真值之差,樣本指標與總體指標之差。主要有以下二種:系統誤差和隨機誤差(隨機測量誤差,抽樣誤差)。
(1)系統誤差:指數據搜集和測量過程中由於儀器不准確、標準不規範等原因,造成觀察結果呈傾向性的偏大或偏小,這種誤差稱為系統誤差。特點:具有累加性(2).隨機誤差:由於一些非人為的偶然因素使得結果或大或小,是不確定、不可預知的。特點:隨測量次數參加而減小。52
在消除了系統誤差的前提下,由於非人為的偶然因素,對於同一樣本多次測定結果不完全一樣,結果有時偏大有時偏小,沒有傾向性,這種誤差叫隨機測量誤差。特點:沒有傾向性,多次測量計算平均值可以減小甚至消除隨機測量誤差。A、隨機測量誤差53
這類誤差可以通過實驗設計和技術措施來消除或使之減少。
觀察性研究由於組間不可比性產生的系統誤差稱為偏倚(bias),如吸煙組的平均年齡大於吸煙組,兩組死亡率的差異包含年齡偏倚。54
由於抽樣原因造成的樣本指標與總體指標之間的差別。特點:有抽樣抽樣誤差就不可避免。統計上可以計算並在一定範圍內控制抽樣誤差。B、抽樣誤差55
(1)改進抽樣方法,增加樣本的代表性。樣本量n相等的情況下:整群抽樣>單純隨機抽樣>系統抽樣>分層抽樣(2)增加樣本量n(3)選擇變異程度較小的研究指標減少抽樣誤差的方法:565.概率(probability)與頻率
拋一枚硬幣,是否國徽面一定向上?明天的股市升還是降?某患者痊癒的可能性?這些問題的答案都不可能絕對。概念:描述隨機事件發生的可能性大小的數值,常用P來表示。大小:P的大小在0和1之間,越接近於1,說明發生的可能性越大,越接近於0,說明發生的可能性越小。統計學中的許多結論是帶有概率性質的,通常一個事件的發生小於5%,就叫小概率事件。頻率:在實際工作中,當觀察單位的例數足夠多時,可以用頻率來代替概率。頻率是概率的估計值。57
1.頻率(frequency),假設在相同條件下,獨立地重複做n次試驗,A在n次試驗中出現了m次,則比值m/n稱為隨機事件A在n次試驗中出現的頻率。當試驗重複很多次時,有
P(A)≈m/n
(1-1)58
2.概率又稱為機率(probability),是度量某一隨機事件A發生可能性大小的一個數值,記作P(A),0<P(A)<1。
P(A)越大,A發生的可能性越大,反之亦然。當時或時,A是必然發生或必然不發生的非隨機事件。59
頻率是就樣本而言的,而概率從總體的意義上說的,m/n是概率P(A)的估計值。試驗次數越多,估計越可靠。60
3.小概率事件,通常認為是不可能發生的事件。61如何學習統計學
(特點:靈活、抽象)理解基本的統計原理培養統計思維能力:抽象的,邏輯推理多練習:課堂練習,課下做習題
聯繫實際:閱讀文獻工作和生活實際第一節頻數分佈表與頻數分佈圖
頻數表與頻數分佈平均指標(算術均數、幾何均數、中位數、眾數)變異指標(極差、百分位數與四分位間距、方差、標準差、變異係數)一、頻數表與頻數分佈
(frequencytableandfrequencydistribution)
表4-1160名正常成年女子的血清甘油三酯(mmol/L)
編號血清甘油三脂編號血清甘油三脂10.51……20.521531.6530.591541.6640.611551.6750.611561.6760.621571.6970.631581.780.641591.71……1601.771.頻數表的編制步驟(1)求極差(range):即最大值與最小值之差,又稱為全距。本例極差:R=1.77-0.51=1.26(mmol/L)(2)決定組數、組段和組距:根據研究目的和樣本含量n確定。組距=極差/組數,通常分10-15個組,為方便計,組距參考極差的十分之一,再略加調整。本例i=R/10=1.26/10=0.126≈0.1。(3)列出組段:第一組段的下限略小於最小值,最後一個組段上限必須包含最大值,其他組段上限值忽略。(4)劃記計數:用劃記法將所有數據歸納到各組段,得到各組段的頻數。
組段(1)
劃記(2)
頻數,f(3)
組中值,X(4)fX(5)=(3)×(4)0.5~
30.551.650.6~正90.655.850.7~正正120.759.000.8~正正130.8511.050.9~正正正170.9516.151.0~正正正181.0518.901.1~正正正正201.1523.001.2~正正正181.2522.501.3~正正正171.3522.951.4~正正131.4518.851.5~正91.5512.401.6~正81.6514.851.7~1.8
合計
31.755.25160182.302.頻數表的分佈特徵①集中趨勢(centraltendency):變數值集中位置。本例在組段“1.1~”。——平均水準指標②離散趨勢(tendencyofdispersion):變數值圍繞集中位置的分佈情況。本例0.9~1.4,共有90人,占56%;離“中心”位置越遠,頻數越小;且圍繞“中心”左右對稱。——變異水準指標
3.頻數表的用途①揭示計量資料的分佈特徵②描述計量資料分佈的集中趨勢和離散趨勢③便於發現異常值第二節計量資料的常用統計指標一、平均指標總稱為平均數(average)反映了資料的集中趨勢(centraltendency
)。常用的有:
1.算術均數(arithmeticmean),簡稱均數(mean)
2.几何均数(geometricmean)
3.中位数
(median)
4.众数(mode)1.均數(mean)Σ為求和符號,讀成sigma適用條件:資料呈正態或近似正態。
組段(1)
劃記(2)
頻數,f(3)
組中值,X(4)fX(5)=(3)×(4)0.5~
30.551.650.6~正90.655.850.7~正正120.759.000.8~正正130.8511.050.9~正正正170.9516.151.0~正正正181.0518.901.1~正正正正201.1523.001.2~正正正181.2522.501.3~正正正171.3522.951.4~正正131.4518.851.5~正91.5513.951.6~正81.6513.201.7~1.8
合計
31.755.25160182.30均數=182.3/160=1.142.幾何均數(geometricmean)幾何均數:變數對數值的算術均數的反對數。
幾何均數的適用條件與實例適用條件:呈倍數關係的等比資料或對數正態分佈(正偏態)資料;如抗體滴度資料
血清的抗體效價滴度的倒數分別為:10、100、1000、10000、100000,求幾何均數。此例的算術均數為22222,顯然不能代表滴度的平均水準。同一資料,幾何均數<均數頻數表資料的幾何均數抗體滴度⑴
人數,f⑵
滴度倒數,X⑶lgX⑷
f·lgX⑸1:2.5
1:101:401:1601:640
合計141822126722.510.040.0160.0640.00.39791.00001.60212.20412.80625.570618.000035.246226.449216.8372102.10323.中位數(median)
中位數是將一批數據從小至大排列後位次居中的數據值,符號為Md,反映一批觀察值在位次上的平均水準。
適用條件:適合各種類型的資料。尤其適合於①大樣本偏態分佈的資料;
②資料有不確定數值;③資料分佈不明等。
中位數計算公式與實例
先將觀察值按從小到大順序排列,再按以下公式計算:特點:僅僅利用了中間的1~2個數據頻數表資料的中位數下限值L上限值Ui;fm中位數Md
組段(1)
劃記(2)
頻數,f(3)
累計頻數Sf(4)累計百分率0.5~
331.9(0~1.9)0.6~正9127.5(1.9~7.5)0.7~正正122415.0(7.5~15.0)0.8~正正133723.1(15.2~23.1)0.9~正正正175433.8(23.1~33.8)1.0~正正正187245.0(33.8~45.0)1.1~正正正正209257.5(45.0~57.5)1.2~正正正1811068.8(57.5~68.8)1.3~正正正1712779.4(68.8~79.4)1.4~正正1314087.5(79.4~87.5)1.5~正914993.1(87.5~93.1)1.6~正815798.1(93.1~98.1)1.7~1.8
合計
3160100.0(98.1~100)160中位數=1.1+0.1x[(160x50%-72)/20]=1.144.眾數(mode)
出現次數(或頻數)最多的觀察值;在頻數分佈圖中對應於高峰所在位置的觀察值。適用於大樣本;較粗糙。均數、中位數、眾數三者關係正態分佈時:均數=中位數=眾數正偏態分佈時:均數>中位數>眾數負偏態分佈時:均數<中位數<眾數二、變異(variation)指標
反映數據的離散度(Dispersion
)。即個體觀察值的變異程度。常用的指標有:
1.極差(Range)
(全距)
2.百分位数与四分位数间距
PercentileandQuartilerange
3.方差
Variance
4.標準差StandardDeviation
5.變異係數
CoefficientofVariation
盤編號甲乙丙14404804902460490495350050050045405105055560520510合計250025002500均數500500500
例:設甲、乙、丙三人,采每人的耳垂血,然後紅細胞計數,每人數5個計數盤,得結果如下(萬/mm3)甲乙丙1.極差(Range)(全距)優點:簡便缺點:1.只利用了兩個極端值
2.n大,R也會大
3.不穩定12040202.百分位數與四分位數間距
Percentileandquartilerange百分位數:數據從小到大排列;在百分尺度下,所占百分比對應的值。記為Px。四分位間距:QR=P75-P25四分位半間距quartiledeviation:QD=QR/2P100(max)P75P50(中位數)P25P0(min)Px頻數表資料的百分位數下限值L上限值Ui;fm百分位數Px
組段(1)
劃記(2)
頻數,f(3)
累計頻數Sf(4)累計百分率0.5~
331.9(0~1.9)0.6~正9127.5(1.9~7.5)0.7~正正122415.0(7.5~15.0)0.8~正正133723.1(15.2~23.1)0.9~正正正175433.8(23.1~33.8)1.0~正正正187245.0(33.8~45.0)1.1~正正正正209257.5(45.0~57.5)1.2~正正正1811068.8(57.5~68.8)1.3~正正正1712779.4(68.8~79.4)1.4~正正1314087.5(79.4~87.5)1.5~正914993.1(87.5~93.1)1.6~正815798.1(93.1~98.1)1.7~1.8
合計
3160100.0(98.1~100)160P25=0.9+0.1x[(160x25%-37)/17]=0.92P75=1.3+0.1x[(160x75%-110)/17]=1.36QR=1.36-0.92=0.44;QD=0.22百分位數的應用確定醫學參考值範圍(referencerange):如95%參考值範圍=P97.5-P2.5;表示有95%正常個體的測量值在此範圍。中位數Md與四分位半間距QD一起使用,描述偏態分佈資料的特徵3.方差
方差(variance)也稱均方差(meansquaredeviation),樣本觀察值的離均差平方和的均值。表示一組數據的平均離散情況。樣本方差為什麼要除以(n-1)
與自由度(degreesoffreedom)有關。自由度是數學名詞,在統計學中,n個數據如不受任何條件的限制,則n個數據可取任意值,稱為有n個自由度。若受到k個條件的限制,就只有(n-k)個自由度了。計算標準差時,n個變數值本身有n個自由度。但受到樣本均數的限制,任何一個“離均差”均可以用另外的(n-1)個“離均差”表示,所以只有(n-1)個獨立的“離均差”。因此只有(n-1)個自由度。
離均差和Σ(X-m)=04.標準差
標準差(standarddeviation)即方差的正平方根;其單位與原變數X的單位相同。標準差的計算盤編號甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合計250025002500126040012510001250250標準差50.9915.817.91
組段(1)
頻數,f(3)
組中值,X(4)fX(5)=(3)×(4)fX2(5)=(3)×(4)20.5~30.551.650.910.6~90.655.853.800.7~120.759.006.750.8~130.8511.059.390.9~170.9516.1515.341.0~181.0518.9019.851.1~201.1523.0026.451.2~181.2522.5028.131.3~171.3522.9530.981.4~131.4518.8527.331.5~91.5513.9521.621.6~81.6513.2021.781.7~1.8
合計31.755.259.19160182.30221.52方差=(221.52-182.302/160)/(160-1)=0.0869標準差=0.295.變異係數變異係數(coefficientofvariation,CV)適用條件:①觀察指標單位不同,如身高、體重②同單位資料,但均數相差懸殊均數
標準差變異係數青年男子身高170cm6cm3.5%體重60kg7kg11.7%變異指標小結1.極差較粗,適合於任何分佈2.標準差與均數的單位相同,最常用,適合於近似正態分佈3.變異係數主要用於單位不同或均數相差懸殊資料4.平均指標和變異指標分別反映資料的不同特徵,常配套使用如正態分佈:均數、標準差;
偏態分佈:中位數、四分位半間距第三節計數資料的常用統計指標計數資料(定性資料):將觀察單位按某種屬性或類別分組計數,分組匯總各組觀察單位數後而得到的資料。一、常用相對數指標
相對數:兩個有聯繫的指標之比。常用的相對數有:(一)比(二)比率與構成比(三)速率
(一)率(rate)
說明某現象或某事物發生的頻率或強度。可用100%(百分率)、1000‰(千分率)、10000(萬分率)、100000(十萬分率)來表示。
例1999年某幼稚園有36名兒童患了腮腺炎,該幼稚園共有200名兒童(其中25名兒童以前患過),求該幼稚園1999年腮腺炎的發病率。
腮腺炎發病率=
率的正確使用需要注意以下幾點:(1)分子為陽性數,分母為(陽性+陰性數)。(2)當計算麻疹這樣具有終生免疫力的傳染病發病率時,分母不應該包括已患過麻疹或腮腺炎的那部分人。(3)率只與本身的頻率或強度有關,而不受其他數據的影響。如某地紅眼病的流行不會導致該地肝癌死亡率下降或上升。
(二)、構成比(proportion)
表示某一事物內部各組成部分在全體中所占的比重,又稱百分比。各組分所占比重之和必為100%。
設某事物個體數的合計由A1,A2,···,Ak個部分組成,構成比的計算為:...
構成比有兩個特點:(1)各部分構成比之和為100%或1。(2)某一部分所占的比重增大,其他部分的比重會相應減少。
(
三)相對比(relativeratio)
相對比簡稱比(ratio),是兩個有關指標之比.
式中兩指標可以是絕對數、相對數或平均數。
(四)速率(rate)
速率(rate)是反映單位時間內某事件出現的可能性大小,多用於面向人群的出生、死亡和發病資料的統計.人口出生率=(某年中活產總數/該年平均人口數)×100%
二、應用相對數的注意事項
(1)正確區分率和構成比。(2)分母過小不宜計算相對數。
如果例數較少會使相對數波動較大。如某種療法治療5例病人5例全部治癒,則計算治癒率為5/5×100%=100%,若4例治癒,則治癒率為4/5×100%=80%,由100%至80%波動幅度較大,但實際上只有1例的變化。
(3)用率或構成比進行組間比較時,要注意資料之間是否有可比性。
(4)分組資料計算合併率時,不能用各個率相加所得,而應該用有關的合計數進行計算。例:若P1=x1/n1P2=x2/n2P3=x3/n3P=(x1+x2+x3)/n1+n2+n3)(正確)
P=(P1+P2+P3)/3(錯誤)第四節統計表與統計圖
統計表(statisticaltable)——數據代替文字描述,便於統計結果的精確、簡潔的表達和對比分析
統計圖(statisticalchart)——用圖形代替數據,獲得直觀、形象的效果一、統計表
1.統計表的結構
2.統計表製作的基本要求
3.統計表的種類
4.不良統計表的修改舉例標題:標目:線條:數字:無數字用“—”表示,缺失數字用“
”表示,數值為0者記為“0”,不要留空項。備註:統計表的基本結構
頂線底線表名標題統計表製作的基本要求重點突出,簡單明瞭,即一張表一般表達一個中心內容,不要包羅萬象。主次分明,條理清楚,統計表就如完整的一句話,包括描述對象/主語和內容/謂語。通常主語放在表的左邊,作為橫標目;謂語放在右邊,作為縱標目。由左向右讀,構成完整的一句話。數據準確、可靠,這是統計工作的根本。表4-9某省某工廠1994、1998年四項檢測指標異常檢出率檢測指標1994年1998年受檢人數異常人數檢出率(%)
受檢人數異常人數檢出率(%)
血壓心率
TTT
GPT
5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚濁度試驗),
:GPT(穀丙轉氨酶)。
(丁建生等.中國衛生統計1999;16(3):166)統計表的種類
根據分組標目的複雜程度,統計表可大致分為簡單表和複合表。
簡單表(simpletable):只按一個特徵或標誌分組。如表2-8。
複合表(combinativetable):按兩個或兩個以上特徵或標誌結合起來分組。如表2-9。簡單表示例分組標誌為矯治方法表4-9某省某工廠1994、1998年四項檢測指標異常檢出率檢測指標1994年1998年受檢人數異常人數檢出率(%)
受檢人數異常人數檢出率(%)
血壓心率
TTT
GPT
5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚濁度試驗),
:GPT(穀丙轉氨酶)。
(丁建生等.中國衛生統計1999;16(3):166)複合表示例
分組標誌:不同年份不同檢測指標例下表是複方豬膽膠囊治療兩型老年性慢性支氣管炎的療效比較,請對該表的繪製進行評價,並指出所存在的問題。表4-15複方豬膽膠囊治療兩型老年慢性支氣管炎患者的療效比較實例分析1.關於統計表的製作,不正確的敘述是()。A.統計表不用豎線和斜線分隔表、標目和數據B.統計表的標題放在表的上方C.統計表包含的內容越多越好D.統計表中的數字按小數點位對齊E.統計表一般用縱標目和橫標目說明數字的意義和單位二、統計圖
統計圖(statisticalchart或statisticalgraph)是用點、線、面等幾何圖形,直觀形象地表達、描述數據或結果。
1.統計圖的結構
2.統計圖的種類與繪製注意事項統計圖的結構標題:用於簡明扼要地說明資料的內容,一般位於圖的下方中央位置。圖域:即製圖空間,是整個統計圖的視覺中心。除圓圖外,一般都是存在於特定的座標體系下。標目:分為縱標目和橫標目,表示坐標系下縱軸與橫軸的含義。圖例:用於識別比較的統計圖中各種圖形所代表的含義。刻度:即縱軸和橫軸上的座標。刻度數值按從小到大的順序,縱軸由下向上,橫軸由左向右排列。常用的統計圖直條圖百分條圖圓圖線圖與半對數線圖直方圖箱圖散點圖統計地圖
條圖(bargraph)
1.概念
條圖用等寬長條的高度表示按性質分類資料各類別的數值大小,用於表示他們之間的對比關係。
2.適用資料:相互獨立的資料(資料有明確分
組,不連續)。
3.分類
(1)單式條圖(圖2-8)具有一個統計指標,一個分組因素。
(2)複式條圖(圖2-9)具有一個統計指標,兩個分組因素。
條圖條圖表2-9某省某工廠1994、1998年四項檢測指標異常檢出率檢測指標1994年1998年受檢人數異常人數檢出率(%)
受檢人數異常人數檢出率(%)
血壓心率
TTT
GPT
5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚濁度試驗),
:GPT(穀丙轉氨酶)。
(丁建生等.中國衛生統計1999;16(3):166)條圖條圖條圖圖2-10直條圖的縱軸尺度起點必須為零示意圓圖(piegraph)
1.概念
以圓形的總面積代表100%,把面積按比例分成若干部分,以角度大小來表示各部分所占的比重(圖2-11)。
2.適用資料:構成比資料圓圖圓圖百分條圖1.概念百分條圖的意義及適用資料與圓形圖相同,不同的是表現形式不一樣。百分條圖亦稱構成條圖,是以直條總長度作為100%,直條中各段表示事物各組成部分構成情況。2.適用資料:構成比資料百分條圖百分條圖
圖2-12上海市某區居民腦血管病死亡季節分佈
線圖一、普通線圖(線圖)1.概念線圖(linegraph)是用線段的升降來表示統計指標的變化趨勢。如某事物隨時間的發展變化,或某現象隨另一現象變遷的情況。2.適用資料適用於隨時間變化的連續性資料。3.分析目的:用線段的升降表示某事物在時間上的發展變化趨勢。二、半對數線圖1.概念是一種特殊的線圖,其座標縱軸是對數尺度,特別適宜作不同指標變化速度的比較。
2.適用資料適用於隨時間變化的連續性資料,尤其比較數值相差懸殊的多組資料時採用。3.分析目的:半對數線圖中線段的升降是用來表示某事物發展速度(或者說是相對比)。普通線圖(線圖):縱橫軸均為算術尺度,半對數圖:縱軸為對數尺度,橫軸為算術尺度。注意:在普通線圖中,結核病死亡率線條的坡度比白喉死亡率線條下降的陡峭,只能說明兩種疾病的死亡率逐年變化幅度不同,不能錯認為結核病死亡率的下降速度比白喉死亡率的下降速度快。在半對數線圖中就不會出現這種錯覺。在比較事物間的變化速度時,應選擇半對數線圖。
為什麼半對數線圖中線段的升降可以表示事物發展的速度?絕對差與相對比的比較圖2-19絕對差示意圖(算術格紙)數值時間圖2-20相對比示意圖(半對數格紙)數值時間表2-13某市1949~1957年15歲以下兒童結核病和白喉死亡率(1/10萬)年份
結核病死亡率百喉死亡率194919501951195219531954195519561957150.2148.0141.0130.0110.498.272.668.054.820.116.614.011.810.76.53.92.41.3直方圖1.概念是以直方面積描述各組頻數的多少,面積的總和相當於各組頻數之和。2.適用資料:直方圖用於表達連續性資料的頻數分佈。3.製圖要求:(1)一般縱軸表示被觀察現象的頻數(或頻率),橫軸表示連續變數,以各矩形(寬為組距)的面積表示各組段頻數。(2)直方圖的各直條間不留空隙;各直條間可用直線分隔,但也可不用直線分隔。(3)組距不等時,橫軸仍表示連續變數,但縱軸是每個橫軸單位的頻數。箱式圖箱式圖:使用5個統計量反映原始數據的分佈特徵,即數據分佈中心位置、分佈、偏度、變異範圍和異常值。
箱式圖的箱子兩端分別是上四分位數(P75)和下四分位數(P25),中間橫線是中位數(P50)兩端連線分別是除異常值外的最小值和最大值。另外標記可能的異常值。顯然箱子越長,數據變異程度越大。中間橫線在箱子中點表明分佈對稱,否則不對稱。例某地調查不同類型化妝品廠車間內粉塵數,結果繪製成圖2-20。圖中顯示粉塵數的分佈呈偏態分佈,淨化廠粉塵數較少,非淨化廠粉塵數較多。散點圖1.概念
散點圖以直角坐標系中各點的密集程度和趨勢來表示兩現象間的關係。常在對資料進行相關分析之前使用。
2.適用資料:雙變數資料。圖2-1512名女大學生身高與體重散點圖統計地圖統計地圖(statisticalmap):是用不同的顏色和花紋表示統計量的值在地理分佈上的變化,適宜描述研究指標的地理分佈。例調查廣東省四會市鼻咽癌高發區1990-1999年十年間鼻咽癌的發病數,按鎮區計算標化發病比(SMR),標誌在四會市行政地圖上。圖2-191990-1999年某市鼻咽癌標化發病比的地區分佈1.欲比較兩地20年來冠心病和惡性腫瘤死亡率的上升速度,最好選用()。A.普通線圖B.半對數線圖C.條圖D.直方圖 E.圓圖2.調查某地6至16歲學生近視情況,需描述近視學生的年齡分佈可用()。A.普通線圖B.半對數線圖C.條圖D.直方圖E.圓圖實例分析3.比較某地在兩個年份幾種傳染病的發病率可用()。A.構成比條圖B.複式條圖C.線圖D.直方圖E.圓圖4.圖示7歲男孩體重與胸圍的關係,宜繪製()。A.條圖B.百分條圖C.散點圖D.線圖E.直方圖
第一節正態分佈
正態分佈(normaldistribution)也叫高斯分佈(Gaussiandistribution),一種最常見、最重要的連續型對稱分佈。(正態分佈是對稱分佈,但對稱分佈不一定是正態分佈。)實際頻數分佈:中間頻數多,兩端越來越少,且左右大致對稱理論頻數分佈:正態分佈曲線。一、數學形式二、正態曲線(normalcurve
)圖形特點:鐘型中間高兩頭低左右對稱最高處對應於X軸的值就是均數曲線下麵積為1標準差決定曲線的形狀Xf(X)mXf(X)m
三、標準正態分佈標準正態分佈(standardnormaldistribution)的兩個參數為:μ=0,σ=1記為
N(0,1)一般正態分佈為一個分佈族:N(m,s2)
;標準正態分佈只有一個
N(0,1)
;這樣簡化了應用
四、曲線下麵積u-∞附表1(P225)就是根據此公式和圖形制定的
概率密度函數與累積分佈函數
概率密度函數與累積分佈函數曲線下麵積分布規律0-11-1.961.96-2.582.5868.27%95.00%99.00%μμ-σμ+σμ-1.96σμ+1.96σμ-2.58σμ+2.58σ68.27%95.00%99.00%計算正態曲線下麵積實例例6-1五、正態性檢驗六、正態分佈的應用P93
第二節參考值範圍定義:P93步驟:
1.從“正常人”總體中抽樣:明確研究總體
2.統一測定方法以控制系統誤差。
3.判斷是否需要分組(如性別、年齡)確定。
4.根據專業知識決定單側還是雙側。意義:P93
單側下限---過低異常單側上限---過高異常雙側---過高、過低均異常
單側下限異常正常單側上限異常正常異常正常雙側下限雙側上限異常1.正態分佈法方法:1.正態分佈法2.百分位數法雙側100(1-α)%正常值範圍:單側100(1-α)%正常值範圍:雙側95%正常值範圍:單側95%正常值範圍:P94例6-32.百分位數法雙側95%正常值範圍:
P2.5~P97.5
單側95%正常值範圍:<P95(上限)或>P5(下限)適用於偏態分佈資料
P100例6-4第三節與正態分佈有關的統計量分佈一、t分佈隨機變數XN(m,s2)標準正態分佈N(0,12)u變換均數標準正態分佈N(0,12)Studentt分佈自由度:n-1t分佈的概率密度函數式中為伽瑪函數;圓周率(Excel函數為PI())為自由度(degreeoffreedom),是t分佈的唯一參數;t為隨機變數。以t為橫軸,f(t)為縱軸,可繪製t分佈曲線。t分佈曲線
t分佈有如下性質:①單峰分佈,曲線在t=0處最高,並以t=0為中心左右對稱②與正態分佈相比,曲線最高處較矮,兩尾部翹得高(見綠線)③隨自由度增大,曲線逐漸接近正態分佈;分佈的極限為標準正態分佈。t分佈曲線下麵積(附表2)雙側t0.05/2,9=2.262
=單側t0.025,9單側t0.05,9=1.833雙側t0.01/2,9=3.250
=單側t0.005,9單側t0.01,9=2.821雙側t0.05/2,∞=1.96
=單側t0.025,∞單側t0.05,∞=1.64總體樣本抽取部分觀察單位
統計量
參數
統計推斷統計推斷statisticalinference如:樣本均數樣本標準差S
樣本率P如:總體均數總體標準差總體率內容:參數估計(estimationofparameters)
包括:點估計與區間估計2.假設檢驗(testofhypothesis)第一節樣本均數的標準誤第二節率的標準誤第三節兩均數之差的可信區間第四節兩個率之差的可信區間第五節小樣本率的可信區間第六節中位數與其他分位數的可信區間總體樣本抽取部分觀察單位
統計量
參數
統計推斷第一節樣本均數的標準誤如:樣本均數樣本標準差S
樣本率P如:總體均數總體標準差總體率
抽樣誤差(samplingerror):由於個體差異導致的樣本統計量與總體參數間的差別。一、抽樣試驗
從正態分佈總體N(5.00,0.502)中,每次隨機抽取樣本含量n=5,並計算其均數與標準差;重複抽取1000次,獲得1000份樣本;計算1000份樣本的均數與標準差,並對1000份樣本的均數作直方圖。按上述方法再做樣本含量n=10、樣本含量n=30的抽樣實驗;比較計算結果。抽樣試驗(n=5)抽樣試驗(n=10)抽樣試驗(n=30)1000份樣本抽樣計算結果總體的均數總體標準差s均數的均數均數標準差n=55.000.504.990.22120.2236n=105.000.505.000.15800.1581n=305.000.505.000.09200.09133個抽樣實驗結果圖示例7-1假設正常男子紅細胞計數服從的正態分佈總體,從該總體中重複進行100次抽樣,每個樣本的含量為10,結果見表7-1。(書本PP105)由表7-1可見,從同一總體中隨機抽取樣本含量n=10的若干樣本,各樣本算得的樣本均數並不等於相應的總體均數,且各樣本均數也不完全相同。這種由於隨機抽樣而造成的來自同一總體的樣本均數之間及樣本均數與相應的總體均數之間的差異,稱之為均數的抽樣誤差。
由於樣本均數與相應的總體均數之間存在著差異,由數理統計推理可知:從正態總體中隨機抽取樣本含量為n的樣本,每抽取一個樣本可計算一個樣本均數,重複100次抽樣可得到100個樣本均數。
這些樣本均數服從均數為,方差為的正態分佈,記作,其中為樣本均數的總體標準差,計算公式為:
(7-1)
为了与反映个体差异的标准差(或)相区别,样本均数的标准差用表示。
統計上通常將統計量(如樣本均數、樣本率p等)的標準差稱為標準誤(standarderror,SE)。所以,又稱為樣本均數的標準誤,是反映樣本均數抽樣誤差大小的指標。
特點:
1.總體標準誤的大小與總體標準差成正比,與樣本含量的平方根成反比。即當樣本含量n一定時,標準差越大,即樣本的個體差異越大,標準誤就越大,樣本均數的抽樣誤差就越大;標準差越小,標準誤就越小,即樣本均數抽樣誤差就越小。
2.當一定時,n越大,就越小;n越小,就越大。故影響抽樣誤差大小的主要因素是樣本含量。作為總體參數(常數)通常是未知的,因而,在實際工作中常用樣本標準差S來估計。樣本標準誤的計算公式為:
例7-2由例7.1的第二個樣本均數=5.03,S=0.52,n=10,計算均數的標準誤。
解:代入公式7-2計算,抽樣實驗小結
均數的均數圍繞總體均數上下波動。
均數的標準差即標準誤與總體標準差相差一個常數的倍數,即
樣本均數的標準誤(StandardError)=樣本標準差/
從正態總體N(m,s2)中抽取樣本,獲得均數的分佈仍近似呈正態分佈N(m,s2/n)。二、中心極限定理centrallimittheorem①即使從非正態總體中抽取樣本,所得均數分佈仍近似呈正態。②隨著樣本量的增大,樣本均數的變異範圍也逐漸變窄。一、t分佈隨機變數XN(m,s2)標準正態分佈N(0,12)u變換均數標準正態分佈N(0,12)Studentt分佈自由度:n-1t分佈的概率密度函數式中為伽瑪函數;圓周率(Excel函數為PI())為自由度(degreeoffreedom),是t分佈的唯一參數;t為隨機變數。以t為橫軸,f(t)為縱軸,可繪製t分佈曲線。t分佈曲線
t分佈有如下性質:①單峰分佈,曲線在t=0處最高,並以t=0為中心左右對稱②與正態分佈相比,曲線最高處較矮,兩尾部翹得高(見綠線)③隨自由度增大,曲線逐漸接近正態分佈;分佈的極限為標準正態分佈。t分佈曲線下麵積(附表2)雙側t0.05/2,9=2.262
=單側t0.025,9單側t0.05,9=1.833雙側t0.01/2,9=3.250
=單側t0.005,9單側t0.01,9=2.821雙側t0.05/2,∞=1.96
=單側t0.025,∞單側t0.05,∞=1.64二、總體均數的估計
1.總體均數的點估計(pointestimation)與區間估計參數的估計點估計:由樣本統計量直接估計總體參數區間估計:在一定可信度(Confidencelevel)下,同時考慮抽樣誤差均數的估計統計學中的統計推斷包括兩個重要的方面:一是利用樣本統計量的資訊對相應總體參數值做出推斷,如用樣本均數估計總體均數,用樣本標準差S估計總體標準差等,稱之為估計。另一個是利用樣本統計量來推斷我們是否接受一個事先的假設,稱之為假設檢驗。本章只討論參數估計,假設檢驗將在下一章中討論。而參數估計又分為
點估計與區間估計。
1.點估計總體均數的點估計(pointestimation)就是用樣本均數來直接地估計總體均數,即。這種方法比較簡單,由於沒有考慮到抽樣誤差,只適合大樣本資料的統計推斷。
2.區間估計總體均數的區間估計(intervalestimation)是利用樣本資訊給出一個區間,並同時給出重複試驗時該區間包含總體均數的概率。具體計算方法如下:
⑴總體標準差未知時用樣本標準差S作為的估計值計算標準誤,按t分佈原理
⑵總體標準差已知時,或總體標準差未知但n足夠大:如果總體標準差已知時,按正態分佈原理;當n足夠大時用S作為估計值。
可信區間的涵義
從總體中作隨機抽樣,對於含量為n的每個樣本而言,都可以算得一個區間。以95%的可信區間為例,意味著在同一總體中作100次重複抽樣,可得100個可信區間,平均有95個可信區間包含總體均數(估計正確),只有5個可信區間不包含總體均數(估計不正確),或對於某一個區間而言,它包含總體均數的可能性為95%,而不包含總體均數的可能性僅為5%。因此在實際應用中,以這種方法估計總體均數犯錯誤的概率僅為5%。
可信區間具有兩個要素
一、是准确度(accuracy),即可信區間包含的概率的大小,一般而言概率越大越好。
二、是精密度(precision),反映區間的長度,區間的長度越窄,估計的精密度越好,反之越差。
在樣本含量一定的情況下,二者是相互矛盾的,若考慮提高準確度(即減小
,增大或),則區間變寬,精密度下降。因而在實際中不能籠統地認為99%的可信區間好於95%的可信區間,而是需要兼顧二個要素。在通常情況中,以95%的可信區間較為常用。在可信度固定的前提下,要提高精密度的唯一方法是擴大樣本含量。
可信區間應注意的問題:
①在进行区间估计时,总体均数是一个固定参数,而由样本计算出的可信区间是变化的,即每次抽样所算得的区间是不同的。因此,不能说总体均数以的可信度落在可信区间中,而是可信区间以的可信度包含总体均数。
②在可信区间未计算出来之前,可以说区间以95%的可能性包含了總體均數;但可信區間一經計算出來,它要麼包含,要麼不包含,不存在95%的概率問題。
可信度與可信區間
區間的可信度(如95%或99%)是重複抽樣(如1000次)時,樣本(如n=5)區間包含總體參數(m)的百分數。常用100(1-α)%或(1-α)表示,α值一般取0.05或0.01。可信度與可信區間
區間的可信度(如95%或99%)是重複抽樣(如1000次)時,樣本(如n=5)區間包含總體參數(m)的百分數。常用100(1-α)%或(1-α)表示,α值一般取0.05或0.01。可信度實驗
2.總體均數的可信區間
3.兩總體均數差的可信區間
4.大樣本總體均數的可信區間(1)
4.大樣本總體均數的可信區間(2)
5、中位數與其他分位數的可信區間在實際工作中,不僅需要估計均數和率的可信區間,有時也要估計中位數或百分位
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度租赁合同终止与租赁物处理及收益分配协议3篇
- 二零二五年度城市综合体卫生间清洁及品牌形象塑造协议2篇
- 西安理工大学高科学院《影视音乐基础》2023-2024学年第一学期期末试卷
- 2024汽车烤漆房租赁合同及环保设施租赁与维护协议3篇
- 2025年度智慧城市基础设施建设合同6篇
- 2024版新能源发电项目投资与建设合同
- 二零二五年度板材研发与生产技术转移合同2篇
- 二零二五年度大理石矿山开采与环保治理综合服务合同3篇
- 二零二五年物联网设备集成技术服务协议
- 天津外国语大学滨海外事学院《物理化学实验Ⅱ》2023-2024学年第一学期期末试卷
- 新教材人教版高中物理选择性必修第二册全册各章节课时练习题及章末测验含答案解析(安培力洛伦兹力电磁感应交变电流等)
- 初级养老护理员培训全套
- 集中供热管网系统一次网的调节方法
- GB/T 41095-2021机械振动选择适当的机器振动标准的方法
- MRP、MPS计划文档教材
- 甲状腺疾病护理查房课件
- 安全安全带检查记录表
- GB∕T 26520-2021 工业氯化钙-行业标准
- 2022年浙江省绍兴市中考数学试题及参考答案
- Listen-to-this-3-英语高级听力-(整理版)
- 生活垃圾焚烧处理建设项目评价导则(2022)
评论
0/150
提交评论