统计学全套课件_第1页
统计学全套课件_第2页
统计学全套课件_第3页
统计学全套课件_第4页
统计学全套课件_第5页
已阅读5页,还剩251页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章統計學與數據收集1.1統計分析的基本原理與內容1.2統計數據的類型1.3統計數據的收集1.1統計分析的基本原理與內容一.統計學的定義統計學是關於數據的科學,其內容包括數據的收集、分類、匯總、組織、分析、推斷和解釋。二.總體、個體、樣本與統計量總體:研究對象的全部數據組成的集合,記為X。個體:組成總體的每個基本單元。樣本:從總體X中隨機抽取n個個體

(X1,X2,…,Xn

),n為樣本容量.觀測值:樣本的一組固定數值,記為

(x1,x2,…,xn)。統計量:樣本(X1,X2,…,Xn)的不含任何未知參數的函數g(X1,X2,…,Xn).

三.描述統計學與統計推斷學1.描述統計學:研究一組數據的組織、整理和描述的統計學分支。統計描述方法圖示法:借助於各種圖形描述總體或樣本所具有的特徵。定量方法:通過定義和計算一些反映總體的總量指標、平均指標和變異性指標,描述和把握研究對象的數量特徵。2.統計推斷學:研究利用樣本數據對總體的數量特徵進行推斷的統計學分支。統計推斷方法:抽樣分佈理論、參數估計、假設檢驗、方差分析、回歸分析等。總體:用新燈絲生產的所有燈泡的壽命,平均壽命未知200個新燈絲製成的燈泡樣本平均值數據用於對總體平均數進行估計200個用新燈絲製成的燈泡的平均壽命為760小時圖1-1統計推斷過程四.統計分析過程基於統計或實際觀察提出假設(問題)概念的可操作型定義抽取樣本或受試者調查實驗設計數據收集數據整理編制圖表、統計描述解釋數據是總體或樣本結果發現,對總體進行分析、總結統計推斷總體樣本1.2

統計數據的類型統計數據的類型按計量尺度按收集方法按時間狀況分類數據順序數據數值型數據觀測數據實驗數據截面數據序時數據一.分類數據、順序數據、數值型數據1.分類數據(Categoricaldata)對事物進行分類的結果數據表現為類別,用文字表述對事物應進行平行的分類各類別可以指定數字代碼表示分類數據舉例:性別,學歷,地區等.性別:男-1,女-02.順序數據(Rankdata)對事物進行分類的結果,但類別有順序比分類尺度精確未測量出類別之間的準確差值順序數據舉例:考試成績、消費者對產品的偏愛程度等.考試成績:優-5、良-4、中-3、及格-2、不及格-13.數值型數據(Metricdata)使用自然或度量衡單位對事物進行計量的結果結果表現為具體數值是最常見的數據類型數值型數據舉例:溫度,對產品品質的評價分等.溫度=450C三種類型數據的比較分類數據和順序數據:說明的是事物的品質特徵,用文字表示-定性數據或品質數據數值型數據:說明的是現象的數量特徵,用數值表示-定量數據或數量數據定性數據和定量數據也可以相互轉化如年齡:老年、中年、青年、兒童學歷:大學-1、高中-2、初中-3、小學-4二.觀測數據和實驗數據1.觀測數據(observationaldata)通過調查或觀測而收集到的數據

—社會經濟領域2.實驗數據(experimentaldata)在實驗中控制實驗對象而收集到的數據

—自然科學領域三.截面數據和時間序列數據1.截面數據(cross-sectionaldata)在相同或近似相同的時間點上收集的數據如2005年我國各地區的GDP數據2.時間序列數據(timeseriesdata)在不同時間上收集的數據如1996-2005年我國的GDP數據1.3統計數據的收集一.獲得數據的調查方法與問卷設計1.統計調查方法

統計調查普查抽樣調查統計報表重點調查典型調查(1)普查為特定目的經常組織的非經常性全面調查。(2)抽樣調查從總體中隨機抽取一部分(樣本)進行調查。(3)統計報表按照國家有關法規的規定、自上而下地統一佈置、自下而上地逐級提供統計數據。(4)重點調查和典型調查重點調查從調查對象的全部單位中選擇少數重點單位進行調查。典型調查從調查對象的全部單位中選擇少數典型單位進行調查。2.問卷設計(1)問卷問題的產生依據研究的目標,確定需要收集哪些數據,從而需要設置哪些問題。依據對變數(特徵)之間的相互關係的猜想來設立問卷問題。依據數據處理方法來設立問卷問題。(2)問卷問題設立的關鍵設置在問卷中的問題,必須是能夠獲得誠實的回答。凡是不能獲得誠實回答的問題,都不應當設置在問卷中。對“懷疑得不到誠實回答”的問題,應當在不同位置,設置相同、相近、相反的問題,以求相互認證。(3)問卷問題寫法的幾個關鍵對單選問題,備選答案應當是一個空間的完整劃分。對單選問題,備選答案不應當是兩個空間(層面)的混淆。但對於多選題,備選答案可以交叉。無論對多選題還是單選題,任何一個備選答案都不能有多重含義。無論對多選題還是單選題,備選答案之間不能有包含關係。問題設計的用詞要準確。問題設計的用語要含義明確。問題的不同提法,可能導致不同的回答結果。(4)對於得不到誠實回答而又必須瞭解的數據的處理辦法變換問題的問法,從而獲得相應的數據。通過瞭解相對數據,判斷總體的情況。通過實驗獲得所需要的數據。(5)問卷設計一定要通過小規模訪談來修改。二.問卷調查表的編碼(一)單選題問卷調查表的編碼1.題號代號不能重複,變數名稱最好以英文字母為開頭,字母大小寫均可。如A1,A2…;B1,B2…。2.同一量表的題號最好有相同的識別碼。如表1都用a1,a2…;表2都用b1,b2…。3.名義或類別變數的變數代碼最好與其意義內涵有關。如年齡為AGE,年級為YEAR,工作類別為JOB等。4.變數代碼不要用中文字,如要加注部分變數的中文說明,可於SPSS操作中修改。見房地產問卷設計(二)複選題問卷調查表的編碼

問卷調查表您的性別:1男生2女生您的職務:1主任2組長3教師一.您認為目前教改阻力來自哪些單位?(可複選)1教育行政單位2學校行政人員3家長團體4教師本身5其他團體二.您認為目前教改對哪些人會有影響?(可複選)1教師2行政人員3學生4其他NUMsexjobA11A12A13A14A15A21A22A23A240011110110110100212001111000

變數編碼表NUM-編碼Sex-性別job-職務—單選A11-A15代表第一題5個選項,選中者輸入1,未選中者輸入0三.數據誤差的來源1.統計數據的誤差指統計數據與客觀現實之間的差距2.有登記性誤差和代表性誤差兩類-登記性誤差:由於調查者或被調查者的人為因素所造成的誤差,理論上將可以消除.控制方法:訪問員素質高,抽樣單位電話回訪等。-代表性誤差:用樣本數據進行推斷時所產生的誤差,通常無法消除,但事先可以進行控制和計算.控制方法:樣本容量大,合適的抽樣方法等。四.統計數據的品質要求1.精度:最低的抽樣誤差或隨機誤差2.準確性:最小的非抽樣誤差或偏差3.關聯性:滿足用戶決策、管理和研究的需要4.及時性:在最短的時間裏取得並公佈數據5.一致性:保持時間序列的可比性6.最低成本:以最經濟的方式取得數據第二章基本統計分析2.1

頻數分析2.2

計算基本描述統計量2.1頻數分析一.

SPSS中的頻數分佈表頻數(Frequency):變數值落在某個區間(或某個類別)中的次數。百分比(Percent):各頻數占總樣本數的百分比。有效百分比(ValidPercent):各頻數佔有效樣本數的百分比。累計百分比(CumulativePercent):各百分比逐級累加起來的結果。最終取值為100。例1:某單位職工受教育程度的結構受教育程度小學初中高中大學碩士合計頻數1229216頻數分佈表二.頻數分析中常用的統計圖1.條形圖(BarChart)用寬度相同的條形高度或長短來表示頻數分佈變化的圖形適用於順序和分類變數的分析縱坐標可以是頻數,也可以是百分比2.餅圖(PieChart)用圓形及圓內扇形的面積來表示頻數百分比變化的圖形利於研究事物內在結構組成等問題餅圖中圓內的扇形面積可以表示頻數,也可以表示百分比。3.直方圖(Histograms)用矩形的面積來表示頻數分佈變化的圖形適用於定距形變量的分析可以在直方圖上附加正態分佈曲線,以便於正態分佈比較圖1例1中頻率分析餅形圖圖2

例1中頻率分析條形圖圖3

例1中頻率分析直方圖數據分佈的特徵和測度數據的特徵和測度集中趨勢離散程度分佈的形狀均值眾數中位數方差和標準差全距偏度峰度一.刻畫集中趨勢的描述統計量1.均值(1)均值(Mean)定義:全部數據的算術平均數計算公式:特點:最常用的測度值均值利用了全體數據易受數據中極端值的影響用於數值型數據,而不能用於分類數據和順序數據(2)均值標準誤差(StandardErrorofMean)定義:反映樣本均值與總體均值的平均差異程度計算公式:特點:揭示了用樣本均值推斷總體均值時誤差的大小2.眾數(Mode)定義:樣本數據中出現頻數最高的那個樣本值.特點:不受極端值的影響可能沒有眾數或有幾個眾數(不唯一性)主要用於分類數據,也可用於順序數據或數值型數據分類數據的眾數(算例)某城市居民關注廣告類型的頻數分佈廣告類型人數比例頻率(%)商品廣告服務廣告金融廣告房地產廣告招生招聘廣告其他廣告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合計2001100數據-分類數據M0=商品廣告順序數據的眾數(算例)甲城市家庭對住房狀況評價的頻數分佈回答類別甲城市戶數(戶)百分比(%)非常不滿意不滿意一般滿意非常滿意24108934530836311510合計300100數據:順序數據M0=不滿意3.中位數(Median)定義:對樣本數據由小到大排序,處於“正中間位置”上的數據.特點:不受極端值的影響主要用於順序數據,也可用於數值型數據,但不能用於分類數據,各變數值與中位數的離差絕對值之和最小,即計算公式(未分組數據)數值型未分組數據的中位數(算例)原始數據:24,22,21,26,20-5個數據排序:20,21,22,24,26位置:1,2,3,4,5位置=(n+1)/2=(5+1)/2=3Me=22原始數據:10,5,9,12,6,8-6個數據排序:5,6,8,9,10,12位置:1,2,3,4,5,6位置=(n+1)/2=(6+1)/2=3.5Me=(8+9)/2=8.54.四分位數(Quartile)定義:通過三個點將全部數據等分為四部分,處在分位點上的數值就是四分位數.特點:主要指排序後25%(下四分位數)和75%(上四分位數)的位置上.不受極端值的影響主要用於順序數據,也可用於數值型數據,但不能用於分類數據計算公式:未分組數據:下四分位數(LowerQuartile):QL位置=(n+1)/4上四分位數(UpperQuartile):QU位置=3(n+1)/4中間的四分位數(中位數):QM位置=2(n+1)/4數值型未分組數據的四分位數(7個數據的算例)原始數據:23,21,30,32,28,25,26排序:21,23,25,26,28,30,32位置:1,2,3,4,5,6,7QL位置=(n+1)/4=(7+1)/4=2QU位置=3(n+1)/4=3(7+1)/4=6QL=23QU=30數值型未分組數據的四分位數(6個數據的算例)原始數據:23,21,30,28,25,26排序:21,23,25,26,28,30位置:1,2,3,4,5,6QL位置=(n+1)/4=(6+1)/4=1.75QU位置=3(n+1)/4=3(6+1)/4=5.25QL=21+0.75(23-21)=22.5QU=28+0.25(30-28)=28.5二.刻畫離散程度的描述統計量適用條件:主要用於數值型數據1.全距(極差)(Range)定義:一組數據的最大值與最小值之差.計算公式:特徵:離散程度的最簡單測度值易受極端值的影響未考慮數據的分佈2.方差和標準差(1)方差(Variance):定義:各變數值與均值的平均差異計算公式:特點:最常用的離散程度的測度值反映了數據的分佈(2)標準差(StandardDeviation)定義:方差的算術平方根.計算公式:特點:與變數值的計量單位相同比方差更常用第三章SPSS的簡單應用3.1SPSSforWindows的介面3.2建立數據檔3.3用SPSS進行基本統計分析3.1SPSSforWindows的介面一.SPSS的主窗口

啟動SPSS後,彈出對話框選項如下:1.Runthetutorial-流覽操作指導2.Typeindata-顯示數據編輯窗口建立新數據檔3.Runanexistingquery-運行一個已存在的檔4.CreatnewqueryusingDatabaseWizard-使用資料庫嚮導建立一個新的檔5.Openanexistingdatasource-打開一個已存在的數據檔,可選擇“.sav”檔6.Openanothertypeoffile-打開一個已存在的其他類型的檔7.Don’tshowthisdialoginthefuture-再運行SPSS系統時不顯示該對話框,直接進入數據編輯窗口數據編輯窗口(SPSSDataEditor)或稱數據編輯器的左下角包括“DataView”和“VariableView”兩個視區,分別定義變數的值(即數據)和變數(名稱、類型等)。二.數據編輯窗口的主菜單Edit:檔編輯。完成文本或數據內容的選擇、拷貝、剪貼、尋找和替換等操作。View:流覽編輯。完成文本或數據內容的狀態欄、工具欄、字體、網格線和數值標籤等功能的操作。File:檔操作。完成檔的調入、存儲、顯示和列印等操作。Data:數據管理。完成數據變數名稱和格式的定義,數據資料的選擇、排序、加權,數據檔的轉換、連接和匯總等操作。Transform:數據轉換。完成數值的計算、重新編碼和缺失值替代等操作。Analyze:統計分析。完成一系列統計分析方法的選擇與應用。Graphs:統計圖表。完成統計圖的建立與編輯。Utilities:實用程式。有關命令解釋、字體選擇、檔資訊、定義輸出標題和窗口設計等。Help:幫助。幫助檔的調用、查詢和顯示等操作。Windows:窗口控制。可進行窗口的排列、選擇和顯示等。

選擇“VariableView”項,定義變數(不要忘了保存)

Name:變數名。不能超過8個字元

Type:變數類型。共8種類型,分別為:

3.2建立數據檔一.定義變數數值型變數(Numeric)①Numeric為標準數值型變數:默認總長度為8位,小數是2位。②Comma為逗號型變數:位數同上。整數部分,從右向左,每3位一個逗號。③Dot為句號型變數:位數同上。整數部分,從右向左,每3位一個圓點,但對小數位的分割,應用逗號表示。字串型變數(String)

變數的長度是任意的。

④Scientificnotation為科學計數型變數。如原始數據1231.3表示成科學計數型為12.313E2;⑤Dollar為美元型變數。在Comma型的基礎上,增加一個美圓符號。⑥CustomCurrency自定義型變數。機器自動提示選擇方法。日期型變數(Date)dd-mm-yy(日-月-年)如06-05-04mm-dd-yy(月-日-年)如05-06-04dd-mmmm(英文)-yyyy

如06-May-2004

當你選擇Data類型後,系統會自動顯示日期類型,供你選擇。

Width:數據或字串的寬度。默認值為8個字元。Decimal:小數位數。

Label:變數標籤。用來說明變數所代表的意義。Value:對變數值的進一步說明。如:1=男,2=女Missing:定義缺失值類型。系統遺漏值:數值變項讀入了空白值或非數值數據,SPSS的數據表上顯示“.”。自定義遺漏值:特殊的數據,自己指定一個值,電腦會作為特殊值,計算時跳過。方法:1)在missing字段定義遺漏值;2)選擇Discretemissingvalues(自定義離散遺漏值)或Rangeplusoneoptionaldiscretemiss(範圍內的離散)值。Columns:定義數據在螢幕上該變數對應列的顯示列寬。默認值為8個字元,範圍是1-255。Align:定義數據在單元中的對齊方式。Measure:定義度量變數類型。可有Scale、Ordinal和Nominal。Scale:可以是數值型、日期型和貨幣型變數,但不能是字串型變數

Ordinal:可以是數值型和字串型變數,一般要求變數有較明顯的次序Nominal:與Ordinal一樣,只是不要求變數有次序關係,但要有較明顯的類別二.輸入數據選擇“DataView”項,輸入變數數據l

直接從數據編輯器中輸入(前面已介紹)。l

用“OpenFile”選擇已存在的數據檔讀入數據。l

用“OpenDatabase”讀入數據。

用“OpenFile”讀入數據操作步驟如下:①在SPSS數據編輯器中按照“File→Open→Data”可打開“OpenFile”對話框;②在“OpenFile”對話框中打開“檔類型”下拉列表框,選中所要讀入數據的類型,根據路徑找到要讀入的檔雙擊檔案名即可。常用的是讀入Excel數據。例1請將下麵表格內容在SPSS數據編輯器中輸入。

表1藥品名產地生產時間價格規格滴眼液A中國2003/4/14日2.5元8毫升滴眼液A日本2002/12/2日2.7元8毫升滴眼液A美國2002/8/29日2.85元8毫升滴眼液B美國2003/2/18日3.2元5毫升三.編輯數據1.修改數據找到所要修改的數據,啟動(雙擊),修改即可。2.插入或刪除一行數據插入行:點擊所要插入的行號,點擊工具欄(或擊右鍵)的“插入行Insertcase”的圖示(望遠鏡圖示的後面),就在此行增加一空行。刪除行:找到所要刪除的行,選中,按Delete鍵。3.插入或刪除一列(一個變數)插入列:點擊所要插入的列號,點擊工具欄的“插入列Insertcase”的圖示(望遠鏡圖示的後面第2個),就在此列增加一空列。刪除列:找到所要刪除的列,選中,按Delete鍵。例2.在例1的數據檔中完成插入與刪除的功能.4.合併數據檔(1)縱向合併數據檔打開第一個需合併的數據檔選擇Data-MergeFile-AddCase.輸入需合併的SPSS數據檔案名.單擊“OK”即可.注意:(1)合併後的數據檔有意義.(2)不同數據檔中數據含義相同的資料項目應起相同的數據名,數據類型也相同.UnpairedVariable框-顯示非公共變數[*]表示當前數據檔中的變數[+]表示被合併數據檔中的變數VariablesinNewWorkingDataFile框-公共的變數被自動匹配顯示在該框中Indicatecasesourceasvariable項若要求合併後的數據能看出來自哪個數據檔,則選中該項,以“0、1”區分例3.縱向合併下列兩個數據檔

表2表3職工號(zgh)性別(xb)年齡(nl)基本工資(sr)職稱(zc)11481014.0012149984.00232541044.0014241866.0045138848.002職工號(zgh)性別(xb)職稱(zc)624713823(2)橫向合併數據檔打開第一個數據檔選擇Data-MergeFile-AddVariables.輸入需合併的SPSS數據檔案名。單擊“OK”即可.注意:(1)兩個數據檔必須至少有一個名稱相同的變數,稱為關鍵變數.(2)不同數據檔中數據含義不相同的資料項目,變數名不應相同.ExcludedVariables框-顯示公共的變數NewWorkingDataFile框-顯示2個待合併的數據檔中的所有變數MatchcaseonkeyVariablesinsortedfiles項-從“ExcludeVariables”框中選中變數作為關鍵變數移至“KeyVariables”框中Bothfilesprovidecases-合併後的數據由2個待合併的檔數據組成Externalfileiskeyedtable-合併後的數據僅為當前數據檔中的數據WorkingDataFileiskeyedtable-合併後的數據檔僅為被合併數據檔中的檔例4.將表4中的數據檔橫向合併到表2中.

表4職工號(zgh)學歷(xl)113352四.保存分析結果保存結果檔

在結果流覽窗口中選擇菜單File==>Save,在檔案名框中鍵入“檔案名”並回車即可.Export:選擇輸出的內容ExprotFile:填入輸出的目標檔案名ExportWhat:選擇輸出結果的哪些部分File:選擇網頁格式和純文本格式例5.將例1中保存的數據檔導出為文本檔.3.3用SPSS進行基本統計分析一.數據排序選擇采單Data→SortCases將主排序變數從左面的列表框中選到Sortby框中,並在Sortby框中選擇按該變數的昇冪還是降序排序.Ascending-昇冪,Descending-降序.例1:某班級男生的身高數據(單位:釐米)171182175177178181185168170175177180176172165160178186190176163183二.計算基本描述統計量選擇菜單Analyze→DescriptiveStatistics→Descriptive將需計算的數值型變數選擇到Variable(s)框中。單擊Options按鈕指定計算哪些統計量。SaveStandardizedValuesasVariables:標準化變數標準化公式:標準化目的:去掉量綱的影響例2:計算例1中的基本統計量結果解釋:

22個男生的極差為30;最低身高為160,最高身高為190;平均身高為175.82,身高的標準差為7.563;偏度為-0.321呈左偏分佈,說明較低身高的占少數,較高身高的占多數;峰度為-0.140<0,呈平峰分佈,說明身高的分佈與正態分佈相比略有一些平峰。Std.Error是偏度和峰度的標準誤差.三.頻數分析選擇采單Analyze→Descriptive

Statistics→Frequencise將若干頻數分析變數選擇到Variable(s)框中。單擊Statistics按鈕、Charts按鈕、Format按鈕選擇輸出專案。1.Variable(s)框-存放變數2.Displayfrequencytables項-顯示頻數分佈表3.Statiatics…-統計對話框(1)PercentilesValues項-百分位數Quartiles-輸出25%,50%,75%的百分位數Cutpointsfor…equalgroups-輸入2-100之間的整數,常輸入4,則用百分位數將數據4等分,輸出25%,50%,75%的百分位數Percentiles-輸入0-100之間的數,如輸入2.5,則輸出2.5%的百分位數(2)Dispersion項-離差量Std.deviation-標準差Variance-方差Range-全距Minimum-最小值Maximum-最大值S.E.mean-標準誤差(3)CentralTendency項-中心趨勢量Mean-平均數Median-中位數Mode-眾數Sum-和(4)Valuesaregroupmidpoints項-數據分組後選中該項.(5)Distribution項-變數分佈Skewness-偏度及其標準誤差Kurtosis項-峰度及其標準誤差4.Charts…-圖形對話框(1)ChartType項None-不輸出圖形Barcharts-條形圖,高度代表頻數Piecharts-餅形圖,數值表示頻數Histograms-直方圖,選擇“Withnormalcurve”項,圖中帶有正態曲線.(2)ChartValues項Frequencies-縱軸表示頻數Percentages-縱軸表示百分比5.Format…-格式對話框(1)Orderby項-用於定義頻數分佈表數據的排列順序Ascendingvalues-數據按昇冪排列Descendingvalues-數據按降序排列Ascendingcounts-頻數按昇冪排列Descendingcounts-頻數按降序排列(2)MultipleVariables項-多變量項Comparevariables-將變數的結果顯示在同一圖形中.Organizeoutputbyvariables-將變數的結果顯示在不同的圖形中.Supprestableswithmore項-當頻數分佈表的組數大於“thancategories”中的值時,按該值表示的組數顯示.例3:某單位職工受教育程度的結構受教育程度小學初中高中大學碩士合計頻數1229216頻率(%)6.2512.512.556.2512.5100

畫出表示頻數和頻率分佈的條形圖、餅圖和直方圖。輸出結果:圖1頻率分析餅形圖編輯餅圖:雙擊此圖1)改變顏色:選擇要改顏色的圖形-選擇Fomart-Color命令-選顏色-Apply按鈕-Close按鈕(也可直接單擊圖示)2)分割餅圖:選擇要分割的圖形-選擇Format-ExplodeSlice3)加入標題:選擇Chart-Title-輸入標題名-OK4)加入注釋:選擇Chart-Options命令-在Lables選中Text、Percents-單擊Format-選擇Numberinside,textoutside-Continue-ok圖2頻率分析條形圖條形圖編輯:1)顯示數字:Fomart-BarLableStyle-Standard-ApplyAll2)變立體圖:Fomart-BarStyle-3-Deffect-Depth=30%(陰影比例)(或直接單擊圖示)圖3頻率分析直方圖第四章數理統計的基本概念4.1常用統計量及其分佈4.2樣本特徵數與總體特徵數的關係4.1常用統計量及其分佈樣本均值樣本方差樣本標準差一.常用統計量二.統計量的分佈1.正態分佈(1)總體X服從正態分佈

N(μ,σ2)(2)標準正態分佈臨界值—標準正態分佈的上α分位點ZαZ1-α=-Z

αΦ(zα)=1-ααZαμ2.t分佈(1)t分佈臨界值—t分佈的上α分位點tα(n)αtα(n)n>45,tα(n)≈zαZα為標準正態分佈上α分位點t1-α=-t

α(2)兩個重要結論結論1:設總體X服從正態分佈N(μ,σ2),σ2未知.(x1,x2,…xn)為來自該總體的樣本.則統計量結論2:設總體X服從正態分佈N(μ1,σ2)總體Y服從正態分佈N(μ2,σ2)(σ2

未知),X與Y獨立,且X1,X2,…,Xn1和Y1,Y2,…,Yn2分別是來自總體X和Y的樣本,則統計量

分別是兩總體的樣本均值,s12

及s22分別是兩總體的樣本方差,n1及n2分別是兩樣本的容量。其中和3.F分佈(1)F分佈臨界值—F分佈的上α分位點Fα(n1,n2)αFα(n1,n2)

~F(n1―1,n2―1)其中s12

和s22

分別是總體X和Y的樣本方差。(2)一個重要結論設總體X~N(μ1,σ12),Y~N(μ2,σ22

),X與Y獨立,且X1,X2,…,Xnl與Y1,Y2,…,Yn2分別是來自總體X和Y的樣本,則統計量F=4.2樣本特徵數與總體特徵數的關係總體X的特徵數:E(X)=μD(X)=σ2樣本特徵數:關係:第五章假設檢驗5.1假設檢驗5.2正態總體均值的假設檢驗5.3正態總體方差的假設檢驗5.4用SPSS統計軟體進行假設檢驗假設檢驗:參數的檢驗

分佈的檢驗參數的檢驗包括:一個正態總體(均值和方差)的假設檢驗兩個正態總體(均值和方差)的假設檢驗假設檢驗:雙邊檢驗(等號成立)

單邊檢驗(不等號成立)

5.1假設檢驗一、假設檢驗的統計思想(以雙邊檢驗為例)例1:某車間用一臺包裝機包裝葡萄糖,包得的袋裝糖重服從正態分佈.當機器正常時,其均值為0.5公斤.某日開工後為檢驗包裝機是否正常工作,隨機地抽取它所包裝的糖9袋,稱得淨重為(公斤)。

0.497

0.5060.5180.5240.498

0.5110.5200.5150.512

問這天包裝機工作是否正常?

分析:設這天包裝的糖重為X,X~N(μ,σ2),判斷:μ0=0.5公斤?是,則包裝機工作正常,否則包裝機工作不正常。作假設H0:μ=μ0=0.5(零假設)H1:μ≠μ0=0.5(備則假設)

在原假設H0成立的情況下的取值與μ0的差異|-μ0|應較小而事件“|-μ0|相當大”則為小概率事件假設檢驗推斷的依據:小概率事件原理.即:小概率事件在一次試驗中幾乎不可能發生.μ未知,但知

設“|-μ0|≥K”為小概率事件,若給定α(α為很小的正數),K可由下式確定,令

P{|-μ0|≥K}=αα為顯著性水準

t為檢驗統計量於是,即

根據小概率事件原理,如果由樣本的一次觀察值計算的樣本均值滿足不等式表明小概率事件在一次試驗中居然發生了,這樣我們就有理由說假設H0有問題。從而作出拒絕假設H0推斷,否則,我們便作出接受假設H0的結論。α/2α/2

1-α-tα/2(n-1)tα/2(n-1)

接受域拒絕域拒絕域已知s=0.009391,n=9,取α=0.05,則

因此在α=0.05下,拒絕H0,即認為這天包裝機工作不正常。此例中,計算得二.假設檢驗的基本步驟(雙邊檢驗)(1)作假設H0:μ=μ0(零假設)

H1:μ≠μ0(備則假設)

(2)選擇檢驗假設H0的統計量,並確定其分佈(3)據樣本觀測值計算出該統計量的值.(4)在給定的顯著性水準

(0<

<1)下,查所選統計量服從的分佈表,求出臨界值tα/2(n-1)

(5)確定拒絕域並作出判斷三.單邊檢驗1.單邊檢驗與雙邊檢驗的不同之處假設:右邊檢驗-H0:μ≤μ0,H1:μ>μ0

左邊檢驗-H0:μ≥μ0,H1:μ<μ0拒絕域:

設總體X∼N(μ,σ2),σ為未知,X1,X2,….,Xn是來自X的樣本.給定顯著性水準

.≥k

(k是某一常數)當H0為真時:檢驗:H0:μ≤μ0,H1:μ>μ0時,因H0中的全部μ都比H1中的μ要小,當H1為真時,觀察值往往偏大,因此拒絕域的形式為:α

1-αtα(n-1)

接受域拒絕域即t

≥t

(n-1)時,拒絕H0,認為μ>μ0類似地,檢驗-H0:μ≥μ0,H1:μ<μ0α

1-α-tα(n-1)

接受域拒絕域即t

≤t

(n-1)時,拒絕H0,認為μ<μ02.單邊檢驗假設的具體設法在證實某一問題時,備則假設H1取為想加以證實的問題;在檢驗產品品質是否合格時,零假設H0取為合格;在技術革新或改變工藝後,檢驗某參數值有無顯著變化(變大或變小),原假設H0總取不變大(或變小),即保守情形,備則假設是希望的結果.原假設一定要設為“≤或≥”.拒絕域在圖形的左側或右側大體上與原假設H0中的不等式開口方向一致.四.假設檢驗中的兩類判斷錯誤第一類錯誤:原假設本是真的,而做出了否定H0判斷,因此也稱為“棄真錯誤”。在管理中也稱生產者的風險度,記為α.

其大小為:P{拒收/H0真}=α第二類錯誤:原假設H0本來不真,而做出了接收的判斷,因此也稱為“取偽錯誤”。在管理中也稱為使用者的風險度,記為β

其大小為:P{接收/H0不真}=β兩類錯誤的關係:α越大,β越小,反之α越小β越大。

與S2分別為樣本均值和方差。給定顯著性水準

.σ2未知,關於μ的檢驗(t檢驗)(1)作假設H0:μ=μ0H1:μ≠μ0

H0:μ≥μ0H1:μ<μ0H0:μ≤μ0H1:μ>μ05.2正態總體均值的假設檢驗(一)單個正態總體均值的假設檢驗設總體X∼N(μ,σ2),X1,X2,….,Xn是來自X的樣本.

(3)據樣本觀測值計算出該統計量的值.(4)在給定的顯著性水準

(0<

<1)下,查所選統計量服從的分佈表,求出臨界值。

(2)選擇檢驗假設H0的統計量,並確定其分佈(5)確定拒絕域並作出判斷對應於H0:μ=μ0H1:μ≠μ0對應於H0:μ≥μ0H1:μ<μ0

對應於H0:μ≤μ0H1:μ>μ0P221例1

(二)兩個正態總體均值的假設檢驗設總體X~N(μ1,σ12

),X1,X2,…Xn1為X的樣本,總體Y~N(μ2,σ22

),Y1,Y2,…,Yn2為Y的樣本,X與Y獨立,σ12

=σ22未知。與S12、S22分別為兩樣本均值和方差。

(1)作假設H0:μ1=μ2H1:μ1≠μ2

H0:μ≥μ0H1:μ<μ0H0:μ≤μ0H1:μ>μ0

(2)選擇檢驗假設H0的統計量,並確定其分佈

(3)據樣本觀測值計算出該統計量的值.(4)在給定的顯著性水準

(0<

<1)下,查所選統計量服從的分佈表,求出臨界值。

(5)確定拒絕域並作出判斷對應於H0:μ=μ0H1:μ≠μ0對應於H0:μ≥μ0H1:μ<μ0

對應於H0:μ≤μ0H1:μ>μ0P222例2(三)基於成對數據的t檢驗一般,設有n對相互獨立的觀測結果(X1,Y1),(X2,Y2)…(Xn,Yn),令D1=X1-Y1,D2=X2-Y2,…Dn=Xn-Yn則D1,D2,…Dn相互獨立.Di∼N(μD,

σD2)假設:(1)H0:μD=0,H1:μD≠0

(2)H0:μD≤0,H1:μD>0(3)H0:μD≥

0,

H1:μD<0(2)(3)的拒絕域分別為:見p223例3

5.3正態總體方差的假設檢驗兩個總體的情況(F檢驗)(1)作假設H0:σ12=σ22

H1:σ12

≠σ22

H0:σ12

σ22

H1:σ12

<σ22H0:σ12

σ22

H1:σ12

>σ22(2)選擇檢驗假設H0的統計量,並確定其分佈(3)據樣本觀測值計算出該統計量的值.

(5)確定拒絕域並作出判斷

/2Fα/2(n1,n2)(4)在給定的顯著性水準

(0<

<1)下,查所選統計量服從的分佈表,求出臨界值F

α/2

(n1-1,n2-1)和F

1-α/2

(n1-1,n2-1)。F1-α/2(n1,n2)F≥F

α/2

(n1-1,n2-1)或F≤F

1-α/2

(n1-1,n2-1)拒絕域為對應於H0:σ12=σ22

H1:σ12

≠σ22

對應於H0:σ12

σ22

H1:σ12

<σ22拒絕域為F≤F

1-α

(n1-1,n2-1)對應於H0:σ12

σ22

H1:σ12

>σ22拒絕域為F≥F

α

(n1-1,n2-1)P231例25.4用SPSS統計軟體進行假設檢驗一.One-SamplesTTest過程選擇選項Analyze→Comparemeans→One-SamplesTtest.1.介面說明【TestVariables框】用於選入需要分析的變數。【TestValue框】在此處輸入已知的總體均數,默認值為0。【Options鈕】彈出Options對話框,用於定義相關的選項,有:ConfidenceInterval框輸入置信概率,默認為95%。MissingValues單選框組Excludescasesanalysisbyanalysis—在參與計算的數據中有缺失值的不參與計算Excludescaseslistwise—所有數據中有缺失值的不參與計算2結果解釋如要檢驗p221例1中,H0:μ=μ0=225(小時)H1:μ≠μ0=225(小時)則輸出如下:表1描述統計表第2列:樣本數第4列:樣本標準差第3列:樣本均值第5列:樣本均值標準誤差表2t檢驗表第2列:t統計量的觀測值第3列:自由度第四列:t統計量的觀測值的雙側概率p值

P=0.514>α=0.05,不應拒絕H0。第5列:樣本均值與檢驗值的差第6、7列:總體均值與原假設值差的95%的置信區間。即有95%的把握認為某種元件的平均壽命在188.98和294.11之間,225包含在這個範圍內.故接受H0.如要檢驗p221例1中,H0:μ≤μ0=225(小時)

H1:μ>μ0=225(小時)第四列:t統計量的觀測值的雙側概率p值

p/2>α=0.05,應接受H0。如要檢驗p221例1中,H0:μ≥μ0=225(小時)

H1:μ<μ0=225(小時)第四列:t統計量的觀測值的雙側概率p值

p/2>α=0.05,應接受H0。二.Independent-SamplesTTest過程選擇選項Analyze→Comparemeans→Independent-SamplesTtest.1.介面說明【TestVariables框】選入檢驗變數(輸入全部數據)(如成績)。【GroupingVariable框】存放分組變數(如組別)【DefineGroups框】UsespecifiedValues:輸入分組變數值(如1和2)。CutPoint:用於連續變數,輸入一個值作為分割值,將數據分為兩組.【Options鈕】和One-SamplesTTest對話框的Options鈕完全相同,此處不再重複。2.結果解釋如要檢驗p222例2中,H0:μ1=μ2H1:μ1≠μ2則輸出如下:

表1

表2第一步:兩總體方差是否相等的F檢驗(第2大列).F值為0.256,對應的概率值為0.619.如α=0.05,由於概率p>0.05,可認為兩總體方差無顯著差異.第二步:兩總體均值的檢驗(第3大列).由於兩總體方差無顯著差異,因此應看第一行的結果.T值為-4.296,對應的雙側概率p值為0.000<α=0.05,認為兩總體的均值有顯著差異.第7列:t統計量的分子第8列:t統計量的分母第9和10列:兩總體均值差的95%的置信區間.如要檢驗p222例2中,H0:μ1≥

μ2H1:μ1<μ2第二步:兩總體均值的檢驗(第3大列).P/2=0.000<α=0.05,拒絕H0,認為建議的新操作方法較原來的方法為優.三.

Paired-SamplesTTest過程

功能實際上是和One-SamplesTTest過程相重複的(等價於已知總體均數為0的情況).1.介面說明選擇選項Analyze→Comparemeans→Paired-SamplesTtest.PairedVariable框:選入一對或幾對變數,即按住Ctrl鍵,選中兩個成對變數,再單擊將其選入。2.結果解釋如要檢驗p223例3中,H0:μD=0H1:μD≠0則輸出如下:表1表2表3表3中,如α=0.01,由於概率p=0.180>α,因此接受H0,認為兩臺儀器的測試結果並無顯著差異.表2中,兩臺光譜儀的測試結果有顯著的線性關係,簡單相關係數高達0.900,說明二者的相關性很強.第六章方差分析6.1單因素試驗的方差分析6.2用SPSS統計軟體進行方差分析6.1單因素試驗的方差分析方差分析:鑒別各有關因素對實驗結果影響的一種的統計方法.一.單因素實驗1.基本概念實驗指標:要考察的指標,用X等表示。如智商。因素:影響實驗指標的條件,用A等表示。如教育。因素的水準:因素所處的狀態,用Ai等表示。如教育可以取為“良好的教育A1”,“一般的教育A2”和“較差的教育A3”。方差分析:

單因素方差分析(只有一個因素改變)多因素方差分析(有多個因素改變)

例1

為了考察6種不同的農藥的殺蟲率有無顯著差異,做了18次試驗,得數據如下:

農藥殺蟲率(%)行平均值

187.485.080.284.20290.588.587.394.790.26356.262.459.30455.048.251.60592.099.295.391.594.50676.272.381.376.27

目的:要考察這6種不同的農藥的殺蟲率有無顯著差異?

實驗指標:殺蟲率因素:農藥(一個因素)

因素水準:6種農藥(6個水準,看成6個正態總體)檢驗:6種農藥的殺蟲率的均值之間是否有顯著差異?即:需要建立假設檢驗:H0:

1=

2=…=

6=

H1:

1,

2,…

6不全相等(假設6個正態總體的方差相等)

2.單因素方差分析的一般提法設因素A有s個水準A1,A2,…AS,在水準Aj(j=1,2,…s)下進行nj(nj≥2)次獨立實驗,結果如下:A1A2……As12..nX11X21..Xn11X12X22..Xn22…………..……X1sX2s..Xnss樣本總和樣本均值總體均值T.1X.1μ1T.2X.2μ2………………T.SX.SμS

假設:各個水準Aj(j=1,2,…s)下的樣本X1j,X2j,…,Xnjj來自正態總體N(μj,σ2),且設不同水準Aj下的樣本之間相互獨立。檢驗假設:H0:

1=

2=…=

s=

H1:

1,

2,…

6s不全相等二.平方和的分解(以例1為例)農藥殺蟲率(%)-Xij

行平均值X.j

187.485.080.284.20(X.1)290.588.587.394.790.26(X.2)356.262.459.30(X.3)455.048.251.60(X.4)592.099.295.391.594.50(X.5)676.272.381.376.27(X.6)

總平均80.2(X)

全部數據Xij與總平均X之間有差異-總偏差ST每種農藥的各個數據Xij與水準平均X.j

之間有差異-隨機誤差SE每種農藥的水準平均X.j

與總平均之間有差異-效應偏差SA全部數據Xij與總平均X之間有差異-總偏差ST每種農藥的各個數據Xij與水準平均X.j

之間有差異-隨機誤差SE每種農藥的水準平均X.j

與總平均之間有差異-效應偏差SA誤差平方和:(組內偏差平方和)效應平方和:(組間偏差平方和)總偏差平方和:方差分析表方差來源平方和由度均方F比臨界值顯著性因素ASAs-1Fα(s-1,n-s)誤差ESEn-s總和TSTn-1見p279例4三.假設檢驗問題的拒絕域統計量及其分佈:拒絕域:6.2用SPSS統計軟體進行方差分析選擇選項Analyze→Comparemeans→One-WayANOVA.1.介面說明【DependentList框】選入觀測變數(指標)(輸入全部數據)【Factor框】選入因素變數(因素總名稱)(輸入因素水準1,2,3等)【Contrast鈕】彈出Contrast對話框,用於對精細趨勢檢驗和精確兩兩比較的選項進行定義,由於該對話框太專業,也較少用,略。2.結果解釋如要檢驗p271例1中,H0:

1=

2=

3H1:

1,

2,

3不全相等則輸出如下:第一列:方差來源,組間/組內/總第二列:偏差平方和,SA/SE/ST第三列:fA/fE/fT第四列:均方,偏差平方和/自由度第五列:F值第六列:F統計量的顯著性概率(外側概率p)P>α=0.05,接受H0

第七章相關與回歸分析7.1相關分析7.2一元線性回歸分析7.3一元非線性回歸分析7.1相關分析一.變數間的關係二.相關分析7.1相關分析一.變數間的關係函數關係:確定。例如園周長與半徑:

y=2πr相關關係:不確定。例如血壓和年齡的關係。二.相關分析定義:通過圖形和數值兩種方式,能夠有效地揭示變數之間的關係的強弱程度.1.散點圖(1)散點圖的含義將數據以點的形式畫在直角平面上,通過點組成的圖形來觀察2個變數之間的相關關係.(2)用SPSS軟體繪製散點圖基本操作步驟:選擇菜單Graphs→Scatter選擇散點圖的類型Simple-簡單散點圖(2個變數)***Define按鈕:因變數Y放入Y-Axis,引數X放入X-Axis,其他項可以省略.Overlay-重疊散點圖:多對變數Matrix-矩陣散點圖:以方形矩陣的形式顯示多對變數3-D-三維散點圖:以立體圖的形式顯示三對變數P265例12.相關係數相關係數(correlationcoefficient),又稱Pearson相關係數(軟體中常用此名稱)說明相關的密切程度和方向的指標。(1)定義相關係數以數值的形式精確地反映2個變數間線性相關的強弱程度.(2)計算樣本相關係數rr無單位,-1≤r≤

1。

相關係數示意圖

散點呈橢圓形分佈,X、Y同時增減---正相關(positivecorrelation);

X、Y此增彼減---負相關(negativecorrelation)。

散點在一條直線上,

X、Y變化趨勢相同----完全正相關;反向變化----完全負相關。(3)相關係數的意義

相關係數示意圖

X、Y變化互不影響----零相關(zerocorrelation)r值為正——正線性相關,為負——負線性相關;

|r|=1---完全線性相關,|r|=0---零相關。|r|≥0.8,高度相關0.8﹥|r|≥0.5,中度相關0.5﹥|r|≥0.3,低度相關0.3﹥|r|,不相關(4)相關係數的檢驗假設:H0:R=0H1:R≠0統計量t=服從t(n-2)分佈拒絕域:拒絕H0,說明X與Y之間線性關係顯著.4.用SPSS統計軟體計算相關係數介面說明:(1)選擇菜單Analyze-Correlate-Bivariate(2)Variables框:存放參加計算相關係數的變數。(3)CorreiationCoefficients項:Pearson:簡單相關係數,用於連續變數或等間距測度的變數.Spearman:等級相關係數,用來度量定序變數.Kendall’stau-b:等級相關係數,用來度量定序變數.(4)TestofSingnificance項Two-tailed:雙尾檢驗One-tailed:單尾檢驗(5)FlagsignificantCorrlations項在相關係數上用“*”表出檢驗結果,“*”表示顯著水準為0.05,“**”表示顯著水準為0.01.(6)Options按鈕Statistics:Meansandstandarddeviations:輸出均值和標準差Cross-productdeviationsandcovariances:輸出叉積離差陣和協方差陣MissingValues:Excludecasespairwise:剔除本計算變數含有缺失值的數據Excludecaseslistwise:剔除所有計算變數含有缺失值的數據P296例1結果解釋:相關係數為0.998,P=0.000<0.01,高度顯著,說明兩者之間高度線性相關.7.2一元線性回歸分析一.一元線性回歸二.a,b的估計三.σ2的估計四.線性假設的顯著性檢驗五.係數b的置信區間六.Y的觀察值的點估計和區間估計七.用SPSS軟體進行一元線性回歸分析7.2一元線性回歸分析一.一元線性回歸(linearregression)1.定義

分析變數之間的相關關係,側重於考察變數之間的數量變化規律,並通過回歸方程的形式描述和反映這種關係。分類:一元回歸分析(2個變數)多元回歸分析(多於2個變數)線性回歸分析非線性回歸分析2.一元線性回歸模型的建立

設有2個變數X和Y,測試數據為(x1,y1),…,(xn,yn)y*********x*(1)畫散點圖見p296例1Y=a+bx+ε

ε為隨機誤差,服從N(0,σ2);b為回歸係數對於每個觀測值(xi,yi),有回歸模型:yi=a+bxi+εi

滿足:εi服從N(0,σ2)

各εi相互獨立(2)建立一元線性回歸模型:常數項:回歸係數(regressioncoefficient)。意義:x每改變一個單位,Y平均改變b個單位。或1.建立一元線性回歸方程意義:對於各xi值,yi平均在一條直線上.二.a,b的估計2.用最小二乘法確定令:實測點為:(xi,yi)

計算點為:xy**********(xi,yi)xi*殘差平方和:用最小二乘法確定即要選擇的,使達到最小值.令:正規方程組見P303例3三.σ2的估計Std.Erroroft

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论