版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
賈俊平2024-2-121.1統計及其應用領域1.2數據及其分類1.3統計中的基本概念
統計和數據1.1
統計及其應用領域各種定義統計學是收集、分析、表述和解釋數據的科學(不列顛百科全書)統計是一門收集、分析、解釋和提供數據的科學(韋伯斯特國際辭典第3版)統計指的是一組方法,用來設計實驗、獲得數據,然後在這些數據的基礎上組織、概括、演示、分析、解釋和得出結論(MarioF.Triola,《初級統計學》)什麼統計學收集、處理、分析、解釋數據並從數據中得出結論的科學收集數據:取得數據處理數據:整理與圖表展示分析數據:利用統計方法分析數據數據解釋:結果的說明得到結論:從數據分析中得出客觀結論包括描述方法、推斷方法及其他方法1.1統計及其應用領域描述統計研究數據收集、處理、匯總、圖表描述、概括與分析等統計方法描述數據特徵找出數據的基本規律內容包括:搜集數據、整理數據、展示數據、描述性分析描述統計與推斷統計推斷統計研究如何利用樣本數據來推斷總體特徵的統計方法對總體特徵作出推斷內容包括:參數估計、假設檢驗1.1統計及其應用領域【例1.1】用統計識別作者1787—1788年,亞曆山大·漢密爾頓(AlexanderHamilton)、約翰·傑伊(JohnJay)和詹姆士·麥迪遜(JamesMadison)為了說服紐約人認可憲法,匿名發表了85篇著名的論文。在這些論文中,大多數的作者已經得到了識別,但是其中的12篇論文的作者身份引起了爭議。有人通過對不同的單詞的頻數進行統計分析,得出了結論:詹姆士·麥迪遜最有可能是這12篇論文的作者。現在,對於這些存在爭議的論文,認為詹姆士·麥迪遜是作者的觀點占主導地位,而且幾乎可以肯定這種觀點是正確的統計的應用領域【例1.2】用簡單的描述統計量得到一個重要發現費舍(R.A.Fisher)在1952年的一篇文章中舉了一個例子,說明如何由基本的描述統計量的知識引出一個重要的發現。20世紀早期,哥本哈根卡爾堡實驗室的施密特(J.Schmidt)發現不同地區所捕獲的同種魚類的脊椎骨和鰓腺的數量有很大不同,甚至在同一海灣內不同地點所捕獲的同種魚類,也有這樣的傾向;然而,鰻魚的脊椎骨的數量卻變化不大。施密特從歐洲大陸各地、冰島、亞速爾群島以及尼羅河等幾乎分離的水域裏所捕獲的鰻魚的樣本中,計算發現了幾乎一樣的均值和標準偏差值。由此,施密特推斷各個不同海域內的鰻魚都是在海洋中某公共場所繁殖的。後來名為“戴納(Dana)”的科學考察船在一次遠征中發現了這個場所1.1統計及其應用領域
統計的應用領域1.1統計及其應用領域統計的誤用與濫用統計濫用不好的樣本或過小的樣本誤導性圖表局部描述故意曲解統計應用上的兩個極端——不用或幾乎不用統計;簡單問題複雜化在統計應用中,這兩個極端都是不可取的簡單的方法不一定沒用,複雜的方法也不一定有用。正如有的學者所說的,最簡單的模型往往是最有用的統計應該恰當地應用到它能起作用的地方。不能把統計神秘化,更不能歪曲統計,把統計作為掩蓋實事的陷阱1.2數據及其分類按計量尺度分類別數據(categoricaldata)只能歸於某一類別的非數字型數據對事物進行分類的結果,數據表現為類別,用文字來表述分為無序類別數據和有序類別數據數值數據(metricdata)按數字尺度測量的觀察值結果表現為具體的數值,對事物的精確測度分為離散數據和連續數據數據——變數的觀測結果按收集方法分觀測的數據(observationaldata)通過調查或觀測而收集到的數據在沒有對事物人為控制的條件下而得到的有關社會經濟現象的統計數據幾乎都是觀測數據實驗的數據(experimentaldata)在實驗中控制實驗對象而收集到的數據比如,對一種新藥療效的實驗,對一種新的農作物品種的實驗等自然科學領域的數據大多數都為實驗數據按時間狀況分截面數據(cross-sectionaldata)在相同或近似相同的時間點上收集的數據描述現象在某一時刻的變化情況比如,2021年我國各地區的國內生產總值數據時間序列數據(timeseriesdata)在不同時間上收集到的數據描述現象隨時間變化的情況比如,2000年至2021年國內生產總值數據1.2數據及其分類數據——變數的觀測結果数据的分类按计量尺度类别数据无序类别数据有序类别数据数值数据离散数据连续数据按收集方法观察数据实验数据按时间状况截面数据时间序列数据1.3統計中的基本概念總體(population)所研究的全部個體(數據)的集合,其中的每一個個體也稱為元素分為有限總體和無限總體有限總體的範圍能夠明確確定,且元素的數目是有限的無限總體所包括的元素是無限的,不可數的樣本(sample)從總體中抽取的一部分元素的集合構成樣本的元素的數目稱為樣本容量或樣本量(samplesize)總體和樣本1.3統計中的基本概念參數和統計量參數(parameter)描述總體特徵的概括性數字度量,是研究者想要瞭解的總體的某種特徵值所關心的參數主要有總體均值()、標準差(
)、總體比例()等總體參數通常用希臘字母表示統計量(statistic)用來描述樣本特徵的概括性數字度量,它是根據樣本數據計算出來的一些量,是樣本的函數所關心的樣本統計量有樣本均值(
x)、樣本標準差(s)、樣本比例(p)等樣本統計量通常用小寫英文字母來表示1.3統計中的基本概念說明現象某種特徵的概念如商品銷售額、受教育程度、產品的品質等級等變數的具體表現稱為變數值,即數據變數可以分為類別變數(categoricalvariable):說明事物類別的名稱無序類別變數有序類別變數數值變數(metricvariable):說明事物數字特徵的名稱離散變數:取有限個值連續變數:可以取無窮多個值變數(variable)思維導圖本书结构数据来源和处理第2章数据来源和处理描述方法图形展示第3章数据的图形展示概括性度量第4章数据的概括性度量推断方法估计方法第5章抽样与参数估计检验方法第6章假设检验其他方法关系分析第7章相关与回归分析时间序列第8章时间序列分析和预测描述应用推断本書結構賈俊平2024-2-122.1數據的來源2.2數據的預處理2.3生成頻數分佈表
數據來源和處理內容提要本章主要介紹統計數據的來源及其基本的處理方法,以便為進一步的分析奠定基礎具體內容包括數據的來源,介紹數據的直接來源和間接來源,抽樣方法以及抽取數據樣本的Excel實現數據的預處理,介紹數據審核、數據排序和篩選方法及Excel實現生成頻數分佈表。介紹類別數據和數值數據頻數分佈表的生成方法及Excel實現本章內容提要2.1
數據的來源二手數據——別人調查或實驗的數據統計部門和政府部門公佈的有關資料,如各類統計年鑒各類經濟資訊中心、資訊諮詢機構、專業調查機構等提供的數據各類專業期刊、報紙、書籍所提供的資料各種會議,如博覽會、展銷會、交易會及專業性、學術性研討會上交流的有關資料從互聯網或圖書館查閱到的相關資料間接來源二手數據的特點收集容易,採集成本低作用廣泛分析所要研究的問題提供研究問題的背景幫助研究者更好地定義問題檢驗和回答某些疑問和假設尋找研究問題的思路和途徑收集二手資料在研究中應優先考慮二手數據的評估數據是誰收集的?可信度評估為什麼目的而收集的?數據是怎樣收集的?什麼時候收集的?2.1
數據的來源直接來源調查數據通過調查方法獲得的數據通常是對社會現象而言通常取自有限總體實驗數據通過實驗方法得到的數據通常是對自然現象而言也被廣泛運用到社會科學中如心理學、教育學、社會學、經濟學、管理學等2.1
數據的來源數據抽樣——概率抽樣(probabilitysampling)簡單隨機抽樣(simplerandomsampling)從含有N個元素的總體中,抽取n個元素作為樣本,使得每一個容量為n的樣本都有相同的機會(概率)被抽中簡單隨機抽樣是其他抽樣方法的基礎有兩種抽取元素的方法:重複抽樣和不重複抽樣重複抽樣(samplingwithoutreplacement):從總體中抽取一個元素後,把這個元素放回到總體中再抽取第二個元素,直至抽取n個元素為止不重複抽樣(samplingwithreplacement:個元素被抽中後不再放回總體,然後再從所剩下的元素中抽取第二個元素,直到抽取n個元素為止分層抽樣(stratifiedsampling)在抽樣之前先將總體的元素劃分為若干層(類),然後從各個層中抽取一定數量的元素組成一個樣本,這樣的抽樣方式稱為分層抽樣,也稱分類抽樣(stratifiedsampling)在分層或分類時,應使層內各元素的差異盡可能小,而使層與層之間的差異盡可能大。各層的劃分可根據研究者的判斷或研究的需要進行。比如,研究的對象為人時,可按性別、年齡等分層;研究收入的差異時,可按城鄉分層,等等。分層抽樣是一種常用的抽樣方式。它具有以下優點:分層抽樣除了可以對總體進行估計外,還可以對各層的子總體進行估計分層抽樣按自然區域或行政區域進行分層,可以使抽樣的組織和實施都比較方便分層抽樣的樣本分佈在各個層內,從而使樣本在總體中的分佈比較均勻分層抽樣可以提高估計的精度2.1
數據的來源數據抽樣——概率抽樣(probabilitysampling)系統抽樣(systematicsampling)也稱等距抽樣或機械抽樣。先將總體各元素按某種順序排列,並按某種規則確定一個隨機起點,然後,每隔一定的間隔抽取一個元素,直至抽取n個元素形成一個樣本系統抽樣具有以下優點:簡便易行。當抽樣容量很大時,簡單隨機抽樣逐個使用亂數字表抽選是相當麻煩的,而系統抽樣有了總體元素的排序,只要確定出抽樣的起點和間隔後,樣本元素也就隨之確定,而且可以利用現有的排列順序,如抽選學生時利用學校的花名冊,抽選居民時可利用居委會的戶口本等,方便操作。因此系統抽樣常用來代替簡單隨機抽樣。系統抽樣的樣本在總體中的分佈一般也比較均勻,由此估計的誤差通常要小於簡單隨機抽樣。如果掌握了總體的有關資訊,將總體各元素按有關標誌排列,就可以提高估計的精度整群抽樣(clustersampling)先將總體劃分成若干群,然後以群作為抽樣單位從中抽取部分群,再對抽中的各個群中所包含的所有元素進行觀察整群抽樣時,對群的劃分可以按自然的或行政的區域進行,也可以人為地組成群。比如,在抽選地區時,可以將一個地區作為一群,在抽取居民戶時,可以將一個居民區作為一群整群抽樣的優點是群的名單比較容易得到調查比較方便,節約費用。當群內的各元素存在差異時,整群抽樣可以提供較好的結果,理想的情況是每一群都是整個總體的一個縮影。在這種情況下,抽取很少的群就可以提供有關總體特徵的資訊如果實際情況不是這樣,整群抽樣的誤差會很大,效果也就很差2.1
數據的來源數據抽樣——概率抽樣——例題分析【例2.1】表2-1是50學生的姓名、性別、專業和考試分數數據,隨機抽取10個學生組成的一個樣本學生編號姓名性別專業考試分數1張青松男會計學822王宇翔男金融學813田思雨女會計學754徐麗娜女管理學865張志傑男會計學77……………21劉曉軍男管理學9146孫夢婷女管理學8647唐國健男管理學7548尹嘉韓男會計學7049王雯迪女會計學7350王思思女會計學80第1步:在工作表中點擊【數據】
【數據分析】。第2步:在彈出的對話框中選擇【抽樣】。單擊【確定】。第3步:在出現的對話框【輸入區域】中輸入要抽取一般的數據區域(本例中為學生代碼所在的區域);在【抽樣方法】中單擊【隨機】;在【樣本數】中輸入需要抽樣的樣本量(本例為20);在【輸出區域】中選擇抽樣結果放置的區域。單擊【確定】學生編號姓名性別專業考試分數6趙穎穎女金融學9739劉文濤男管理學7341馬家強男金融學8212馬鳳良男金融學558宋麗媛女會計學9244邱怡爽女金融學8315孫學偉男會計學5130李愛華女會計學9812馬鳳良男金融學5539劉文濤男管理學732.2數據的預處理數據審核就是檢查數據中是否有錯誤對於通過調查取得的原始數據(rawdata),主要從完整性和準確性兩個方面去審核。完整性審核主要是檢查應調查個體是否有遺漏,所有的調查專案是否填寫齊全等。準確性審核主要是檢查數據是否有錯誤,是否存在異常值等對於通過其他管道取得的二手數據,應著重審核數據的適用性和時效性應弄清楚數據的來源、數據的口徑以及有關的背景材料,以便確定這些數據是否符合自己分析研究的需要,不能盲目生搬硬套還要對數據的時效性進行審核,對於有些時效性較強的問題,如果所取得的數據過於滯後,可能失去了研究的意義數據審核與錄入——數據審核2.2數據的預處理數據錄入就是生成電子數據檔用Excel進行數據驗證第1步:用滑鼠在工作表中選定錄入數據的單元格區域,如A1:B10單元格區域第2步:選擇【數據】→【數據驗證】第3步:在【驗證條件】的【允許】框內選擇要錄入的數據類型,比如,“整數”(默認為任何值)。在【介於】框內選擇驗證條件,或者在“最小值”和“最大值”框內輸入數據範圍。比如,在【最小值】框內輸入0,在【最大值】框內輸入100。出現的介面如下圖所示第4步:點擊【出錯警告】,在【式樣】下選擇“警告”,在【錯誤資訊】下輸入警告資訊,比如“NA”。然後點擊【確定】,即可完成設置完成上述設置後,在此區域內錄入不符合驗證條件的數據將會出現以下錯誤資訊。比如,在A1單元格錄入1000,顯示的錯誤資訊。選擇【是】,忽略此錯誤,選擇【否】則返回單元格,再重新錄入數據審核與錄入——數據錄入2.2數據的預處理
數據排序與篩選——數據排序2.2數據的預處理數據篩選(datafilter)是根據需要找出符合特定條件的某類數據用Excel進行數據篩選的過程篩選出考試分數大於等於90的學生第1步:將游標放在數據區域的任意單元格。然後點擊【數據】
【篩選】。這時繪在每個變數名中出現下拉箭頭第2步:點擊要篩選的變數的下拉箭頭即可對該變數進行篩選。比如,要篩選出考試分數大於等於90的學生,點擊考試分數變數的下拉箭頭第3步:點擊“大於或等於”,並在後面的框內輸入90。點擊【確定】篩選出會計學專業考試分數小於60男生——使用【高級篩選】命令第1步:在工作表的上方插入3個空行,將數據表的第一行(變數名)複製到第1個空行;在第2個空行的相應變數名下依次輸入篩選的條件第2步:選擇【數據】→【高級】。在列表區域輸入要篩選的數據區域;在條件區域輸入條件區域單擊【確定】數據排序與篩選——數據篩選2.3生成頻數分佈表頻數(frequency)——落在某一特定類別(或組)中的數據個數頻數分佈(frequencydistribution)——把各個類別及落在其中的相應頻數全部列出,並用表格形式表現出來由於類別數據本身就是用文字表達的類別,因此,只要先把所有的類別都列出來,然後計算出每一類別的頻數,即可生成一張頻數分佈表頻數分佈表中落在某一特定類別的數據個數就是頻數根據觀察變數的多少,可以生成簡單頻數表、二維列聯表和多維列聯表等類別數據的頻數分佈表——簡單頻數表簡單的頻數表也稱為一維列聯表只涉及一個分類變數時,這個變數的各類別(取值)可以放在頻數分佈表中“行”的位置,也可以放在“列”的位置,將該變數的各類別及其相應的頻數列出來2.3生成頻數分佈表類別數據的頻數分佈表——簡單頻數表——例題分析【例2.3】沿用例2.1。分別製作學生性別和專業的簡單頻數表用Excel生成頻數分佈表的步驟第1步:選擇【插入】→【數據透視表】第2步:在【表/區域】框內選定數據區域(在操作前將游標放在任意數據單元格內,系統會自動選定數據區域)。選擇放置數據透視表的位置。系統默認是新工作表,如果要將透視表放在現有工作表中,選擇【現有工作表】,並在【位置】框內點擊工作表的任意單元格(不要覆蓋數據)。點擊【確定】第3步:用滑鼠右鍵單擊數據透視表,選擇【數據透視表選項】,在彈出的對話框中點擊【顯示】,並選中【經典數據透視表佈局】,然後【確定】第4步:將數據透視的一個字段拖至“行”位置,將“另一個字段”拖至“列”的位置(行列可以互換),再將要計數的變數拖至“值字段”位置,即可生成需要的頻數分佈表2.3生成頻數分佈表類別數據的頻數分佈表——二維列聯表——例題分析二維列聯表(contingencytable)也稱為交叉表(crosstable)涉及兩個分類變數時,通常將一個變數的各類別放在“行”的位置,另一個變數的各類別放在“列”的位置(行和列可以互換)生成頻數分佈表,這樣表格就是列聯表可以使用比例(proportion)、百分比(percentage)、比率(ratio)等統計量進行描述。如果是有序類別數據,還可以計算累積百分比(CumulativePercent)進行分析【例2.4】例如沿用例2.1。將性別放在行的位置、專專業放在列的位置,製作一個二維列聯表2.3生成頻數分佈表數值數據的頻數分佈表——例題分析生成數值數據的頻數分佈表時,需要先將其類別化,即轉化為類別數據,然後再生成頻數分佈表。類別化的方法是將原始數據分成不同的組別數據分組是將數值數據轉化成類別數據的方法之一,它是先將數據按照一定的間距劃分成若干個區間,然後再統計出每個區間的頻數,生成頻數分佈表【例2.5】某電腦公司2021年前4個月的銷售額數據如表2-7所示。對數據額做適當分組,分析銷售額的分佈特徵2341591871551721831821771631581431981411671942251771891962031871602141681731781842091761881611521492111962341851891962061501611781681741531861901601712281622231701651791861751972081531632181801751441781911971921661961791712331791871731742101541642152331751882371941981681742261801721901721871892002111561651752102071812051952011722031651961721761821881952022132.3生成頻數分佈表數值數據的頻數分佈表——例題分析
2.3生成頻數分佈表數值數據的頻數分佈表——例題分析【例2.5】某電腦公司2021年前4個月的銷售額數據分組表
銷售額分組(萬元)天數(天)頻率(%)140-15043.3315--16097.50160-1701613.33170-1802722.50180-1902016.67190-2001714.17200-210108.33210=22086.67220-23043.33230-24054.17合計120100.00思維導圖本書結構数据来源和处理数据来源间接来源和间接来源数据抽样简单随机抽样分层抽样系统抽样整群抽样数据预处理审核与录入排序与筛选生成频数表分类数据数值数据来源间接和直接处理审核与录入生成表频数表賈俊平2024-2-123.1類別數據可視化3.2數值數據可視化3.3合理使用圖表
數據可視化內容提要本章主要介紹數據可視化,也就是如何用圖形來展示數據。無論是做數據的描述、推斷還是其他分析,都離不開可視化問題。可視化是數據分析的基本技能,也是學習統計必須掌握的知識具體內容包括類別數據的可視化方法,主要介紹條形圖和餅圖的繪製方法數值數據的可視化方法,介紹反映數據分佈特徵的直方圖和箱形圖;反映數值變數之間關係的散點圖和氣泡圖;反映樣本相似性的雷達圖和輪廓圖;反映時間序列變化特徵的折線圖和麵積圖等使用圖表的注意事項,介紹圖表使用中應注意的一些問題本章內容提要3.1
類別數據可視化條形圖(barchart)用一定寬度的條形來表示各類別頻數的圖形,用於觀察不同類別頻數的多少或分佈狀況繪製時,各類別可以放在橫軸,也可以放在縱軸,將各類別放在橫軸繪製的條形圖也稱為柱形圖(columnchart)只有一個分類變數時,可以繪製簡單條形圖和帕累托圖有兩個分類變數時,可以繪製簇狀條形圖或堆積條形圖條形圖簡單條形圖是根據一個分類變數繪製的,用於描述該變數的各類別的頻數分佈狀況其中的各個類別可以放在橫軸,也可以放在縱軸帕累托圖(paretoplot)以義大利經濟學家V.Pareto的名字而命名的,它是按各類別的頻數多少降序排列後繪製的條形圖。帕累托圖可以看做是簡單條形圖的一個變種簇狀條形圖或堆積條形圖可以將兩個變數的條形圖以簇狀或堆積的方式繪製3.1
類別數據可視化【例3.1】為研究不同地區的消費者對網上購物的滿意度,隨機抽取東部、中部和西部的2000個消費者進行調查,得到的結果如表3-1所示。繪製條形圖,分析各類別的人數分佈狀況條形圖——簡單條形圖——例題分析東部中部西部總計非常滿意104140132376比較滿意156108120384一般148148160456不滿意156108140404非常不滿意156116108380總計72062066020003.1
類別數據可視化【例3.1】為研究不同地區的消費者對網上購物的滿意度,隨機抽取東部、中部和西部的2000個消費者進行調查,得到的結果如表3-1所示。繪製條形圖,分析各類別的人數分佈狀況條形圖——帕累托圖——例題分析東部中部西部總計非常滿意104140132376比較滿意156108120384一般148148160456不滿意156108140404非常不滿意156116108380總計72062066020003.1
類別數據可視化【例3.1】——繪製簇狀條形圖和堆積條形圖條形圖——簇狀條形圖和堆積條形圖——例題分析3.1
類別數據可視化【例3.1】——繪製百分比堆積條形圖條形圖——簇狀條形圖和堆積條形圖——例題分析3.1
類別數據可視化餅圖(piechart)是用圓形及圓內扇形的角度來表示一個樣本(或總體)中各類別的頻數占總頻數比例大小的圖形對於研究結構性問題十分有用餅圖和環形圖——餅圖——例題分析3.1
類別數據可視化環形圖(doughnutchart)環形圖與餅圖類似,但又有區別。環形圖中間有一個“空洞”,每個樣本用一個環來表示,樣本中每一類別的頻數構成用環中的一段表示。因此,環形圖可顯示多個樣本各類別頻數占其相應總頻數的比例,從而有利於構成的比較研究繪製環形圖時,先向圓心方向畫一條垂線(圓的半徑),然後順時針方向依次畫出各類別所占的百分比。其中樣本的順序依次從內環到外環餅圖和環形圖——環形圖——例題分析3.2
數值數據可視化直方圖(histogram)用於展示數值數據分佈的一種常用圖形它是用矩形的寬度和高度來表示頻數分佈通過直方圖可以觀察數據分佈的大體形狀,如分佈是否對稱直方圖和箱形圖——直方圖不同直方圖所對應的分佈形狀3.2
數值數據可視化【例3.2】表3-2是2020年1月—6月北京市的PM2.5數據。繪製直方圖分析PM2.5的分佈特徵直方圖和箱形圖——直方圖——例題分析日期1月2月3月4月5月6月135921910819251312516552335018141459424431011233485612638304812…………………271582854196628171651059375529708645615928304668905315314464112020年1—6月北京市PM2.5的直方圖3.2
數值數據可視化直方圖和箱形圖——直方圖——例題分析2020年1—6月北京市PM2.5的直方圖(組距=15)2020年1—6月北京市PM2.5的直方圖(組距為15,下溢箱為10,溢出箱為180)3.2
數值數據可視化
直方圖和箱形圖——箱形圖3.2
數值數據可視化箱形圖的一般形式直方圖和箱形圖——箱形圖3.2
數值數據可視化不同分佈形狀對應的箱形圖直方圖和箱形圖——箱形圖3.2
數值數據可視化【例3.3】沿用例3.2。繪製箱形圖,分析各月份PM2.5分佈的特徵用Excel繪製箱形圖時,先將游標放在任意數據單元格,然後點擊【插入】
【插入統計圖表】,選擇【箱形圖】,即可繪製出箱形圖。根據需要再對圖形做必要的修改,比如,選擇不同的箱形圖式樣、更改坐標軸刻度、添加坐標軸標題、添加箱形圖的數值標籤等直方圖和箱形圖——箱形圖——例題分析3.2
數值數據可視化
散點圖和氣泡圖——散點圖——例題分析【例3.4】我國2019年31個地區的地區生產總值、房地產開發投資和社會消費品零售總額數據。繪散點圖並觀察它們之間的關係地區地區生產總值房地產開發投資社會消費品零售總額北京市35371.33838.415063.7天津市14104.32727.84218.2河北省35104.54347.112985.5山西省17026.71656.57030.5內蒙古自治區17212.51042.05051.1…………陝西省25793.23903.710213.0甘肅省8718.31257.93700.3青海省2966.0406.3948.5寧夏回族自治區3748.5403.11399.4新疆維吾爾自治區13597.11074.03617.03.2
數值數據可視化散點圖和氣泡圖——散點圖——例題分析【例3.4】我國2019年31個地區的地區生產總值、房地產開發投資和社會消費品零售總額數據。繪散點圖並觀察它們之間的關係3.2
數值數據可視化氣泡圖(bubblechart)可以看作是散點圖的一個變種在氣泡圖中,第3個變數數值的大小用圓的大小表示散點圖和氣泡圖——氣泡圖——例題分析【例3.4】地區生產總值、房地產開發投資、社會消費品零售總額3個變數繪製的氣泡圖3.2
數值數據可視化氣泡圖(bubblechart)可以看作是散點圖的一個變種在氣泡圖中,第3個變數數值的大小用圓的大小表示散點圖和氣泡圖——氣泡圖——例題分析【例3.4】地區生產總值、房地產開發投資、社會消費品零售總額3個變數繪製的氣泡圖3.2
數值數據可視化雷達圖和輪廓圖——雷達圖——例題分析雷達圖(radarchart)從一個點出發,用每一條射線代表一個變數,多個變數的數據點連接成線,即圍成一個區域,多個樣本圍成多個區域,就是雷達圖利用它也可以研究多個樣本之間的相似程度【例3.5】表3-4是2018年北京、天津、上海和重慶的人均消費支出數據,繪製雷達圖,比較不同地區的家庭消費支出的特點和相似性地區食品煙酒衣著居住生活用品及服務交通通信教育文化娛樂醫療保健其他用品及服務北京8064.92175.514110.32371.94767.43999.43274.51078.6天津8647.51990.06406.31818.44280.93186.62676.9896.3上海10728.22036.814208.52095.54881.25049.43070.21281.5重慶6220.81454.53498.81338.92545.02087.81660.0442.83.2
數值數據可視化雷達圖和輪廓圖——雷達圖——例題分析【例3.5】——雷達圖3.2
數值數據可視化雷達圖和輪廓圖——輪廓圖——例題分析輪廓圖(outlinechart)也稱為平行座標圖或多線圖它是用x軸表示各樣本,y軸表示每個樣本的多個變數的取值,將同一樣本的不同變數取值用折線連接,即為輪廓圖利用它也可以研究多個樣本之間的相似程度【例3.5】表3-4是2018年北京、天津、上海和重慶的人均消費支出數據,繪製輪廓圖,比較不同地區的家庭消費支出的特點和相似性3.2
數值數據可視化折線圖和麵積圖——折線圖——例題分析
【例3.1】例3.1中1月份和2月份的數據的PM2.5的折線圖3.2
數值數據可視化折線圖和麵積圖——折線圖——例題分析
【例3.1】例3.1中1月份和2月份的數據的PM2.5的面積圖3.3
合理使用圖表使用圖表的注意事項精心設計的圖表可以準確表達數據所要傳遞的資訊設計圖表時,應盡可能簡潔,以能夠清晰地顯示數據、合理地表達統計目的為依據在繪製圖形時,應避免一切不必要的修飾。過於花哨的修飾往往會使人注重圖形本身,而掩蓋了圖形所要表達的資訊。圖形大體上為4:3的一個矩形,過長或過高的圖形都有可能歪曲數據,給人留下錯誤的印象圖表應有編號和標題。編號一般使用阿拉伯數字,如表1、表2等等。圖表的標題應明示出表中數據所屬的時間(when)、地點(where)和內容(what),即通常所說的3W準則。表的標題通常放在表的上方;圖的標題可放在圖的上方,也可放在圖的下方思維導圖本書結構数据可视化类别数据观察频数简单条形图帕累托图簇状条形图堆积条形图观察频数构成饼图环形图数值数据看分布直方图箱形图看关系散点图气泡图看相似雷达图轮廓图时间序列折线图面积图数值数据其他数据类别数据賈俊平2024-2-124.1集中趨勢的度量4.2離散程度的度量4.3分佈形狀的度量
數據分佈特徵的測度內容提要數據分佈的特徵主要從三個方面進行測度和描述:一是分佈的集中趨勢,反映各數據向其中心值靠近或聚集的程度;二是分佈的離散程度,反映各數據遠離其中心值的趨勢;三是分佈的形狀,反映數據分佈偏斜程度和峰度。這三個方面分別反映了數據分佈特徵的不同側面。本章將重點討論數據分佈特徵各測度值的計算方法、特點及應用場合具體內容包括集中趨勢的度量。介紹數據分佈集中趨勢的各統計量,包括平均數、中位數、四分位數和眾數的計算方法、特點和應用場合離散程度的度量,介紹測度數據離散程度的常用統計量,包括極差、四分位差、方差、標準差以及離散係數等偏度和峰度的度量,介紹偏度係數和峰度係數計算方法類別數據的可視化方法,主要介紹條形圖和餅圖的繪製方法本章內容提要4.1
集中趨勢的度量
平均數簡單平均數加權平均數
4.1
集中趨勢的度量【例4.1】隨機抽取30個大學生,得到他們在“雙十一”期間的網購金額數據,如表所示。計算30個人的平均網購金額平均數——簡單平均數——例題分析479.0721.2672.4728.7443.2381.3527.0500.0586.0500.0528.2633.8705.9423.5590.1353.6447.4565.3557.1481.3561.1620.1477.1436.2562.9505.1515.4502.7487.5675.4
4.1
集中趨勢的度量【例4.2】假定將表4-1的數據分成組距為50的組,分組結果如表4-2所示,計算網購金額的平均數平均數——加權平均數——例題分析
分組人數350~4002400~4504450~5004500~5507550~6006600~6502650~7002700~7503合計30分組350~4003752750400~45042541700450~50047541900500~55052573675550~60057563450600~65062521250650~70067521350700~75072532175合計
30162504.1
集中趨勢的度量中位數和四分位數——中位數——例題分析分位數——一組數據按從小到大排序後,可以找出排在某個位置上的數值,該數值可以代表數據水準的高低。這些位置上的數值就是相應的分位數(quantile)。常用的分位數有中位數、四分位數、百分位數等中位數——排序後處於中間位置上的值。不受極端值影響位置確定數值計算
4.1
集中趨勢的度量中位數和四分位數——四分位數——例題分析四分位數——一組數據排序後處在25%和75%位置上的數值它是用3個點將全部數據等分為4部分,其中每部分包含25%的數據。中間的四分位數就是中位數,通常所說的四分位數是指處在25%位置上和75%位置上的兩個數值位置確定
4.1
集中趨勢的度量眾數——各度量值的比較眾數——一組數據中出現次數最多的變數值一組數據可能沒有眾數或有幾個眾數適合於數據量較多時使用實際中很少使用平均數易受極端值影響數學性質優良,實際中最常用數據對稱分佈或接近對稱分佈時代表性較好中位數不受極端值影響數據分佈偏斜程度較大時代表性接好眾數不受極端值影響具有不惟一性數據分佈偏斜程度較大且有明顯峰值時代表性較好4.2
離散程度的度量極差和四分位差——極差
4.2
離散程度的度量極差和四分位差——四分位差
4.2
離散程度的度量方差和標準差方差——各變數值與均值的平均差異標準差——上四分位數與下四分位數之差
樣本標準差s
樣本標準差s
原始數據分組數據4.2
離散程度的度量方差和標準差——例題分析
【例4.6】沿用例4.2。根據表4-2的分組數據,計算網購金額的標準差分組350~400375226879.6053759.21400~450425412984.6051938.41450~50047544089.6016358.41500~5505257194.601362.22550~60057561299.607797.61600~65062527404.6014809.21650~700675218509.6037019.21700~750725334614.60103843.81合計—30105976.82286888.08
4.2
離散程度的度量離散係數——例題分析離散係數——標準差與其相應的均值之比對數據相對離散程度的測度消除了數據水準高低和計量單位的影響用於對不同組別數據離散程度的比較計算公式為【例4.7】評價哪名運動員的發揮更穩定
姓名國家預賽成績決賽10槍成績(環)納塔利婭·帕傑林娜俄羅斯39110.08.510.010.210.610.59.89.79.59.3郭文珺中國39010.010.510.410.410.110.39.410.710.89.7卓格巴德拉赫·蒙赫珠勒蒙古3879.310.08.78.39.29.58.510.79.29.2妮諾·薩盧克瓦澤格魯吉亞3869.810.310.09.510.210.710.410.69.110.8維多利亞·柴卡白俄羅斯3849.39.410.410.110.210.59.210.59.88.6萊萬多夫斯卡·薩貢波蘭3848.110.39.29.99.810.49.99.410.79.8亞斯娜·舍卡裏奇塞爾維亞38410.29.69.99.99.39.19.710.09.39.9米拉·內萬蘇芬蘭3848.79.39.210.39.810.09.79.99.99.74.2
離散程度的度量離散係數——例題分析【例4.7】評價哪名運動員的發揮更穩定運動員國家平均環數標準差離散係數納塔利婭·帕傑林娜俄羅斯9.810.61540.0627郭文珺中國10.230.43730.0427卓格巴德拉赫·蒙赫珠勒蒙古國9.260.70740.0764妮諾·薩盧克瓦澤格魯吉亞10.140.54610.0539維多利亞·柴卡白俄羅斯9.800.64980.0663萊萬多夫斯卡·薩貢波蘭9.730.73340.0754亞斯娜·舍卡裏奇塞爾維亞9.690.35730.0369米拉·內萬蘇芬蘭9.650.46250.0479結論:從離散係數可以看出,在最後10槍的決賽中,發揮比較穩定的運動員是塞爾維亞的亞斯娜·舍卡裏奇和中國的郭文珺,發揮不穩定的運動員是蒙古國的卓格巴德拉赫·蒙赫珠勒和波蘭的萊萬多夫斯卡·薩貢4.2
離散程度的度量標準分數——例題分析標準分數——也稱標準化值對某一個值在一組數據中相對位置的度量可用於判斷一組數據是否有離群點(outlier)用於對變數的標準化處理計算公式為
4.2
離散程度的度量標準分數——例題分析【例4.8】沿用例4.1。計算30個人網購金額的標準分數網購金額標準分數網購金額標準分數網購金額標準分數479.0-0.6141672.41.3670443.2-0.9808527.0-0.1224586.00.4820528.2-0.1101705.91.7102590.10.5240447.4-0.9378557.10.1859561.10.2269477.1-0.6336562.90.2453515.4-0.2412487.5-0.5270721.21.8669728.71.9438381.3-1.6149500.0-0.3990500.0-0.3990633.80.9716423.5-1.1826353.6-1.8987565.30.2699481.3-0.5906620.10.8313436.2-1.0526505.1-0.3468502.7-0.3713675.41.39784.2
離散程度的度量標準分數——經驗法則與切比雪夫不等式經驗法則根據標準分數,可以判斷一組數據中是否存在離群點(outlier)經驗表明:當一組數據對稱分佈時,約有68.26%的數據在平均數加減1個標準差的範圍之內;約有95.44%的數據在平均數加減2個標準差的範圍之內;約有99%的數據在平均數加減3個標準差的範圍之內一組數據中低於或高於平均數3倍標準差之外的數值是很少的,也就是說,在平均數加減3個標準差的範圍內幾乎包含了全部數據,而在3個標準差之外的數據在統計上也稱為離群點4.2
離散程度的度量標準分數——經驗法則與切比雪夫不等式切比雪夫不等式(Chebyshev’sinequality)經驗法則適合對稱分佈的數據。如果一組數據不是對稱分佈,經驗法則就不再適用,這時可使用切比雪夫不等式它對任何分佈形態的數據都適用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”,對於任意分佈形態的數據,根據切比雪夫不等式:至少有(1-1/k2)的數據落在±k個標準差之內。其中k是大於1的任意值,但不一定是整數。對於k=2,3,4,該不等式的含義是:至少有75%的數據在平均數±2個標準差的範圍之內。至少有89%的數據在平均數±3個標準差的範圍之內。至少有94%的數據在平均數±4個標準差的範圍之內。4.3
分佈形狀的度量偏度係數和峰度係數
峰度(kurtosis)——指數據分佈峰值的高低由統計學家K.Pearson於1905年首次提出峰度係數—測度一組數據分佈峰值高低的統計量是(coefficientofkurtosis),記作K計算公式
4.3
分佈形狀的度量偏度係數和峰度係數——例題分析
4.3
分佈形狀的度量偏度係數和峰度係數——例題分析【例4.9】沿用例4.1。計算30個人網購金額的偏度係數和峰度係數Excel實現第1步:將游標放在任意空白單元格。然後點擊【數據】
【數據分析】。在分析工具中選擇【描述統計】。單擊【確定】。第2步:在【輸入區域】輸入原始數據所在的區域;在【輸出選項】中選擇結果的輸出位置;選擇【匯總統計】(其他選項可根據需要選擇)。單擊【確定】即可得到結果統計量名稱計算結果平均538.95標準誤差17.82291中位數521.2眾數500標準差97.62009方差9529.681峰度-0.40747偏度0.340565區域375.1最小值353.6最大值728.7求和16168.5觀測數304.3
分佈形狀的度量偏度係數——例題分析Excel中的描述函數函數名語法功能AVEDEVAVEDEV(number1,number2,...)計算平均差AVERAGEAVERAGE(number1,number2,...)計算平均數GEOMEANGEOMEAN(number1,number2,...)計算幾何平均數HARMEANHARMEAN(number1,number2,...)計算簡單調和平均數KURTKURT(number1,number2,...)計算峰態係數MODEMODE(number1,number2,...)計算眾數MEDIANMEDIAN(number1,number2,...)計算中位數QUARTILEQUARTILE(array,quart)計算四分位數SKEWSKEW(number1,number2,...)計算偏態係數STDEVSTDEV(number1,number2,...)計算樣本標準差STDEVPSTDEVP(number1,number2,...)計算總體標準差TRIMMEANTRIMMEAN(array,percent)計算切尾均值思維導圖本書結構分布特征的测度集中趋势平均数中位数四分位数众数离散程度极差和四分位差方差和标准差离散系数标准分数分布形状偏度系数峰度系数数值特征水平差异形状賈俊平2024-2-125.1統計量的抽樣分佈5.2參數估計的基本原理5.3總體均值的區間估計5.4總體比的區間估計5.5樣本量的確定
參數估計內容提要參數估計是推斷統計的重要內容之一。它是在抽樣及抽樣分佈的基礎上,根據樣本統計量來推斷所關心的總體參數。本章首先介紹抽樣分佈的有關知識,然後上介紹參數估計的基本方法,最後介紹參數估計中樣本量的確定問題具體內容包括抽樣分佈。主要解釋樣本均值和一般比例的抽樣分佈,為理解參數估計奠定基礎參數估計的基本原理。介紹點估計和區間估計的基本思想和原理總體均值的區間估計。介紹一個總體均值的區間估計方法,包括正態總體方差已知和非正態總體大樣本條件下總體均值的區間估計,以及正態總體方差未知及小樣本條件下總體均值的區間估計體比例的估計。主要介紹大樣本情形下總體比例的區間估計樣本量的確定。分別介紹估計總體均值時和估計總體比例時樣本量的確定方法本章內容提要5.1
統計量的抽樣分佈
什麼是抽樣分佈5.1
統計量的抽樣分佈
樣本均值的分佈5.1
統計量的抽樣分佈
樣本均值的分佈——例題分析樣本樣本中的元素11,11.021,21.531,32.041,42.552,11.562,22.072,32.582,43.093,12.0103,22.5113,33.0123,43.5134,12.5144,23.0154,33.5164,44.01.011.522.032.543.033.524.015.1
統計量的抽樣分佈
樣本均值的分佈——例題分析5.1
統計量的抽樣分佈抽樣均值的分佈與總體分佈及樣本量的關係樣本均值的分佈——與總體分佈及樣本量的關係5.1
統計量的抽樣分佈
樣本均值的分佈——中心極限定理5.1
統計量的抽樣分佈從0~100均勻分佈的總體和指數分佈的總體中分別抽取樣本量為2、10和30的各5000個樣本,樣本均值的分佈如圖所示圖中的U表示均勻分佈,E表示指數分佈樣本均值的分佈——中心極限定理的模擬5.1
統計量的抽樣分佈
樣本均值的分佈——分佈的參數特徵5.1
統計量的抽樣分佈
樣本比例的分佈——比例5.1
統計量的抽樣分佈
樣本比例的分佈5.1
統計量的抽樣分佈
統計量的標準誤5.1
統計量的抽樣分佈估計的標準誤當總體標準差
未知時,可用樣本標準差s代替計算,這時計算的標準誤也稱為估計標準誤(standarderrorofestimation)由於實際應用中,總體
通常是未知時,所計算的標準誤實際上都是估計標準誤,因此估計標準誤就簡稱為標準誤(統計軟體中得到的都是估計標準誤)統計量的標準誤5.2
參數估計的基本原理
估計量與估計值5.2
參數估計的基本原理
點估計與區間估計5.2
參數估計的基本原理點估計與區間估計區間估計——在點估計的基礎上,給出總體參數估計的一個估計區間根據樣本統計量所構造的總體參數的估計區間,稱為置信區間(confidenceinterval,CI),其中區間的最小值稱為置信下限,最大值稱為置信上限。該區間由樣本統計量加減估計誤差而得到區間估計的圖示5.2
參數估計的基本原理點估計與區間估計——置信水準
置信水準90%0.100.051.64595%0.050.0251.9699%0.010.0052.585.2
參數估計的基本原理點估計與區間估計——置信區間的理解
5.2
參數估計的基本原理點估計與區間估計——置信區間的理解
5.3
總體均值的區間估計
正態總體方差已知,或非正態總體大樣本
5.3
總體均值的區間估計
正態總體方差已知,或非正態總體大樣本——例題分析【例5.2】一家食品生產企業以生產袋裝食品為主,每天的產量大約為8000袋左右。按規定每袋的重量應為100克。為對產量品質進行監測,企業質檢部門經常要進行抽檢,以分析每袋重量是否符合要求。現從某天生產的一批食品中隨機抽取了25袋,測得每袋重量如表5-4所示
112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.35.3
總體均值的區間估計
正態總體方差已知,或非正態總體大樣本——例題分析
5.3
總體均值的區間估計
正態總體方差已知,或非正態總體大樣本——例題分析【例5.3】一家保險公司收集到由36位投保個人組成的隨機樣本,得到每位投保人的年齡(單位:周歲)數據如表5-5
2335392736443642464331334253455447243428393644403949383448503439454845325.3
總體均值的區間估計
正態總體方差未知,小樣本
5.3
總體均值的區間估計
正態總體方差未知,小樣本——例題分析【例5.4】已知某種燈泡的壽命服從正態分佈,現從一批燈泡中隨機抽取16只,測得其使用壽命(單位:小時)如表5-6所示
15101450148014601520148014901460148015101530147015001520151014705.3
總體均值的區間估計
正態總體方差未知,小樣本——例題分析
5.4
總體比例間估計總體比例的區間估計——大樣本
5.4
總體比例間估計總體比例的區間估計——大樣本【例5.5】某城市交通管理部門想要估計贊成機動車限行的人數比例,隨機抽取了100個機動車主,其中65人表示贊成。試以95%的置信水準估計該城市贊成機動車限行的人數比例的置信區間
5.4
總體均值和比例間估計總體均值和比例的區間估計——小結參數點估計量標準誤差假定條件p5.5
樣本量的確定估計總體均值時樣本量的確定
5.5
樣本量的確定估計總體均值時樣本量的確定
5.5
樣本量的確定估計總體比例時樣本量的確定
5.5
樣本量的確定估計總體比例時樣本量的確定——例題分析
5.5
樣本量的確定估計總體均值時樣本量的確定
思維導圖本書結構参数估计统计推断的理论基础抽样分布样本均值的部分样本比例的分布统计量的标准误总体均值的区间估计正态总体方差已知或非正态总体大样本正态分布正态总体、方差未知小样本t分布总体比例的区间估计大样本正态分布样本量的确定估计总体均值时的样本量估计总体比例时的样本量参数统计量误差賈俊平2024-2-126.1假設檢驗的基本原理6.2總體均值的檢驗6.3總體比例的檢驗
假設檢驗內容提要
本章內容提要6.1
假設檢驗的基本原理假設的陳述——假設與假設檢驗假設—在參數檢驗中,是對總體參數的具體數值所作的陳述就一個總體而言,總體參數包括總體均值、比例、方差等分析之前必需陳述假設檢驗—先對總體的參數(或分佈形式)提出某種假設,然後利用樣本資訊判斷假設是否成立的統計方法有參數檢驗和非參數檢驗邏輯上運用反證法,統計上依據小概率原理小概率是在一次試驗中,一個幾乎不可能發生的事件發生的概率在一次試驗中小概率事件一旦發生,我們就有理由拒絕原假設6.1
假設檢驗的基本原理如何提出假設——原假設與備擇假設
6.1
假設檢驗的基本原理如何提出假設——例題分析【例6.1】一種零件的生產標準是直徑應為10cm,為對生產過程進行控制,品質監測人員定期對一臺加工機床檢查,確定這臺機床生產的零件是否符合標準要求。如果零件的平均直徑大於或小於10cm,則表明生產過程不正常,必須進行調整。試陳述用來檢驗生產過程是否正常的原假設和備擇假設
6.1
假設檢驗的基本原理如何提出假設——例題分析【例6.2】某品牌洗滌劑在它的產品說明書中聲稱:平均淨含【例6.2】某品牌洗滌劑在它的產品說明書中聲稱:平均淨含量不少於500g。從消費者的利益出發,有關研究人員要通過抽檢其中的一批產品來驗證該產品製造商的說明是否屬實。試陳述用於檢驗的原假設與備擇假設
6.1
假設檢驗的基本原理如何提出假設——例題分析【例6.3】一家研究機構估計,某城市中家庭擁有汽車的比例超過30%。為驗證這一估計是否正確,該研究機構隨機抽取了一個樣本進行檢驗。試陳述用於檢驗的原假設與備擇假設
6.1
假設檢驗的基本原理如何提出假設——問題總結原假設和備擇假設是一個完備事件組,而且相互對立。這意味著,在一項假設檢驗中,原假設和備擇假設必有一個成立,而且只有一個成立在建立假設時,通常是先確定備擇假設,然後再確定原假設。這樣做的原因是備擇假設是我們所關心的,是想予以支持或證實的,因而比較清楚,容易確定。由於原假設和備擇假設是對立的,只要確定了備擇假設,原假設就很容易確定出來在假設檢驗中,等號“=”總是放在原假設上在面對某一實際問題時,由於不同的研究者有不同的研究目的,即使對同一問題也可能提出截然相反的原假設和備擇假設通常情形下,由於檢驗的目的不同,原假設可以根據3種情形來確定:①如果檢驗的目的是確定參數是否已經發生變化,這時,原假設的值可以根據過去的經驗、對過程的瞭解情形來確定。②如果檢驗的目的是證明某種理論或模型是否正確,原假設的值可以通過有關這個過程的一些理論或模型來確定。③如果檢驗的目的是檢驗是否符合某種特定標準,原假設的值可以根據事先設計的標準或合同的要求來確定假設檢驗的目的主要是收集證據拒絕原假設。原假設最初被假設是成立的,之後就是要根據樣本數據,確定是否有足夠的不符合原假設的證據以拒絕原假設6.1
假設檢驗的基本原理假設的形式——雙側檢驗與單側檢驗雙側檢驗—備擇假設沒有特定的方向性,並含有符號“
”的假設檢驗,稱為雙側檢驗或雙尾檢驗(two-tailedtest)單側檢驗—備擇假設具有特定的方向性,並含有符號“>”或“<”的假設檢驗,稱為單側檢驗或單尾檢驗(one-tailedtest)備擇假設的方向為“<”,稱為左側檢驗
備擇假設的方向為“>”,稱為右側檢驗假設雙側檢驗單側檢驗左側檢驗右側檢驗原假設備擇假設6.1
假設檢驗的基本原理兩類錯誤與顯著性水準
6.1
假設檢驗的基本原理兩類錯誤與顯著性水準——決策及其後果決策結果實際情形正確決策正確決策6.1
假設檢驗的基本原理檢驗統計量與拒絕域
6.1
假設檢驗的基本原理檢驗統計量與拒絕域拒絕域拒絕域臨界值臨界值0
/2
/2非拒絕域
非拒絕域
拒絕域臨界值0
拒絕域臨界值0
雙側檢驗左側檢驗右側檢驗雙側檢驗:│統計量│>臨界值,拒絕原假設左側檢驗:統計量的值<-臨界值,拒絕原假設右側檢驗:統計量的值>臨界值,拒絕原假設6.1
假設檢驗的基本原理用P值決策
6.1
假設檢驗的基本原理用P值決策雙側檢驗左側檢驗右側檢驗2P臨界值臨界值0
/2
/2計算出的統計量值計算出的統計量值P值臨界值0
計算出的統計量值P值臨界值0
計算出的統計量值
6.1
假設檢驗的基本原理用P值決策
6.1
假設檢驗的基本原理用P值決策與統計量決策的差異
統計量1統計量2拒絕H0的P1拒絕H0的
0拒絕H0的P2P6.1
假設檢驗的基本原理結果的表述
6.1
假設檢驗的基本原理小結——假設檢驗的步驟
6.2
總體均值的檢驗大樣本的檢驗方法
總體方差已知總體方差未知6.2
總體均值的檢驗大樣本的檢驗方法——例題分析
拒絕H0拒絕H0-1.961.9600.0250.025Z=1.016.2
總體均值的檢驗大樣本的檢驗方法——公式列表
雙側檢驗左側檢驗右側檢驗假設形式檢驗統計量P值決策準則6.2
總體均值的檢驗小樣本的檢驗方法
總體方差已知總體方差未知
雙側檢驗左側檢驗右側檢驗假設形式檢驗統計量P值決策準則6.2
總體均值的檢驗大樣本的檢驗方法——例題分析【例6.7】一種汽車配件的平均長度要求為12cm,高於或低於該標準均被認為是不合格的。汽車生產企業在購進配件時,通常是經過招標,然後對中標的配件提供商提供的樣品進行檢驗,以決定是否採購。現對一個配件提供商提供的10個樣本進行了檢驗,結果如下。假定該供貨商生產的配件長度服從正態分佈,在0.05的顯著性水準下,檢驗該供貨商提供的配件是否符合要求12.210.812.011.811.912.411.312.212.012.36.2
總體均值的檢驗大樣本的檢驗方法——例題分析
拒絕域
22已知拒絕域t=-2.262t=2.26200.0250.025-0.70536.2
總體均值的檢驗一個總體均值檢驗的流程6.3
總體比例的檢驗大樣本的檢驗方法假定條件總體服從二項分佈可用正態分佈來近似(大樣本)檢驗的z統計量
雙側檢驗左側檢驗右側檢驗假設形式檢驗統計量P值決策準則6.3
總體比例的檢驗大樣本的檢驗方法——例題分析
6.3
總體比例的檢驗大樣本的檢驗方法——例題分析檢驗統計量的觀察值z=-2.475拒絕H0拒絕H0-1.961.9600.0250.025拒絕H0拒絕H0-2.582.5800.0050.005檢驗統計量的觀察值z=-2.475(a)顯著性水準為0.05(b)顯著性水準為0.01思維導圖本書結構假设检验基本原理提出假设两类错误和显著性水平经验统计量和拒绝域用P值决策总体均值的经验大样本正态分布正态总体方差已知小样本正态分布正态总体方差未知小样本t分布总体比例的经验大样本t分布提出假设构建统计量计算P值做出决策表述结果賈俊平2024-2-127.1變數間關係的度量7.2一元線性回歸分析7.3利用回歸方程進行估計和預測
相關與回歸分析內容提要相關與回歸是分析變數之間關係的統計方法。從所處理的變數多少來看,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 笔记本电视卡行业行业发展趋势及投资战略研究分析报告
- 纳米羟基磷酸钙项目可行性研究报告
- 中国高速公路路网建设市场深度调查评估及投资方向研究报告
- 北京市幼儿园行业市场发展监测及投资前景展望报告
- 能量型动力电池研制及产业化项目资金申请报告
- 2025年中国电话线端子行业市场发展前景及发展趋势与投资战略研究报告
- 2025年度园林景观设计回填土采购合同样本
- 2025年度房地产抵押贷款合同翻译及审查
- 2025年度城市地下空间开发工程款结算与土地利用合同
- 2025年度共同购买房产合同
- 第3课+中古时期的西欧(教学设计)-【中职专用】《世界历史》(高教版2023基础模块)
- 山东省济宁市2023年中考数学试题(附真题答案)
- 班组建设工作汇报
- 供应链金融与供应链融资模式
- 工程类工程公司介绍完整x
- 板带生产工艺热连轧带钢生产
- 关键工序特殊过程培训课件精
- 轮机备件的管理(船舶管理课件)
- 统编《道德与法治》三年级下册教材分析
- 国际尿失禁咨询委员会尿失禁问卷表
- 运动技能学习中的追加反馈
评论
0/150
提交评论