版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2023-11-16
數據收集收集數據時需考慮的問題是:
相關總體數據來源提問調查中的偏差數據的類型2023-11-16相關總體總體是我們要調查或統計的某一現象的全部數據的集合。要明確向什麼總體收集數據,因為數據收集是花錢花時間有代價的。數據的一種描述性的定義為:可以由它作出推斷的已知事情或事物。數據有各種不同的表達形式對決策者而言,數據的品質是一個最大的問題。2023-11-16數據來源數據可分為兩大來源:原始數據和二手數據原始數據是直接向調查對象收集的數據。其特點是為指定目的而收集。二手數據是收集已經加工、整理過的數據。二手數據大部分來自官方統計,如年鑒、月度統計報表、財經統計、經濟趨勢等。2023-11-16數據來源數據獲取的途徑:調查、試驗和模擬調查:只觀察、記錄或度量,但不對現場行為加以幹預,是被動的數據搜集方式。試驗:能主動產生數據,是有計畫、有選擇地對受試對象施加影響,來觀察受試對象的反應。模擬:依據一定的基本數據使用電腦產生大量的隨機數據,來模仿隨機現象,幫助進行決策。2023-11-16數據來源原始數據得到的方法有:自填式、採訪法、直接觀察法和行政數據的調查等。數據收集的類型:普查和抽樣調查
普查是根據統計任務的特定目的而專門組織的一次性全面調查,一般局限於較小的總體。抽樣調查有隨機抽樣和非隨機抽樣隨機抽樣:總體中每個單位都有相同的概率或機會被選中。幾種重要的隨機抽樣有:簡單隨機抽樣、分層隨機抽樣、等距隨機抽樣和整群隨機抽樣等。
2023-11-16數據來源非隨機抽樣:抽樣時不遵循隨機原則,而是按照研究人員主觀判斷或僅按方便原則抽選樣本。非隨機抽樣技術主要有:方便抽樣、判斷抽樣、配額抽樣和雪球抽樣等。
配額(比例)抽樣:是非隨機抽樣中最流行的一種,配額抽樣類似於隨機抽樣中的分層抽樣,首先將總體中的所有單位按一定的標誌分為若干類(組),然後在每個類(組)中用方便抽樣或判斷抽樣選取樣本單位。
2023-11-16數據來源例2(見P3)如某商場希望根據年齡和性別來調查對營業時間的意見,計畫調查周邊地區的1000個人。已知年齡和性別分佈如下:年齡(歲)比例(%)15-201620-302630-5030﹥5028性別比例(%)男51女492023-11-16數據來源若準備抽1000人,則配額抽樣方案為:年齡(歲)男性女性15-20827820-3013312730-50153147﹥501431372023-11-16提問認定調查總體及決定用問卷方式以得到所需資訊後,下一步是確定問什麼,如何問。一.問卷設計問卷調查一般是抽樣調查中常用的首選方式問卷設計是根據調查目的和要求,將所需要調查的問題具體化,使研究者能順利地獲取必要的資訊資料,以便於統計分析的一種手段2023-11-16提問1.問卷的一般結構問卷的標題問卷說明被訪者的基本情況調查的主題內容編碼作業證明的記載2023-11-16提問2.問卷結構特點問答由一個問題順勢轉入下一個問題;由一個主題轉到另一個主題。不要有跳躍而導致回答的無方向性。建議:從一般問題到特殊問題。2023-11-16提問“南方週末中國內地人物創富榜”讀者調查問卷1.您對中國的民營企業家的總體評價是
A.正面評價B.負面評價C.感受不大2.如果您的評價是正面的,主要原因是
A.民營企業為從業者提供了工作機會和報酬
B.民營企業對國家經濟發展的貢獻大
C.民營企業對社會責任有所擔當,扮演了企業公民的角色
D.其他2023-11-16提問3.如果您的評價是負面的,主要原因是
A.民營企業獲取財富方法的正當性存在疑問
B.民營企業支配財富方面存在問題
C.民營企業沒有積極承擔社會責任
D.其他4.您感受過民營企業對社會(包括您本人)的貢獻嗎?
A.是B.否5.您是通過什麼途徑感受到民營企業對社會貢獻的?
A.本人直接受益B.大眾傳媒
C.周圍人口碑相傳D.其他2023-11-16提問蓋洛普組織總結提問的目的有如下5種:(1)找出回答者是否覺察到這一結果;(2)獲得關於結果的一般感覺;(3)獲得該結果指定部分的答案;(4)獲得反映回答者觀點的理由;(5)找出持有這些觀點的強烈程度;2023-11-16提問例:1.你是否知道合肥和徐州之間要修條高速公路的計畫?知道/不知道2.你是否同意合肥和徐州之間修條高速公路?強烈同意、同意、無所謂、不同意、強烈不同意3.你認為高速公路會對當地環境產生影響嗎?有/沒有
4.如果反對,那你反對的理由是:
(a)已經有一條可用的主幹道
(b)合肥和徐州之間運量不足
(c)高速公路會損壞美麗的鄉村風景
(d)道路會破壞歷史文物
(e)其他,請指定……
2023-11-16提問5..你準備用下列哪一種行動來支持你的觀點?
(a)給地區人大代表寫信
(b)給新聞單位寫信
(c)在政府召開的公眾聽證會上發言
(d)在網上發表呼籲文章進行調查
(e)其他,請指定……2023-11-16提問二.提問的方式有開放式和預設答案提問(封閉式提問)開放式提問是指所提出的問答題並不列出所有可能的答案,而是由被訪者自由做答的問答題。預設答案提問是指已經事先設計了各種可能的答案的問答題,被訪者只要或只能從中選定一個或幾個現成答案的提問方式。2023-11-16提問三.提問的措辭提問的措辭在誘導出有代表性回答中是非常重要的。一個有偏差的或誘導性提問將偏離給定的回答。在問卷設計中發現的偏差主要有:(1)把兩個或兩個以上問題表達為一個;(2)問題中含有含糊或不熟悉的單詞;(3)用軟化難度或方向的詞開始的提問;(4)包含條件或假設條款;(5)包含對回答者一個或多個指令的提問;2023-11-16調查中的偏差調查的偏差來自許多方面,分為兩類:抽樣誤差和非抽樣誤差非抽樣誤差的來源:涵蓋誤差、計量誤差、處理誤差和無反應誤差1.涵蓋誤差:指由於在抽樣框或樣本中出現了涵蓋不全、過度涵蓋、重複以及錯誤的分類而導致估計的偏倚。2.計量誤差:指對一個問題所做的記錄與它的真值不同,可能是由於被調查者和調查者對問題的誤解、收集數據方式不同或測量工具而造成的。3.處理誤差:可能發生在數據編碼、數據錄入、審核及插補等步驟中。2023-11-16調查中的偏差4.無反應誤差在抽樣調查中,我們希望能取得所要求的全部樣本單位的數據或特徵記錄,但在實踐中,常有部分單位的調查結果會因多種原因而出現空缺,即常稱的無反應現象。調查中無反應的原因(1)調查對象聯絡不上,已經搬走(2)被調查者不能勝任或無能力(3)調查期間人不在(4)拒絕合作(5)丟失調查表2023-11-16調查中的偏差案例LiteraryDigest雜誌自第一次世界大戰以來一直進行總統預測,而且每次都預測准了。1936年美國總統選舉前,LiteraryDigest雜誌發出了1000萬張調查問卷。回收到240萬張,預測共和黨候選人蘭登(London)和民主黨候選人羅斯福(Roosevelt)的得票比例是57:43,預測是根據240萬張的民意調查回單作出的。但實際選舉結果是羅斯福贏得了這場選舉,他與蘭登得票比例是62:38。2023-11-16調查中的偏差分析出現預測錯誤的原因:第一.選取樣本的方式不是隨機的,它主要是從電話號碼簿和各種俱樂部會員名冊上去選取的,這些人大多是有錢人,他們支持共和黨候選人蘭登;第二.有760萬張問卷無反應,在沒有寄回的人中支持共和黨和支持民主黨人的比例一般與寄回來的240萬答卷中的支持比例不一樣,例如該雜誌向芝加哥地區三分之一的登記選民發了調查問卷,有20%的被詢問者作了回答,其中一半以上支持蘭登,但實際選舉的結果是在芝加哥地區是2:1有利於羅斯福。2023-11-16調查中的偏差案例在1936年美國總統選舉的預測中,美國輿論統計學家蓋洛普獲得成功。他所領導的研究所等三家民意測驗機構,只調查了比《文學文摘》少得多的選民,預測候選人羅斯福的投票率為54%。其抽樣方法是他在從事新聞工作中發展起來的,採用派調查員親自訪問調查,事先將各個地區不同類型與不同人數的對象定額分配給每一個調查員,然後分頭在全國範圍內進行。他為了取得良好的測定效果,按照以接近數字的準確程度算出來的比例,從特定的各種類別的人中,選出三千個樣本代表全國各個階層人口的特徵。2023-11-16調查中的偏差由於無反應(等於改變了原先隨機抽取的樣本)而造成的偏差叫“無反應偏差”。在調查中我們要儘量減少這種偏差。為解決無反應問題,常用的處理方法有:多次調查對調查結果進行估算在無回答者中抽取隨機子樣本調查波利茲方案:是一種對於獲得有回答的概率之間的差別,並相應地對其加權的方法。對無回答者的替代2023-11-16數據的類型例有一批旅遊者從北京出發,分別到普陀、喀什、三亞和漠河,給這四個城市編號,分別為1、2、3、4。當旅遊結束時,請每位旅遊者回答下列問卷:1.您去了哪個城市?
A.普陀B.喀什C.三亞D.漠河2.與以往旅遊活動總的感覺相比,您認為此次旅遊
A.很滿意B.較為滿意C.一般D.不滿意E.很不滿意3.您在此地時的最高氣溫是
度。4.您此行的全部支出是
元。2023-11-16數據的類型根據數據的來源,可以把數據分成:定性數據、定序數據、定距數據和定比數據
1.定性數據(分類、定類或名義數據)將數字作為現象總體中不同類別或不同組別的代碼。這是最低層次的尺度。
2.定序數據(有序數據)按照特徵等級進行排序,數據之間有大小之分,但沒有大多少的概念。
2023-11-16數據的類型3.定距數據(間隔數據)不僅可以用數值表示現象類(組)別的不同和順序大小的差異,而且可以用確切的數值反映現象之間在量方面的差別。4.定比數據(比例數據)不僅有確定的間距,而且有自然確定絕對的零點。四種數據的描述功能是依次增大的,相應地,它們的可計算性也是依次增大的。2023-11-16第一節列表表示一.處理的步驟
1.首先把數據按從小到大的順序排列起來。當數據太多時,可以用莖葉法排隊
2.確定數據的最大值和最小值,求出極差。
3.確定組數和組距。
4.確定組限和組中值。
5.分別計算各組區間內的頻數及頻率。
6.列出頻數和頻率分佈表。2023-11-16第一節列表表示例1(P8)觀察每10分鐘進入某超市的人數,144個數據如下:
23,23,35,7,29,3,15,20,30,18,23,32,34,40,17,25,30,33,51,37,43,52,67,34,20,26,46,68,79,82,57,61,96,75,59,64,77,99,87,48,58,95,96,68,46,73,57,39,45,28,24,35,43,25,27,30,42,30,22,18,21,26,21,8,19,15,24,12,8,8,6,8,20,8,25,29,26,36,26,28,36,22,41,37,30,50,28,35,24,36,50,44,48,38,47,55,30,44,50,40,47,83,75,64,66,75,83,90,87,59,63,78,75,86,86,77,64,70,65,69,56,55,42,47,33,36,34,29,33,25,16,30,22,18,9,14,16,20,26,10,
18,9,7,8,2023-11-16第一節列表表示枝葉圖枝葉頻數07388868899781215878952684608132339035068457216140596682849520631350240374950066705680364302540368653214874072717512798700509651367814846345911795735585701082733766796956052023-11-16第一節列表表示進入超市人數Stem-and-LeafPlotFrequencyStem&Leaf1.000.311.000.677888888993.001.02410.001.556678888916.002.000001122233344416.002.555566666788899914.003.0000000233344411.003.555666677899.004.0012233448.004.566777884.005.00128.005.556778995.006.134446.006.5678892.007.038.007.555577893.008.2334.008.66771.009.04.009.5669Stemwidth:10.00Eachleaf:1case(s)2023-11-16第一節列表表示列出頻數和頻率分佈表組組頻數組頻率【0,10)120.083333【10,20)130.090278【20,30)310.215278【30,40)250.173611【40,50)170.118056【50,60)130.090278【60,70)110.076389【70,80)100.069444【80,90)70.048611【90,100)50.034722合計1441.0000002023-11-16第一節列表表示2023-11-16第一節列表表示貨物年底價值的頻數(頻率)分佈表價值(元)組頻數組頻率【80,85)10.017【85,90)40.066【90,95)30.050【95,100)60.100【100,105)70.117【105,110)100.167【110,115)140.233【115,120)70.117【120,125)40.066【125,130)20.033【130,135)10.017【135,140)00.000【140,145)10.017合計601.0002023-11-16第一節列表表示貨物年底價值的頻數(頻率)分佈表價值(元)組頻數組頻率【80,90)50.083【90,100)90.150【100,110)170.284【110,120)210.350【120,130)60.099【130,140)10.017【140,150)10.017合計601.0002023-11-16第一節列表表示交叉分組列表是一種可以同時用於匯總兩個變數的數據的方法例2調查華聯超市購物目的和購物人群之間的關係,數據如下:居住區域購物目的中市區東市區西市區其他總計百貨類304903020570紡織類1501803520385食品類6756223515985其他52003560總計8607503009020002023-11-16第一節列表表示二.累計頻數和累計頻率例:某城鎮居民家庭人均收入分配資料如下:
年人均收入水準分組家庭數百分比(%)累計家庭數百分比(%)收入數百分比(%)累計收入數百分比(%)最低收入戶10104.344.34低收入戶10205.7910.13中等偏下收入戶204014.4524.58中等收入戶206018.2542.83中等偏上收入戶208022.8765.70高收入戶109014.2979.99最高收入戶1010020.01100.00合計100-100.00-2023-11-16第一節列表表示2023-11-16第一節列表表示三.頻數分佈的類型鐘型分佈:對稱分佈、正偏分佈和負偏分佈單峰分佈、雙峰分佈尖峰態分佈、平峰態分佈U型分佈J型分佈:正J型分佈和反J型分佈2023-11-16第二節圖示法作為統計描述的重要方法之一,統計圖是傳達數據資訊最有效的方式。統計圖以其簡單、直觀的優點備受青睞。它通過點的位置、線段升降、直條的長短或面積大小來表現事物的數量關係,使用統計圖代替冗長的文字敘述,可以大大提升統計報告的可讀性,達到賞心悅目、事半功倍的效果。2023-11-16第二節圖示法常用的統計圖有:條形圖(BarChart)線圖(LineChart)餅分圖(PieChart)直方圖(Histogram)箱式圖(Boxplot)高低圖(High-Low)散點圖(ScatterPlot)
序列圖(Sequence)等等
2023-11-16第二節圖示法一.條形圖條形圖是最初級類型的統計圖,常用於描述離散型數據的情況,它是用寬度相等而高度為頻數(率)的線段或狹條形表示的。例某市2004年人才求職人員學歷分佈資料如下:
編號學歷人數1博士802碩士5603本科28004大專22005中專13006其他7802023-11-16第二節圖示法2023-11-16第二節圖示法二.線圖2023-11-16第二節圖示法三.餅分圖
當數據是分類數據時,餅分圖是有用的。餅分圖常常用來表示各成分在總體中所占的百分比。只適用於單選問題。例4(P11)決定某產品價格的因素很多,它們在總價格中所占百分比如下表所示:因素原材料工資利潤稅收其他總計百分比552510821002023-11-16第二節圖示法2023-11-16第二節圖示法四.直方圖
頻數(率)圖:以每組的上下限為底,以組頻數(率)為高作矩形所構成的圖形。直方圖:以每組的上下限為底,以頻率/底寬為高所構成的圖形為直方圖。直方圖中矩形的面積之和為1。注意:頻率(數)圖和直方圖是不同的;在相等分組的情況下,它們的圖形是一樣的;在不等分組的情況下,它們的圖形是不一樣的。2023-11-16第二節圖示法由例1作的頻數圖:2023-11-16第二節圖示法由例5(60處地點100元價值貨物的年底價值)作直方圖2023-11-16第二節圖示法例4(P12)44個消費者在某商店購買食品金額如下:購物款(元)人數頻率≤520.0455(5,10】60.1364(10,15】80.1818(15,20】120.2727(20,30】100.2273(30,40】40.0909﹥4020.0455合計441.00002023-11-16第二節圖示法由例4作的頻率圖和直方圖2023-11-16第二節圖示法五.箱式圖箱式圖顯示數據的分佈。例:組成住宅房地產樣本的25種銷售價格(百美元)為:6605951060500630899129574982084371095072057576010907706821016650425367148094511202023-11-16第二節圖示法2023-11-16第二節圖示法六.高-低圖
股票、商品、貨幣及其他市場數據每週、每日、甚至每時的波動都相當大,為了圖示長期變動趨勢,同時又能知道短期的變化,必須採用相應的專用圖形工具來分析。高-低圖就是為此而設計的。2023-11-16第二節圖示法例:長虹在2004年9月13—24日兩周間的股價資料如下:日期最高價最低價收盤價135.655.455.54145.735.545.65156.005.625.96166.105.966.04176.185.896.18206.356.136.34216.356.146.16226.276.006.06236.185.956.16246.306.066.062023-11-16第二節圖示法2023-11-16第二節圖示法七.散點圖例:觀察家庭月收入與月支出之間的關係,隨機抽取10個家庭作調查得如下數據:收入(x)支出(y)收入(x)支出(y)6005401500890450450100080070060090075085075075066012508503604202023-11-16第二節圖示法2023-11-16第二節圖示法2023-11-16第二節圖示法八.序列圖時間序列圖的繪製是以橫軸代表時間,以縱軸代表所研究的數據記錄。例6(P15)一個發展中國家的經濟活力有如下的15年記錄:年活力年活力1538532549513551050455114855412436531340753143815352023-11-16
描述性統計量描述性統計量主要包括分佈的集中程度、分佈的離散程度和分佈的偏斜度刻畫數據集中程度或平均水準—平均指標刻畫相對於其均值的離散(或波動)程度—變異指標刻畫兩組數據(總體)間相互關係—相關指標(後述)刻畫數據分佈的形態—偏度和峰度係數2023-11-16第一節刻畫數據集中程度的特徵量平均指標是對頻數(頻率)分佈資料的集中狀況、集中程度和平均水準的綜合測度,是進一步統計分析的重要依據。集中程度的測定方法有:算術平均數、幾何平均數、調和平均數、眾數、中位數、分位數等。2023-11-16第一節刻畫數據集中程度的特徵量依據各種統計指標的具體代表意義和計算方式的不同,可以將其歸納為數值平均數和位置平均數兩大類。數值平均數就是對所有各項數據計算的平均數。因此它能夠概括反映所有各項數據的平均水準。常用的數值平均數有算術平均數、調和平均數和幾何平均數。2023-11-16第一節刻畫數據集中程度的特徵量位置平均數是根據數據集中處於特殊位置的個別單位或部分單位的數據來確定的代表值,因此數據集中某些數據的變動,不一定會影響到位置平均數的水準,儘管如此,位置平均數對於整個數據集仍具有非常直觀的代表性。常用的位置平均數有眾數、中位數和其他分位數等。2023-11-16第一節刻畫數據集中程度的特徵量一、算術平均數(均值)、中位數和眾數(一)算術平均數(均值)(Mean)(Average)
在刻畫數據的“平均”特性的特徵值中,最普遍最常用的是算術平均數,在統計上稱為均值。均值的計算:
2023-11-16第一節刻畫數據集中程度的特徵量未列表數據:例某公司9名部門經理的月收入(單位:元)為:2500,3000,2650,2900,3430,3310,2900,2875,2760。求月收入的樣本均值、中位數和眾數。2023-11-16第一節刻畫數據集中程度的特徵量列表(不分組)數據例10(P18)下表為英國1999年某地第一季度雇員失去工作天數統計天數(x)雇員數(f)xf累計頻數(F)0410041014304308402290580113031805401310411044014205201001440合計14402090-2023-11-16第一節刻畫數據集中程度的特徵量列表分組數據例11(P19)某食品店中顧客購買食品消費情況統計:消費額(元)人數(f)組中值(x)xf≤522.55(5,10]67.545(10,15]812.5100(15,20]1217.5210(20,30]1025250(30,40]435140>4024590合計44-8402023-11-16第一節刻畫數據集中程度的特徵量如果數據的不同類型對均值的貢獻不同,那麼在計算平均數時就應對每一種類型的數據賦予與其重要性成比例的權重,這樣計算的平均數稱為加權平均數。一般,若且,則
稱為“權”。
加權平均定義公式為:2023-11-16第一節刻畫數據集中程度的特徵量例15(P21)3個銷售科的人員預測明年對本廠產品需求量,三人經驗不一樣,因此預測量不一樣,經驗豐富的在預測量中占的份額大一點,設三人權的比例為4:2:1,預測量分別為900,1000,1200,求平均預測量。2023-11-16第一節刻畫數據集中程度的特徵量例16(P21)關於工人月薪的調查見下表每月收入分類平均工人數≤40028010(400,500】46028(500,600】55042(600,700】67050﹥70085020合計1502023-11-16第一節刻畫數據集中程度的特徵量均值的特點(1)適合代數方法的演算,應用廣泛,能獲得更多的資訊,具備優良的數學性質。(2)易受極端值的影響。當數據的分佈比較有規則時,即不存在極端值,數據對中心的偏離程度和偏斜程度都不大的情況下,用均值代表分佈的中心比較好。2023-11-16第一節刻畫數據集中程度的特徵量(二)中位數(Median)1.概念:表示一組數據按照大小的順序排列時中間位置的數值。2.中位數的確定(1)由不列表數據確定中位數先將數據按從小到大的順序重排,
2023-11-16第一節刻畫數據集中程度的特徵量(2)由列表(不分組)數據確定中位數舉例見P18的例10(3)由組距式分組數據確定中位數先根據累計次數確定中位數所在的組,再利用計算公式求出中位數的近似值。計算公式為:
m=I+i(n/2-F)/f(下限公式)其中:I表示中位數所在區間的下限值
i表示中位數所在區間的組距
F表示到中位數所在區間之前的累計頻數
f表示中位數所在區間的組頻數
2023-11-16
第一节刻画数据集中程度的特征量例12(P19)60處地點100元價值貨物的年底價值列表數據位置參數的計算。
年底價值地點數(f)累計頻數[8085)11[8590)45[9095)38[95100)614[100105)721[105110)1031[110115)1445[115120)752[120125)456[125130)258[130135)159[135140)059[140145)1602023-11-16第一節刻畫數據集中程度的特徵量3.中位數的特點:(1)不受極端值的影響。(2)具有計算簡便,意義明顯的優點。其適用的數據類型比數值平均數的範圍寬。(3)沒有利用數據中的所有資訊。2023-11-16第一節刻畫數據集中程度的特徵量(三)眾數(Mode)1.概念:眾數是數據集中出現次數最多或最常見的數值。2.眾數的確定(1)對於未列表的數據和列表(不分組)的數據,可直接觀察來確定。
2023-11-16第一節刻畫數據集中程度的特徵量例下表是關於交通事故的統計資料,忽略交通事故的等級,事故的頻數統計如下:事故次數0123≥4天數352212023-11-16第一節刻畫數據集中程度的特徵量(2)對於列表分組的數據,首先要確定眾數所在的組,然後通過公式計算眾數的近似值。計算公式為:(下限公式)
mo=I+i(fm-fm-1)/(2fm-fm+1-fm-1)
其中:I表示眾數所在區間的下限值
i表示眾數所在區間的組距
fm表示眾數所在區間的組頻數
fm+1表示眾數所在區間的後一個區間的組頻數
fm-1表示眾數所在區間的前一個區間的組頻數舉例見P19的例122023-11-16第一節刻畫數據集中程度的特徵量3.眾數的特點
(1)眾數不受極端值的影響。適用於各種類型的數據。(2)當頻數分佈無明顯集中趨勢時,不存在眾數。(3)只利用數據集中很少的資訊。2023-11-16第一節刻畫數據集中程度的特徵量二.其他平均數(一)幾何平均數(GeometricMean)幾何平均數是n個數據乘積的n次方根。適用於計算現象的平均比率或平均速度,或具有幾何級數關係的一組數據的平均數。例我國1998—2002年我國鋼鐵產量的發展速度(以上年為基期)分別為:106.1%、107.5%、103.4%、108%和120.3%,求平均發展速度。2023-11-16第一節刻畫數據集中程度的特徵量(二)調和平均數(HarmonicMean)調和平均數是一組數據倒數的算術平均數的倒數。適用於計算對比數值的平均數。2023-11-16第一節刻畫數據集中程度的特徵量(三)分位數分位數就是根據變數值由小到大的順利排列分割成若干等分,其分界位置上的各個數值實際上是一種分割值。在統計分析中,把中位數、四分位數、十分位數和百分位數等統稱為分位數。四分位數(quartile)是能夠將數據集按數據大小等分為四部分的三個數據,分別記為Q1、Q2、Q3。Q1:從最小值開始位於第(n+1)/4數據處的那個數據稱為1/4分位數或下四分位數Q2:中位數Q3:從最小值開始位於第3(n+1)/4數據處的那個數據稱為3/4分位數或上四分位數2023-11-16第一節刻畫數據集中程度的特徵量由未列表數據或列表(不分)組數據計算四分位數,首先要求求出它們所在的位置點,然後根據位置點確定四分位數。例某單位12個部門的費用月支出如下:4138,2894,5154,4006,3285,3985,5007,5248,4862,7500,6124,7003。試確定四分位數。按支出的昇冪排列如下:2894,3285,3985,4006,4138,4862,5007,5154,5248,6124,7003,75002023-11-16第一節刻畫數據集中程度的特徵量由列表分組數據計算四分位數:首先要確定四分位數所在的位置點,然後運用計算公式得出。分位值=I+i(O-F)/f
其中:I:分位數所在組的組下限
O:分位數次序值
F:到分位數所在組之前的累計頻數
f:分位數所在組的組頻數
i:分位數所在組的組距2023-11-16第一節刻畫數據集中程度的特徵量例23(P24)某食品店中顧客購買食品消費情況統計:消費額(元)人數(f)累計人數≤522(5,10]68(10,15]816(15,20]1228(20,30]1038(30,40]442≥40244合計442023-11-16第一節刻畫數據集中程度的特徵量例24(P25)英國某一地區財產分佈情況如下:財富(英鎊)人數(人)累積人數(人)01500015000[0,1000)310018100[1000,5000)
230020400[5000,10000)
230022700[10000,25000)
160024300[25000,50000)
100025300[50000,100000)
80026100[100000,250000)
30026400[250000,500000)
17026570[500000,1000000)
8026650超過100000005026700合計26700-2023-11-16第一節刻畫數據集中程度的特徵量三.各種平均數之間的關係不同的平均數適用於研究不同的問題,各種平均數都具有自己的含義、特點和應用場合。如算術平均數適用於正態分佈的資料,中位數則適用於所有分佈類型的資料,幾何平均數適用於對數正態分佈。1.算術平均數、調和平均數和幾何平均數的關係根據同一組數據計算的結果是:算術平均數≥幾何平均數≥調和平均數2023-11-16第一節刻畫數據集中程度的特徵量2.算術平均數、中位數和眾數的關係若根據光滑的頻數曲線來解釋這三種測度,可以說均值是變數分佈的平衡點或重心;中位數把這個分佈正好劃分兩半;眾數正好在分佈頂端出現。在頻數分佈完全對稱的情況下,均值=中位數=眾數在頻數分佈正偏時,眾數<中位數<均值在頻數分佈負偏時,均值<中位數<眾數2023-11-16第二節刻畫數據離散程度的特徵量變異指標又稱為變動度,是描述統計數據差異程度或離散程度的指標。變異指標的作用:1.變異指標是衡量平均指標代表性的尺度。2.變異指標是反映活動過程均衡性和穩定性的重要指標。3.變異指標還可以研究頻數分佈偏離正態的情況。2023-11-16第二節刻畫數據離散程度的特徵量一.方差(Varance)和標準差(StandardDeviation)(一)方差方差是每個變數與其算術平均數之間差的平方的算術平均數。設從某個總體中抽取的數據為,則樣本方差為:設該總體的全部數據就是,則總體方差為:2023-11-16第二節刻畫數據離散程度的特徵量(二)標準差設從某個總體中抽取的數據為,則樣本標準差為:設該總體的全部數據就是則總體標準差為:
2023-11-16第二節刻畫數據離散程度的特徵量1.不列表的數據樣本標準差的計算公式為:2023-11-16第二節刻畫數據離散程度的特徵量2.列表(不分組)和列表分組數據:2023-11-16第二節刻畫數據離散程度的特徵量例.某食品店中顧客購買食品消費情況統計:消費額(元)人數(f)組中值≤522.5550.4562(5,10]67.5805.9686(10,15]812.5347.4248(15,20]1217.530.3372(20,30]1025349.281(30,40]4351012.512≥402451342.656合計44-4438.6362023-11-16第二節刻畫數據離散程度的特徵量標準差是測定數據離散程度的最常用的方法。標準差廣泛應用於相關與回歸分析、抽樣推斷、統計預測等各方面。例1950—1999年的50年裏美國三種投資年獲利的平均數和標準差資料如下:投資平均獲利(%)標準差(%)短期國庫券5.342.96長期國庫券6.1210.73股票14.6216.322023-11-16第二節刻畫數據離散程度的特徵量二.離差的其他測定方法(一)極差(全距)把數據x1,x2,…xn
按從小到大的次序重排為x(1),x(2)
,…x(n),稱R=x(n)-x(1)為極差。極差是關於數據離散程度表達的一個很粗糙的量,僅僅取決於兩個極端值的水準,不能反映其間的變數分佈情況,受極端值的影響過於顯著,不符合穩健性和耐抗性的要求。極差有許多特殊的應用,如品質控制圖中的極差圖,提供證券市場行情等。2023-11-16第二節刻畫數據離散程度的特徵量(二)四分位差分位差是對極差指標的一種改進,或者說,就是從總體數據中剔除了一部分極端值之後重新計算的類似極差的指標。分位差有分位數偏差和分位數極差。常用的分位差有四分位差、八分位差、十分位差、十六分位差、三十二分位差及百分位差等。四分位極差=四分位偏差=2023-11-16第二節刻畫數據離散程度的特徵量(三)變異係數(離散係數)變異係數是變異指標與算術平均數之比的相對指標。常用的有標準差係數。變異係數的值越大,說明數據集中相對於均值的變化就越大。2023-11-16第二節刻畫數據離散程度的特徵量三.Z分數和五數概括法(一)Z分數(標準化的數值)利用平均數和標準差,可以知道任何數據值的相對位置。數據值位於數據集平均值之上或之下的以標準差為計量單位的距離稱為這個數據值的Z分數。2023-11-16第二節刻畫數據離散程度的特徵量(二)五數概括法一個分佈的五數綜合,從小到大,包括:最小值、第一四分位數、中位數、第三四分位數及最大值。這五個數對於分佈的中心和離度,提供了大致完整的描述,可以做數據的探索性研究。例:組成住宅房地產樣本的25種銷售價格(百美元)為:6605951060500630899129574982084371095072057576010907706821016650425367148094511202023-11-16第二節刻畫數據離散程度的特徵量箱式圖(盒形圖)2023-11-16第三節分佈的偏度和峰度指標相對於集中趨勢和離散程度而言,偏度和峰度主要不是從數值水準的角度考察分佈的代表值或變異程度,而是從整個分佈圖形的形狀來考慮的,所刻畫的是“分佈的形態特徵”。偏度係數和峰度係數反映了數據偏離正態分佈的程度。2023-11-16第三節分佈的偏度和峰度指標分佈的“偏度”(skewness)是指分佈不對稱的方向和程度。
2023-11-16第三節分佈的偏度和峰度指標例25(P27)調查1000人收入(元)資料如下:月收入人數組中值(稅前收入)稅後收入頻率<300
502002000.05[300,500)
3504004000.35[500,700)
2006006000.20[700,900)
1508008000.15[900,1100)
10010009900.10[1100,1300)
80120011800.08[1300,2000)
50165015650.05[2000,5000)
10350030950.01≥5000
10650053600.01合計1000--1.002023-11-16第一節統計指數的概念一.指數的概念統計指數其涵義有廣義和狹義之分:廣義指數是表明現象總體數量變動程度的相對數;一切通過比較計算的相對數,從廣義上講均可稱為指數;狹義指數是描述多種現象綜合變動(隨時間綜合變動)的相對數。2023-11-16第一節統計指數的概念例1(P30).某商品在最近4年中的價格如下:年價格第1年0.50第2年0.70第3年0.82第4年0.962023-11-16第一節統計指數的概念二.基期的選擇指數的基期是作為比較起點的所屬時期,選擇基期應注意下列要求:1.基期的選擇取決於指數編制的目的和要求。2.基期的選擇在研究現象變動的長期趨勢和規律時,要以社會經濟較穩定的時期作為基期。3.基期的選擇要考慮到市場的波動程度。2023-11-16第一節統計指數的概念三.指數的換算例:年舊指數新指數
1100(83.33)
2112(93.33)
31201004(129.6)
1085(135.6)
1136(146.4)
1222023-11-16第二節統計指數的構造指數編制中的一些問題:代表品的選擇代表地區和企業(市場)的選擇基期的選擇權數的選擇計算公式的選擇2023-11-16第二節統計指數的構造統計指數理論主要是總指數的編制方法。總指數的編制方法:綜合指數法和平均數指數法一.總指數的綜合形式——綜合指數法(一)編制原理綜合指數是通過對兩個不同時期範圍相同的複雜現象總體總量指標對比形成的指數。其計算特點是先綜合後對比。1.確定同度量因素與指數化指標;2.採用假定的方法,固定同度量因素的時期;3.將兩個不同時期的可同度量總量指標進行對比;
2023-11-16第二節統計指數的構造(二)總指數的各種綜合形式1.簡單綜合法例4(P33)一個有代表性個人一周內飲料消費如下:飲料0期1期價格(元)數量(杯)價格(元)數量(杯)茶0.2150.312咖啡0.931.23軟飲料3.013.232023-11-16第二節統計指數的構造2.加權綜合法(1)基期加權綜合法—拉氏(Laspeyre)指數
基期加權綜合法就是把同度量因素固定在基期水準上來編制指數的方法。舉例見例4。2023-11-16第二節統計指數的構造(2)報告期加權綜合法—帕氏(Paasche)指數報告期加權綜合法就是把同度量因素固定在報告期水準上來編制指數的方法。舉例見例4。2023-11-16第二節統計指數的構造二.總指數的平均形式——平均數指數(一)編制原理平均數指數是個體指數的平均數,以個體指數為基礎,通過對個體指數加權平均計算的一種總指數。常用的基本形式有算術平均數指數和調和平均數指數。其計算特點是:先對比後平均先計算各個專案的個體指數,再以個體指數為變數,給出一定的權數,加權平均求得。2023-11-16第二節統計指數的構造(二)總指數的各種平均形式1.簡單平均法舉例見例4
2023-11-16第二節統計指數的構造2.加權平均法平均指數的常見型式有算術平均指數,權數有變形權數和固定權數。變形權數:一般是與所要編制的指數密切關聯的價值總量,即pQ。2023-11-16第二節指數的構造例4:飲料wP1/p0P2/p0wP1/p0wP2/p0茶3.01.502.004.506.00咖啡2.71.331.563.594.21軟飲料3.01.071.103.213.30合計8.711.3013.512023-11-16119第一節隨機事件及其運算確定性現象(服從特定的因果規律,從一定的條件出發,一定可以推出某一結果的現象)和隨機性現象(在一定條件下,並不總是出現相同結果的現象)隨機現象是概率論和數理統計的研究對象。隨機現象有其偶然性的一面,也有其必然性的一面,這種必然性表現在大量重複試驗或觀察中呈現出的固有規律性,稱為隨機現象的統計規律性,而概率論正是研究隨機現象統計規律性的一門學科。2023-11-16120第一節隨機事件及其運算一.隨機試驗與隨機事件樣本空間:隨機現象所有基本結果的全體。樣本空間可以由有限個(至少兩個)基本結果組成,也可由無限個基本結果組成。ΩΩΩA2023-11-16121第一節隨機事件及其運算隨機試驗:對隨機現象的觀察或某種實現。概率論裏所研究的試驗或觀察有下列特點:(1)在相同條件下實驗可以重複進行;(2)試驗可能的結果具有多種可能性,而且在試驗前可以明確試驗的所有可能結果;(3)每次試驗前均無法確定該次試驗將出現何種結果。2023-11-16122第一節隨機事件及其運算隨機事件(簡稱事件):在隨機試驗中,對一次試驗可能出現也可能不出現,而在大量重複試驗中具有某種規律性的事件稱為隨機事件。基本事件:隨機試驗中可能出現的每個結果。特別地,在隨機試驗中必定發生的事件稱為必然事件;一定不發生的事件稱為不可能事件。2023-11-16123第一節隨機事件及其運算二.事件間的關係和事件的運算事件間的關係及其運算可以用集合論的知識來解釋,與集合論中集合之間的關係和運算是一致的。(一)事件間的關係1.事件的包含和相等若事件A發生蘊涵B發生,則稱事件B包含A,或A被包含在B中,記為。若事件A包含B,事件B也包含A,則稱事件A與B相等,記為A=B。2023-11-16124第一節隨機事件及其運算2.事件的互不相容在同一試驗裏,若兩個事件A和B沒有相同的基本結果,則稱事件A與B互不相容,或稱互斥。基本事件間是互不相容的。兩個事件的互不相容性可以推廣到多個事件間的互不相容性:設在同一試驗裏有n個事件A1、A2,…An,若其中任意兩個事件都是互不相容的,則稱這n個事件互不相容。2023-11-16125第一節隨機事件及其運算(二)事件的運算事件的基本運算有四種:對立、並、交和差。1.對立事件事件“非A”稱為A的對立事件(或逆事件),由樣本空間中所有不屬於A的樣本點組成的集合。特別地,必然事件和不可能事件互為對立事件。2023-11-16126第一節隨機事件及其運算2.事件的並(和)事件A、B中至少有一個發生(由事件A與B中所有基本結果)組成的一個新事件。記為A∪B。A∪B=A+B←→A發生或B發生
←→A與B至少有一個發生可推廣到多個事件:n個事件A1,A2,…An中至少有一個發生,稱為n個事件的並,記為A1∪
A2∪
…
∪
An。2023-11-16127第一節隨機事件及其運算3.事件的交(或積)由事件A和B同時發生這一事件(由公共的基本結果組成的一個新事件),稱為事件的交。記為A∩B或AB。A∩B或AB←→A發生且B發生
←→A與B同時發生
←→A與B都發生可推廣到多個事件:n個事件A1,A2,…An同時發生,稱為n個事件的交,記為A1∩
A2∩
…
∩
An。2023-11-16128第一節隨機事件及其運算完備事件組(群)設一組事件A1,A2,…An
,若AiAj=Ø
,i≠j,且A1∪A2∪…∪An=Ω,則稱A1,A2,…An
為隨機試驗Ω的一個完備事件群。2023-11-16129第一節隨機事件及其運算4.事件A與B的差是由在事件A中而不在事件B中的基本結果組成的一個新事件,記為A-B。A-B←→A發生但B不發生5.迪莫根對偶法則可推廣到多個事件:
2023-11-16130第二節概率的定義概率是隨機事件發生可能性大小的數字度量,取值在0和1之間。一.概率的古典定義(古典概率)古典概率是在經驗事實的基礎上對被考察事件發生可能性進行符合邏輯分析後得出該事件的概率。其基本思想是:設樣本空間滿足如下條件:(1)樣本空間中只有有限個基本事件;(2)每個基本事件發生的概率相同,即等可能性;(3)假如被考察的事件A含有K個基本事件,則:
P(A)=M/N=A中含基本事件的個數/樣本空間中基本事件總數2023-11-16131第二節概率的定義例2.(P43)袋中有7個紅球3個白球,從中任取2球,問2球全是紅球的概率。例3(P43)30人中至少有2人生日相同的概率有多大?2023-11-16132第二節概率的定義二.概率的頻率定義頻率方法是在大量重複試驗中用頻率去獲得概率近似值的一個方法,也是最常用、最基本的獲得頻率的方法。揭示隨機事件一個極其重要的特徵——頻率的穩定性。定義:在不變的條件下,獨立重複做同一隨機試驗n次,事件A發生nA次,nA/n為事件A發生的頻率,當n→∞時,nA/n會在某一常數P附近波動,則P稱為事件A的頻率。2023-11-16133第二節概率的定義頻率方法的基本思想:1.與考察事件A有關的隨機現象是允許進行大量重複試驗的;2.假如在n次重複試驗中,事件A發生nA次,則事件A發生的頻率為nA/n;3.頻率nA/n依賴於重複次數n。2023-11-16134第二節概率的定義三.概率的主觀定義(主觀概率)主觀概率是是人們根據經驗對該事件發生可能性所給出的個人信念。主觀概率的基本特點是:
1.不可重複性。需要做出主觀概率判斷的事件都是不可重複的。
2.主觀性。面對同一事件,不同的當事人可能會提出不同的概率值。2023-11-16135第二節概率的定義四.概率的公理化定義在一個隨機現象中,用來表示任一個隨機事件A發生可能性大小的實數(即比率)稱為該事件的概率,記為P(A)並規定:(1)非負性公理:0≤P(A)≤1(2)正則性公理:必然事件的概率為1(3)可加性公理:若A與B互不相容,則有
P(A∪B)=P(A)+P(B)2023-11-16136第二節概率的定義利用概率的三條公理,可推出概率的幾條性質:(1)若A1,A2,…,為兩兩互不相容,則有P(A1∪A2∪…
)=P(A1
)+P(A2
)+…(2)不可能事件的概率為0。(3)(廣義加法法則)對任意兩個事件A與
B,有P(A∪B)=P(A)+P(B)-P(AB)2023-11-16137第二節概率的定義例:一批產品共100件,其中有5件不合格品,現從中隨機抽出10件,其中最多有2件不合格品的概率是多少?例:擲兩個骰子,至少有一顆骰子的點數大於3的概率是多少?2023-11-16138
第三節事件的獨立性定義:對任意兩個事件A與B,若有P(AB)=P(A)(B),則稱事件A與B相互獨立,簡稱A與B獨立。
A與B獨立如果事件A1,A2,,An中任一部分(一個或幾個)的發生與否與另一部分(一個或幾個)發生與否無關,則稱事件A1,A2,,An相互獨立。由此可推知
,
2023-11-16139第三節事件的獨立性例4(P44).A、B、C三人獨立地破譯密碼,每人能破譯密碼的概率分別為1/3、1/4、1/5。問密碼能被破譯的概率有多大?例:某航空公司上午10時左右從北京飛往上海、廣州、瀋陽各有一個航班,記A、B、C為如下三個事件:A=“飛往上海的航班滿座”;B=“飛往廣州的航班滿座”;C=“飛往瀋陽的航班滿座”假設這三個事件相互獨立,且P(A)=0.9,P(B)=0.8,P(C)=0.6,現求如下幾個事件的概率:(1)三個航班都滿座的概率;(2)僅有一個航班是滿座的概率。2023-11-16140第四節非獨立事件與運算一.條件概率
一般地說,條件概率就是在附加某些條件之下所計算的概率。無條件概率和條件概率定義:設A與B是基本空間中的兩個事件,且P(B)﹥0,在事件B已發生的條件下,事件A的條件概率P(A∣B)為:P(A∣B)=P(AB)/P(B)2023-11-16141第四節非獨立事件與運算條件概率:(1)圖解(2)條件概率也是概率,滿足概率公理化定義中的各條。(3)條件概率公式的應用(乘法法則)
P(AB)=P(B)P(A∣B)(P(B)﹥0)
P(AB)=P(A)P(B∣A)(P(A)﹥0)2023-11-16142第四節非獨立事件與運算例:擲兩顆均勻骰子,已知第一顆擲出6點(記為事件B),問“擲出點數之和不小於10”這一事件A的條件概率是多少?例:10個產品中有3個次品,依次抽取,問第一次抽到次品,第二次還抽出次品的概率是多少?2023-11-16143第四節非獨立事件與運算二.乘法定理(概率的乘法公式)定理:對任意兩個事件A與B,有P(AB)=P(B)
P(A∣B)=P(A)P(B∣A),其中第一等式成立要求P(B)﹥0,第二個等式成立要求P(A)﹥0。設事件A與B獨立,且P(B)﹥0,則P(A∣B)=P(A),反之亦然。這個性質表明,若兩事件獨立,則其條件概率就等於其概率,這裏事件B的發生對事件A是否發生沒有任何影響。2023-11-16144第四節非獨立事件與運算可把乘法公式推廣到計算n個事件同時發生的概率上一般乘法公式:對任意n個事件A1,A2,…,An,有P(A1A2…An
)=P(A1
)P(A2∣A1)P(A3∣A1A2)…P(An∣A1A2…An-1)2023-11-16145第四節非獨立事件與運算例5(P45).一個人打電話定座,但忘了最後一位號碼,問他三次打通電話的概率是多少?例:10個考簽中有4個難簽,3個人參加抽籤(不放回),甲先、乙次、丙最後,求甲、乙、丙都抽到難簽的概率。2023-11-16146第四節非獨立事件與運算有時也可以用簡單的樹狀圖來解概率問題。例6(P45)概率樹.一產品以30%,20%和50%的比例銷往A,B,C三個地方,以X和Y分別表示暢銷和滯銷。設各地暢銷的概率為0.6,滯銷的概率為0.4。則可以用如下的圖形表示。這個圖形稱為概率樹。其中AX表示產品在A地暢銷,其餘可類推。各地暢銷的概率都是0.6說明暢銷與否與銷地無關。
2023-11-16147第四節非獨立事件與運算例7(P46)設一產品以40%,40%和20%的比例銷往A,B,C三個地方,在A地暢銷的概率為0.5,在B地暢銷的概率為0.7,在C地暢銷的概率為0.3。則這種場合下的概率樹如下圖所示。由於各地的暢銷概率不同,因此0.5是產品在A地暢銷的條件概率(其餘類推)。2023-11-16148第四節非獨立事件與運算三.全概率公式全概率公式和貝葉斯公式主要用來計算比較複雜事件的概率,它們實質上是加法公式和乘法公式的綜合運用和推廣。全概率公式:設B1,B2,,Bn為樣本空間的一個分割,A為這個樣本空間中的一個事件,則事件A的概率為:
P(A)=∑P(Bi)P(A∣Bi)該公式運用的關鍵是在於尋找一個合適的分割,使諸概率P(Bi)和諸條件概率P(A∣Bi)容易找到。2023-11-16149第四節非獨立事件與運算例8(P46)甲、乙、丙三家工廠向同一家工廠提供相同的配套零件,所占百分比分別為50%,25%和25%。甲、乙、丙三家工廠的次品率分別為2%,2%和4%。現從這些零件中任取一個,問取到次品的概率。例9(P46)一家人去野營,在回家的路上發現同去的狗不見了,於是派小孩回去找狗。根據狗的習性,它在原地啃骨頭的概率為50%,跑到附近樹林中以及跑回家的概率各有25%。如果狗在原地啃骨頭,小孩能找到狗的概率有90%,如果狗跑到野營附近的樹林中去了,小孩有50%的可能性找到狗,如果狗跑回家,則小孩找不到狗。求小孩能找到狗的概率。2023-11-16150第四節非獨立事件與運算四.貝葉斯公式設事件B1,B2,…,Bn是基本空間的一個分割,且它們各自的概率P(B1),P(B2),…P(Bn)皆已知且為正,又設A是基本空間的一個事件,P(A)﹥0,且在諸Bi給定下事件A的條件概率P(A∣B1
),P(A∣B2
),…
,P(A∣Bn
)可通過試驗等手段獲得,則在A給定下,事件的條件概率為:P(Bi∣A)=P(A∣Bi)P(Bi)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论