让数字会说话三F_第1页
让数字会说话三F_第2页
让数字会说话三F_第3页
让数字会说话三F_第4页
让数字会说话三F_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、類別變項的關聯分析Analysis of Association among Categorical Variables量化研究法二統計原理與分析技術第14章 1關聯分析的根本要素 關聯強度strength 反應兩個變項關聯情形的強弱兩個變項的關聯強弱可以利用特殊的統計量關聯係數來表示當係數的數值越大,表示強度越強,當係數的數值越小,表示強度越弱關聯方向direction正向關聯positive association:兩個變項數值的變動具有相同的方向時(以正號來表示)負向關聯negative association:當兩個變項數值的變動為相反的方向時(以負號來表示)關聯模式pattern兩個

2、變項關聯情形的型態(例如直線關係、曲線關係 )變項間的次序或角色關係的對稱性非對稱關係asymmetrical relationship: 當兩個變項之間,有明顯的次序關係或預測關係時。例如年齡與工作能力的關係。對稱關係symmetrical relationship:兩變項關係沒有清楚的前後次序或因果關聯時,只能觀察到兩個變項的連動情形,例如焦慮與學習表現的關係2類別變項的關聯分析 3類別資料的分析 類別資料的產生原發性類別資料:當被測定的變項的本質是名義性的屬性, 例如性別資料操弄性類別資料:以人為操作的手段所獲致的分類性資料, 例如實驗操弄的分類結果虛擬化類別資料:由其他類型的資料型態轉

3、換成類別形式的資料, 例如由連續變項轉換來的類別變項類別資料的根本型態次數與百分比類別資料的呈現 次數分配表與列聯表類別資料的分析卡方檢定與其他關聯性分析法4列聯表列聯表為兩個單一類別變項的次數分配表的整合呈現直行column變項以X表示,橫列row以Y表示如果X變項具有k個水準,Y變項具有l個水準,稱為kl列聯表邊際分配marginal distribution列聯表的側緣數據右側及下方的次數分配,反應兩個變項的次數分配狀況,也就是兩個獨立的次數分配表細格次數邊際次數所包夾的區域稱為細格cells,反應兩個變項的互動關係兩個類別變項是否具有關聯性,就是在檢查各細格當中次數的變化情形 5殘差分

4、析residual analysis 殘差分析各細格期望次數與觀察次數的差值的分析期望值以 表示是各細格所相對應的兩個邊際人數百分比Pi.與P.j的乘積乘以總人數在特定邊際次數的條件下,兩個變項無關聯時,細格次數在隨機情況下的最可能值,或稱為最大概似maximum likelihood期望值 殘差residual各細格實際觀察人數減去期望人數,又稱為delta值 殘差越大,各細格分佈越不如期望般的出現,兩個變項有某種關聯,殘差越小,表示各細格分佈越接近期望,兩變項無關聯 正殘差值表該細格的觀察次數高於兩個變項無關時的期望值負殘差值表該細格的觀察次數低於兩個變項無關時的期望值 6標準化殘差sta

5、ndardized residual 標準化殘差殘差為未標準化統計量數。將殘差除以標準誤,得到標準化殘差 將標準化殘差平方後加總,即得Pearson 2,也就是我們常用的卡方值 分佈呈標準化常態分配N0,1,可利用常態化Z分配進行統計決策調整後標準化殘差adjusted standardized residual標準化殘差會隨著邊際期望值的大小變動而產生波動假设將標準化殘差以各邊際比率進行調整,得到調整後標準化殘差,可以排除各邊際次數不相等所造成的比較問題 7卡方考驗 卡方考驗將樣本統計量轉換成卡方值,配合卡方分配所進行的統考驗原理是以細格次數來進行交叉比較,俗稱交叉分析2值的大小,代表統計量

6、與理論值的差異程度,一旦2值大於顯著水準的臨界值,即表具有統計意義殘差分析是卡方考驗顯著後的事後考驗程序卡方考驗顯著之後,再以殘差分析來檢驗各細格的狀況小樣本的卡方檢驗當樣本很小時,以上述卡方公式所導出的數值僅是一個卡方近似值,而非真正卡方分配下的數值。小樣本應使用校正值,例如耶茲校正Yates correction for continuity或費雪正確機率考驗Fishers exact probability test前後測資料,應使用麥內瑪考驗McNemar test 8卡方導出關聯係數 Phi係數反應兩個二分類別變項例如類別為男女、是否的類別變項的關聯性係數係數與卡方值之間具有可轉換的

7、數學關係 係數係修正了樣本數對於卡方值的影響,開根號之後,係數即等同於Pearsons r,數值介於-1至1 9卡方導出關聯係數Yules Q係數 Q係數僅以細格內部的次數來計算關聯性,無法反應邊際次數的作用當細格分佈不均勻時,Q係數的波動較大,尤其是樣本數小時,邊際次數對細格次數變動的影響更為明顯,Q係數對於關聯性的估計越不合理 10卡方導出關聯係數列聯係數coefficient of contigency 當兩個類別變項有任何一個超過兩個水準,卡方值可能會大於樣本數,造成係數大於1的情況以列聯係數的修正公式如下11卡方導出關聯係數Cramers V係數Cramers V coefficie

8、nt列聯係數公式所求出的係數雖然數值不會大於1,但是亦難接近1,尤其是當樣本數越大時,列聯係數會減小,可用Cramer的V係數來修正此一問題 k為行數或列數中組數較小者 12削減誤差導出係數 削減誤差比proportioned reduction in error; PRE指以某一個類別變項去預測另一個類別變項時,能夠減少的誤差所佔的比例 E1表示以未知X時預測Y時所產生的誤差,即期望誤差預測不準的細格期望值E2表示以X時預測Y時所產生的誤差 預測不準的細格次數 削減誤差比的應用PRE指數是一個介於0與1的一個統計量PRE值越大,可削減的誤差比例越大,兩個變項的關聯性越強PRE比例越小,兩個變

9、項的關聯性越低強調兩個變項間的非對稱關係的檢驗適用於當兩個類別變項有明確的獨變項與依變項區別之時 13PRE計算範例性別是否可以解釋購買行為?男性以購買報章雜誌B3與繳費服務B4為主可解釋細格A1B39A1B44A2B116A2B25誤差細格A1B16期望值10.6A1B25期望值4.8A2B34期望值6.8A2B41期望值2.6A1男A2女總和B1 日用品6(10.6)16(11.4)22B2 飲料食物5(4.8)5(5.2)10B3 報章雜誌9(6.2)4(6.8)13B4 繳費服務4(2.4)1(2.6)5總和242650誤差次數(E2)誤差期望次數(E1)14Lambda係數Goodm

10、an與Kruskal1954所提出一種以削減誤差比來計算兩類別變項關聯性的關聯係數利用類別變項中的眾數組mode來作為削減誤差計算的基準對稱symmetrical:指X與Y兩個變項的關係是對等的,不區別何者為依變項,何者為獨變項非對稱y.xasymmetrical:指X與Y兩個變項可指定獨變項與依變項15Lambda係數計算範例 I性別與購買行為有無關聯?對稱性期望誤差E1的計算性別邊際預測誤差:50-26=24(非眾數次數)行為邊際預測誤差:50-22=28 (非眾數次數)合計邊際預測誤差:28+24=52 (非眾數次數)觀察誤差E2的計算性別細格眾數:男(9)女 (16)觀察誤差:男(24

11、-9)女(26-16) (非眾數次數)行為細格眾數:1(16)2(5)3(9)4(4)觀察誤差:1(22-16)2(10-5)3(13-9)4(5-4) (非眾數次數)總和=41A1男A2女總和B1 日用品6(10.6)16(11.4)22B2 飲料食物5(4.8)5(5.2)10B3 報章雜誌9(6.2)4(6.8)13B4 繳費服務4(2.4)1(2.6)5總和242650性別眾數行為眾數性別細格眾數行為細格眾數E2E116Lambda係數計算範例 II性別可否預測購買行為?非對稱性期望誤差E1的計算不看性別行為邊際預測誤差:50-22=28 (非眾數次數)觀察誤差E2的計算不看性別行為細

12、格眾數:1(16)2(5)3(9)4(4)觀察誤差:1(22-16)2(10-5)3(13-9)4(5-4) (非眾數次數)總和=25A1男A2女總和B1 日用品6(10.6)16(11.4)22B2 飲料食物5(4.8)5(5.2)10B3 報章雜誌9(6.2)4(6.8)13B4 繳費服務4(2.4)1(2.6)5總和242650性別眾數行為眾數性別細格眾數行為細格眾數E2E117Tauy係數 Goodman與Kruskal所創以PRE為基礎的關聯係數 原理與非對稱形式y.x類似,係比較直行邊際比例和橫列邊際比例進行預測的誤差機率,但Tau係數的計算考慮了所有的次數,因此敏感度較Lambd

13、a係數為高 小寫f表示細格次數,大寫F為邊際次數 18觀察誤差依變項在獨變項的不同水準下的次數以邊際次數差異值,以各細格次數加權後加總。期望誤差依變項的邊際次數與總人數差異值,以各邊際次數加權後加總。 男性:6(24-6)+5(24-5)+9(24-9)+4(24-4)/24=418/24=17.42女性:16(26-16)+5(26-5)+4(26-4)+1(26-1)/26=378/26=14.54E2=17.42+14.54=31.96E1=22(50-22)+10(50-10)+13(50-13)+5(50-5)/50=1722/50=34.44A1男A2女總和B1 日用品6(10.6

14、)16(11.4)22B2 飲料食物5(4.8)5(5.2)10B3 報章雜誌9(6.2)4(6.8)13B4 繳費服務4(2.4)1(2.6)5總和242650Tau係數計算範例 19順序變項的關聯分析 20 Gamma係數 Goodman & Kruskalt提出將依順序排列的資料,進行各細格的配對比較遇到同樣等第的資料則不予計算。非同分的資料untied pairs同序配對concordant pairs:指兩個變項上的等第變動呈現相同的方向,以Ns表示異序配對disconcordant pairs:指某配對觀察值在X與Y變項的等第變動呈現相反的方向,以Nd表示Gamma係數的計算不涉及

15、邊際次數的計算,因此又稱為免邊際margin-free的係數當樣本數越大時大於50,Gamma係數的抽樣分配呈現常態化,可以配合統計考驗來檢驗Gamma係數的統計意義 當同分狀況比重太高時,Gamma係數無法反應這些細格的資料而導致敏感度降低,宜採用其他係數如Tau-b係數21範例22Tau-b與Tau-c係數 Kendall所提出,原理類似於Gamma係數的一種對稱性關聯係數(但是不是基於PRE的概念所導出)Tau-b係數將獨變項上同分但依變項不同分的順序配對,以及獨變項上不同分但依變項同分的順序配對納入考量但不處理兩者同時同分的配對觀察值,使得關聯係數的計算更能反應細格內數據的變化 當列聯

16、表呈現正方形時兩個變項的組數或數值數目相等,b係數的數值會介於正負1之間。當數值越接近0,表示兩變項的關聯性越低。 列聯表不是呈現正方形時兩個變項的組數或數值數目不相等,宜使用c係數 m表示組別數等第數目較少的變項的組別數等第數目 23Somerss dyx類似於Gamma係數的一種基於PRE概念的順序變項非對稱性量數可用於描述某一個變項對於另一個變項的預測或解釋情形 dyx量數在分母增加了一項對於被預測變項依變項的等第相同的細格次數,擴大了被預測變項的數據的反應能力 24Kappa量數 Cohen1960提出適用於具有相等順序數值的兩個順序變項關聯性分析也就是行與列的數值數目相同,交叉表呈現

17、正方形 Kappa係數所反應的是兩個順序變項的等級是否相同,也就是當第一個順序變項為1時,在另一個變項的順序是否也為1如果相同等級的情形越多,Kappa係數越高。又稱為同意量數measures of agreement對角線上的次數才被視為正確判斷,因此在順序變項關聯性分析的各係數當中,Kappa可以說是最嚴格的一個量數,數值通常最低 25範例一26Spearmans Rho Spearman所提出適用於順序尺度是名次時,可用來反應兩個名次資料的關聯性Rho係數是順序變項關聯性各種係數當中,最接近傳統所計算的Pearson積差相關的係數s係數與Kappa係數之比較s係數可以用在當順序的數值不相等時但是觀察值可以在兩個變項上進行配對,Kappa係數僅能適用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论