SPSS教程CH13 区别分析.ppt_第1页
SPSS教程CH13 区别分析.ppt_第2页
SPSS教程CH13 区别分析.ppt_第3页
SPSS教程CH13 区别分析.ppt_第4页
SPSS教程CH13 区别分析.ppt_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、區別分析,內容大綱,13.1認識區別分析 13.2區別分析-區別二群 13.3複區別分析 13.4虛擬變數區別分析 13.5二元Logistic迴歸分析 13.6重要統計檢定值,13.1認識區別分析,區別分析又稱判別分析(discriminant analysis)的應用範圍很廣, 例如,銀行將信用好的客戶和信用差的客戶,分為二群,看看什麼因素最能夠區別這二個群體;又如某行銷部門欲了解最能區分其產品的重度使用者(heavy users)及輕度使用者(light users)的因素是什麼。,區別分析是一種相依方法,其準則變數(依變數)為事先訂定的類別或組別。其預測變數(自變數)是區間資料或比率資

2、料。 區別分析的目的是: 找出預測變數(自變數)的線性組合,使組間變異相對於組內變異的比值為最大。 找出哪些預測變數具有最大的區別能力。 根據新受試者的預測變數的數值,將該受試者指派到某一群體。換句話說,在區別方程式建立之後,研究者可將某人的有關資料(這些資料是在模式中的變數)代入這個方程式中,以了解這個人被歸類到哪一群。 檢定各係數與0之間是否有顯著性的差異,以及檢定各組的重心(centroid)是否有顯著性的差異。,為了達成上述的目的,必須建立一個區別的直線函數(linear function)如下:,在區別分析中,研究者常常將不同的人或個體分成不同的群組,但是除此之外,我們還可以從區別函

3、數中來檢視各變數的相對重要性。假設我們用區別分析對成功、不成功的管理者建立如下的區別函數: 其中,X1表示與人相處的能力、X2表示對部屬的激勵、X3表示專業技能。由於區別函數中的各係數值都經過標準化,我們可以說:在分辨管理者的成功與否時,與人相處的能力的重要性低於另外兩個變數,區別函數的數目等於從分組數目減一與自變數數目(有幾個自變數)中取最小的數目。例如,分組數目有三個(分成三組),自變數數目有三個,則區別函數的數目等於Min(分組數目減一,自變數數目)Min2。因此會有兩個區別函數。,在單因子多變量變異數分析的檢定達到顯著水準之後,進一步可採用區別分析。區別分析適用的情況是依變數有一個且為

4、名義變數,自變數可為區間變數或名義變數。如自變數為區間變數,則可進行區別分析或者Logistic迴歸分析,如果自變數為名義變數則要進行虛擬變數區別分析,如圖13-1所示。 在樣本數的要求上,全部觀察值數目最好是自變數(預測變數)的1020倍。每個自變數應有20個觀察值。,進行區別分析有以下的假定: 自變數(預測變數)所屬母群體是常態分配。 每組樣本均來自多變量常態分配的母群體,亦即每一組內共變異數矩陣應大致相等。 任何自變數(預測變數)都不是其他自變數的線性組合,也就是沒有線性重合的現象。,13.2區別分析-區別二群,大海軟體公司裡面具有企管碩士學位的幹部30名,分別有15名前途光明的幹部,1

5、5名前途黯淡的幹部。該公司的總經理想要了解,在人力資源管理中的員工錄用上,應特別重視經驗、在校成績、測驗成績中的什麼因素,開啟檔案(檔案名稱:.Chap13Discriminant Two Groups.sav)。此檔案包括了組別(分為二組,以1表示前途光明組,以2表示前途黯淡組)、經驗(工作經驗)、在校成績(在校成績總平均)、測驗成績(應徵測驗成績)。組別為名義變數,其他的變數為區間變數。 進入SPSS,按Analyze、Classify、Discriminant(分析分類判別),在所產生的Discriminant Analysis視窗中,將組別變數選入右邊的Grouping Variabl

6、e(分組變數)下的空格中,選取分組(?),按其下的Define Range(定義範圍),在Discriminant analysis: Define視窗中的Minimum:(最小值)填入1,Maximum:(最大值)填入2,如圖13-2所示。表示我們是將資料分成二組。,圖13-2Discriminant analysis: Define視窗設定,將經驗、在校成績、測驗成績這些自變數選入Independents(自變數)下的方盒內,如圖13-3所示。可以用SPSS內定的Enter independents together(使用所有變數)或者Use stepwise method(使用逐步方法)

7、。,圖13-3Discriminant Analysis視窗設定,在Discriminant Analysis視窗中,按Statistics,就會產生Discriminant Analysis: Statistics視窗,我們選定的情形如圖13-4所示 圖13-4Discriminant Analysis: Statistics視窗設定 描述性統計量(descriptives):,矩陣(Matrices): 區別函數係數(Function Coefficients):,在Discriminant Analysis視窗中,按Class ify,就會產生Discriminant Analysis:

8、 Clas sification視窗,我們選定的情形如圖13-5所 示。 在Prior Probabilities(事前機率)的方盒下, 使用內定的All groups equal(所有組別大小均 等),也就是將所有組別的事前機率假設為相等。 在Use Covariance Matrix(使用共變異數矩陣), 使用內定的Within-groups(組內變數),表示以組內 的共變異數矩陣來將觀察值加以分類。在Display (顯示)下的方盒內,點選Summary table (分類統計表)。,圖13-5Discriminant Analysis: Classification視窗設定,在Disc

9、riminant Analysis視窗中,按Save,就會產生Discriminant Analysis: Save視窗,我們選定的情形如圖13-6所示。,圖13-6Discriminant Analysis: Save視窗設定,從各組平均數的相等性檢定表中可知,經驗在二組(前途光明組及前途黯淡組)的平均數有顯著差異,顯著性=0.003,達到顯著水準。在校成績及測驗成績均未達顯著水準,表示在校成績及測驗成績在二組(前途光明組及前途黯淡組)的平均數均沒有顯著差異。,Wilks Lambda可用來檢定虛無假說。在下表中, 經驗、在校成績、測驗成績的顯著性分別為 0.003、0.870、0.594,

10、在=0.05之下, 我們要棄卻d1=0的虛無假設(經驗在二組上無顯著差異),而認為經驗在二組上有顯著差異。,對數行列式表中,如果變數之間具有高度多元共線性問題,則對數行列式值(log determinant)會趨近於0,而且等級(rank)會不等於自變數的數目。 此表顯示,前途光明組、前途黯淡組的對數行 列式值分別為12.783、12.657,與0距離相當大,而且等級 (=3),與自變數的數目(=3)相同,所以有理由相 信, 變數之間沒有高度多元共線性問題。,下表為Boxs M各組內共變數相等性檢定結果。顯著性0.312,未達顯著水準,接受虛無假說,表示各組的組內共變異數矩陣相等,符合區別分析

11、的假定。,在本章區別函數數目中,曾說明:區別函數的數目等於從分組數目減一與自變數數目(有幾個自變數)中取最小的數目。由於分組數目有二個(分成二組),自變數數目有三個,則區別函數的數目等於Min(分組數目減一,自變數數目)=Min(1,3)=1。因此會有一個區別函數。 此函數的特徵值=0.409,可解釋依變數100%的變異量。,Wilks Lambda值=0.710,顯著性=0.0280.05,表示區別函數對於依變數有顯著的解釋能力。,在標準化的典型區別函數係數 (Standardized Canonical Discriminant Function Coefficients)表中,標準化係數

12、等於各自變數在區別函數上的相對重要性,係數值愈大,表示該自變數在區別函數上的相對重要性愈大。我們可建立標準化的典型區別函數如下: 從典型區別函數係數來看,經驗的相對重要性較高。,結構矩陣(Structure Matrix)顯示,區別變數和標準化典型區別函數之間的合併後組內相關。變數係依函數內相關的絕對值大小加以排序。相關係數的絕對值愈大者,表示此變數與區別函數的相關愈高。從結構矩陣來看,經驗與區別函數的相關最高。,各組重心的函數(Functions at Group Centroids)表顯示,依變數(分類變數)各組樣本在區別函數的重心。當二組樣本的重心值差異愈大,表示二組間在該區別函數上的差

13、異愈大。,組別的事前機率(Prior Probability for Groups)會假設分發到各組的機率均相等,除非有某些理論為依據。對組別的事前機率的假設,會影響分類結果的正確性,分類係數函數(Classification Coefficient Functions)是以Fisher法將觀察值加以分類,因此又稱Fishers線性區別函數。每一個群組都會有一組係數: 在將觀察值分類時,或預測某觀察值屬於何類時,將觀察值的資料代入二個群組的分類函數,並以函數值大小來比較,函數值較大者,代表此觀察值所歸屬的類組。,分類結果(Classification Results)表又稱為混淆矩陣(Conf

14、usion Matrix)表。在我們的觀察值中,有15名屬於前途光明組,有15名屬於前途黯淡組。經過分類之後,前途光明組有11名,前途黯淡組有11名。每一組都有4名被分到另外一組去了。正確分類的比率是73.3%(22/30)。,圖13-7顯示了儲存的資料,SPSS的內定名稱是Dis_1、Dis1_1、Dis1_2、Dis2_2。以第一名觀察值來看,在SPSS處理後,他被分到第一組(前途光明組),他的判別分數(discriminant score)是3.58。他被分到第一組的機率是0.98,被分到第二組的機率是0.02。 圖13-8顯示了SPSS的內定名稱Dis_1、Dis1_1、Dis1_2、

15、Dis2_2的註解(所代表的意義)。,圖13-7儲存的資料,圖13-8SPSS的內定名稱Dis_1、Dis1_1、Dis1_2、Dis2_2的註解(所代表的意義),13.3複區別分析,如前所述,如果所分類的二個群組,則會有一個標準化的典型區別函數,如果所分類的是三個群組,則會有二個標準化的典型區別函數。 由於每一個群組都會有一組Fishers線性區別函數,因此在三個群組下,會有三個Fishers線性區別函數。 如果必須分為三組(及以上),我們所涉及的就是多元區別分析(multiple discriminant analysis)或稱複區別分析的問題。,複區別分析的處理與13.2節所說明的大同小

16、異。開啟檔案(檔案名稱:.Chap13Discriminant Three Groups.sav)。此檔案包括了組別(分為三組,以1表示前途光明組,以2表示前途普通組,以3表示前途黯淡組)、經驗(工作經驗)、在校成績(在校成績總平均)、測驗成績(應徵測驗成績)。組別為名義變數,其他的變數為區間變數。 首先進入SPSS,按Analyze、Classify、Discriminant(分析分類判別),在所產生的Discriminant Analysis視窗中,將組別變數選入右邊的Grouping Variable(分組變數)下的空格中,選取分組(?),按其下的Define Range(定義範圍),在

17、Discriminant analysis: Define視窗中的Minimum:(最小值)填入1,Maximum:(最大值)填入3,表示我們是將資料分成三組。,從各組平均數的相等性檢定表中可知,經驗在三組(前途光明組、前途普通組及前途黯淡組)的平均數有顯著差異,顯著性0.000,達到顯著水準。在校成績及測驗成績均未達顯著水準,表示在校成績及測驗成績在三組(前途光明組、前途普通組及前途黯淡組)的平均數均沒有顯著差異。 Wilks Lambda可用來檢定虛無假說。在下表中,經驗、在校成績、測驗成績的顯著性分別為0.000、0.940、0.862,在0.05之下,我們要棄卻d1=0的虛無假設(經驗

18、在二組上無顯著差異),而認為經驗在二組上有顯著差異。,對數行列式表中,如果變數之間具有高度多元共線性問題,則對數行列式值(log determinant)會趨近於0,而且等級(rank)會不等於自變數的數目。此表顯示,前途光明組、前途普通組、前途黯淡組的對數行列式值分別為12.783、12.657、11.998,與0距離相當大,而且等級(=3),與自變數的數目(=3)相同,所以有理由相信,變數之間沒有高度多元共線性問題。,下表為Boxs M各組內共變數相等性檢定結果。 顯著性=0.279,未達顯著水準,接受虛無假說,表示各組的組內共變異數矩陣相等,符合區別分析的假定。,在本章區別函數數目中,曾

19、說明:區別函數的數目等於從分組數目減一與自變數數目(有幾個自變數)中取最小的數目。由於分組數目有三個(分成三組),自變數數目有三個,則區別函數的數目等於Min(分組數目減一,自變數數目)=Min(2,3)=2。因此會有二個區別函數。 第一個區別函數的特徵值0.718,可解釋依變數99.5%的變異量。 第二個區別函數的特徵值0.004,可解釋依變數0.5%的變異量。可見第一個區別函數具有相當強的區別力。,Wilks Lambda值表是以向度縮減的方式來檢定區別函數的顯著性,函數檢定的1到2是先檢定第一個區別函數及第二個區別函數,Wilks Lambda值=0.580,顯著性=0.0010.05,

20、未達顯著水準,表示第二個區別函數對於依變數沒有顯著的解釋能力或預測力。,在標準化的典型區別函數係數(Standardized Canonical Discriminant Function Coefficients)表中,標準化係數等於各自變數在區別函數上的相對重要性,係數值愈大,表示該自變數在區別函數上的相對重要性愈大。 我們可建立標準化的典型區別函數如下:,從第一個典型區別函數係數來看,經驗的相對重要性較高;從第二個典型區別函數係數來看,測驗成績的相對重要性較高。值得注意的是,從上表Wilks Lambda值來看,第二個區別函數對於依變數沒有顯著的解釋能力或預測力。,結構矩陣(Struct

21、ure Matrix)顯示,區別變數和標準化典型區別函數之間的合併後組內相關。變數係依函數內相關的絕對值大小加以排序。相關係數的絕對值愈大者,表示此變數與區別函數的相關愈高。從結構矩陣來看,經驗與第一個區別函數的相關最高。測驗成績與第二個區別函數的相關最高。,各組重心的函數(Functions at Group Centro ids)表顯示,依變數(分類變數)各組樣本在區 別函數的重心。當三組樣本的重心值差異愈大,表示三組間在該區別函數上的差異愈大。 三組的第一區別函數的重心平均明顯不同 (1.093,0.217,0.876),三組的第二區別函數的 重心平均就不會明顯不同(0.028,0.08

22、3,0.055),組別的事前機率 (Prior Probability for Groups)會假設分發到各組的機率均相等,除非有某些理論為依據。對組別的事前機率的假設,會影響分類結果的正確性。,分類係數函數(Classification Coefficient Functions)是以Fisher法將觀察值加以分類,因此又稱Fishers線性區別函數。每一個群組都會有一組係數: 在將觀察值分類時,或預測某觀察值屬於何類時,將觀察值的資料代入三個群組的分類函數,並以函數值大小來比較,函數值較大者,代表此觀察值所歸屬的類組。,分類結果(Classification Results)表又稱為混淆矩

23、陣(Confusion Matrix)表。在我們的觀察值中,有15名屬於前途光明組,有15名屬於前途普通組,有15名屬於前途黯淡組。經過分類之後,前途光明組有11名,前途普通組有7名,前途黯淡組有10名。前途光明組有4名被分到其他組,前途普通組有8名被分到其他組,前途黯淡組有5名被分到其他組。正確分類的比率是62.2%(28/45)。,13.4虛擬變數區別分析,在進行區別分析時,如遇到具有類別尺度的自變數,應如何處理? 這個問題就要以虛擬變數的區別分析(discriminant analysis with dummy variable)來解決 如果研究者認為前途光明或者黯淡會受到經驗、在校成績

24、、測驗成績、領導風格(所認知的領導風格)這些自變數的影響。自變數中的認知領導風格是名義變數(或類別),所以要以虛擬變數的方式來處理。 領導風格共有四種類型: 指示式領導者(directive leader) 支持性領導者(supportive leader) 參與式領導者(participative leader) 成就取向領導者(achievement-oriented leader),在SPSS內建檔或經過轉換後的資料如下:,在SPSS內建檔或經過轉換後的資料如下:,編碼是用參照或者對比的方式。也就是說參照組是成就取向,而指示式是指示式與成就取向的對比;支持式是支持式與成就取向的對比;參與

25、式是參與式與成就取向的對比 選擇參照組 如何選擇參照組?以下是三個重要原則: 參照組的定義要非常明確,例如,以其他作為參照組則不明確; 類別變數如有高低之分(如社會階層),可以選擇等級最高或最低的類別,以便於有次序的將各類別的迴歸係數與參照組進行比較;或者選擇等級居中的類別,以便於較有效的檢視達到水準的係數; 參照組的樣本人數應該適中。如果選擇樣本過少或過多的水準作為參照組,則在比較類別中各水準的迴歸係數時較不適切。,進入SPSS,開啟檔案(檔案名稱:.Chap13Discriminant with Dummy.sav)。 領導風格是名義變數,所以必須將它編碼。按 Transform、Comp

26、ute,在Compute: Variable視窗中,在左邊Target Variable方格內,鍵入指示式_成就取向,選領導風格到右邊的Numeric Expression方格內,並鍵入1,如圖13-9所示。設計完成,按OK。,圖13-9虛擬變數的設定,接著,按Transform、Compute,在Compute: Variable視窗中,在左邊Target Variable方格內,鍵入支持式_成就取向,選領導風格到右邊的Numeric Expression方格內,並鍵入2,設計完成,按OK。 接著,按Transform、Compute,在Compute: Variable視窗中,在左邊Tar

27、get Variable方格內,鍵入參與式_成就取向,選領導風格到右邊的Numeric Expression方格內,並鍵入3,設計完成,按OK。 設計完成後的資料檔如圖13-10所示。 由於在離開SPSS後,下次在進入SPSS時,如果要設定虛擬變數的話,上述的程序必須重新再做。這樣的話會非常繁瑣,所以我們可以寫一個程式,每次執行這個程式就可以將虛擬變數做正確的設定。按File、New、Syntax,在視窗內寫入這樣的指令(圖13-11)。在執行時,按Run、All即可。,圖13-10虛擬變數(領導風格)設計完成後的資料檔,圖13-11利用指令來設定虛擬變數,進入SPSS,開啟檔案(檔案名稱:C

28、hap13Discriminant with Dummy.sav,已開啟的話,不必重複開啟)。此檔案包括了組別(分為二組,以1表示前途光明組,以2表示前途黯淡組)、經驗(工作經驗)、在校成績(在校成績總平均)、測驗成績(應徵測驗成績)、指示式_成就取向、支持式_成就取向、參與式_成就取向。組別為名義變數,指示式_成就取向、支持式_成就取向、參與式_成就取向為虛擬變數,經驗、在校成績、測驗成績這些變數為區間變數。 按Analyze、Classify、Discriminant (分析分類判別),在所產生的Discriminan t Analysis視窗中,將組別變數選入右邊的Groupin g V

29、ariable(分組變數)下的空格中,選取分組(?),按其下的Define Range(定義範圍),在 Discriminant analysis: Define視窗中的Minimum: (最小值)填入1,Maximum:(最大值)填入2,如圖13-2所示。表示我們是將資料分成二組。,將經驗、在校成績、測驗成績、指示式_成就取向、支持式_成就取向、參與式_成就取向這些自變數選入Independents(自變數)下的方盒內,如圖13-12所示。可以用SPSS內定的Enter independents together(使用所有變數)或者Use stepwise method(使用逐步方法)。,圖

30、13-12Discriminant Analysis設定,在標準化的典型區別函數係數(Standardized Can onical Discriminant Function Coefficients)表中,標 準化係數等於各自變數在區別函數上的相對重要性,係數 值愈大,表示該自變數在區別函數上的相對重要性愈大。 我們可建立標準化的典型區別函數如下:,從典型區別函數係數來看,(支持式_成就取向的相對重要性較高。,分類係數函數(Classification Coefficient Functions) 是以Fisher法將觀察值加以分類,因此又稱Fishers線性區 別函數。每一個群組都會有一

31、組係數: 前途光明組=-0.015(經驗)+1.840(在校成績)+1.610(測驗成績)-0.866(指示式_成就取向)-20.998(支持式_成就取向+1.223(參與式_成就取向) 對前途光明組而言,支持式_成就取向的領導風格影響最大。由於是負值,所以解釋上要是這樣的:相對於成就取向而言,支持式的領導風格對於前途光明具有非常不利的影響。換言之,成就取向的領導風格對於前途光明具有非常有利的影響。 前途黯淡組=-0.208(經驗)+1.826(在校成績)+1.595(測驗成績)+7.120(指示式_成就取向)-14.450(支持式_成就取向)+4.372(參與式_成就取向) 對前途黯淡組而言

32、,支持式_成就取向的領導風格影響最 大。由於是負值,所以解釋上要是這樣的:相對於成就取向 而言,支持式的領導風格對於前途黯淡具有非常不利的影 響。換言之,成就取向的領導風格對於前途黯淡具有非常有 利的影響。,13.5二元Logistic迴歸分析,3.2節的區別分析,也可以Logistic迴歸分析來進行,Logistic迴歸分析是透過最大概率估計(Maximum Likelihood Estimation, MLE),使得依變數的觀察次數的機率達到最大化。Logistic迴歸分析假定觀察值樣本在依變數上呈S形分布。,大海軟體公司裡面具有企管碩士學位的幹部30名,分別有15名前途光明的幹部,15名

33、前途黯淡的幹部。該公司的總經理想要了解,在人力資源管理中的員工錄用上,應特別重視經驗、在校成績、測驗成績中的什麼因素,進入SPSS,開啟檔案(檔案名稱:.Chap13Logistic.sav)。此檔案包括了組別(分為二組,以1表示前途光明組,以2表示前途黯淡組)、經驗(工作經驗)、在校成績(在校成績總平均)、測驗成績(應徵測驗成績)。組別為名義變數,其他的變數為區間變數。 按Analyze、Regression、Binary Logistic(分析迴歸方法二元Logistic),在所產生的Logistic Regression視窗中,將組別變數選入右邊的Dependent(依變數)下的空格中,將經驗、在校成績、測驗成績這些自變數選入Covariates(共變數)下的方盒內,如圖13-13所示。可以用SPSS內定的Enter(選入或輸入法)。 此種方法是將全部自變數納入迴歸模式中。,方法中除了Enter之外,還有其他六種方法:,圖13-13 Logistic Regression視窗設定,在Logistic Regression視窗中,按Save(儲存),就會產生Logistic Regression: Save New Variab

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论