建构整合决策树与关连规则之挖矿架构及实证研究课件_第1页
建构整合决策树与关连规则之挖矿架构及实证研究课件_第2页
建构整合决策树与关连规则之挖矿架构及实证研究课件_第3页
建构整合决策树与关连规则之挖矿架构及实证研究课件_第4页
建构整合决策树与关连规则之挖矿架构及实证研究课件_第5页
已阅读5页,还剩157页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

建構整合決策樹與關連規則之資料挖礦架構及實證研究期末報告組別:三資四BH24932128謝殿臣資四BH24932089黃孝慈資四BH24932437顏姿青作者:楊景晴1建構整合決策樹與關連規則之資料挖礦架構及實證研究期末報告組別一、緒論_研究背景及重要性隨著資訊科技的進步,企業所記錄或儲存的大量資料,對於不同階層的使用者來,資料代表著不同的意義與價值。當大量的資料被企業儲存起來,如何發揮與創造出資料價值變成為將資料由負債轉換資產的成功關鍵。2一、緒論_研究背景及重要性隨著資訊科技的進步,企業所記錄或儲一、緒論_研究背景及重要性決策結果解釋(視覺化技術)資料挖礦(資訊探索)資料探索(OLAP、統計分析、查詢報表)資料倉儲、資料超市資料來源(資料庫系統、OLTP、檔案)資訊量價值性決策者企業主管資料分析者資料庫管理者圖1.1企業中的資料階層3一、緒論_研究背景及重要性結果解釋資料挖礦資料探索資料倉儲、一、緒論_研究目的目的:事故排除方法:建構整合決策樹與關連規則之資料挖礦架構及實證研究。實驗對象:以台灣電力公司與某半導體廠兩個不同產業之案例做為實證,已檢驗此資料挖礦架構之效度。4一、緒論_研究目的目的:事故排除4一、緒論_論文結構與研究流程1.2圖研究流程問題定義與架構問題定義理論架構結果分析與討論結論專家訪談實證研究一台灣電力公司實證研究二某半導體大廠5一、緒論_論文結構與研究流程1.2圖研究流程問題定義與架構問二、文獻探討_知識發現與資料挖礦表2.2資料挖礦的定義2.2圖資料挖礦的四個循環確認問題類型評估挖礦結果採用適當工具進行挖礦工作6二、文獻探討_知識發現與資料挖礦表2.2資料挖礦的定義確二、文獻探討_知識發現與資料挖礦2.3圖資料挖礦過程的主要步驟問題定義獲取相關領域知識選取資料資料前置處理分析與解釋報告與使用資訊7二、文獻探討_知識發現與資料挖礦2.3圖資料挖礦過程的主二、文獻探討_知識發現與資料挖礦2.4圖資料挖礦專案流程步驟2.5圖適用各產業之資料挖礦架構8二、文獻探討_知識發現與資料挖礦2.4圖資料挖礦專案流程步二、文獻探討_資料挖礦模式與工具資料挖礦模式(Model)的六種形式資料挖礦模式(Model)分類迴歸時間序列分群關聯分析順序挖掘監督式學習非監督式學習9二、文獻探討_資料挖礦模式與工具資料挖礦模式(Model)的二、文獻探討_資料挖礦模式與工具2.6圖資料挖礦的技術資料挖礦(DataMining)資料庫技術(DatabaseTechnology)統計學(Statistics)資訊科學(InformationScience)機器學習(MachineLearning)視覺化技術(Visualization)其他領域研究10二、文獻探討_資料挖礦模式與工具資料挖礦資料庫技術統計學資訊二、文獻探討_資料挖礦挖掘結果類型資料挖礦所處理的問題類型由上而下:利用現有的模型來建立資料,藉此來描述某一特定變數。由下而上:不需要特別標註在某一變數或某一種値,而是試著尋找所有變數中是否有隱藏某種關係。分類(Classification)預測(Prediction)分群(Clustering)關聯規則分析(AssociationRule)資料挖礦所處理的問題類型由上而下由下而上11二、文獻探討_資料挖礦挖掘結果類型資料挖礦所處理的問題類型分二、文獻探討_資料挖礦工具資料挖礦屬於探索導向,不需事先假設以求驗證。挖礦者需在一開始就釐清處理的工作目的為何?資料挖礦工具依照解決的問題類型與挖礦的目的而異。通常不會只使用單一工具來進行挖掘工作。12二、文獻探討_資料挖礦工具資料挖礦12二、文獻探討_資料挖礦工具表2.3挖礦問題類型及可使用的工具

(附註:ˇ表工具可使用之挖掘問題類型)

問題類型

工具分類Classification預測Prediction關聯分組AffinityGrouping聚集分析Clustering基本統計ˇˇˇˇ關聯規則/購物籃分析ˇˇˇ記憶基礎法ˇˇˇˇ遺傳演算法ˇˇ聚類偵測法ˇˇ鍊結分析法ˇˇˇ決策樹ˇˇˇ類神經網路ˇˇˇ13二、文獻探討_資料挖礦工具表2.3挖礦問題類型及可使用的工二、文獻探討_資料挖礦工具表2.4資料挖掘工具的基本特性介紹的演算法如下:遺傳演算法類神經網路FuzzyLogic記憶基礎理解決策樹。使用14種特性作介紹。14二、文獻探討_資料挖礦工具表2.4資料挖掘工具的基本特性1二、文獻探討_資料挖礦工具表2.5資料挖礦工具間的比較(附註:ˇ表資料挖礦工具能表現的能力)工具表現能力Regression/ANOVA類神經網路決策樹關聯規則模式使用上(Modelfree)ˇˇˇ對離群値的穩定性(RobusttoOutliers)ˇ具體解釋能力(Physicalintertation)ˇˇ連續變數處理能力(Continuousoutputs)ˇˇ類別變數處理能力(Discreteoutputs)ˇˇˇˇ15二、文獻探討_資料挖礦工具表2.5資料挖礦工具間的比較二、文獻探討_關聯規則是最常被應用的模式之一關聯規則分析(associationRuleAnalysis)從資料庫龐大的資料中,探索資料間欄位有趣的關係或相關性。購物籃分析如何從日積月累的交易資料中,以有效的方法找出商品間的關聯性,進而推斷消費者購買行為,創造無限商機。16二、文獻探討_關聯規則是最常被應用的模式之一16二、文獻探討_關聯規則定義與說明進行關聯規則挖礦時,作業流程的兩大步驟找出所有的高頻項目組(FrequentItemsets)高頻項目組所出現的次數必須大於等於事先定義的最小支持度數目。此步驟決定了整體作業的效能從找到高頻項目組產生關聯規則所產生的規則必須滿足決策者所給定支持度與信賴度的最低門檻値,規則才成立。17二、文獻探討_關聯規則定義與說明進行關聯規則挖礦時,作業流程二、文獻探討_關聯規則定義與說明定義描述18二、文獻探討_關聯規則定義與說明定義描述18二、文獻探討_關聯規則定義與說明關聯規則的成立必須滿足決策者所訂定之最小支持度(MinmumSupportThreshold),和最小信賴度(MinmumConfidenceThreshold)。有意義的關聯規則其支持度與信賴度必須大於或等於所訂定之最小門檻値。增益指標加入後,若增益大於1,則表示規則的預測結果比單純的亂數還要好,反之,則較差。19二、文獻探討_關聯規則定義與說明關聯規則的成立19二、文獻探討_關聯規則定義與說明若規則表示為X=>Y,則1.支持度(Support)在規則(Rule)中,項目(Items)一起出現的交易暨路佔全部交易紀錄的百分比。最小支持度控制了一個關聯規則必須涵蓋的最少資料數目,以篩選掉不顯著的規則,在實務上才有應用價値。支持度代表的意義為X與Y一起出現的機率。

20二、文獻探討_關聯規則定義與說明若規則表示為X=>Y,則20二、文獻探討_關聯規則定義與說明若規則表示為X=>Y,則2.信賴度(Confidence)代表此條規則的預測強度。X發生之下發生Y結果的機率足以使得此關聯規則得以成立。計算在前提項目X發生的情況下,發生結果Y的機率。

21二、文獻探討_關聯規則定義與說明若規則表示為X=>Y,則21二、文獻探討_關聯規則定義與說明若規則表示為X=>Y,則3.增益(LiftorImprovement)比較信賴度與結果項目Y單獨發生時之機率兩者間的大小。關聯規則的條件機率比母體中原本發生的機率大才具有意義。

22二、文獻探討_關聯規則定義與說明若規則表示為X=>Y,則22二、文獻探討_關聯規則類型關聯規則類型1.以屬性質的形態為基礎若挖礦規則焦點放在項目(Item)是否出現,則稱為布林値的關聯規則(BooleanAssociationRule)。2.以規則中涵蓋資料維度為基礎若要挖礦的規則的項目或屬性著眼在單一維度時,稱之為單一維度關聯規則(SingleDimensionalAssociationRule)。3.以規則集合中所涵蓋的抽象層級(LevelofAbstraction)為基礎規則屬性或是項目全為同一層級,則稱為單一層級關聯規則(Single-LevelAssociationRule)。23二、文獻探討_關聯規則類型關聯規則類型23二、文獻探討_關聯規則類型2.7圖概念層級樹24二、文獻探討_關聯規則類型2.7圖概念層級樹24二、文獻探討_關聯規則演算法與特性表2.6關聯規則演算法與特性演算法作者/年代主要特色缺點AprioriAgrawal(1994)反覆產生候選項目組,找出所有高頻項目組,進而推導規則。需反覆搜尋資料庫,花費I/O時間。PartitionSavasere(1995)將資料庫分區段,找出個區段之高頻項目組並集合之,再次搜尋資料庫找出真正高頻項目組。在各區段中會產生較多非相關項目組。DHPJong等人(1997)利用雜湊表(hashtable)刪減不必要的候選項目組。一開始會花時間建立hashtableBSMWur等人(1999)使用表格運算方式產生高頻項目組,改善Apriori多次掃描資料庫的缺點。需事先轉換運算表格。25二、文獻探討_關聯規則演算法與特性表2.6關聯規則演算法二、文獻探討_關聯規則的應用1.商業應用藉由關聯規則方法了解顧客購買行為的資訊,協助零售業在進行商品擺放位置規畫。2.工業應用利用關聯規則發展一彈性且有項的巢式製造系統(CellularManufacturingSystem),找出機台間的最佳組合,形成群組技術(GroupTechnology)。3.醫學應用利用關聯規則做藥品櫥位管理,或以過去看診暨路檢式藥品使用量與方法是否正確,並可分析個病例特徵間關聯程度。26二、文獻探討_關聯規則的應用1.商業應用26二、文獻探討_決策樹決策樹監督式的特徵萃取演算法,廣泛應用來解決分類(Classification)形態問題的工具,亦可做為探索與預測之用。能夠將輸入變數依據某種規則或資料進行分類,並以樹枝狀方式表現類別之間由輸入變數所造成的區別,因此決策樹可對資料進行架構的分類。27二、文獻探討_決策樹決策樹27二、文獻探討_決策樹決策樹演算法的四大步驟1.決策樹的切割(Splitting)決策樹須將輸入的預測變數作分類,用以解釋目標變數變異的原因。2.停止長樹(Stopping)當無法找出任何分隔預測變數可以顯著降低下一節點的分散度,表示樹以生長完整(Complete)。28二、文獻探討_決策樹決策樹演算法的四大步驟28二、文獻探討_決策樹決策樹演算法的四大步驟3.評估(Assessment)評估整個決策樹的錯分率(Misclassification)或是評估每個節點的錯誤率(ErrorRate)。公式如下:29二、文獻探討_決策樹決策樹演算法的四大步驟29二、文獻探討_決策樹決策樹演算法的四大步驟4.決策樹的修剪當決策樹所生長的層級越深時,子節點的資料比數就會越來越少,資料的代表性就越低,所產生的法則可能會造成過度學習(OverFitting)而產生偏差,此時演算法中就應加修剪的步驟。找出錯誤的分支給予修剪,如:CART、C4.5。以測試資料(TestingData)驗證、抽樣方法來減少決策樹過度學習現象的發生。30二、文獻探討_決策樹決策樹演算法的四大步驟30二、文獻探討_決策樹2.11圖修剪對錯誤率的影響31二、文獻探討_決策樹2.11圖修剪對錯誤率的影響31二、文獻探討_決策樹演算法表2.7常用決策樹演算法之比較演算法比較準則常見幾種決策樹的演算法CARTID3C4.5CHAID作者(年代)Briemen(1984)Quinlan(1986)Quinlin(1993)Hartigan(1975)處理資料形態離散、連續離散、連續離散、連續離散分裂樹二元樹不受限制不受限制不受限制連續形資料處理方式分2枝不受限制不受限制無法處理分枝準則Gini値InformationGainGain_Ratio統計檢定(卡方分配)32二、文獻探討_決策樹演算法表2.7常用決策樹演算法之比較二、文獻探討_決策樹於事故診斷的相關研究表2.8應用決策樹於事故排出之相關研究研究者實證對象使用的演算法Braha&Shmilovici(2003)半導體黃光區C4.5鄭人傑(2003)晶圓過站記綠與CP測試値Kruskal-Wallis、卡方交互影響檢測、變異降低分枝法則劉中光(2002)印刷電路板(PCB)決策樹結合SOM方法Raghavan(2002)良率、ICE-TTestparameter利用決策樹(CART、CHAID)Fan(2001)WAT、InLineManufacturingdata決策樹蔡智政(2001)晶圓批量製程管制(LPC)資料以CART決策樹分析LPC李培瑞(2001)半導體WAT資料、CP資料結合人工類神經網路與決策樹林鼎浩(2000)半導體WAT與製造相關資料無母數Kruskal-Wallis統計檢定法33二、文獻探討_決策樹於事故診斷的相關研究表2.8應用決策三、研究架構_問題定義透過清楚的問題定義,瞭解問題類型包含哪些類別,才知道有哪些是屬於關鍵性的資料。34三、研究架構_問題定義透過清楚的問題定義,瞭解問題類型包含哪三、研究架構_資料選擇對領域知識及問題有了基本的認識之後,便是進行資料選擇的工作,應先對資料有進一步的瞭解,而非將資料盲目的丟進模式分析。資料取得的方式如下表:檔案(File)好處是取得快速且閱讀容易,但是一旦建立好以後日後想再做資料處理就不太容易處理,如:MicrosoftExcel。關聯資料庫(RelationalDatabases)在關聯式資料庫中,透過查詢工具語言(SQL)可以蒐集到想要的資料。資料倉儲(DataWarehouse)資料量通常達數百Mega甚至上Giga,資料讀取方式是以「切割」的觀念,並非巷資料庫連結表格的方式處理35三、研究架構_資料選擇檔案好處是取得快速且閱讀容易,但是一旦三、研究架構_資料前置處理一般資料可分成質與量兩類,質的資料又分成空間性與時間性兩種,掘取欲分析的資料,並以去蕪存菁的方式轉化處理,才能確保分析資料的品質和分析結果的正確性。資料前置處理的步驟需要不斷學習與經濟累積。資料前置處理形式資料清理資料整合資料轉換資料化約。36三、研究架構_資料前置處理一般資料可分成質與量兩類,質的資料三、研究架構_資料前置處理資料前置處理通常會採取的動作如下:1.資料的基本分佈與檢視:對於資料的基本數理特性做醫界面性的檢視,分佈為常態、非常態、偏右、偏左等,瞭解資料的長相與分佈以便做後續處理。2.偏離值的檢測與處理:對於散佈在正常分佈外的資料點作出處理,譬如直接刪除還是保留其資訊。37三、研究架構_資料前置處理資料前置處理通常會採取的動作如下:三、研究架構_資料前置處理3.空白值與缺值的處理:空白值與缺值所代表的意義並不相同,空白值為無法填入的資料;缺值則為資料的遺漏或錯誤。要刪除該筆資料或者以特殊方式補值,對於挖礦結果的解釋會有不同的影響,所以須對資料有近一步的了解。4.資料為度轉換:ㄧ般而言高維度的資料計算複雜,所花費的時間較多,因此維度的降低亦是一種重要的課題。38三、研究架構_資料前置處理3.空白值與缺值的處理:38三、研究架構_資料前置處理5.資料格式化或分佈轉換:資料處理時,資料的格式轉換與其所代表的相對意義都須瞭解。資料格式化和轉換亦會挖掘出另ㄧ層意義的結果。ㄧ般將資料數字分成四種不同的衡量尺度,名義尺度、順序尺度、區間尺度、比例尺度衡量。39三、研究架構_資料前置處理5.資料格式化或分佈轉換:39三、研究架構_資料前置處理衡量的層次內容說明舉例名目尺度(NominalScale)又稱類別尺度,使用數字或標記區分物件或事件,此尺度並無大小之分。機台和貨批的編號等。順序尺度(OrdinalScale)又稱等級尺度,就ㄧ事務之某特質好壞次序加以排列,有方向次序的比較,但沒有距離或獨特的原點。各種Bin值的分類、成績區間尺度(IntervalScale)以此尺度表現之變數,可區分類別及排出大小順序之外,可算出差異之大小。區間尺度中,零點的位置並非固定的,而且衡量的單位也是任意的。機台的溫度、量測的參數比例尺度(RatioScale)可說出名稱、排出順序、算出差距、亦可表示出比例的關係。比例尺度具有絕對零度的。化學藥劑使用量、重量40三、研究架構_資料前置處理衡量的層次內容說明舉例名目尺度又稱三、研究架構_目標與顯著變數的選取當目標變數與署醒確定後,接下來即確認預測變數。為避免加入對目標變數結果無顯著影響的資料,可利用統計方法檢定預測變數與目標變數是否獨立。41三、研究架構_目標與顯著變數的選取當目標變數與署醒確定後,接三、研究架構_目標與顯著變數的選取變數衡量尺度對應之統計檢定方法:獨立變數(IndependentVariable)相依變數(DependentVariable)變數尺度名目尺度順序尺度區間尺度名目尺度Chi-SquareChi-SquareChi-Square順序尺度Spearman積差相關區間尺度T-testANOVAT-test、ANOVA、K-W(無母數方法)Pearson相關Regression42三、研究架構_目標與顯著變數的選取變數衡量尺度對應之統計檢定三、研究架構_目標與顯著變數的選取K-W法適用資料分配不符合常態,或是已確定其為非常態分佈的情況下,此種檢驗對平均值差異敏感,可將此方法想像成一個對處理平均相等的檢驗。K-WTest其主要步驟如下:1.先將觀測值依遞增順序,然後以取代觀測值。2.令處理i知下秩的和。3.求檢定統計量。N為所有觀測值的數目43三、研究架構_目標與顯著變數的選取K-W法適用資料分配不符合三、研究架構_K-W法是第i個處理下的觀測值數目,N是所有觀測值的數目總和44三、研究架構_K-W法44三、研究架構_K-W法(a)當k=3,時,可查詢K-Ttest檢定附表,決定機率值P-value,如果P-value<<則拒絕虛無假設,表示k可能不ㄧ致。(b)當,則表示這K個處理中某些處理會產生較其他處理為大的觀測值,可有效檢定在資料非常態分佈時不同處理是有造成差異的原因。45三、研究架構_K-W法(a)當k=3,時三、研究架構_資料挖礦與決策樹資料挖礦對於不同的資料賀企業問題,不同的模式和演算法將可能產出最好的結果。決策樹決策樹會根據目標變數,將資料進行適當的分類,並以樹枝狀架構呈現其分類結果。由分類結果亦可萃取出其分類的特徵規則。46三、研究架構_資料挖礦與決策樹資料挖礦46三、研究架構_關聯規則關聯規則關聯規則主要是從龐大資料中,探索資料間欄位的相關性,這些規則展示了屬性值。在大量資料中找出有趣的規則,以便幫助使用者制定決策的依據。關聯規則步驟1.計算支持度2.找出所有的高頻項目組3.計算信賴度4.找出候選規則5.產生關聯規則6.整理Y為目標變數之規則47三、研究架構_關聯規則關聯規則47三、研究架構_整合決策樹與關聯規則工具決策樹關聯規則優點※明白指出最佳變數的能力※產生易於了解的規則※節省分類時的計算時間※可處理連續與類別變數※能完整的呈現各變數之影響,與變數組合※能產生簡單明瞭的結論※適用不同形式的原始資料※計算模式簡單易懂缺點※當類別太多時,資料量小,錯誤會增加的比較快。無法全面的看到各種變數的影響程度※對有時間順序的資料,需要很多欲處理的工作※結果多且凌亂,難已決定哪一變數較重要與適當的組合※當問題變大時,運算量會成幾何級數增加※對於資料的個別資訊不甚重視※容易剷除罕見變數48三、研究架構_整合決策樹與關聯規則工具決策樹關聯規則優點※明三、研究架構_解釋與評估挖礦的結果對於工程師而言是否有提供幫助,整個挖掘的過程是否有效率,皆是透過結果解釋與討論重複循環,才可使得研究模式與結果更加完備。若挖掘出的樣形式有價值的,之後便可將相同屬性、類別的規則儲存至規則庫,以建立自動化的製程監控的事故偵測與分類機制或是事故排除的決策支援系統。49三、研究架構_解釋與評估挖礦的結果對於工程師而言是否有提供幫四、實證研究本章針對於兩種不同類型之產業資料,以前述所提之研究方法進行事故定位與事故診斷,以驗證整合決策樹與關聯規則資料挖礦架構之效度。50四、實證研究本章針對於兩種不同類型之產業資料,以前述所提之研四、實證研究1_台灣電力配電事故定位問題定義配電事故為影響電力系統安全性、可靠性以及供電品質的重要因素。但這樣一連串的試驗將對於線路造成損害,且也無法在短時間內使供電恢復,因此為提高供電品質,如何發展一個可以快速找到事故發生地點的方法,即成為電力公司所關心的議題。51四、實證研究1_台灣電力配電事故定位問題定義51四、實證研究1_台灣電力配電事故定位資料選擇本研究所採用之資料為台電公司於1995∼1997年間,針對臺北市區每次配電事故所記錄之配電事故紀錄表,共有1649筆資料,每筆配電事故資料皆記錄23項變數資料(如表4.1)。首先針對「損壞部位」資料屬性進行統計與圖表分析,以初步檢視資料之分佈樣型,其分佈如圖4.1所示。52四、實證研究1_台灣電力配電事故定位資料選擇52四、實證研究1_台灣電力配電事故定位資料前置處理本案例為推導事故之損壞設備與特殊的事故資料樣型,以快速的找到事故發生地點為目標,因此「損壞部位」屬性為本研究模式之目標項。最後本實證研究的輸入與目標屬性如表4.2所示。53四、實證研究1_台灣電力配電事故定位資料前置處理53四、實證研究1_台灣電力配電事故定位目標與顯著變數的選取為推導事故之損壞設備與特殊的事故資料樣型,以快速的找到事故發生地點為目標,因此「損壞部位」為模式之目標變數,共60項變數值。由於輸入變數已刪除在找出事故地點之前並無法獲得資料,剩8個輸入變數,經由與工程師討論後,並不需刪減多餘變數,因此,直接將表4.2中的變數丟入模式中。54四、實證研究1_台灣電力配電事故定位目標與顯著變數的選取5四、實證研究1_台灣電力配電事故定位資料挖礦--以關聯規則推導顯著事故定位規則經由資料的前置處理(圖4.2)後,將資料格式轉換為能以挖礦模式建構分析的資料格式,設定參數後,推導顯著關聯規則。研究設定最小支持度為1.67%,最小信賴度為50%,而增益則需大於1,參數設定依據如下。支持度信賴度增益55四、實證研究1_台灣電力配電事故定位資料挖礦--以關聯規則推四、實證研究1_台灣電力配電事故定位資料挖礦--以關聯規則推導顯著事故定位規則評估規則好壞的參數─錯分率(FP),希望所推導之規則,皆在所能容忍之決策風險下,因在此加入ROCCurve的觀念,隨著不同的臨界值條件下,TP比率與FP比率變化所構成的特徵曲線,如圖4.3所示。關聯規則若有較大的TP與較小的FP,則此規則是較佳的。在此驗證中,錯分率小於0.25。56四、實證研究1_台灣電力配電事故定位資料挖礦--以關聯規則推四、實證研究1_台灣電力配電事故定位資料挖礦--以關聯規則推導顯著事故定位規則由表4.3可知,關聯規則結果僅與「高壓電纜」、「用戶設備」、「高壓電纜直線接頭」以及「熔絲鏈開關」四種損壞設備有關。在損壞設備為「高壓電纜直線接頭」與「熔絲鏈開關」所找出之規則,雖其信賴度只介於50%~70%,但其規則之錯分率相當低,仍可容忍決策風險之內(<0.25),因此,所找出之顯著規則是好的,可藉由此規則推斷出損壞部位。57四、實證研究1_台灣電力配電事故定位資料挖礦--以關聯規則推四、實證研究1_台灣電力配電事故定位資料挖礦--以決策樹挖掘顯著分類規則

利用780筆資料進行資料篩選,首先選出具有13筆資料以上之損壞部位,挑選過後僅剩下650筆資料以及12種損壞部位。以初步的簡化模式,形成決策樹的輸入資料。其資料處理過程如圖4.4。針對此699筆資料進行資料分佈之繪製,可得圖4.5之次數分佈圖。58四、實證研究1_台灣電力配電事故定位資料挖礦--以決策樹挖掘四、實證研究1_台灣電力配電事故定位資料挖礦--以決策樹挖掘顯著分類規則

本研究決策樹所使用軟體為Scenario,其演算法的結果類似CHAID,若針對連續型的目標變數是以F-Test作為分枝方法,若針對間斷型的變數,其以Chi-SquareTest作為分枝準則。在長樹的過程設定上,枝葉中顯著目標變數值資料最少需有13筆資料,且下一層的子集合純度一定要比上一層的母集合(Parentsubset)較高,且下一層子集合正確率(純度)需大於50%,以使得枝葉具有絕對之顯著程度,以及最多有三層枝葉等。59四、實證研究1_台灣電力配電事故定位資料挖礦--以決策樹挖掘四、實證研究1_台灣電力配電事故定位解釋與評估決策樹提供影響目標變數之關鍵預測變數資訊,提供工程師快速且準確之事故定位資訊參考。決策樹的結果呈現上,會將影響最大的變數放在第一層,且顯示變數之間的相對關係,但這樣的作法會將其他變數之影響分散在較下層的枝葉中,而無法全面的看到各種變數的影響程度。關聯規則之結果為針對整體資料而言,顯示各關聯規則之顯著性,其優點為能夠更完整的呈現各變數之影響,缺點則是關聯規則之結果多且零亂。60四、實證研究1_台灣電力配電事故定位解釋與評估60四、實證研究1_台灣電力配電事故定位解釋與評估本案例之研究目的,在特定決策環境下推測配電事故的樣型,減少事故定位所需的時間,因此,在顯著關聯規則的篩選,加入ROC曲線中的錯分率概念,以期望每筆決策規則,都在工程師可容忍的風險下。61四、實證研究1_台灣電力配電事故定位解釋與評估61四、實證研究2_以某半導體廠工程資料為實證對象

問題定義半導體產品製造製程中,若有貨批出現了低良率的問題,這將會導致工廠的生產力下滑及製造成本的增加。因此,我們必須回溯相關的製造資料並尋找影響良率的原因,以儘快解決此製程問題。62四、實證研究2_以某半導體廠工程資料為實證對象問題定義62四、實證研究2_以某半導體廠工程資料為實證對象資料選擇積體電路的製程相當複雜,往往需經過數百個不同的站別、流程才完成。且加上產品特性差異,因而製造程式等種種環境參數亦會有所不同。在生產製造的過程中,會累積大量產品經過電性測試或是物理特性監控量測的結果,以檢驗產品是否在規格內的資料。整個資料蒐集流程可見圖4.6。63四、實證研究2_以某半導體廠工程資料為實證對象資料選擇63四、實證研究2_以某半導體廠工程資料為實證對象資料選擇資料類型大概可以分成幾大類:WIP類型(WaferInProcess)Metrology類型Defect類型Parametric類型BinMap類型Non-Lot類型大量的製程資料,記錄了晶圓在製造與測試的種種狀況。因此工程師便可以透過工程資料分析系統瞭解產品的生產測試狀況,以進行製程的改善與事故診斷。64四、實證研究2_以某半導體廠工程資料為實證對象資料選擇64四、實證研究2_以某半導體廠工程資料為實證對象資料前置處理工程資料主要可分為四部分:基本資料、歷史資料、CP資料、WAT資料。經過前置處理後,可從圖4.7良率分佈圖中見,CP良率值大致可區分成兩群,以60為分界值,將CP良率值大於等於60為高良率,小於60為低良率(與k-mean分群的結果相同,圖4.8)。65四、實證研究2_以某半導體廠工程資料為實證對象資料前置處理四、實證研究2_以某半導體廠工程資料為實證對象目標與顯著變數的選取首先,利用Kruskal-Wallis檢定來檢測是否在屬性之各層級下,其目標變數晶片針測良率是否具有顯著的差異。在此所設定的顯著水準為0.05。Kruskal-Wallis檢定選取出36的顯著的候選屬性,由P-value由小排到大。66四、實證研究2_以某半導體廠工程資料為實證對象目標與顯著變數四、實證研究2_以某半導體廠工程資料為實證對象資料挖礦--決策樹分析以萃取特徵將目標資料分成兩群,cluster1為所定義之高良率,cluster2為所定義之低良率,經由決策樹的樹枝狀架構及規則的表達方式進行資料分類描述這些群體的特徵,以達到特徵萃取的目的。在輸入變數值方面,分成兩部份探討,一是輸入站別機台,一是輸入站別機台與過站時間,希望藉由決策樹找出影響良率的顯著機台或是某些時間區段出現了故障。67四、實證研究2_以某半導體廠工程資料為實證對象資料挖礦--決四、實證研究2_以某半導體廠工程資料為實證對象資料挖礦--關聯規則挖掘問題機台組合

關聯規則主要是從資料庫龐大資料中,找出發生頻率較高的組合,希望藉由此特性找出造成低良率之問題機台,幫助工程師趁早作出修機或是製程上之改善。68四、實證研究2_以某半導體廠工程資料為實證對象資料挖礦--關四、實證研究2_以某半導體廠工程資料為實證對象解釋與評估目標變數是產品的良率,有時候不適合作為事故診斷。產品的良率是半導體製程上的綜合表現,在事故診斷上較不易發掘。電子特性參數所代表的數值較難去定義,因此,較無法直觀的評判出好批及壞批。半導體的資料挖礦過程中,很少只利用單一模式就可以解決。用不同的資料挖礦工具挖掘製程資料所隱含的重要訊息,以此方法將結果篩選與過濾,可將問題的可能發生範圍縮小,找到導致問題的主因,建立更完善的事故診斷的資料挖礦架構,提供工程師更多事故診斷上之線索。並非每次的挖掘過程都能刪除大多數可能性,必須將所有可能結果列出,再逐一與領域專家討論。69四、實證研究2_以某半導體廠工程資料為實證對象解釋與評估6四、實證研究_案例討論台電半導體問題定義事故定位事故診斷資料特性資料欄位”少”預測變數&目標數事件”多”資料欄位”多”預測變數&目標數事件”少”方法應用關聯規則--可模擬出較多的決策環境規則。決策樹--可顯示較影響目標之關鍵預測變數,提供工程師在決策時所需參考。決策樹找出區分高低良率之最顯著關鍵站別和機台,再以關聯規則找出低良率資料發生頻率較高的機台與時間,結合決策樹之分類規則與顯著關聯規則後,找出發生問題的機台與時間點。70四、實證研究_案例討論台電半導體問題定義事故定位事故診斷資料五、結論從台電配電事故資料,藉由架構流程萃取出事故資料中損壞設備與特殊的事故資料關聯的樣型,此中,加入ROC曲線的概念,降低規則的決策風險,在特定決策環境下,推測配電事故的樣型,來減少事故定位所需的時間與正確性。對於半導體廠來說,資料取得不是問題,但不能保證越能挖掘到有價值的資訊,針對半導體工程資料龐大且混雜之特性,傳統統計分析方法有其限制。本研究建構完整的分析步驟,其中包括利用Kruskal-Wallis檢定找出顯著屬性,縮小範圍,再以決策樹的分類規則和關聯規則高頻率的關聯規則描述造成低良率的特徵,透過綜合資訊的比較縮小診斷範圍,提供給工程師作為製程監控的依據,以快速排除事故提昇良率與未來事故診斷的參考。71五、結論從台電配電事故資料,藉由架構流程萃取出事故資料中損壞THEEND7272Top73Top73Top74Top74Top75Top75Top76Top76Top77Top77Top78Top78Top79Top79Top80Top80Top81Top81建構整合決策樹與關連規則之資料挖礦架構及實證研究期末報告組別:三資四BH24932128謝殿臣資四BH24932089黃孝慈資四BH24932437顏姿青作者:楊景晴82建構整合決策樹與關連規則之資料挖礦架構及實證研究期末報告組別一、緒論_研究背景及重要性隨著資訊科技的進步,企業所記錄或儲存的大量資料,對於不同階層的使用者來,資料代表著不同的意義與價值。當大量的資料被企業儲存起來,如何發揮與創造出資料價值變成為將資料由負債轉換資產的成功關鍵。83一、緒論_研究背景及重要性隨著資訊科技的進步,企業所記錄或儲一、緒論_研究背景及重要性決策結果解釋(視覺化技術)資料挖礦(資訊探索)資料探索(OLAP、統計分析、查詢報表)資料倉儲、資料超市資料來源(資料庫系統、OLTP、檔案)資訊量價值性決策者企業主管資料分析者資料庫管理者圖1.1企業中的資料階層84一、緒論_研究背景及重要性結果解釋資料挖礦資料探索資料倉儲、一、緒論_研究目的目的:事故排除方法:建構整合決策樹與關連規則之資料挖礦架構及實證研究。實驗對象:以台灣電力公司與某半導體廠兩個不同產業之案例做為實證,已檢驗此資料挖礦架構之效度。85一、緒論_研究目的目的:事故排除4一、緒論_論文結構與研究流程1.2圖研究流程問題定義與架構問題定義理論架構結果分析與討論結論專家訪談實證研究一台灣電力公司實證研究二某半導體大廠86一、緒論_論文結構與研究流程1.2圖研究流程問題定義與架構問二、文獻探討_知識發現與資料挖礦表2.2資料挖礦的定義2.2圖資料挖礦的四個循環確認問題類型評估挖礦結果採用適當工具進行挖礦工作87二、文獻探討_知識發現與資料挖礦表2.2資料挖礦的定義確二、文獻探討_知識發現與資料挖礦2.3圖資料挖礦過程的主要步驟問題定義獲取相關領域知識選取資料資料前置處理分析與解釋報告與使用資訊88二、文獻探討_知識發現與資料挖礦2.3圖資料挖礦過程的主二、文獻探討_知識發現與資料挖礦2.4圖資料挖礦專案流程步驟2.5圖適用各產業之資料挖礦架構89二、文獻探討_知識發現與資料挖礦2.4圖資料挖礦專案流程步二、文獻探討_資料挖礦模式與工具資料挖礦模式(Model)的六種形式資料挖礦模式(Model)分類迴歸時間序列分群關聯分析順序挖掘監督式學習非監督式學習90二、文獻探討_資料挖礦模式與工具資料挖礦模式(Model)的二、文獻探討_資料挖礦模式與工具2.6圖資料挖礦的技術資料挖礦(DataMining)資料庫技術(DatabaseTechnology)統計學(Statistics)資訊科學(InformationScience)機器學習(MachineLearning)視覺化技術(Visualization)其他領域研究91二、文獻探討_資料挖礦模式與工具資料挖礦資料庫技術統計學資訊二、文獻探討_資料挖礦挖掘結果類型資料挖礦所處理的問題類型由上而下:利用現有的模型來建立資料,藉此來描述某一特定變數。由下而上:不需要特別標註在某一變數或某一種値,而是試著尋找所有變數中是否有隱藏某種關係。分類(Classification)預測(Prediction)分群(Clustering)關聯規則分析(AssociationRule)資料挖礦所處理的問題類型由上而下由下而上92二、文獻探討_資料挖礦挖掘結果類型資料挖礦所處理的問題類型分二、文獻探討_資料挖礦工具資料挖礦屬於探索導向,不需事先假設以求驗證。挖礦者需在一開始就釐清處理的工作目的為何?資料挖礦工具依照解決的問題類型與挖礦的目的而異。通常不會只使用單一工具來進行挖掘工作。93二、文獻探討_資料挖礦工具資料挖礦12二、文獻探討_資料挖礦工具表2.3挖礦問題類型及可使用的工具

(附註:ˇ表工具可使用之挖掘問題類型)

問題類型

工具分類Classification預測Prediction關聯分組AffinityGrouping聚集分析Clustering基本統計ˇˇˇˇ關聯規則/購物籃分析ˇˇˇ記憶基礎法ˇˇˇˇ遺傳演算法ˇˇ聚類偵測法ˇˇ鍊結分析法ˇˇˇ決策樹ˇˇˇ類神經網路ˇˇˇ94二、文獻探討_資料挖礦工具表2.3挖礦問題類型及可使用的工二、文獻探討_資料挖礦工具表2.4資料挖掘工具的基本特性介紹的演算法如下:遺傳演算法類神經網路FuzzyLogic記憶基礎理解決策樹。使用14種特性作介紹。95二、文獻探討_資料挖礦工具表2.4資料挖掘工具的基本特性1二、文獻探討_資料挖礦工具表2.5資料挖礦工具間的比較(附註:ˇ表資料挖礦工具能表現的能力)工具表現能力Regression/ANOVA類神經網路決策樹關聯規則模式使用上(Modelfree)ˇˇˇ對離群値的穩定性(RobusttoOutliers)ˇ具體解釋能力(Physicalintertation)ˇˇ連續變數處理能力(Continuousoutputs)ˇˇ類別變數處理能力(Discreteoutputs)ˇˇˇˇ96二、文獻探討_資料挖礦工具表2.5資料挖礦工具間的比較二、文獻探討_關聯規則是最常被應用的模式之一關聯規則分析(associationRuleAnalysis)從資料庫龐大的資料中,探索資料間欄位有趣的關係或相關性。購物籃分析如何從日積月累的交易資料中,以有效的方法找出商品間的關聯性,進而推斷消費者購買行為,創造無限商機。97二、文獻探討_關聯規則是最常被應用的模式之一16二、文獻探討_關聯規則定義與說明進行關聯規則挖礦時,作業流程的兩大步驟找出所有的高頻項目組(FrequentItemsets)高頻項目組所出現的次數必須大於等於事先定義的最小支持度數目。此步驟決定了整體作業的效能從找到高頻項目組產生關聯規則所產生的規則必須滿足決策者所給定支持度與信賴度的最低門檻値,規則才成立。98二、文獻探討_關聯規則定義與說明進行關聯規則挖礦時,作業流程二、文獻探討_關聯規則定義與說明定義描述99二、文獻探討_關聯規則定義與說明定義描述18二、文獻探討_關聯規則定義與說明關聯規則的成立必須滿足決策者所訂定之最小支持度(MinmumSupportThreshold),和最小信賴度(MinmumConfidenceThreshold)。有意義的關聯規則其支持度與信賴度必須大於或等於所訂定之最小門檻値。增益指標加入後,若增益大於1,則表示規則的預測結果比單純的亂數還要好,反之,則較差。100二、文獻探討_關聯規則定義與說明關聯規則的成立19二、文獻探討_關聯規則定義與說明若規則表示為X=>Y,則1.支持度(Support)在規則(Rule)中,項目(Items)一起出現的交易暨路佔全部交易紀錄的百分比。最小支持度控制了一個關聯規則必須涵蓋的最少資料數目,以篩選掉不顯著的規則,在實務上才有應用價値。支持度代表的意義為X與Y一起出現的機率。

101二、文獻探討_關聯規則定義與說明若規則表示為X=>Y,則20二、文獻探討_關聯規則定義與說明若規則表示為X=>Y,則2.信賴度(Confidence)代表此條規則的預測強度。X發生之下發生Y結果的機率足以使得此關聯規則得以成立。計算在前提項目X發生的情況下,發生結果Y的機率。

102二、文獻探討_關聯規則定義與說明若規則表示為X=>Y,則21二、文獻探討_關聯規則定義與說明若規則表示為X=>Y,則3.增益(LiftorImprovement)比較信賴度與結果項目Y單獨發生時之機率兩者間的大小。關聯規則的條件機率比母體中原本發生的機率大才具有意義。

103二、文獻探討_關聯規則定義與說明若規則表示為X=>Y,則22二、文獻探討_關聯規則類型關聯規則類型1.以屬性質的形態為基礎若挖礦規則焦點放在項目(Item)是否出現,則稱為布林値的關聯規則(BooleanAssociationRule)。2.以規則中涵蓋資料維度為基礎若要挖礦的規則的項目或屬性著眼在單一維度時,稱之為單一維度關聯規則(SingleDimensionalAssociationRule)。3.以規則集合中所涵蓋的抽象層級(LevelofAbstraction)為基礎規則屬性或是項目全為同一層級,則稱為單一層級關聯規則(Single-LevelAssociationRule)。104二、文獻探討_關聯規則類型關聯規則類型23二、文獻探討_關聯規則類型2.7圖概念層級樹105二、文獻探討_關聯規則類型2.7圖概念層級樹24二、文獻探討_關聯規則演算法與特性表2.6關聯規則演算法與特性演算法作者/年代主要特色缺點AprioriAgrawal(1994)反覆產生候選項目組,找出所有高頻項目組,進而推導規則。需反覆搜尋資料庫,花費I/O時間。PartitionSavasere(1995)將資料庫分區段,找出個區段之高頻項目組並集合之,再次搜尋資料庫找出真正高頻項目組。在各區段中會產生較多非相關項目組。DHPJong等人(1997)利用雜湊表(hashtable)刪減不必要的候選項目組。一開始會花時間建立hashtableBSMWur等人(1999)使用表格運算方式產生高頻項目組,改善Apriori多次掃描資料庫的缺點。需事先轉換運算表格。106二、文獻探討_關聯規則演算法與特性表2.6關聯規則演算法二、文獻探討_關聯規則的應用1.商業應用藉由關聯規則方法了解顧客購買行為的資訊,協助零售業在進行商品擺放位置規畫。2.工業應用利用關聯規則發展一彈性且有項的巢式製造系統(CellularManufacturingSystem),找出機台間的最佳組合,形成群組技術(GroupTechnology)。3.醫學應用利用關聯規則做藥品櫥位管理,或以過去看診暨路檢式藥品使用量與方法是否正確,並可分析個病例特徵間關聯程度。107二、文獻探討_關聯規則的應用1.商業應用26二、文獻探討_決策樹決策樹監督式的特徵萃取演算法,廣泛應用來解決分類(Classification)形態問題的工具,亦可做為探索與預測之用。能夠將輸入變數依據某種規則或資料進行分類,並以樹枝狀方式表現類別之間由輸入變數所造成的區別,因此決策樹可對資料進行架構的分類。108二、文獻探討_決策樹決策樹27二、文獻探討_決策樹決策樹演算法的四大步驟1.決策樹的切割(Splitting)決策樹須將輸入的預測變數作分類,用以解釋目標變數變異的原因。2.停止長樹(Stopping)當無法找出任何分隔預測變數可以顯著降低下一節點的分散度,表示樹以生長完整(Complete)。109二、文獻探討_決策樹決策樹演算法的四大步驟28二、文獻探討_決策樹決策樹演算法的四大步驟3.評估(Assessment)評估整個決策樹的錯分率(Misclassification)或是評估每個節點的錯誤率(ErrorRate)。公式如下:110二、文獻探討_決策樹決策樹演算法的四大步驟29二、文獻探討_決策樹決策樹演算法的四大步驟4.決策樹的修剪當決策樹所生長的層級越深時,子節點的資料比數就會越來越少,資料的代表性就越低,所產生的法則可能會造成過度學習(OverFitting)而產生偏差,此時演算法中就應加修剪的步驟。找出錯誤的分支給予修剪,如:CART、C4.5。以測試資料(TestingData)驗證、抽樣方法來減少決策樹過度學習現象的發生。111二、文獻探討_決策樹決策樹演算法的四大步驟30二、文獻探討_決策樹2.11圖修剪對錯誤率的影響112二、文獻探討_決策樹2.11圖修剪對錯誤率的影響31二、文獻探討_決策樹演算法表2.7常用決策樹演算法之比較演算法比較準則常見幾種決策樹的演算法CARTID3C4.5CHAID作者(年代)Briemen(1984)Quinlan(1986)Quinlin(1993)Hartigan(1975)處理資料形態離散、連續離散、連續離散、連續離散分裂樹二元樹不受限制不受限制不受限制連續形資料處理方式分2枝不受限制不受限制無法處理分枝準則Gini値InformationGainGain_Ratio統計檢定(卡方分配)113二、文獻探討_決策樹演算法表2.7常用決策樹演算法之比較二、文獻探討_決策樹於事故診斷的相關研究表2.8應用決策樹於事故排出之相關研究研究者實證對象使用的演算法Braha&Shmilovici(2003)半導體黃光區C4.5鄭人傑(2003)晶圓過站記綠與CP測試値Kruskal-Wallis、卡方交互影響檢測、變異降低分枝法則劉中光(2002)印刷電路板(PCB)決策樹結合SOM方法Raghavan(2002)良率、ICE-TTestparameter利用決策樹(CART、CHAID)Fan(2001)WAT、InLineManufacturingdata決策樹蔡智政(2001)晶圓批量製程管制(LPC)資料以CART決策樹分析LPC李培瑞(2001)半導體WAT資料、CP資料結合人工類神經網路與決策樹林鼎浩(2000)半導體WAT與製造相關資料無母數Kruskal-Wallis統計檢定法114二、文獻探討_決策樹於事故診斷的相關研究表2.8應用決策三、研究架構_問題定義透過清楚的問題定義,瞭解問題類型包含哪些類別,才知道有哪些是屬於關鍵性的資料。115三、研究架構_問題定義透過清楚的問題定義,瞭解問題類型包含哪三、研究架構_資料選擇對領域知識及問題有了基本的認識之後,便是進行資料選擇的工作,應先對資料有進一步的瞭解,而非將資料盲目的丟進模式分析。資料取得的方式如下表:檔案(File)好處是取得快速且閱讀容易,但是一旦建立好以後日後想再做資料處理就不太容易處理,如:MicrosoftExcel。關聯資料庫(RelationalDatabases)在關聯式資料庫中,透過查詢工具語言(SQL)可以蒐集到想要的資料。資料倉儲(DataWarehouse)資料量通常達數百Mega甚至上Giga,資料讀取方式是以「切割」的觀念,並非巷資料庫連結表格的方式處理116三、研究架構_資料選擇檔案好處是取得快速且閱讀容易,但是一旦三、研究架構_資料前置處理一般資料可分成質與量兩類,質的資料又分成空間性與時間性兩種,掘取欲分析的資料,並以去蕪存菁的方式轉化處理,才能確保分析資料的品質和分析結果的正確性。資料前置處理的步驟需要不斷學習與經濟累積。資料前置處理形式資料清理資料整合資料轉換資料化約。117三、研究架構_資料前置處理一般資料可分成質與量兩類,質的資料三、研究架構_資料前置處理資料前置處理通常會採取的動作如下:1.資料的基本分佈與檢視:對於資料的基本數理特性做醫界面性的檢視,分佈為常態、非常態、偏右、偏左等,瞭解資料的長相與分佈以便做後續處理。2.偏離值的檢測與處理:對於散佈在正常分佈外的資料點作出處理,譬如直接刪除還是保留其資訊。118三、研究架構_資料前置處理資料前置處理通常會採取的動作如下:三、研究架構_資料前置處理3.空白值與缺值的處理:空白值與缺值所代表的意義並不相同,空白值為無法填入的資料;缺值則為資料的遺漏或錯誤。要刪除該筆資料或者以特殊方式補值,對於挖礦結果的解釋會有不同的影響,所以須對資料有近一步的了解。4.資料為度轉換:ㄧ般而言高維度的資料計算複雜,所花費的時間較多,因此維度的降低亦是一種重要的課題。119三、研究架構_資料前置處理3.空白值與缺值的處理:38三、研究架構_資料前置處理5.資料格式化或分佈轉換:資料處理時,資料的格式轉換與其所代表的相對意義都須瞭解。資料格式化和轉換亦會挖掘出另ㄧ層意義的結果。ㄧ般將資料數字分成四種不同的衡量尺度,名義尺度、順序尺度、區間尺度、比例尺度衡量。120三、研究架構_資料前置處理5.資料格式化或分佈轉換:39三、研究架構_資料前置處理衡量的層次內容說明舉例名目尺度(NominalScale)又稱類別尺度,使用數字或標記區分物件或事件,此尺度並無大小之分。機台和貨批的編號等。順序尺度(OrdinalScale)又稱等級尺度,就ㄧ事務之某特質好壞次序加以排列,有方向次序的比較,但沒有距離或獨特的原點。各種Bin值的分類、成績區間尺度(IntervalScale)以此尺度表現之變數,可區分類別及排出大小順序之外,可算出差異之大小。區間尺度中,零點的位置並非固定的,而且衡量的單位也是任意的。機台的溫度、量測的參數比例尺度(RatioScale)可說出名稱、排出順序、算出差距、亦可表示出比例的關係。比例尺度具有絕對零度的。化學藥劑使用量、重量121三、研究架構_資料前置處理衡量的層次內容說明舉例名目尺度又稱三、研究架構_目標與顯著變數的選取當目標變數與署醒確定後,接下來即確認預測變數。為避免加入對目標變數結果無顯著影響的資料,可利用統計方法檢定預測變數與目標變數是否獨立。122三、研究架構_目標與顯著變數的選取當目標變數與署醒確定後,接三、研究架構_目標與顯著變數的選取變數衡量尺度對應之統計檢定方法:獨立變數(IndependentVariable)相依變數(DependentVariable)變數尺度名目尺度順序尺度區間尺度名目尺度Chi-SquareChi-SquareChi-Square順序尺度Spearman積差相關區間尺度T-testANOVAT-test、ANOVA、K-W(無母數方法)Pearson相關Regression123三、研究架構_目標與顯著變數的選取變數衡量尺度對應之統計檢定三、研究架構_目標與顯著變數的選取K-W法適用資料分配不符合常態,或是已確定其為非常態分佈的情況下,此種檢驗對平均值差異敏感,可將此方法想像成一個對處理平均相等的檢驗。K-WTest其主要步驟如下:1.先將觀測值依遞增順序,然後以取代觀測值。2.令處理i知下秩的和。3.求檢定統計量。N為所有觀測值的數目124三、研究架構_目標與顯著變數的選取K-W法適用資料分配不符合三、研究架構_K-W法是第i個處理下的觀測值數目,N是所有觀測值的數目總和125三、研究架構_K-W法44三、研究架構_K-W法(a)當k=3,時,可查詢K-Ttest檢定附表,決定機率值P-value,如果P-value<<則拒絕虛無假設,表示k可能不ㄧ致。(b)當,則表示這K個處理中某些處理會產生較其他處理為大的觀測值,可有效檢定在資料非常態分佈時不同處理是有造成差異的原因。126三、研究架構_K-W法(a)當k=3,時三、研究架構_資料挖礦與決策樹資料挖礦對於不同的資料賀企業問題,不同的模式和演算法將可能產出最好的結果。決策樹決策樹會根據目標變數,將資料進行適當的分類,並以樹枝狀架構呈現其分類結果。由分類結果亦可萃取出其分類的特徵規則。127三、研究架構_資料挖礦與決策樹資料挖礦46三、研究架構_關聯規則關聯規則關聯規則主要是從龐大資料中,探索資料間欄位的相關性,這些規則展示了屬性值。在大量資料中找出有趣的規則,以便幫助使用者制定決策的依據。關聯規則步驟1.計算支持度2.找出所有的高頻項目組3.計算信賴度4.找出候選規則5.產生關聯規則6.整理Y為目標變數之規則128三、研究架構_關聯規則關聯規則47三、研究架構_整合決策樹與關聯規則工具決策樹關聯規則優點※明白指出最佳變數的能力※產生易於了解的規則※節省分類時的計算時間※可處理連續與類別變數※能完整的呈現各變數之影響,與變數組合※能產生簡單明瞭的結論※適用不同形式的原始資料※計算模式簡單易懂缺點※當類別太多時,資料量小,錯誤會增加的比較快。無法全面的看到各種變數的影響程度※對有時間順序的資料,需要很多欲處理的工作※結果多且凌亂,難已決定哪一變數較重要與適當的組合※當問題變大時,運算量會成幾何級數增加※對於資料的個別資訊不甚重視※容易剷除罕見變數129三、研究架構_整合決策樹與關聯規則工具決策樹關聯規則優點※明三、研究架構_解釋與評估挖礦的結果對於工程師而言是否有提供幫助,整個挖掘的過程是否有效率,皆是透過結果解釋與討論重複循環,才可使得研究模式與結果更加完備。若挖掘出的樣形式有價值的,之後便可將相同屬性、類別的規則儲存至規則庫,以建立自動化的製程監控的事故偵測與分類機制或是事故排除的決策支援系統。130三、研究架構_解釋與評估挖礦的結果對於工程師而言是否有提供幫四、實證研究本章針對於兩種不同類型之產業資料,以前述所提之研究方法進行事故定位與事故診斷,以驗證整合決策樹與關聯規則資料挖礦架構之效度。131四、實證研究本章針對於兩種不同類型之產業資料,以前述所提之研四、實證研究1_台灣電力配電事故定位問題定義配電事故為影響電力系統安全性、可靠性以及供電品質的重要因素。但這樣一連串的試驗將對於線路造成損害,且也無法在短時間內使供電恢復,因此為提高供電品質,如何發展一個可以快速找到事故發生地點的方法,即成為電力公司所關心的議題。132四、實證研究1_台灣電力配電事故定位問題定義51四、實證研究1_台灣電力配電事故定位資料選擇本研究所採用之資料為台電公司於1995∼1997年間,針對臺北市區每次配電事故所記錄之配電事故紀錄表,共有1649筆資料,每筆配電事故資料皆記錄23項變數資料(如表4.1)。首先針對「損壞部位」資料屬性進行統計與圖表分析,以初步檢視資料之分佈樣型,其分佈如圖4.1所示。133四、實證研究1_台灣電力配電事故定位資料選擇52四、實證研究1_台灣電力配電事故定位資料前置處理本案例為推導事故之損壞設備與特殊的事故資料樣型,以快速的找到事故發生地點為目標,因此「損壞部位」屬性為本研究模式之目標項。最後本實證研究的輸入與目標屬性如表4.2所示。134四、實證研究1_台灣電力配電事故定位資料前置處理53四、實證研究1_台灣電力配電事故定位目標與顯著變數的選取為推導事故之損壞設備與特殊的事故資料樣型,以快速的找到事故發生地點為目標,因此「損壞部位」為模式之目標變數,共60項變數值。由於輸入變數已刪除在找出事故地點之前並無法獲得資料,剩8個輸入變數,經由與工程師討論後,並不需刪減多餘變數,因此,直接將表4.2中的變數丟入模式中。135四、實證研究1_台灣電力配電事故定位目標與顯著變數的選取5四、實證研究1_台灣電力配電事故定位資料挖礦--以關聯規則推導顯著事故定位規則經由資料的前置處理(圖4.2)後,將資料格式轉換為能以挖礦模式建構分析的資料格式,設定參數後,推導顯著關聯規則。研究設定最小支持度為1.67%,最小信賴度為50%,而增益則需大於1,參數設定依據如下。支持度信賴度增益136四、實證研究1_台灣電力配電事故定位資料挖礦--以關聯規則推四、實證研究1_台灣電力配電事故定位資料挖礦--以關聯規則推導顯著事故定位規則評估規則好壞的參數─錯分率(FP),希望所推導之規則,皆在所能容忍之決策風險下,因在此加入ROCCurve的觀念,隨著不同的臨界值條件下,TP比率與FP比率變化所構成的特徵曲線,如圖4.3所示。關聯規則若有較大的TP與較小的FP,則此規則是較佳的。在此驗證中,錯分率小於0.25。137四、實證研究1_台灣電力配電事故定位資料挖礦--以關聯規則推四、實證研究1_台灣電力配電事故定位資料挖礦--以關聯規則推導顯著事故定位規則由表4.3可知,關聯規則結果僅與「高壓電纜」、「用戶設備」、「高壓電纜直線接頭」以及「熔絲鏈開關」四種損壞設備有關。在損壞設備為「高壓電纜直線接頭」與「熔絲鏈開關」所找出之規則,雖其信賴度只介於50%~70%,但其規則之錯分率相當低,仍可容忍決策風險之內(<0.25),因此,所找出之顯著規則是好的,可藉由此規則推斷出損壞部位。138四、實證研究1_台灣電力配電事故定位資料挖礦--以關聯規則推四、實證研究1_台灣電力配電事故定位資料挖礦--以決策樹挖掘顯著分類規則

利用780筆資料進行資料篩選,首先選出具有13筆資料以上之損壞部位,挑選過後僅剩下650筆資料以及12種損壞部位。以初步的簡化模式,形成決策樹的輸入資料。其資料處理過程如圖4.4。針對此699筆資料進行資料分佈之繪製,可得圖4.5之次數分佈圖。139四、實證研究1_台灣電力配電事故定位資料挖礦--以決策樹挖掘四、實證研究1_台灣電力配電事故定位資料挖礦--以決策樹挖掘顯著分類規則

本研究決策樹所使用軟體為Scenario,其演算法的結果類似CHAID,若針對連續型的目標變數是以F-Test作為分枝方法,若針對間斷型的變數,其以Chi-SquareTest作為分枝準則。在長樹的過程設定上,枝葉中顯著目標變數值資料最少需有13筆資料,且下一層的子集合純度一定要比上一層的母集合(Parentsubset)較高,且下一層子集合正確率(純度)需大於50%,以使得枝葉具有絕對之顯著程度,以及最多有三層枝葉等。140四、實證研究1_台灣電力配電事故定位資料挖礦--以決策樹挖掘四、實證研究1_台灣電力配電事故定位解釋與評估

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论