《资料探勘》PPT课件.ppt_第1页
《资料探勘》PPT课件.ppt_第2页
《资料探勘》PPT课件.ppt_第3页
《资料探勘》PPT课件.ppt_第4页
《资料探勘》PPT课件.ppt_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、資料探勘第一單元 資料探勘的簡介,資料的預備,本周綱要,資料預備概念與重要性 資料預備的工作項目 原始資料的特性與資料預處理 資料的減量,資料預備概念,何謂資料預備? 資料庫中的原始資料,經常包含許多雜質、不完整或是不一致的資料。 資料預備通常包括了資料的預處理與資料的減量,資料預處理主要目的在針對原始資料中的雜質(異常)、不完整或不一致的資料進行處理。 資料減量目的為降低原始資料量或資料維度,以減輕進行資料探勘負擔。 資料預備的主要目的在對於原始資料進行預處理與資料減量,將資料以標準格式進行組織及改善資料的質量,以便能夠得到最佳的資料探勘結果,資料預備的重要性,資料預備包含的工作項目,資料的

2、預處理 資料清理 資料整合 資料轉換 資料的減量 資料的減量之目的就是縮小欲進行探勘資料的數量或是維度,但是基本上以不影響探勘之後的結果為主,原始資料的類型,數值型的資料 包括實數變數以及整數變數 數值型資料的值是具有順序關係的,例如:3 6, 6 8 數值型資料的值是具有距離關係的,例如:2.5與5.7間的距離為3.2 類別型的資料 類別型的資料又稱為符號型或象徵型的資料 類別型資料僅具備相等或是不相等的關係,例如:黑色黑色,白色紅色 許多常見的資料屬性都屬於類別型資料,如:顏色、姓別、國籍 類別型的資料假如只有兩個值的話,例如:是 / 否,男性 / 女性,通常可以0或1來轉換為數值型的資料

3、 如變數值較多時,如:有N個變數值情形下,就可以N個二位元數值變數去表示,原始資料的類型,以資料值的類型來進行分類 連續變數 區間比例 (零點的定義隨應用而定) 比率比例 (具有絕對的零點) 離散變數 名義變數 (如郵遞區號, ) 次序變數 (次序或等級的關係,如等第, ) 週期變數 (距離的關係,如一週的天數, ) 根據的是資料與時間之間的變動特性關係來進行分類 靜態資料 動態或是臨時性的資料,原始資料的類型,高維度的資料 在資料探勘領域中將資料具有很高維度的情形,稱之為維度的災難 高維度的資料具有以下四個重要的特性: 在同樣的資料密度下,資料受影響的數量將會隨著維度的增加,而呈指數的倍數增

4、加。 需要很大的半徑才能包含大維度空間內的所有資料 幾乎每一個高維度空間的資料點與邊之間的距離都比與其他點的距離近 在高維度的情況下,幾乎每一個點都是離群值,原始資料剛開始的資料量非常龐大 原始資料都是非常雜亂的 原始資料中,可能有不完整、扭曲、記錄錯誤和不充分的資料 資料的不完整,可能在衡量、計算時發生錯誤 造成雜亂的原因為記錄的錯誤,特別是在大量的資料中最容易產生這種情況 扭曲的資料 選擇錯誤的資料衡量方法 錯誤的資料探勘的工具 太過理想化的模式下,原始資料的特性,不一致的資料,不一致的資料所指的是相同的資料卻出現兩種以上不一致的狀況 發生原因: 通常是因為命名規則出現問題(如同一個屬性在

5、不同表中的名稱不同)、資料格式的不同,或是資料代碼的不同,不完整的資料,在原始資料中,空的資料值或是有所遺漏的資料,都稱之為不完整的資料。 發生原因: 資料屬性並非必須,在進行資料記錄時,易造成時有時無的情形。 資料在當時被認為是不必要的。 誤解或記錄設備的問題,而使得相關的資料未被記錄。 與其他紀錄的內容不一致而被刪除。 資料為歷史的紀錄,而且沒有經過修改與更新,不完整的資料,處理的方法 通常由進行資料探勘的技術人員,邀集相關知識領域的專家,以其專業的領域經驗,輸入合理、可能或期望的資料。 利用較為簡單且自動化方法來填補資料,以解決資料不完整的情形。 利用一個已事先定義好的單一值來填補所有遺

6、漏的值 利用平均值的方式,填補遺漏的資料 利用分類後的子群組之平均值填補遺漏的資料 利用預測的技術,以求得遺漏的資料最可能的值 迴歸分析、貝氏網路、決策樹或是叢聚方法,異常的資料,所謂資料中的雜質、異常的資料指的就是資料中存在錯誤或離群值(與大部分資料的分布差距過大)。 發生原因 資料蒐集的設備出現問題。 在記錄資料的過程中,發生人為或是電腦方面的錯誤。 資料在傳輸的過程中產生錯誤,異常的資料,處理的方法 人工的離群值偵測方法 在離群值的偵測技術中,假如資料的維度在三以下時,最方便的偵測方法就是利用視覺化的方法。 自動的離群值偵測技術 統計的方法 以距離為基礎的方法 以偏差為基礎的方法,異常資

7、料之處理,Binning方法 分配的方法有等高式和等寬式,如圖所示 等高式資料分配方式,指的是每一個箱子中的資料數目皆相等 等寬式的分配方法則是每個箱子中的值之間距 (箱子中最大值和最小值差距) 相等,一般而言寬度愈大,平滑效果愈明顯 分配好每個箱子中的資料後,隨即可以進行資料的平滑化 平均值法資料平滑化技術 中值法資料平滑化技術 邊界法資料平滑化技術,例:假設某屬性的值為18,12,3,9,7,6,15,21,16,採用分配技術平滑資料消除噪音。分佈規則為等高,高度為3,平滑規則為平均值平滑。 首先,將屬性的值排序為3,6,7,9,12,15,16,18,21 然後,分佈規則(等高,高度為3

8、)將資料分佈為 箱1:3,6,7 箱2:9,12,15 箱3:16,18,21 最後,根據平滑規則為 箱1:5.3,5.3,5.3 箱2:12,12,12 箱3:18.3,18.3,18.3 問:平滑規則為中值平滑? 平滑規則為邊界平滑,異常資料之處理,叢聚方法 叢聚分析可將相似的資料叢聚在一起 其餘異常的資料自然的就會分布在叢聚之外 也就可以被認定為離群值或是雜質 最後再清除或更正這些資料 人工處理與電腦處理結合的方法 利用電腦的技術幫助找出資料中異常的資料 電腦處理之後透過人工的方式對於這些異常進行再一次的檢查及清理資料中的雜質 迴歸方法 利用概似關係預測某變量值或幫助找出資料中異常的資料

9、,原始資料的整合,原始資料的整合主要在解決綱要整合的問題、多餘屬性的問題以及數值之間衝突的檢測和消除。 綱要整合 (Schema Integration) 的問題 多餘屬性的問題 相關分析 大時,A與B可以去除一個。 數值之間衝突的檢測和消除,原始資料的轉換,資料正規化 (1)以十為基數的正規化方法 (k是滿足max(v) 1的最小值) (2)最小最大正規化方法 (3)標準差正規化方法,問:請利用指定的正規化方法進行資料正規化: (1)以十為基數的正規化方法 -20, 50, 4, 117, -68, 5 (2)最小最大正規化方法 50, 100, 70, 160, 340, 290 (3)標

10、準差正規化方法 8, 12, 25, 4, 10, 28,原始資料的轉換,資料平滑化 (ex. 具小數點數值 整數數值) 資料差異化和比例化 資料一般化(以抽象或更高層概念的屬性來取代) 資料合計 新屬性的創造,資料的減量,運用資料的減量來處理大量或高維度的資料 三個主要的減量標的 特性的減量 資料的減量 資料屬性值的減量 資料減量,可能會帶來以下的好處: 運算的時間 預測結果準確度 呈現探勘的結果,資料的減量,資料減量演算法應具備的特性 品質可以衡量 品質可以得知 單調性 (可重複使用且效果不變) 穩定性 (不論時間長度與資料品質,結果品質固定。) 隨運行次數增加,資料變動減少。 可中斷性

11、(可隨時終止) 可支配性 (可隨時暫停或重新開始,特性的減量,特性減量之後,資料的優點 資料量減少 高度的資料探勘處理正確率 資料探勘後的結果較為簡單 不用浪費太多時間在蒐集不相關或不需要的資料 資料特性的選擇 對於特性排序的演算法 最小子集合的演算法 資料特性的合併,資料特性的選擇,特性評估方法的建立 相似度衡量 以下的公式為當特性是數值時,在兩個樣本下的 相似度衡量 上面的式子中 代表一個數學上的參數,可以描述為 數值型的資料 最常用來進行相似度衡量的就是歐幾里德距離,下面是利用歐幾里德距離來計算的公式。 在上式中的代表的是維度的數目,和代表的是用來對於第個維度進行正規化的最大和最小值,非

12、數值型的資料 漢明距離來進行相似度的橫樑,其公式如下,資料特性的選擇,熵(Entropy)衡量 用來比較在特性移除前與移除後所得的值 此公式衡量後所得的值可以用來進行特性的排序,資料特性的選擇,上頁公式衡量後所得的值可以用來進行特性的排序,其演算法如下所示,資料特性的合併,資料的取樣,利用一小部分的資料或子集合來代表整個資料的母體,而這些透過取樣之後所獲得的資料,必須要具有代表性且能夠忠誠的反應整個母體的資料特性 簡單隨機取樣 (放回式與不放回式) 叢聚取樣 階層式取樣 系統取樣,資料的壓縮,採用編碼的方式,將原來的資料轉換為一個較小的資料集合 此資料集合也可以透過解壓縮的程序,還原為原來的資

13、料 解壓縮還原後的資料與原來資料完全相同時,為無失真壓縮 如無法完全還原為原來的資料,為失真壓縮技術 離散小波轉換是資料壓縮經常被使用的技術 失真型壓縮 可刪除部分離散小波相關係數,但對整體資料不會有太大影響。 透過所設定的離散小波相關係數,利用逆轉換方式來解壓縮資料,資料離散化,許多資料庫中的資料都是屬於數值型的資料 如要將這些數值型的資料轉換成類別型的資料時,可採用所謂資料離散化(連續屬性概念分層,資料離散化,資料離散化的方法 相等的區間頻率和相等的區間寬度方法,資料離散化,最小類別的熵方法 在資料集合 中的屬性A之熵值 可以定義為 以前頁上表為例 假設資料的剪斷點為 將資料集分成兩個子資

14、料集 ,在這種條件下的熵值為,資料離散化,以上表為例,剪斷點為107 檢測剪斷點113 熵值較小的為較佳的剪斷點,連續屬性概念分層的自動生成連續屬性可以運用離散化遞迴自動生成概念分層,相反概念分層也可以離散化連續屬性。在此,介紹一種熵(Entropy)的離散化技術。這種技術的步驟如下: 給定關係表r及其連續屬性A,計算在A的取值區間V上的記錄集合S的熵,對A在V上取的每個v,用v劃分V為 ,劃分S為s1、s2, 計算在此 劃分下, S的熵,對在V上的每個劃分 ,計算在此劃分下,S的資訊增益(Information Gain,選擇使S的資訊增益最大的劃分作為最佳劃分,記為 。 遞迴地應用步驟(1)(4)於V1、V2及S1、S2上,直至滿足一定的限制條件,例如,最大增益資訊增益小於某個閥值,例:假設“氣溫”屬性就是目標屬性,它的取值區間為100,100,在此區間上的屬性值及記錄數如下表 所示,採用熵導向的離散化技術生成“氣溫”屬性 的概念階層樹,首先,劃分區間100,100 E(100,100) = - = - (0.24350.31270.53060.51420.4728) 2.0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论