版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章 資料前置處理1第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規化資料形式轉換*資料型態轉換*資料模糊化*總結2資料未經處理的問題資料不完整 (data incomplete)資料中某些屬性值有遺缺缺少某些分析時需要用到的屬性,Ex:性別資料有雜訊 (noise)資料有錯誤或是特例(outlier)造成資料不一致 (data inconsistency)由不同來源整合而得所產生商品在台灣是以台幣,在美國則是美金計價有高品質的資料,才有高品質的探勘結果3第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規化資料形式轉換*資料型態轉換*資料
2、模糊化*總結4前置處理的主要工作資料整合整合後的資料(貯存室=資料倉儲)清理過的資料資料轉換準備進行探勘的資料各種不同來源的資料資料清理5資料整合資料整合 (data integration) 解決多重資料來源的整合問題主要工作消除資料不一致數值不一致 (data value conflict),Ex :單位不一綱目不一致 (schema conflict),Ex:屬性名稱不一,會員姓名和顧客姓名消除資料重複性數值重複,Ex:A和B資料表有同一會員資料綱目重複,Ex:生日和年齡6資料清理 (1)確認資料正確性、完整性常見的資料正確性問題7資料清理 (2)確認資料完整性常見的資料完整性問題:8資
3、料清理 (3)其它清理工作遺缺填補:人工填補或自動填補雜訊消除:雜訊使探勘結果有相當大的偏差,必須將雜訊移除或將資料做平緩化處理 (smoothing) 9資料轉換資料統整化(data aggregation) 加總、統計或是建立資料方塊(data cube) 目的:將資料做初步整理,使得資料更適合探勘一種資料精簡化處理資料一般化(data generalization) 資料的概念階層 (concept hierarchy) 向上提升會員地址用城市或是北中南東四區取代可將某屬性中所包含的不同數值減少,資料精簡的方法之一建立新屬性(attribute construction) 利用舊屬性將探
4、勘所需的新屬性建立生日屬性產生年齡屬性10第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規化資料形式轉換*資料型態轉換*資料模糊化*總結11資料遺缺原因資料建立時未輸入故意或是不小心造成資料沒有被輸入設備故障例如收銀機故障,導致顧客消費明細無法輸入因資料內容不一致而被刪除當資料內容不一致時,為了避免錯誤的資料影響分析的準確性,可能會將該項資料以空值取代,因此產生資料的遺缺12資料遺缺處理方法-直接忽略法處理資料遺缺最簡單的方法適用時機進行分類探勘時,若資料的分類標記 (class label)為空值,這筆資料因無法被正確分類,便可直接刪除,Ex:信用等級適用對象蒐集
5、資料量很多、遺缺資料只佔一小部分缺點資料遺缺比例很可觀時,會造成大量資料流失13資料遺缺處理方法-人工填補法處理資料遺缺的現象,可採用人工來填補範例當某會員資料的生日屬性有遺缺,可打電話詢問該會員,以取得其生日並加以填補。缺點當資料遺缺較多時,耗時且人力負擔沉重。14資料遺缺處理方法-自動填補法主要兩種方式填入一個通用的常數值如填入 “未知/unknown” ,成為一個新的類別填入該屬性的整體平均值不會對統計結果造成太大的影響優點:可以在不影響統計結果的情況下,保留此資料屬性缺點是不夠客觀更精確作法是用推論法求出較可能的值來填入方法基本上有兩種,一種是貝式方程式 (Bayesian formu
6、la),另一種方法是利用決策樹 (decision tree) 15第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規化資料形式轉換*資料型態轉換*資料模糊化*總結16雜訊的處理方法結合電腦和人工檢視結合電腦偵測與人工檢視,Ex:大於或小於平均值百分之二十以上的資料便有可能是雜訊,接著再利用人工方式確認缺點:需要人力介入,曠日費時,不實際資料平緩化處理回歸分析法 (regression analysis) 將資料套入回歸函數以消除雜訊裝箱法 (binning method)將資料排序並切割成數個箱子用所有資料的平均值、中位數或邊界值來取代箱子中的每一筆資料以消除雜訊包
7、括等寬分割法(或稱等距分割法)和等深分割法(或稱等頻分割法)17裝箱法 - 等寬分割法等寬分割法(或稱等距分割法,Equal Width/Distance)將資料的數值範圍劃分為N 個間隔相同的區間若A和B分別為此屬性中的最小與最大值,則每個區間的間隔大小為:W = (B-A)/N.Ex:假設欲分析顧客年齡與購買商品種類的關係,將12個顧客年齡資料排序依序如下:12, 15, 18, 21, 28, 33, 36, 45, 50, 52 , 60 , 80 欲分割為四個箱子則箱子寬度=(80-12)/4=17箱子 1 (12-28): 12, 15, 18, 21, 28箱子 2 (29-45
8、): 33, 36, 45箱子 3 (46-62): 50, 52 , 60箱子 4 (63-80): 80最直覺的分割法,但資料有雜訊或特例對分割結果的影響很大(探勘結果影響很大)不適用於偏斜的資料(skew data)18等寬分割法示意圖12,15,18,21,28 箱子箱子33,36,45 箱子50,52,60 80 箱子19裝箱法 - 等深分割法等深分割法(或稱等頻分割法, Equal Depth/Frequency)將資料劃分為N 個資料數量大致相同的區間(個數)例同上,將12個顧客年齡資料排序依序如下:12, 15, 18, 21, 28, 33, 36, 45, 50, 52 ,
9、 60 , 80四個箱子則每個箱子均含三筆資料(寬度12/4=3)箱子 1 : 12, 15, 18箱子 2 : 21, 28, 33箱子 3 : 36, 45, 50箱子 4 :52 , 60 , 80資料分布(scaling)良好但類別屬性(categorical attributes)較難處理20等深分割法示意圖12, 15, 18 箱子21, 28, 33 箱子箱子52, 60, 80 36, 45, 50 箱子21等深分割法裝箱資料的平緩處理 以平均值消除雜訊箱子 1 (12,15, 18 ): 15,15,15 箱子 2 (21, 28, 33) :28, 28, 28箱子 3 (
10、36, 45, 50): 44, 44, 44箱子 4 (52, 60, 80): 64, 64, 64以中位數消除雜訊箱子 1 (12,15, 18 ): 15,15,15 箱子 2 (21, 28, 33) : 28, 28, 28箱子 3 (36, 45, 50): 45, 45, 45箱子 4 (52, 60, 80): 60, 60, 60以邊界值消除雜訊箱子 1 (12,15, 18 ): 12, 18, 18 箱子 2 (21, 28, 33) :21, 33, 33箱子 3 (36, 45, 50): 36, 50, 50箱子 4 (52, 60, 80): 52, 52, 8
11、022等寬分割法裝箱資料的平緩處理 以平均值消除雜訊箱子 1 (12, 15, 18, 21, 28): 19, 19, 19, 19, 19 箱子 2 (33, 36, 45) :38, 38, 38箱子 3 (50, 52 , 60): 54, 54, 54箱子 4 (80): 80以中位數消除雜訊箱子 1 (12, 15, 18, 21, 28): 18, 18, 18, 18, 18 箱子 2 (33, 36, 45) :36, 36, 36箱子 3 (50, 52 , 60): 52, 52, 52箱子 4 (80): 80以邊界值消除雜訊箱子 1 (12, 15, 18, 21,
12、28): 12, 12, 12, 28, 28箱子 2 (33, 36, 45) :33, 33, 45箱子 3 (50, 52 , 60): 50, 50, 60箱子 4 (80): 8023第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規化資料形式轉換*資料型態轉換*資料模糊化*總結24資料正規化 資料正規化(Data normalization)將資料重新分布在一個較小且特定的範圍內例如: 台灣的平均所得遠高於菲律賓, 即使年收入均以台幣作單位, 直接將兩國顧客的年收入用數值相比仍然不夠客觀, 此時便需要正規化到同一個標準下做評比。資料正規化的方法極值正規化(
13、Min-max normalization)Z-分數正規化(Z-score normalization)十進位正規化(Normalization by decimal scaling)25極值正規化公式範例: :假設一般臺灣上班族的月收入範圍為 20000, 100000,而一般菲律賓上班族的月收入範圍為 2000, 10000;在台灣收入30000元相當於在菲律賓收入多少?適合用在需要將資料規範在某一個指定範圍內的情況P3-12 :正規化前數值,範圍a, b:正規化後數值,範圍c, d26Z-分數正規化公式範例:假設臺灣人月收入平均為35000元, 標準差是10000元,利用Z-分數法將月
14、收入30000元做正規化,將得到 負數表示收入低於平均,正數表示高於平均適合用在需要了解數值與平均分佈之間的關係時P3-1327十進位正規化公式範例:假設台灣上班族最高月收入為100000元,因此使得正規化後的結果小於或等於1的最小整數為5。則月收入30000元經由十進位正規化之後將會得到適合用在要將數字壓縮到區間 0,1 的情況 i是使得Max(| |)1的最小整數28第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規化資料形式轉換*資料型態轉換*資料模糊化*總結29資料探勘中的資料形式資料形式 (data forms) 分為四種本文形式:內容或是文件,可看作是字串
15、集合時間形式:存時間序列(time series) ,記錄隨時間 而變的資料交易形式:記錄交易的項目關聯形式:即關聯式資料庫中的表格30資料探勘技術適用之資料形式多層次資料一般化 (multilevel data generalization)發掘之知識:資料庫中發掘較高層次的資料觀點(view) ,也就是發掘出所謂的概念階層 (concept hierarchy) 合適之資料形式:關聯形式分類法 (data classification)發掘之知識:在訓練樣本中發掘分類規則,分類新資料合適之資料形式:關聯形式群集分析 (cluster analysis)發掘之知識:根據資料樣本的樣式 (pa
16、ttern), 將相似的資料樣本分成一個群集合適之資料形式:關聯形式31資料探勘技術適用之資料形式關連法則探勘 (association rules mining)發掘之知識:龐大交易資料中找出交易的關連性合適之資料形式:交易形式資料時間序列分析 (time series analysis)發掘之知識:分析不同時間點的資料值變化,發掘規則合適之資料形式:時間形式資料以樣式為基礎的相似搜尋 (pattern-based similarity search)發掘之知識:預先設定目標樣式及差異容忍度,找出與目標樣式之相似度在差異容忍度範圍內的物件,可分成文字搜尋以及時間序列搜尋合適之資料形式:文字搜
17、尋本文形式 時間序列時間形式32資料探勘與資料形式的關係資料探勘技術多層次資料一般化分類法群集分析關連法則探勘時間序列分析以樣式為基礎的相似搜尋 關聯形式交易形式時間形式本文形式33資料型式的轉換 以購物網站所用的資料庫為例記錄顧客所買的每樣商品資料,包括:交易編號、會員帳號、商品編號、交易時間、交易數量、付款方式若分析顧客同一天購買的商品間關連性,目前交易表內所存的資料 格式並無法直接套用關連法則探勘演算法,要經以下步驟轉化Step 1 - 選取相關屬性:選出會員帳號、商品編號、交易時間三個屬性。 Step 2 - 精簡資料:將精確至年月日時分秒的交易時間簡化為只包含年月日的交易日期。 St
18、ep 3- 轉換資料形式:依照會員帳號及交易日期將同一會員同一天的交易紀錄集合成一筆交易形式的資料。 34第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規化資料形式轉換*資料型態轉換*資料模糊化*總結35資料探勘中的資料型態 離散型 (discrete)預先定義的資料集合所組成集合中兩個值的距離無法直接計算像布林型態(例如:性別)、列舉型態(例如:職業等)、或是字串型態(例如:地址)均屬於此類型連續型 (continuous)數字型態(例如:平均月收入)或是日期型態(例如:生日)均屬於此類型36資料探勘技術適用之資料型態(1)離散型監督式學習法 ( supervis
19、ed learning )分類法連續型監督式學習法非監督式學習法( unsupervised learning )群集分析法37資料探勘技術適用之資料型態(2)特性型態資料型態範例兩值間的距離分類探勘群集分析理解度離散型布林型態列舉型態字串型態較難計算適合不適合較高連續型數字型態日期型態較易計算適合適合較低38資料型態的轉換離散型轉換成連續型資料Step1:用相似性矩陣定義值與值的距離或相似度Step2:再利用值與值的距離或是相似度把離散的 資料形態表示成連續的資料型態連續型轉換成離散型資料Step1:利用群集分析法將數值型態資料分群Step2:接著將群集做合適名稱,再利用群集的名稱 代替群集
20、內所包含的數值型資料轉換成離 散型資料39第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規化資料形式轉換*資料型態轉換*資料模糊化*總結40資料模糊化在二進位邏輯中只有兩個可能的值(成立或不成立)現實生活中的許多概念的表達,並非只有成立或是不成立這樣極端的值所能描述 不適合用來處理不確定性 (uncertainty) 1965年Zadeh提出模糊集合 (fuzzy sets) 與 模糊邏輯 (fuzzy logic) 的概念描述真實世界中許多不明確、含糊不清的事物 41模糊集合與模糊邏輯模糊集合 (fuzzy sets)傳統集合:只有是與否兩種情況模糊集合:每個元素
21、均有特定的歸屬程度例如:160cm(0.0) 170cm(0.5) 175cm(0.75) 180cm(1.0)模糊邏輯(fuzzy logic) 利用模糊定量詞(fuzzy quantifiers) 來表達大多數的、相當多、不很多模糊命題(fuzzy propositions) 湯姆很年輕或是明天可能下雨 42模糊資料探勘包括四個主要的處理程序:模糊化(fuzzification)模糊資料探勘 (Fuzzy Data Mining)模糊推論(fuzzy inference)解模糊化(defuzzification)。 43模糊化主要是將所有語言變數的實際輸入值(如年齡、 年收入)透過語言值
22、(linguistic value)的模糊成員函數 (membership function)求得模糊輸入值 (fuzzy input)後,接著進行資料探勘 找出大量資料當中的模糊規則,進行模糊推論, 得出模糊輸出值,最後再經由解模糊化將推論完 成所獲得的最終結果值轉換為另一個語言變數的語言值 44模糊化範例範例定義年齡成員函數,輸入數值 “約翰是67歲”,取67歲平行於縱軸,分別與年輕和年老 函數曲線相交約翰年輕的程度為0.46 ,約翰年老的程度為0.92年老年青1.00.920.4600 67 100年齡程度45模糊資料探勘 模糊化語句所呈現的知識規則稱為模糊規則模糊規則 Rj 可表示其中
23、 xi (i = 1, 2, ., n) 為輸入,y 為輸出;輸入 語意值 Aij 和輸出語意值 Bj (j = 1, 2, , N) 分別 是定義於 Xi 和 Y 的模糊集合範例IF 股價近期上漲AND 上漲持續時間短AND 成交量變小 THEN 未來股價會可能會持續上漲46模糊推論主要以近似推理 (approximate reasoning) 的方式,根據知識庫中的規則進行模糊推論得出結果運算方式將模糊規則的前件部 (antecedent part) 各項輸入值與語意值 所得進行模糊匹配轉換成模糊集合後規則庫中有關的模糊邏輯運算子AND、OR、NOT, 便等效於模糊集合的交集、聯集、補集運算, 所得的結果稱為該條規則的觸發強度 (firing strength) 47模糊推論過程觸發強度 (firing strength):代表第j條規則的觸發強度,交集 代表AND運算 經由觸發強度可得出第j個模糊基底函數 48模糊推論範例STEP1 假設模糊規則如下:規則 1:IF X
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 防汛抗旱宣传横幅标语(60句)
- 颐和园导游词100字(34篇)
- 建筑冬季施工方案(30篇)
- 建筑工地工程合同
- 幼儿园老师周工作总结7篇
- (一模)长春市2025届高三质量监测(一)语文试卷
- 孙子给奶奶带来的快乐作文
- DB12 765-2018 生物质成型燃料锅炉大气污染物排放标准
- 贵州省毕节地区(2024年-2025年小学五年级语文)人教版摸底考试(下学期)试卷及答案
- 2023年变电站保护测控装置投资申请报告
- 旅游景区消防安全培训
- 电商行业直播带货营销策略方案
- 小学四年级数学三位数除以两位数过关考核口算题带答案
- 糖尿病健康知识宣教
- 八上历史全册知识梳理
- 2024年湖南湘潭市公安局招聘留置看护巡逻警务辅助人员28人历年高频难、易错点500题模拟试题附带答案详解
- 2024年银行考试-招商银行考试近5年真题集锦(频考类试题)带答案
- 2024-2025学年 浙教版七年级数学上册期中(第1-4章)培优试卷
- CHT 1027-2012 数字正射影像图质量检验技术规程(正式版)
- 国际经济与贸易专业生涯人物访谈报告
- 《扣件式钢管脚手架安全技术规范》JGJ130-2023
评论
0/150
提交评论