决策树的重要性_第1页
决策树的重要性_第2页
决策树的重要性_第3页
决策树的重要性_第4页
决策树的重要性_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、决策树的重要性第1页,共29页,2022年,5月20日,8点42分,星期一決策樹的重要性在商業界最常用的方法之一第2页,共29页,2022年,5月20日,8点42分,星期一Decision Tree 之意義第3页,共29页,2022年,5月20日,8点42分,星期一Decision Tree 之意義If We have much moneyANDWe are buying a gift for an adultTHEN Buy a carIf We have much moneyANDWe re buying a gift for a childTHEN Buy a computer第4页,共

2、29页,2022年,5月20日,8点42分,星期一YesYesYesYesYesYesYesYesYesYesYesYesYesYesYesYesNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoYes有弦?用吹的?彎如弓的?演奏時要用下巴夾的?用彈的?有鍵盤的?木管樂器?有簧片?有雙簧片?銅管樂器?常用於通俗樂器中?比演奏者高?常用於通俗樂器中?有十根弦以上?打擊樂器?有弦?鼓棒?有音鎚的?曲型的?筆直的?彈奏?小提琴中提琴低音提琴大提琴不知道豎琴詩琴揚琴不知道電子樂器風琴Yes撥弦古鋼琴鋼琴YesNoYesNo第5页,共29页,2022年,5月20日,8点42分,星期

3、一名詞解釋根節點葉節點內部節點第6页,共29页,2022年,5月20日,8点42分,星期一決策樹本質:是一個分類器收入年齡職業分類器好普通差銀行客戶: 信用分類“信用”為 目標屬性:第7页,共29页,2022年,5月20日,8点42分,星期一決策樹決策樹優點:可以萃取分類規則例如:銀行新客戶的信用分類問題決 策 樹X1X2Y第8页,共29页,2022年,5月20日,8点42分,星期一決策樹例子1:信用好, 2:信用差收入年齡X2X1 22 2 222 2 11 1 11307万5万3万年齡1111112222222年齡30收入1122221111222 收入5万單純資料混亂資料第9页,共29页

4、,2022年,5月20日,8点42分,星期一例子: 舊客戶購買之歷史資料No性別學院購買產品1男商電腦2男人文手機3女商電腦4女人文手機新客戶:女生、商學院,請問她最可能購買的產品?第10页,共29页,2022年,5月20日,8点42分,星期一決策樹例子1:電腦, 2:手機學院 性別1212男女學院2211 商 人文單純資料男女商人文電腦電腦手機手機性別混亂資料(混亂度高)(混亂度低)第11页,共29页,2022年,5月20日,8点42分,星期一決策樹目標屬性:購買產品類別輸入屬性:性別、學院、年級性別年級學院購買產品購買產品第12页,共29页,2022年,5月20日,8点42分,星期一混亂度

5、定義:一群物件的 目標屬性 混亂的程度三種計算方式:P1 * P2 01/4P1 :這群物件目標屬性值為 1的機率P2 :這群物件目標屬性值為 2的機率Min (P1 , P2) 01/2Entropy: - P1log2 P1 - P2log2 P2 01第13页,共29页,2022年,5月20日,8点42分,星期一練習: 計算混亂度1, 1, 1, 11, 1, 1, 21, 1,2, 2Min (P1 , P2)P1 * P2第14页,共29页,2022年,5月20日,8点42分,星期一決策樹精神挑選一輸入屬性,能將目標屬性的混亂度降到最低第15页,共29页,2022年,5月20日,8点

6、42分,星期一決策樹演算法(Step1) 選擇一輸入屬性,將所有objects作分類(Step2) 計算分類後之 平均混亂度 (Step3) 選擇能使混亂度降得最低的屬性,作為節點之判別屬性(Step4) 反覆(Step13) ,直到停止條件第16页,共29页,2022年,5月20日,8点42分,星期一停止條件當葉節點滿足下列條件 即停止1. 所有物件的目標屬性,皆為同一類2. 沒有輸入屬性可以降低混亂度第17页,共29页,2022年,5月20日,8点42分,星期一決策樹模型: 三階段模式訓練階段將決策樹訓練出來測試階段測試決策樹的準確性運用階段可對一未知資料作分類第18页,共29页,2022

7、年,5月20日,8点42分,星期一Decision Tree 之準確率利用 ”測試資料” 作測試第19页,共29页,2022年,5月20日,8点42分,星期一練習ageincomestudentcredit_ratingbuys_computer=30highnofairno40mediumnofairyes40lowyesfairyes40lowyesexcellentno3140lowyesexcellentyes=30mediumnofairno40mediumyesfairyes40mediumnoexcellentno第20页,共29页,2022年,5月20日,8点42分,星期一ag

8、e?income?credit rating?fairexcellent40nonoyesyesyes3040Root NodeChild NodeLeaf Nodehmlno第21页,共29页,2022年,5月20日,8点42分,星期一決策樹相關演算法ID3 : (前面所教)Quinlan 1979輸入屬性為離散C4.5 : (IBM Mining 軟體所採用)Breiman 1984輸入屬性可為連續第22页,共29页,2022年,5月20日,8点42分,星期一決策樹 mining 過程A 決定想解決的問題B 決定目標屬性與輸入屬性C 決定資料範圍D 資料前處理或許需要將連續變數改為”離散”

9、變數E 建構決策樹,並解釋結果F 若無法解釋,應回到 A 或 B 再思考第23页,共29页,2022年,5月20日,8点42分,星期一決策樹專案 注意事項 (1/2)目標變數應為 ”離散(類別)” 變數值不能太多輸入變數關聯性太高不適合使用預測所得高低: 輸入變數為 年齡, 職業, 繳稅高低預測打擊率高低: 輸入變數為 年齡, 守備位置, 長打率, 月薪第24页,共29页,2022年,5月20日,8点42分,星期一決策樹專案 注意事項 (2/2)目標屬性與輸入屬性關聯性太低例如:樂透獎輸入:年,月,週,日輸出:樂透號碼第25页,共29页,2022年,5月20日,8点42分,星期一作業 (碩專)時間:2 週請於 3 / 24 (一)前,將報告 mail 給老師與上課成員報告請用Word檔撰寫,約36頁應說明每位組員的貢獻若有問題詢問,每位組員皆可回答第26页,共29页,2022年,5月20日,8点42分,星期一附錄第27页,共29页,2022年,5月20日,8点42分,星期一下週報告(大學部)時間:8分鐘討

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论