决策树的重要性_第1页
决策树的重要性_第2页
决策树的重要性_第3页
决策树的重要性_第4页
决策树的重要性_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

決策樹分類法中原資管所李維平老師決策樹的重要性在商業界最常用的方法之一DecisionTree之意義DecisionTree之意義If WehavemuchmoneyAND WearebuyingagiftforanadultTHEN BuyacarIf WehavemuchmoneyAND WerebuyingagiftforachildTHEN BuyacomputerYesYesYesYesYesYesYesYesYesYesYesYesYesYesYesYesNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoYes有弦?用吹的?彎如弓的?演奏時要用下巴夾的?用彈的?有鍵盤的?木管樂器?有簧片?有雙簧片?銅管樂器?常用於通俗樂器中?比演奏者高?常用於通俗樂器中?有十根弦以上?打擊樂器?有弦?鼓棒?有音鎚的?曲型的?筆直的?彈奏?小提琴中提琴低音提琴大提琴不知道豎琴詩琴揚琴不知道電子樂器風琴Yes撥弦古鋼琴鋼琴YesNoYesNo名詞解釋根節點葉節點內部節點決策樹本質:是一個分類器收入年齡職業…分類器好普通差銀行客戶:信用分類“信用”為

目標屬性:決策樹決策樹優點:可以萃取分類規則例如:銀行新客戶的信用分類問題決策樹X1X2Y決策樹例子1:信用好,2:信用差收入年齡X2X1222222211111307万5万3万年齡1111112222222年齡<30年齡>30收入1122221111222

收入<5万

收入>5万單純資料混亂資料例子:舊客客戶購買之歷歷史資料No性別學院購買產品1男商電腦2男人文手機3女商電腦4女人文手機新客戶:女生生、商學院,,請問她最可可能購買的產產品?決策樹例子1:電腦,2:手機學院性別1212男女學院2211商人文單純資料男女商人文電腦電腦手機手機性別混亂資料(混亂度高)(混亂度低)決策樹目標屬性:購購買產品類別別輸入屬性:性性別、學院、年級性別年級學院……購買產品購買產品混亂度定義:一群物物件的目標屬性混亂的程度三種計算方式式:P1*P2[0~1/4]P1:這群物件目標屬性值為1的機率P2:這群物件目標屬性值為2的機率Min(P1,P2)[0~1/2]Entropy:-P1log2P1-P2log2P2[0~1]練習:計算算混亂度1,1,1,11,1,1,21,1,2,2Min(P1,P2)P1*P2決策樹精神挑選一輸入屬性,能將目標屬性的混亂度降到最低決策樹演算法法(Step1)選擇一一輸入屬性,將所有objects作分類(Step2)計算分分類後之平均混亂度(Step3)選擇能使混亂度降得最低的屬屬性,作為節點之判判別屬性(Step4)反覆(Step1~3),直到停止條件停止條件當葉節點滿足足下列條件即即停止1.所有物物件的目標屬性,皆為同一類2.沒沒有輸入入屬性可可以降低低混亂度決策樹模模型:三三階段段模式訓練階段將決策樹樹訓練出出來測試階段測試決策策樹的準準確性運用階段可對一未未知資料料作分類類DecisionTree之準準確率利用””測試資資料”作作測試試練習ageincomestudentcredit_ratingbuys_computer<=30highnofairno<=30highnoexcellentno31…40highnofairyes>40mediumnofairyes>40lowyesfairyes>40lowyesexcellentno31…40lowyesexcellentyes<=30mediumnofairno<=30lowyesfairyes>40mediumyesfairyes<=30mediumyesexcellentyes31…40mediumnoexcellentyes31…40highyesfairyes>40mediumnoexcellentnoage?income?creditrating?fairexcellent<=30>40nonoyesyesyes30~40RootNodeChildNodeLeafNodehmlno決策樹相相關演算算法ID3:(前面所所教)Quinlan1979輸入屬性性為離散C4.5:(IBMMining軟軟體所採採用)Breiman1984輸入屬性性可為連續決策樹mining過程程A決定定想解決決的問題題B決定定目標屬屬性與輸輸入屬性性C決定定資料範範圍D資料料前處理理或許需要要將連續變數數改為”離散”變數E建構構決策樹樹,並解解釋結果果F若無無法解釋釋,應回回到A或B再再思考決策樹專專案注注意事項項(1/2)目標變數數應為””離散散(類別別)”變變數值不能太太多輸入變數數關聯性太太高不適適合使用用預測所得得高低:輸入入變數為為年齡齡,職職業,繳繳稅高高低預測打擊擊率高低低:輸輸入變數數為年年齡,守守備位位置,長長打率率,月月薪決策樹專專案注注意事項項(2/2)目標屬性性與輸入入屬性關關聯性太太低例如:樂樂透獎獎輸入:年年,月,,週,日日輸出:樂樂透號碼碼作業(碩專)時間:2週請於3/24(一)前,將將報告mail給給老師與與上課成成員報告請用用Word檔撰撰寫,約約3~6頁應說明每每位組員員的貢獻獻若有問題題詢問,,每位組組員皆可可回答附錄下週報告告(大學學部

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论