机器学习-第3天决策树分类算法与应用_第1页
机器学习-第3天决策树分类算法与应用_第2页
机器学习-第3天决策树分类算法与应用_第3页
机器学习-第3天决策树分类算法与应用_第4页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1. 1.1 决策树1.2 :1. 1.1 决策树1.2 :实质:通、长相、收入和是对分为两个类别:见和不对的要求是:30 的收入高1.3 1.3.1 假 1.3 1.3.1 假 2 来样决策树的评价所用的定方法为计算每种划分情况的信息熵增益如决策树的评价所用的定方法为计算每种划分情况的信息熵增益如果经过某个选定的属性进行数据划分后的信息熵下降最多,则这个划分属性是最优选1.3.2 属性划分选择(即构造决策树)-(1/2*log(1/21/2*log(1/2因此选择 A0 e2*2/40的和:E = e1*2/4 +A0G(SA0)=SE100,21个正例,1个负例。信息熵为:e11/20,2

2、1个正例,1个负例。信息熵为:e11/2*log(1/21/2*log(1/211,31个正例,1个负例。信息熵为:e21/2*log(1/21/2*log(1/21因此选择 A1 e2*2/41的=+A1G(SA1)=SE111.4 1.4.2 2. 2.1 2. 2.1 2.2 1.55060406060806090701.980#-*-coding:utf-8-*- import numpy as np import scipy as spfromsklearnimportfrom sklearn.metrics import precifrom sklearn.metrics impo

3、rt classification_report fromsklearn.cross_validationimporttrain_test_split data& ; = labels = withmldata1.txt)asforlinein data.append(float(tk) for tkx = labels=y = 0/1 使用信息熵作为划分标准,对决策树进行训练 clf = tree.Deci withopen(tree.dotwas 系数反映每个特征的。越大表示该特征在分类中起到的作用越大 answer=60.60.80.50.40.80.90.60. pr (x_train

4、) pr (answer) pr pr (np.mean(answer=率, recall, thresholds = precianswer = clf.predict_proba(x):,1 _names=thin,2.4 2.4 0 label=X1 12 label=X1 2 ;3 label=X0 3 ;label=entropy = 0.0000nsles = 2nvalue = 0.2., sh=box; 3 - 4 ;label=entropy=les=1nvalue=0.,=boxavg/可以看到,对训练过的数据做测试,准确率是100%。但是最后将所有数据进现1 个测试样本分类错误。3- 53- 5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论