下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.华工人工智能ID3算法问题详解基于信息熵的ID3算法ID3算法是一个典型的决策树学习算法,其核心是在决策树的各级节点上,使用信息增益方法作为属性的选择标准,来帮助确定生成每个节点时所应采用的合适属性。这样就可以选择具有最高信息增益属性作为当前节点的测试属性,以便使用该属性所划分获得的训练样本子集进行分类所需信息最小。定义1设U是论域,是U的一个划分,其上有概率分布,则称:为信源X的信息熵,其中对数取以2为底,而当某个为零时,则可以理解为。定义2 设是一个信息源,即是U的另一个划分,则已知信息源X是信息源Y的条件熵H(Y|X)定义为:其中为事件发生时信息源Y的条件熵。在ID3算法分类问题中,每
2、个实体用多个特征来描述,每个特征限于在一个离散集中取互斥的值。ID3算法的基本原理如下:设是n维有穷向量空间,其中是有穷离散符号集。E中的元素称为样本空间的例子,其中,。为简单起见,假定样本例子在真实世界中仅有两个类别,在这种两个类别的归纳任务中,PE和NE的实体分别称为概念的正例和反例。假设向量空间E中的正、反例集的大小分别为P、N,由决策树的基本思想,ID3算法是基于如下2种假设:(1)在向量空间E上的一棵正确的决策树对任意样本集的分类概率同E中的正、反例的概率一致。(2)根据定义1,一棵决策树对一样本集做出正确分类,所需要的信息熵为:如果选择属性A作为决策树的根,A取V个不同的值,利用属
3、性A可以将E划分为V个子集,其中包含了E中属性A取值的样本数据,假设中含有个正例和个反例,那么子集所需要的期望信息是,以属性A为根所需要的期望熵为:其中,以A为根的信息增益是:ID3算法选择最大的属性作为根节点,对的不同取值对应的E的V个子集递归调用上述过程生成的的子节点。ID3算法的基本原理是基于两类问题的,但是它很容易被扩展到多类问题。设样本集S共有C类样本,每类的样本数为。如果以属性A作为决策树的根,A具有V个值,它将E划分为V个子集。假设中含有的第j类样本个数为,那么子集的信息量,即熵为:以A为根分类后的信息熵为:选择属性,使最小,信息增益将最大。实际上,能正确分类训练集的决策树不止一
4、棵。ID3算法能得出节点最小的决策树。在ID3算法的每一个循环过程中,都对训练集进行查询以确定属性的信息增益,然而此时的工作只是查询样本的子集而没有对其分类。为了避免访问全部数据集,ID3算法采用了称为窗口(Windows)的方法,窗口随机性是从数据集中选择一个子集。采用该方法会大大加快构建决策树的速度。ID3算法的主算法非常简单,首先从训练集中随机选择一个窗口(既含正例又含反例的样本子集),对当前的窗口形成一棵决策树;其次,对训练集(窗口除外)中例子用所得到的决策树进行类别判定,找出错判的例子。若存在错判的例子,把他们插入窗口,转到建树过程,否则停止。算法每迭代循环一次,生成的决策树将会不同
5、。ID3算法以一种从简单到复杂的爬山策略遍历这个假设空间,从空的树开始,然后逐步考虑更加复杂的假设。通过观察搜索空间和搜索策略,我们可以发现,它同样存在着一些优势和不足。ID3算法的优点:(1)ID3算法的假设空间包含所有的决策树,搜索空间也是完整的假设空间。因为每个有限离散值函数可以被表示为某个决策树,所以它避免了假设空间可能不包含目标函数的风险。(2)ID3算法在搜索的每一步都使用当前的所有训练样本,以信息增益的标准为基础决定怎样简化当前的假设。使用信息增益这一统计属性的一个优点是大大降低了对个别训练样例错误的敏感性,因此,通过修改算法可以很容易地扩展到处理含有噪声的训练样本。(3)ID3
6、算法采用自顶向下的搜索策略,搜索全部空间的一部分,确保所作的测试次数较少,分类速度较快。算法的计算时间与样本例子个数、特征个数、节点个数三者的乘积呈线性关系。(4)ID3算法与最基础的决策树算法一样,非常适合处理离散值样本数据,并且利用树型结构的分层的效果,可以轻而易举地提取到容易理解的If-Then分类规则。(5)由于引进了信息熵的概念,ID3算法能得出节点数最少的决策树。ID3算法存在的不足之处(1)当遍历决策树空间时,ID3算法仅维护单一的当前假设,它失去了表示所有一致假设带来的优势。比如,它不能判断有多少其他的决策树也是与现有的训练数据一致的,或者使用新的实例查询来最优地区分这些竞争的
7、假设。(2)ID3算法在搜索中不进行回溯,每当在树的某一层选择了一个属性进行测试,它不会再回溯重新考虑这个选择。这样,算法容易收敛到局部最优的答案,而不是全局最优的。(3)ID3算法使用的基于互信息的计算方法依赖于属性值数目较多的属性,但是属性值较多的属性不一定是分类最优的属性。(4)ID3算法是一种贪心算法,对于增量式学习任务来说,由于它不能增量地接受训练样例,使得每增加一次实例都必须抛弃原有的决策树,重新构造新的决策树,造成极大的开销。所以,ID3算法不适合于渐进学习。(5)ID3算法啊对噪声较为敏感。Quinlan定义噪声未训练样本数据中的属性值错误和分类类别错误。(6)ID3算法将注意力集中在属性的选择上,而这种方式已受到一些
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海科技大学《数理逻辑与图论》2023-2024学年第一学期期末试卷
- 上海建桥学院《资源与环境信息管理技术含实训》2023-2024学年第一学期期末试卷
- 家庭假期安全教育的方法与途径
- 教师语文述职报告范文
- 建筑公司实践报告范文
- 2024年中国接插式消火栓按钮市场调查研究报告
- 2024年中国成核透明剂市场调查研究报告
- 信贷风控贷前调查培训
- 2024年中国天然乳胶枕芯市场调查研究报告
- 上海工艺美术职业学院《运动生物力学实验》2023-2024学年第一学期期末试卷
- 锅炉延期检验申请书
- 养老机构安全风险风险分级管控清单
- 液位仪安全操作规程
- ZZ028 中职法律实务赛项赛题-2023年全国职业院校技能大赛拟设赛项赛题完整版(10套)
- 深基坑工程设计方案专项论证意见
- 青岛版二年级数学下册《周期问题》教案
- GB/T 307.1-2005滚动轴承向心轴承公差
- GB/T 23468-2009坠落防护装备安全使用规范
- GB/T 14801-2009机织物与针织物纬斜和弓纬试验方法
- 国家开放大学电大《计算机应用基础(本)》终结性考试试题答案(格式已排好)任务一
- 2023年惠州市交通投资集团有限公司招聘笔试题库及答案解析
评论
0/150
提交评论