归纳算法可扩展性算法、研究综述_第1页
归纳算法可扩展性算法、研究综述_第2页
归纳算法可扩展性算法、研究综述_第3页
归纳算法可扩展性算法、研究综述_第4页
归纳算法可扩展性算法、研究综述_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022-2-191归纳算法可扩展性算法研究综述主讲人:蔡伟杰2022-2-192可扩展性研究综述 为什么需要进行可扩展性研究 1训练集大,准确率上升 2为了寻找到小事件情况 3其他需要多大的数据量? 100M-1G2022-2-193可扩展性研究综述 什么是可扩展性? 时间复杂度: 和记录个数、属性之间的关系。 对空间的需求: 避免超过主存的情况。 模型结果的质量: 质量不能明显的降低。2022-2-194可扩展性研究综述 可扩展性方法分类: 设计一个快速算法 限制模型空间 、强大的启发式搜索 、算法、编程上的优化 、并行方法 数据分片 选择一个实例子空间 、选择一个属性子空间 、对子空间顺

2、序进行处理 、对子空间并行进行处理 关系性表达 用关系的方式表达数据 、将数据挖掘整合到数据库管理中 2022-2-195可扩展性研究综述 设计一个快速算法: 算法时间复杂度容忍极限 O(e3/2) 数据挖掘就是在一个模型空间中寻找某个模型,该模型在某些标准下表现得很好。2022-2-196可扩展性研究综述 限制模型搜索的空间 线形回归方法、简单神经元、单层决策树(decision stumps)。 搜索空间小而且效果也不坏。 2022-2-197可扩展性研究综述 强大的启发式搜索: 大数据量情况,不允许生成多个模型之后再进行选择 决策树分而治之的方法:ID3、C4.5复杂度O(ea2)。 规

3、则集(rule sets)。但是其效率较差O(e3)甚至更高。 MetaDENDRAL-style rule 2022-2-198可扩展性研究综述 算法、编程优化 : 使用有效的数据结构(bit vectors,hash tables,binary search trees)和聪明的编程技巧 对MetaDENDRAL-style rule的优化 对决策树的优化: 充足的统计信息 2022-2-199可扩展性研究综述 并行处理 : 搜索空间的并行处理 : 使用共享内存多处理器很好的实现了决策树的搜索空间的并行处理。 并行匹配: 对节点的评估代价是很高的,同时也有很大的并行性。 数据分割之后的并行

4、处理 2022-2-1910可扩展性研究综述 数据分割: 选择一个子集: 只选择一个子集进行处理 : 抽样方法: 抽样和准确率的关系: 主动和被动抽样:2022-2-1911可扩展性研究综述 数据分割:选择一个属性子空间 当前属性选择工作的焦点 训练集较小的时候 ,降低结果Overfitting 领域专家的交互 ,选择属性 选择足够多的属性 ,再去除2022-2-1912可扩展性研究综述 数据分割: 对子空间顺序进行处理 并行计算子空间 2022-2-1913可扩展性研究综述 关系表达 挖掘小数据的速度更快; 扁平化极大的数据集往往不可行 方法:用关系的方式表达数据数据挖掘和数据库管理系统的结合2022-2-1914可扩展性研究综述 挖掘关系数据: 对层次数据的直接挖掘 挖掘多表数据库 ILP研究数据以关系方式存的知识发现 数据挖掘和DBMS结合 将DBMS作为一个简单的数据源 将对数据进行计算的部分放入DBMS Cache-Mine 将数据挖掘操作作为一个函数(UDF)2022-2-1915四种和数据库结合方法的比较2022-2-1916可扩展性研究综述 分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论