数据挖掘中分类方法综述_第1页
数据挖掘中分类方法综述_第2页
数据挖掘中分类方法综述_第3页
数据挖掘中分类方法综述_第4页
数据挖掘中分类方法综述_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、*本文系国家自然科学基金资助项目“用于数据挖掘的神经网络模型及其融合技 天津大学电气与自动化工程学院 天津 300072 统分类算法和基于软计算的分类法两类,主要包括 逻辑、遗传算法、粗糙集和神经网络的分类算法。通过论述以上算法 PReviewonClassificationAlgorithmsinDataMiningQian 数据挖掘中分类方法综述*1 前 言 学、数据库、知识获取与表达、专家系统、神经网络、模糊 是数据挖掘中最有应用价值的技术之一,其 关键,是一 中的基础和核心技术。其实,该技 前,数据分类 2 传统的数据挖掘分类方法2.1 数据分类中相似函数的研究 足距离三角不等式 使取

2、决于特征量,用于相似性判定函数 量特征,人们提出了简单匹配系 续半离散以及同质 个类别之间 主要包括最近距离函数、质2.2 传统数据分类方法类别样本赋予类别标签。在其学 法 该算法1的构造分类器可分为两步:第i若有多条 法 Apriori1,通过迭代检索出数据集中所有的频繁项集,即支持度的优点是发现的规则相对较全面且分类准确度 集合以及各项支持度,并按支持度大小降序排列 而在紧密性方面,它能剔除不相 2.2.2 K 近邻(KNN 分类算法 KNN 方法基于类比学习,是一种非参数的分类 较高的分 KNN索样本空 KNN。首 别样本需要分类时,在计算所有存储样本和未 缺点, 计算,可对样本集进行编

3、辑处 提高计算效率。截止目前,其中最主要的方法有2:近邻规则浓缩法。其编辑处理 种方法包括建立一个原型和在原始训练样本集中调整几个有限的数 除均可能需要重新 2.2.3 决策树分类算法 决策树是以实例为基础的归纳学习算法。它是一种从 中推理出决策树形式的分类规则。它采用自顶向下的递 判断该节点向下 保持决策树的准 有最大信息量属性而建立决策树 单、分类速。 Q 中寻找当前结点的最优分裂标 2.2.4 贝叶斯分类算法 贝叶斯分类是统计学分类方法,它是一类利用概率统 设的贝叶斯改进分类算法,如 TAN法中任意属性 朴素贝叶斯网络的基础上增加属性对之间的关联来实现 系,把类别属性作为 性都作为它的子

4、节点。属性 Ai与Aj 之间的边意味着属性 AijTAN 算法考虑了n 个属性中两两属性间的关联性,对属性之间独立性的假设有 3 基于软计算的数据分类方法糊逻辑用于处理不完整、不精确 形决策、泛化学习、自适应、自组织 效搜索、复杂目标对象的自适应和优化; 遗传算法述,能有效处理不精确、不一致、不完整等 表现出越来越多的无标签性、不确定性、不完整性、非 却可为此提供 传统数据挖掘方法的结合逐渐成为 种刻划不完整和不确定性数据的数学工具6,不需要先验知识, 分类技术相结合建立 粗糙集理论将分类能力和知识联系在一起, 表示分类,知识因而表示为等价关系集 R 对离散空间U 的 不变集和最小规则集的理论

5、,即约简算法 要性并排序,在泛化关 表达形式;在保持信息表中决策属 简,但对每一个 的规则,常见的值 、启发式值约简、基于决策矩阵的值约简算法等、增量式 统计信息对基本 型。高复杂度问题时具备独特优势, 来的高效随机搜索与优化方法。它以适应值函数为依 ,在全局范围 索的优点,避免了大多数经典优 部最优的缺陷,可以取得较好的 在运算时随机的多样性群体和交叉运算利于扩展搜索 解周围探索。遗传算法由于通过保 遗传算法的应用主要集中在分类算法7等方面。其基本思路如下:数据分类问 盖,从而挖掘 数据分类,首先要对实际问题进 模糊逻辑学最基本概念是隶属函数,即以一个值 程度,并以此为基础 质、分解和扩展原

6、理、算子、模糊度、模糊集的近似程 分类操作也需要向量模糊相似系 余弦法、相关系数 最小法、绝对值指数法、指数相似系 模糊分类方法可以很好地处理客观事务类别属性的不明确性,主要包括8传递 糊方法等;但人们更多地将模糊方法和 神经网络在于:神经网络可以任意精度逼 本身属于非线形模型,能够适应各种复杂的数据关系; 能够比很多分类算法更好地适应数据空间的变 的某些功能,具备“智能”的 网络模型的不同而进行区分, 学习矢量化神经网络。目前神经网络分类算法研究较多集中在以 BP其 于平稳环境,学习算法计 及学习能力之间存在冲 络 借鉴了人脑的物理结构,存储在神经网络中的知识往往以连接权值的形式表现出来,4 结 语 非线形变换,而输出层则提供从隐含 。这种神经网络对训练模式的表示阶数有较低的敏感性,但 几何中心或者特征进行聚合的独特性质。它由输入层和竞争 争层之间实现全连 泡大小,该结构具备拓扑结构保持、概率 极大地影响了其在实际中的使用。针对 学习矢量化神经网络由输入层、竞争 类别,竞争层的每一个神经元代表某个类 性层和竞争层之间用矩阵实现子类和类之间的映射关系。竞争 础技术之一,本文对的常见数据分类算法进行了综述;从而便于研究者对已 。未来数据分类算法的研究则更多地集中在智 编码、蚁群优化等智能 c 组成的论文评 3.3.3 资源收

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论