数据挖掘技术研究_第1页
数据挖掘技术研究_第2页
数据挖掘技术研究_第3页
数据挖掘技术研究_第4页
数据挖掘技术研究_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 它融合了数据库技术、机器学习和人工智能等多个学科。介绍了数据挖掘 技术的定义、任务类型和常用的数据挖掘方法,以及数据挖掘技术的实际 :数据挖掘;应用;任务;规则在计算机技术快速发展的时代,数据库技术与计算机网络也得到了普 遍的应用,从而人们利用计算机技术处理数据的能力也显著增强,这就造 成了数据的迅速增加与数据分析方法滞后之间的矛盾也越来越明显。人们 总是希望通过分析现有的数据,挖掘出海量的数据信息,以便更好地利用 这些数据。然而,目前已有的数据分析技术已经无法满足人们对数据进行 深层次挖掘的需要,数据处理的效率也很低。数据量的快速增长对数据的 存储、管理和分析提出了更高的要求,急需一种新的

2、技术,能够智能化的 从大量的数据中提取出有用的信息,于是数据挖掘技术应运而生,并在各 随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的 信息和知识的过程。数据挖掘是近年来随着数据库技术和人工智能技术的 发展而出现的一种多学科交叉的全新信息技术,随着计算机网络的发展和 描述模式是对数据中存在的规律、规则作出一种描述,或者根据数据间的 相似性对数据进行分组,一般不能直接用于预测;预测模式能够根据已有 对象的属性、特征,建立不同的组类来描述事物。分类的目的是学会一个 分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的 某一个;聚类模式。聚类是把一组个体按照相似性归成若干

3、类别,即 “物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的 的个体间的距离尽可能的大。聚类方法包括统计方法、 机器学习方法、神经网络方法和面向数据库的方法;关联规则。关联规 量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的 一类重要的、可被发现的知识。关联可分为简单关联、时序关联和因果关 联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信 使得所挖掘的规则更符合需求;概念描述。概念描述就是对所选择的数 据给出一个简单明了的描述;提供对于两个或两个以上的数据进行比较的 结果。概念描述可以分为特征性描述和区别性描述两种,特征性表述用来 自动预测趋势和行

4、为。数据挖掘可以自动地在大量的数据库中检测出预 测性信息。预测的目的是从历史数据纪录中自动推导出对给定数据的推广 描述,从而能对未来数据进行预测。比如市场预测问题,数据挖掘使利用 以前促销的相关数据来寻找未来投资中回报最大的用户,当然也能预测破 产以及判定对特定事件最可能做出反应的客户群体;偏差检测。偏差检测即孤立点检测,孤立点检测是数据挖掘中一个重要方面,用来发现“小 相对于聚类而言),即数据集中与其它数据明显不同的对象。数 偏差包括很多潜在的知识,如分类中的反常实例、不符合规则的特例、检 最常用的数据挖掘技术有:神经网络:指由大量神经元互连而成的 网络,具有分布存储、联想记忆、大规模并行处

5、理、自组织、自学习、自 适应等功能。利用神经网络可以完成分类、聚类、特征挖掘等多种数据挖 掘任务。神经网络在实际生活中的应用主要有:电子领域中的集成电路芯 片设计、娱乐领域中的动画设计、银行业中的贷款评估器、国防领域中的 目标跟踪等领域;决策树:是用树形结构来表示决策集合,这些决策集 合通过对数据集的分类产生规则。决策树是一棵树,树的根节点是整个数 据集合空间,每个分节点是对一个单一变量的测试,该测试将数据集合空 间分割成两个或更多块。每个叶节点是属于单一类别的记录。首先,通过 训练集生成决策树,再通过测试集对决策树进行修剪。决策树的功能是预 言一个新的记录属于哪一类;遗传算法:是一种新的优化

6、技术,基于生 物进化的概念设计了基因组合、交叉、变异和自然选择等过程来达到优化 的目的。在应用中,需要把数据挖掘任务表达为一种搜索问题,从而发挥 可用作聚类、偏差分析等数据挖掘任务;规则推导:通过统计方法归纳 和提取有价值的“If-Then”规则。规则推导技术在数据挖掘中被广泛使 采用上述技术的某些专门的分析工具已经发展了十多年,现在,这些 (1)在银行业中的应用处理金融事务通常需要搜集和处理大量的数据,鉴于银行在金融领域 的地位、工作性质、业务特点和激烈的市场竞争,使得银行比其它领域对 信息化、电子化的需求更为迫切。利用数据挖掘技术可以帮助银行产品开 (2)在零售业中的应用(3)在电信业中的应用国家对电信业的开放和新兴计算与通信技术的发展,电信市 场得到了迅速的扩张并越发竞争激烈。因此,有必要利用数据挖掘技术来 帮助理解商业行为、确定电信模式、捕捉盗用行为、更好地利用资源和提 高服务质量。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式 等信息进行分析,还可以通过挖掘进行盗用模式分析和异常模式识别,从 (4)在生物学中的应用生物信息或基因数据挖掘对人类意义重大。例如,基因的组合千变万 能否找出其中不同的地方,并对这些不同之处进行改变,使之成为正常基 因?这都需要数据挖掘技术的支持。数据挖掘在生物信息或基因的中的应 用和通常的数据挖掘相比,无论是在数据的复

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论