数据挖掘重点_第1页
数据挖掘重点_第2页
数据挖掘重点_第3页
数据挖掘重点_第4页
数据挖掘重点_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘重点整理KDD过程瑟了解应用领域:相关的预备知识和应用目标彩创建一个目标数据集:数据选择瑟 数据清理和预加工(可能占用60%精力)彩 数据变换:发现有用的特征,维/变量的变换,常量的表示瑟 选择数据挖掘功能:汇总,分类,关联,聚集彩选择挖掘算法瑟 数据挖掘:搜索兴趣模式 TOC o 1-5 h z 憋模式评估和知识表达:可视化,变形,去掉冗余模式等等/瑟使用发现的知识、数据挖掘与数据分析方法的区别:i/yDM与数据分析(如查询、报表、联机应用分析)的本质区别如下:彩数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识。瑟数据挖掘得到的信息应有事先未知、有效和可实用3个特征。彩数据挖掘技

2、术及适用于小型数据集,也适用于超大数据集。影响数据挖掘发展趋势的因素数据发展趋势瑟 在过去20年来数据成爆炸式增长,数据量可能一增加了 610个数量级。通过数据挖掘 技术,可以自动地分析这些数据,过滤不相关的信息,并提取有意义的知识。硬件发展趋势彩数据挖掘需要在大型数据集上进行数值和统计密集的计算,高性能计算机为此提供了基 础的硬件设施-A4 /网络发展趋势瑟 网络的快速连接,使得可以处理分布式的数据集。科学计算发展趋势瑟模拟与理论和实验成为三种重要的科学形态,而数据挖掘和知识发现扮演了重要较色。商业发展趋势瑟DM使商业机构能更准确地预测顾客和交易带来的机遇和风险数据仓库与数据挖掘的关系二者的

3、联系可以概括为以下几点:数据仓库为数据挖掘提供了更好的、更广泛的数据源数据仓库为数据挖掘提供了新的支持平台(3)数据仓库为更好地使用数据挖掘工具提供了方便(4)数据挖掘为数据仓库提供了更好的决策支持(5)数据挖掘对数据仓库的数据组织提供了更高的要求(6)数据挖掘还为数据仓库提供了广泛技术支持数据仓库与数据挖掘的区别数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息。数据仓库是一种存储技术,其数据存储量是一般数据库的百倍,包含大量的历史数据、以及综合数据, 能为不同用户的不同决策需求提供所需的数据和信息。联机事物处理 OLTP(On Line Transaction

4、 Processing):在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速 地处理具体的业务。主要用途:基本的、日常的事务处理。如:银行交易瑟OPTP是传统的关系数据库的主要应用。联机分析处理(On Line Analytical Processing):瑟OLAP理事会的定义:OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从 各个方面观察信息,以达到深入理解数据的目的。这些信息是从原始数据转换过来的, 按照用户的理解,它反映了企业真实的方方面面。彩 主要用途:准确掌握企业经营状况,了解市场需求,制定正确方案,增加效益。OLAP是以 海量数据

5、为基础的复杂分析技术。OLAP在以数据仓库为数据源时,有两个特点:瑟在线性(On Line):由客户机/服务器这种体系结构来完成的;您多维分析:这也是OLAP的核心所在。OLAP系统和OLTP系统的主要区别次所面向的用户和系统:/瑟OLTP面向客户;由职员,信息人员或客户进行事务或查询处理采打、彩olap面向市场;由经理,主管和分析师分析数据和制定决策。数据内容:彩OLTP系统管理当前数据,数据通常很琐碎,难以用于决策。瑟OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度界别上存储和管理 信息,使得数据适合于决策分析。视图:彩OLTP系统主要关注一个企业或部门内部的当前数据,而不

6、涉及历史数据或不同组织的数 据。Xa I、每OLAP系统常跨越一个企业的数据库模式的多个版本,也处理来自不同组织的信息,由多 个数据源集成的信息。访问机制:飞、瑟OLTP的访问主要由原子事务组成,需要并发控制和恢复机制彩OLAP的访问大部分是只读操作,其中大部分是复杂查询。OLAP的四个特征:/彩快速性:用户对OLAP的快速反应能力有很高的要求。瑟可分析性:OLAP系统应能处理任何逻辑分析和统计分析。彩 多维性:系统必须提供对数据分析的多维视图和分析。瑟信息性:OLAP系统应能及时获得信息,且管理大容量的信息。OLAP目标瑟 满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个

7、概念,因1此OLAP也可以说是多维数据分析工具的集合。疗7度量(或称变量):数据的实际意义;即描述数据是什么维(OLAP的核心)是人们观察数据的特定角度。维属性值:维属性的取值数据单元:不同维度在某个取值下的交叉点,是事件的度量维的层次:人们观察数据细节的不同程度称为维的层次维成员:维的一个取值称为该维的一个维成员也称维值在数据仓库研究界,把数据立方体称为方体。给定若干个维构造出方体的格称为数据立方体。MOLAP与ROLAP的比较数据存取速度瑟ROLAP服务器需要将SQL语句转化为多维存储语句,临时拼合”出多维数据立方体。因 此,ROLAP的响应时间较长。瑟MOLAP在数据存储速度上性能好,响

8、应速度快。数据存储的容量瑟ROLAP使用的传统关系数据库的存储方法,在存储容量上基本没有限制。彩MOLAP通常采用多平面叠加成立体的方式存放数据。瑟MOLAP受操作系统平台中文件大小的限制,当数据量超过操作系统最大文件长度时,需 要进行数据分割。瑟 多维数据库的数据量级难以达到TB级(只能1020G)多维计算的能力瑟MOLAP能够支持高性能的决策支持计算。您ROLAP无法完成多行的计算和维之间的计算。/ 维度变化的适应性、葱MOLAP增加新的维度,则多维数据库通常需要重新建立。瑟ROLAP对于维表的变更有很好的适应性。数据变化的适应性瑟 当数据频繁的变化时,MOLAP需要进行大量的重新计算,甚

9、至重新建立索引乃至重构多 维数据库。瑟在ROLAP中灵活性较好,对于数据变化的适应性高。软硬件平台的适应性愁ROLAP对软硬件平台的适应性很好。V/恿MOLAP相对较差。 元数据管理/彩 目前MOLAP和ROLAP的元数据管理都未成形标准。OLAP的基本操作fJ/T /彩数据切片:多维数据是由多个维度组成的,如果在某个维度上选定一个取值,则多维数 据从n维下降成n-1维彩数据切块:将完整的数据立方体切取一部分数据而得到的新的数据立方体。瑟数据钻取(下钻):从较高的维度层次下降到较低的维度层次上来观察多维数据彩数据聚合(上卷):对数据进行高层次综合的操作瑟 数据旋转:改变维度的位置关系,使最终用

10、户可从其他视角来观察多维数据。数据仓库产生的原因瑟数据仓库是为了建立分析处理环境而出现的一种数据存储和组织技术,必须把分析型数 据从事务处理环境中提取出来。瑟分析型处理经常要访问大量的历史数据,支持复杂的查询。彩分析型处理不对事务型处理环境中得到的细节数据进行分析什么是数据仓库(DW)?彩数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一用 户接口,完成数据查询和分析。彩 数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提 供所需要的信息。彩数据仓库是与操作型系统相分离,是一个作为决策支持和联机分析应用系统数据源的结 构化数据环境,数据仓库要

11、研究和解决的问题就是从数据库中获取信息的问题。数据仓库与数据挖掘二者的联系可以概括为以下几点:彩数据仓库为数据挖掘提供了更好的、更广泛的数据源瑟 数据仓库为数据挖掘提供了新的支持平台彩数据仓库为更好地使用数据挖掘工具提供了方便瑟数据挖掘为数据仓库提供了更好的决策支持彩数据挖掘对数据仓库的数据组织提供了更高的要求瑟数据挖掘还为数据仓库提供了广泛的技术支持数据仓库不同于数据挖掘:瑟数据仓库是一种存储技术,其数据存储量是一般数据库的百倍,包含了大量的历史数据、 当前的详细数据以及综合数据,能为不同用户的不同决策需求提供所需的数据和信息。关联学习:从一个项目集中发现关联规则,该规则显示了给定数据集中经

12、常一起出现的属性一值条件元组。/瑟关联:指两个或多个变量的取值之间存在的规律性。术%、彩 关联分析在交易数据分析、支持定向市场、商品目录设计和其他业务决策等方面有着广 泛的应用。每 关联分析的目的:找出数据库中隐藏的关联网。关联分析通过发现关联规则来进行,这些规则展示属性值频繁地在给定数据集中一起出现的条件。聚类分析:用于从数据集中找出相似的数据并组成不同的组或簇。瑟 聚类属于无监督分类,训练数据中不提供类标记。、彩好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地 大。Xa每距离:经常采用的度量方式数据挖掘(知识发现)的步骤:彩数据清理:消除噪声或不一致的数据瑟数据

13、集成:多种数据源组合在一起彩数据选择:从数据库中提取与分析任务相关的数据瑟数据变换:变换或统一成适合挖掘的形式;如:汇总或聚集彩数据挖掘(基本步骤):使用智能方法提取数据模式瑟模式评估:按某种兴趣度量,识别提供知识的真正有趣的模式彩知识表示:用可视化和知识表示技术,向用户提供挖掘的知识数据预处理的意义:数据预处理是数据挖掘中非常重要的一环,对原始数据进行预处理,可以为数据挖掘过7 程提供干净、准确、简洁的数据,提高数据挖掘的效率和准确性。数据预处理的主要方法:数据清洗数据集成数据变换数据规约比较分类和预测方法的标准:预测的准确率:瑟 模型准确预测未知对象类别或(类别)数值的能力。速度:瑟产生和

14、使用模型时的计算效率。健壮性:瑟在存在噪声数据或空缺值的数据时,模型正确预测的能力。可扩展性:瑟对大量数据进行有效地构建模型的能力。易理解性:瑟 学习所获模型表示的可理解程度。决策树分类的特点:瑟 采用自顶向下的递归方式,在内部结点进行属性测试,根据属性值判断由该结点向下 的分枝,在决策树的叶结点得到结论。瑟从决策树的根到叶结点的一条路径就对应着一条决策规则,整棵决策树就对应着一组析 取表达式组成的规则。瑟 决策树分类算法的优点:在学习过程中不需要使用者了解很多背景知识,只要根据训练 数据集就能构造出决策树,并由决策树提取分类规则。/关联规则挖掘:、彩 从事务数据库、关系数据库和其他信息存储中

15、的大量的数据的项集之间发现有趣的、频 繁出现的模式、关联和相关性。Apriori是挖掘关联规则的一个重要方法。基本思想:悬首先,找出频繁1-项集”的集合,该集合记作L1。瑟L1用于找频繁”2-项集”的集合L2,而L2用于找L3,如此下去,直到不能找到”K-项集”。 找每个LK需要一次数据库扫描。关联规则挖掘:Xa I 在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁 模式、关联、相关性、或因果结构。缺点:支持支持度、置信度框架常常产生过多的规则产生的规则中大部分是显而易见的。强关联规则不一定有趣。分类与预测是两种数据分析形式,它们可用于抽取能够描述重要数据集合或预测

16、未来数据趋势的 模型。/V 分类方法用于预测数据对象的离散类别;预测则用于预测数据对象的连续取值,聚类分析的数据挖掘功能:聚类分析可以作为其它算法的预处理步骤可以作为一个独立的工具来获得数据的分布情况:聚类分析可以完成孤立点挖掘。聚类算法的期望特征要求可伸缩性(时间和空间):即能对小数据集又能对大数据库进行聚类分析中产生较小偏差。 可以处理不同的数据类型。如:二元值、符号值、顺序值或其组合 发现任意形状簇的能力。不仅能发现具有类似大小和密度的圆形或球状聚类,也应能够 发现任意形状类集。在确定输入参数所需要的特定领域知识需求最小。能够应对噪声和离群数据点。 对输入数据的顺序不敏感。能处理高维数据

17、。能产生一个好的、能满足用户指定约束的聚类结果。 结果是可解释的、可理解的和可用的。划分方法 给定包含n个对象的数据库和要生成的簇的数目k(kn)。 划分过程:根据相似度函数(如距离),将数据对象组织为k个划分(簇),通过循环移动 不同划分中的对象来改变划分内容。 划分原则:同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的远 离或不同。 簇要求:每个簇至少有一个对象;每个对象仅属于一个簇。层次方法:对给定数据对象集合进行层次分解自底向上方法(凝聚):彩 首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都 在某个簇中,或者终结条件满足。、自顶向下方法(分裂

18、):瑟 首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一个 簇或者达到了某个终结条件(达到希望的簇数或两个簇之间的距离超过了某个阀值)。k-均值方法:将一组数据划分为预先设定好的k个簇彩它是用来解决聚类问题的最简单的非监督学习算法之一。基本思想:每 把n个对象分为k个簇,使簇内具有较高的相似度,簇间的相似度较低。相似度根据一 个簇中对象的平均值(质心)来进行计算。算法流程:瑟 先随机预定义k个点,每个点代表一个簇的质心;彩对每个对象,根据到质心的距离,被划分到最近的簇;瑟然后重新计算每个类的平均值,产生新的质心作为新的质心。彩不断重复这个过程,直到所有的样本都不能再分配为止。k-均值算法非常适合产生球状簇彩 它是数值的、非监督的、非确定的、迭代的。k-均值算法分析优点1.相对高效:算法复杂度O(tkn),其中n是数据对象的个数,k是簇的个数,t是迭代的 次数,通常k,t n。2.算法通常终止于局部最优解;3.与层次聚类相比,k-均值可以得到更 紧密的簇,尤其对球状簇。缺点1.难以比较聚类结果的优劣,如不同的初始划分或k值会影响结果2.固定的簇数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论