My数据挖掘复习_第1页
My数据挖掘复习_第2页
My数据挖掘复习_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章数据挖掘:从大量数据中挖掘出令人感兴趣的、有用的知识模式,又称为KDD (数据库中的知识发现) KDD:数据清理一一数据集成一一数据选择数据变换数据挖掘一一模式评估一一知识表现1数据清理:清理脏数据2数据集成:多种数据源可以组合在一起3数据选择:从数据库中提取与分析任务相关的数据4数据变换:数据变换或统一成适合挖掘的形式5数据挖掘:选择适当的算法来找到感兴趣的模式6模式评估:根据兴趣度,识别提供知识的真正有趣的模式7知识表示:使用可视化表示技术,向用户提供挖掘知识数据挖掘的主要功能:描述性的数据挖掘和预测性的数据挖掘通常还有以下功能:1概念描述:特性化和区分:为数据的特征化和比较产生描述

2、(当所描述的概念所指的是一类对象时,也称为类描 述)。特征化:提供给定数据集的简洁汇总。区分:提供两个或多个数据集的比较描述。2关联分析:从大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。3分类和预测:根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据(分类),用来预测 类型标志未知的对象类(预测)。4聚类分析:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。5孤立点分析孤立点:一些与数据的一般行为或模型不一致的孤立数据6趋势和演变分析第二章DW数据仓库:数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决 策过程

3、。OLTP:联机事物处理OLAP:联机分析处理OLTP和OLAP的区别OLAP:面向市场,高灵活性,面向主题,能读取百万条记录,只能查询,用户数量数百个,数据库规模GB甚至 TB级OLTP :面向顾客,性能高,可用性高,面向应用,一次读写数十条纪录,能执行事物操作,用户数量可以上万个, 数据规模在100MB或者GB级别 多维数据模型上的OLAP操作:1上卷:在某一维上将低层次的细节数据概括到高层次的汇总数据2下钻:从汇总数据深入到细节数据进行观察,增加了维数3切片:在给定的数据立方体的一个维上进行选择,导致一个子方概念分层:一个概念分层(concept hierarchy)定义一个映射序列,将

4、低层概念映射到更一般的高层概念。概念分层可 以由系统用户、领域专家、知识工程师人工的提供,也可以根据数据分布的统计分析自动的产生多维数据模型:星型模型(主表上联系很多维表);雪花模型(维表上再联系维表);事实星座模型(主表与主表之间 共享维表)DW的应用:信息处理、分析处理、数据挖掘第三章数据预处理:1数据清理:填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性2数据集成:集成多个数据库、数据立方体或文件3数据变换:规范化和聚集4数据归约:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果5数据离散化:通过概念分层和数据的离散化来规约数据,对数字型数据特别重要 处理空缺值:1忽

5、略元组:用于类标号缺少2人工填写工作量大,可行性低3使用全局变量如unknown4使用属性的平均值5使用与给定元组属同一类的所有样本的平均值6使用最可能的值填充空缺值噪声处理:1分箱滑等等2聚类首先排序数据,并将他们分到等深的箱中,然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平监测并且去除孤立点3计算机和人工检查结合计算机检测可疑数据,然后对它们进行人工判断4回归通过让数据适应回归函数来平滑数据规范化:最小最大规范化,z-score规范化(v-平均值/标准差),小数定标规范化第四章数据挖掘原语的组成部分:1任务相关的数据:数据库(仓库)名、数据立方体、选择条件、相关属性、分组条件2挖掘的

6、知识类型:特征化、区分、关联、分类/预测、聚类3背景知识:概念分层,关联的确信度4模式兴趣度量:简单性、确定性、实用性、新颖性5发现模式的的可视化:规则、表、图表、图、判定树.支持度置信度DW和DM的耦合方式:不耦合,松散耦合,半紧密耦合,紧密耦合第五章描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。第六章关联规则挖掘:从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性Apriori算法由连接和剪枝组成第七章分类:根据训练数据集和类标号属性,构建模型来分

7、类现有数据,并用来分类新数据预测:建立连续函数值模型,用来预测类型标识未知的对象类有指导的学习(用于分类):模型的学习在被告知每个训练样本属于哪个类的“指导”下进行;新数据使用训练数据集中 得到的规则进行分类无指导的学习(用于聚类):每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的;通过一系 列的度量、观察来建立数据中的类编号或进行聚类由判定树推出推导规则 预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。预测和分类的异同相同点:两者都需要构建模型都用模型来估计未知值不同点:分类法主要是用来预测类标号(分类属性值)预测法主要是用来估计连续值(量化属性值

8、)第八章聚类:数据对象的集合在同一个聚类(簇)中的对象彼此相似不同簇中的对象则相异聚类分析:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程聚类是一种无指导的学习:没有预定义的类编号聚类分析的数据挖掘功能:作为一个独立的工具来获得数据分布的情况;作为其他算法(如:特征和分类)的预处理步骤好的聚类结果:高类内相似度低类间相似性数据挖掘对聚类分析的要求1可扩展性(Scalability):大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率2处理不同数据类型的能力:数字型;二元类型,分类型/标称型,序数型,比例标度型等等3发现任意形状的能力:基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的4用于决定输入参数的领域知识最小化:对于高维数据,参数很难决定,聚类的质量也很难控制5处理噪声数据的能力:对空缺值、孤立点、数据噪声不敏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论