数据挖掘知识点归纳_第1页
数据挖掘知识点归纳_第2页
数据挖掘知识点归纳_第3页
数据挖掘知识点归纳_第4页
数据挖掘知识点归纳_第5页
免费预览已结束,剩余4页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学问点一数据仓库数据仓库是一个从多个数据源收集的信息存储库,存放在全都的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷来构造。数据仓库围绕主题组织数据仓库基于历史数据供给消息,是汇总的。数据仓库用称作数据立方体的多维数据构造建模,每一个维对应于模式中的一个或者一组属性,每一个单元存放某种聚拢的度量值数据立方体供给数据的多维视图,并允许估量算和快速访问汇总数据供给供给多维数据视图和汇总数据的估量算,数据仓库格外适合联机分析处理,允许在不同的抽象层供给数据,这种操作适合不同的用户角度OLAP例子包括下钻和上卷,允许用户在不同的汇总级别上观看数据多维数据挖掘又叫做探究式多维数据挖掘OLAP风格在多维空间进展数据挖掘,允许在各种粒度进展多维组合探查,因此更有可能代表学问的好玩模式。学问点二可以挖掘什么数据大量的数据挖掘功能,包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析大量的数据挖掘功能,包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析数据挖掘功能用于指定数据挖掘任务觉察的模式,分为描述性和推测性描述性挖掘任务刻画目标数据中数据的一般性质推测性挖掘任务在当前数据上进展归纳,以便做出推测用汇总、简洁、准确的表达描述类和概念,称为类/概念描述用汇总、简洁、准确的表达描述类和概念,称为类/概念描述描述的方法有数据特征化〔针对目标类、数据区分〔针对比照类、数据特征化和区分数据特征化用来查询用户指定的数据,上卷操作用来执行用户掌握的、沿着指定维的数系或者规章〔也叫特征规章〕供给。用规章表示的区分描述叫做区分规章。数据频繁消灭的模式叫做频繁模式,类型包括频繁项集、频繁子项集〔又叫频繁序列、频繁子构造。频繁项集一般指频繁地在事务数据中一起消灭的商品的集合频繁子序列就是一个频繁序列模式子构造涉及不同的构造,可以与项集和子项集一起消灭挖掘频繁模式导致觉察数据中好玩的关联和相关性包含单个谓词的关联规章称作单维关联规章。多个谓词的关联规章叫做多维关联规章。假设不能同时满足最小支持度阈值和最小置信度阈值是无趣的关联规章。频繁模式挖掘的根底是频繁项集挖掘分类找出描述和区分数据类或概念的模型或者函数来推测类标号未知对象的类标号。导出模型是基于训练数据集的分析,推测类标号未知对象的类标号。形式有分类规章、决策树、数学公式或者神经网络决策树类似流程图的树构造,每一个结点代表一个属性上的测试,每一个分支代表测试的一个结果,树叶代表类或者类分布。分类时,神经网络类似于神经处理单元,单元之间加权连接。构造分类模型的方法还有朴实贝叶斯分类、支持向量机、K最近邻分类。分类推测类别〔离散的、无序的〕标号,回归建立连续值函数模型来推测缺失的、难以获得的数据数据值术语推测指数值推测和类标号推测回归也包含基于可用数据的分布趋势识别相关分析在分类和回归之前进展,试图识别与分类和回归过程显著相关的属性织成分层构造,把类似的大事组织在一起织成分层构造,把类似的大事组织在一起离群点指与数据的一般行为或模型不全都的数据对象,视为噪声或者特别舍弃。离群点数据分析也叫离群点分析或特别挖掘,用统计监测或者距离度量、基于密度方法识别好玩的模式指易于被人理解、在某种确信度上对于的或检验数据是有效的、潜在有用的、颖的模式。好玩的模式代表学问。模式兴趣的度量包括客观度量和反映特特定用户需要和兴趣的主观度量。客观度量基于〔也叫可行动的〕依据用户供给的约束和兴趣度度量对搜寻聚焦,对某些任务而言能够保证算法的完全性模式兴趣度量依据模式的兴趣度对所觉察的模式进展排位,可以通过减去模式空间中不满足预先设定的兴趣度约束的子集来指导和约束觉察过程。学问点三数据对象与数据属性数据集由数据对象组成,一个对象代表一个实体。数据对象用属性描述,又叫样本、实例、数据点或对象。存放在数据库中的数据对象叫做数据元组。属性是一个数据字段,表示数据对象的一个特征,也叫维、特征、变量。用来描述一个给定对象的一组属性叫做属性向量〔或者特征向量。涉及一个属性的叫做单变量、两个属性的叫做双变量一个属性的类型由该属性可能具有的值的集合打算,分为标称的、二元的、序数的、数值的标称属性的值是一些符号或者事物的名称,每一个值代表某种类别、编码或者状态,被看做是分类或者枚举的,不必具有有意义的序二元属性是一种标称属性,又叫布尔属性,只有两个状态:0或者1,0代表不消灭,1代表消灭。假设两种状态具体同等价值并且携带一样的权重,那二元属性是对称的。序数属性可能的值之间具有有意义的序或秩评定,相继之间的差是未知的,通常用于等级评定调查。数值属性用整数或者实数值表示,可以是区间标度或者比率标度的。区间标度属性用相同的单位尺度度量,有序,可以为负、零、正,允许比较和度量评估值之间的值。比率标度是具有固定零点的数值属性,可以说一个数是另一个数的倍数机器学习领域开发的分类算法通常把属性分为离散的、连续的。离散属性具有有限或者位数字表示。学问点四数据的根本描述统计中心趋势度量数据分布的中部或者中心位置,包括均值、中位数、众数、中列数数据的分散度量包括极差、四分位数、四分位数极差、五数概括和和盒图差图形可视化打量数据,包括条图、饼图、线图为了抵消少数极端值的影响,使用截尾均值来凹凸极端值后的均值。具有一个、两个、三个众数的数据集合叫做单峰、双峰、三峰值分位数是取自数据分布的每隔肯定间隔上的点合。识别可疑的离群点选择落在第三个四分位数之上或者第一个四分位数之下至少1.5*IQR〔四分数极差〕处的值。五数概括包括中位值、四分位数Q1、四分位数Q3、最小和最大观测值组成盒图。学问点五度量数据的相像性和相异性簇是数据对象的集合,使得每一个簇中的元素相互相像,与其他簇中的对象相异。〔存放数据对象〔存放数据对象对的相异性值〕邻近性指相异性和相像性数据矩阵也叫二模矩阵,相异矩阵只包含一种实体,称为单模矩阵欧几里得距离和曼哈顿距离满足:非负性、同一性、对称性、三角不等式,满足条件的测度叫做度量。上确界距离是两个对象的最大值差学问点六数据预处理概述数据质量包括预备性、完整性、全都性、时效性、可信性、可解释性。质量基于数据的应用目的。数据预处理的主要任务数据清理、数据集成、数据归约、数据变换数据清理是为了填补缺失的值、光滑噪声数据、识别和删除离群点、订正数据的不全都性。这是一个两步的迭代的过程,分为偏差检测和数据变换数据集成涉及集成多个文件、数据库、数据立方体,整合成全都的数据存储。语义异种性的解决、元数据、相关分析、元组重复检测和数据冲突检测都有助于数据的集成。数据归约得到数据集的简化表示,使信息内容的损失最小化。策略包括维归约和数值归分析、属性子集选择和属性创立。数值归约归约中,使用参数模型和非参数模型属性的原始值被区间或者叫高层的概念所取代可以承受离散化和概念分层产生的方法,使得数据在多个抽象层上进展。数据变换包括标准化、数据离散化、概念分层产生冗余数据的删除既是数据清理也是数据归约〔中位数或者均值、使用给定元组属性的同一类的全部样本的属性均值或者中位数、使用最可能的值〔使用回归或者贝叶斯推理得到〕噪声是被测量的变量的随机误差或者方差识别噪声的方法有根本统计描述技术和数据可视化方法数据光滑技术有分箱、回归、离群点分析分箱通过考察数据的近邻来光滑有序数据值,这些有序的值被安排到一些桶或箱中。分箱考察近邻的值,它是局部光滑对于用箱均值光滑,全部值都被替换成均值;用箱中位数光滑,每一个数都替换成中位数;用箱边界光滑,每一个数字都替换成最近的边界值,宽度越大代表光滑效果越好数据变换指数据被变换或者统一成适合挖掘的形式,策略包括光滑、属性构造、聚拢、离散化、由标称数据产生概念分层。光滑指去掉数据中的噪声,技术包括分箱、回归、聚类;属性构造通过属性产生的属性添加到属性集中;聚类对数据的汇总和聚拢;概念分层将属性泛化到较高的概念层离散化技术依据如何离散化加以分类,比方自顶向下的分类或者离散化。使用类信息叫做监视的离散化。离散化和概念分层也是数据归约的形式,原始数据被曲建或者标签取代。用较小的单位表示属性将导致该属性有较大值域,因此倾向于使这样的属性具有较大的影响或者较高的权重标准化或标准化的目的是避开对度量单位选择的依靠性,标准化数据试图赐予全部属性相等的权重。方法有最小-最大标准化、z分数标准化和按小数定标标准化最小v-〕-〔-zv均值方差按小数定标标准化:全部除以一个数字的离散化技术,对用户指定的箱个数敏感,简洁受离群点的影响直方图是一种非监视的离散化方法,将属性A的值划分为不相交的区间,叫做桶或者预先设定的概念层数,过程终止。对每一层使用最小区间长度来掌握递归。聚类将属性A划分为簇或组来离散化属性A合并策略产生概念分层,其中每一个簇形成的概念分层的一个结点。决策树承受自顶向下的方式,是监视的离散化方法,使用了类标号。的相像性就可以合并他们。ChiMerge把数值属性A的每一个不同看做是一个区间,对每一个相邻区间进展检验,具有最小卡方检验值的说明有相像的类分布。合并过程递归地进展,直至满足定义的条件为止。构造的一局部、说明属性集但不说明它们的偏序、只说明局部属性集。学问七数据仓库与联机分析处理信息处理供给支持。数据仓库是一个面对主题的〔排解决策无用的数据、集成的〔来源于多个数据源、时变的〔隐式或显式地包含时间元素、非易失的〔物理地分别存放数据〕数据集合,支持治理者的决策过程个数据访问操作数据仓库的构建过程需要数据集成、数据清理、数据统一从异构数据库集成看,组织由多个异构的、自治的和分布的数据源维护大型数据库。传统的数据库集成建立一个包装程序和一个集成程序的站点返回不一样的结果被集成为全局答复处理,并且与局部数据源上的处理竞争资源数据仓库使用更驱动的方法,将多个数据源的信息预先集成存在数据仓库中,供直接查询和分析。联机操作数据库系统的主要任务是执行联机事务和查询处理和系统的面对性、数据内容、数据库设计、视图、访问模式。用户和系统的面对性:联机事务处理面对顾客,数据仓库面对市场的数据内容:联机事务处理治理当前数据,数据仓库治理大量的历史数据ER,后者是星形或者雪花模型和面对主题的本,处理不同单位的数据,数据量大,存放在多个介质上。访问模式:前者由短的原子事务组成,需要并发、恢复机制来保证全都性和事务的鲁棒性。后者只需要访问操作。其他区分包括数据库大小、操作频繁程度、性能度量等织、存取方法和实现方法。其次是访问模式的不同。第三是两者的功能和数据不同。的应用程序。这一层包括元数据库,存放关于数据仓库和它的内容的信息。中间是OLAP效劳器。顶层是前端客户层,包括查询和报告的工具、分析工具/数据挖掘工具。从构造看,有三种数据仓库模型:仓库企业、数据集市、虚拟仓库仓库企业:搜集了关于主题的全部信息,跨越整个企业个特定部门或者地区局部产生的数据。依靠数据集市直接来源于数据仓库虚拟仓库是操作数据上的视图的集合,只有一些可能的汇总视图被物化库。数据仓库系统使用的工具有数据提取、变换、装入数据提取:由多个异构的外部数据源搜集数据数据清理:检测数据中的错误,可能时订正它们数据变换:将数据由遗产或宿主格式转换成数据仓库格式装入:排序、汇总、合并、计算视图、检查完整性、建立索引和划分刷:传播由数据源到数据仓库的更数据清理和数据变换的目的是提高数据质量述、用于汇总的算法、由操作环境到数据仓库的映射、关于系统性能的数据、商务元数据。多维数据模型有星形模式、雪花模式、事实星座模式。星形模式:一个大的中心表〔包含大批数据不冗余,一组小的附属表〔每维一个雪花模式:数据进一步分解到附加的表中事实星座模式:多个事实表共享维表-值对聚焦数据计算该点的度量值。度量分为三类:分布、代数avg、整体的。学问点八频繁项集、闭项集和关联规章强规章同时满足最小置信度阈值和最小支持度阈值。项的集合称为项集,包含K个项的项集叫做k项集。项集的消灭频度是包含项集的事务数,称为频度、支持度计数或者计数。YYXD中具有一样的支持度计数,该项集在数据集中是闭的,叫做闭频繁项集。假设X是频繁的,并且不存在超项集Y使得Y包含X并且YD中是频繁的,那么X是极大频繁项集。Apriori算法:通过限制候选码产生频繁项集。先验性质:频繁项集的全部非空子集也肯定划分、抽样、动态项集,即削减扫描事务数据库的次数、削减候选项集的数量、候选项支持度计算的简化。FP-tree算法:将代表频繁项集的数据库压缩到一棵频繁模式树,保存项集的关联信息。把每一个条件数据库,显著地压缩被搜寻的数据集的大小。反单调性指一个结合不能通过测试,它的全部超集也不能通过一样的测试强规章不肯定是好玩的。用相关性度量拓展支持度-lift(A,B)=P(A∪B)/P(A)P(B)1表示一个消灭另一个肯定消灭,等于1=∑〔观测值-期望值〕的平方/1,实际值小于观测值说明是负相关的。四种评估模式度量:全置信度、最大置信度、Kulczynski和余弦全置信度称为最小置信度;Kulczynski是两个置信度的平均值;余弦看做是调和提升度量。提升度和卡方值识别事务数据集中的模式关联关系的力量差由于不是零不变度量一种度量大型数据库中的关联模式的重要性质。不平衡比评估规章蕴含式中两个项集AB的不平衡程度。学问点九分类分类构造一个模型或者分类器来推测类标号序值。推测回归的两种主要类型是分类和回归。数据分类包含学习阶段〔构造分类模型〕和分类阶段〔使用模型推测给定数据的类标号。第一阶段建立描述预先定义的数据类或概念集的分类器,其中分类算法通过分析或从了数据的压缩表示,它是监视学习。训练集由数据库元组和与他们相关联的类标号组成类标号属性是离散和无序的,是分类的〔标称,由于每一个值充当一个类别或者类例、数据点或者对象训练元组,指不使用它们构建分类器。分类器在给定检验集上的准确率是分类器正确分类的检验元组所占的百分比验元组的类标号与学习模型对该元组的类推测进展比较。学问点十决策树归纳决策树归纳指从有类标号的训练元组中学习决策树类标号,最顶层是根结点。给定一个类标号未知的元组X,在决策树上测试该元组的属性值。跟踪一条从根到叶结点的路径,该叶结点就存放着该元组的推测,决策树简洁转换为分类规章。据在决策树构建的时候,使用属性选择度量来选择将元组最好地划分为不同的类的属性开头构建决策树。随着构建,训练集渐渐被划分为较小的子集决策树算法的策略:用三个参数D,attribute_list和attribution_selection_method调用该算法。该过程使用一种属性选择度量,比方信息增量、基尼指数,它打算了树是否为严格的二叉树Ps:D代表数据分区,是训练元组和它们相应类标号的完全集Attribute_list描述元组属性的列表attribution_selection_method指定选择属性的启发式过程,用来选择可以按类最好地区分给定元组的属性。树从单个结点N开头,ND中的训练元组假设D中的元组都为同一类,结点 N变成树叶,并用类标记它。否则,调用attribution_selection_method确定分类准则。分类准则确定把D中的元组划分为个体类的最好方法在结点N上对哪一个属性进展测试对于选择的测试从结点N生长出哪些分支。分类准则指定分裂属性,指出分裂点或者分裂子集,使得每个分支的属性尽量纯。结点N用分裂准则作为结点的测试。终止原则:分区D中的全部元组都是一个类型的;没有剩余的属性可以连续划分;给定的分支没有元组O(n*|D|*log(|D|)),|D|D中的训练元组属性选择度量是一种选择分裂准则,把给定类标号的元组的数据分区D最好地划分为子集必需作为分裂准则的一局部返回。为分区D构建的树结点用分类准则标记,从准则的每一个输诞生长出分支,并且相应地划分元组。主要有信息增量、基尼指数、增益率方法。选择具有最高信息增益的属性作为结点N的分裂属性,使结果分区中对元组分类所需望测试数目最小,并确保找到一颗简洁的树。基尼指数度量数据分区或者训练元组集D的不纯度导致相等大小的分区和纯度。基于最小描述长度〔MDL〕二进制的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论