数据挖掘复习大纲1_第1页
数据挖掘复习大纲1_第2页
数据挖掘复习大纲1_第3页
数据挖掘复习大纲1_第4页
数据挖掘复习大纲1_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘复习大纲第一章数据挖掘概论什么是数据挖掘?请举例。数据挖掘:是从大量数据中提取或”挖掘”知识,也就是从存放在数据库,数据仓库或其 他信息库中的数据挖掘有趣知识的过程.数据挖掘是可以从数据库中提取有趣的知识规律或 高层信息发现的知识,可以用于决策,过程控制,信息管理,查询处理.它不是一种从数据库,统计学和机器学习发展的技术的简单转化,它涉及多学科技术的集成,包括数据库技术,统 计学,机器学习,高性能计算模式识别,神经网络,数据可视化,信息检索,图象与信号处理和空间 数据分析.随着数据库技术发展,数据的丰富带来了对强有力的数据分析工具的需求,大量的 数据被描述为”数据丰富,但信息贫乏”,所

2、以数据挖掘出来了.同义词:从数据中挖掘知识、知识提取、数据/模式分析、数据考古、数据捕捞、数据 中的知识发现(KDD)。简述知识发现(KDD)过程。P3-5(P4图1-4)当把数据挖掘看作知识发现过程时,它涉及的步骤为:数据清理(消除噪声或不一致数据)数据集成(多种数据源可以组合在一起)数据选择(从数据库中检索与分析任务相关的数据)数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)数据挖掘(基本步骤,使用智能方法提取数据模式)模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)知识挖掘的步骤了解应用领域:(了解相关

3、的知识和应用的目标)创建目标数据集:选择数据数据清理和预处理:(这个可能要占全过程60%的工作量)数据缩减和变换(找到有用的特征,维数缩减/变量缩减,不变量的表示。)选择数据挖掘的功能(数据总结,分类模型数据挖掘,回归分析,关联规则挖掘,聚类分 析等.)选择挖掘算法数据挖掘:寻找感兴趣的模式模式评估和知识表示(可视化,转换,消除冗余模式等等)运用发现的知识体系结构:典型数据挖掘系统 (P5图1-5)简述数据挖掘的功能。数据挖掘的任务:描述和预测。描述性挖掘任务刻画(描述)数据库中数据的一般特性;预测性挖掘任务在当前数据上进行推断。主要功能有:概念/类描述:特性化和区分(归纳,总结和对比数据的特

4、性。)关联分析(发现数据之间的关联规则,这些规则展示属性一值频繁的在给定的数据中所 一起出现的条件。)分类和预测(通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未 知的对象类。)聚类分析(将类似的数据归类到一起,形成一个新的类别进行分析。)孤立点分析(通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对 罕见事件进行孤立点分析而得到结论。)趋势和演变分析(描述行为随时间变化的对象的发展规律或趋势) 数据挖掘:多个学科的融合(P19图1-12)数据挖掘的主要问题:P23挖掘方法在不同的数据类型中挖掘不同类型的知识e.g.,生物数据,流式数据,Web数据性能:算法的有效

5、性、可伸缩性和并行处理模式评估:兴趣度问题背景知识的合并处理噪声何不完全数据并行,分布式和增量挖掘算法新发现知识与已有知识的集成:知识融合用户交互数据挖掘查询语言和特定的数据挖掘数据挖掘结果的表示和显示多个抽象层的交互知识挖掘应用和社会因素特定域的数据挖掘&不可视的数据挖掘数据安全,完整和保密第二章数据仓库和OLAP技术什么是数据仓库?数据仓库的定义很多,但却很难有一种严格的定义它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。为统 一的历史数据分析提供坚实的平台,对信息处理提供支持“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合(4个特 性),支持管理部

6、门的决策过程.”一W. H. Inmon(数据仓库构造方面的领头设计师) 建立数据仓库(data warehousing):(构造和使用数据仓库的过程。)数据仓库与异种数据集成传统的异种数据库集成:在多个异种数据库上建立包装程序(wrappers)和中介程序 (mediators);查询驱动方法当从客户端传过来一个查询时,首先使用元数据字典将查 询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器 缺点:复杂的信息过虑和集成处理,竞争资源 数据仓库:更新驱动将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析,高性能3.OITP系统和OLAP系统的比较 P

7、69表3-14.从关系表和电子表格到数据立方体P70数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看作是数据立方体形式。多 维数据模型围绕中心主题组织,该主题用事实表表示。事实是数值度量的。数据立方体允许以多维数据建模和观察。它由维和事实定义。维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。事实表包括事实的名称或度量以及每个相关维表的关键字在数据仓库的研究文献中,一个n维的数据的立方体叫做基本方体。给定一个维的集合,我 们可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称 为数据立方体。0维方体存放最高层的汇总,称作顶点方体;而存

8、放最底层汇总的方体则称 为基本方体。度量的分类P76一个数据立方体的度量是一个数值函数,该函数可以对数据立方体的每一个点求值。度 量可以根据其所用的聚集函数分为三类:分布的(distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结 果一样。比如:count(),sum(),min(),max()等代数的(algebraic):函数可以由一个带M个参数的代数函数计算(M为有界整数),而每 个参数值都可以有一个分布的聚集函数求得。比如:avg(),min_N(),standard_deviation()整体的(holistic):描述函数的子聚集所需的存储没有一个常数

9、界。比如:median(),mode(), rank()概念分层:location维的一个概念分层(P78图3-7)多维数据模型上的OLAP操作(P79)上卷(roll-up):汇总数据通过一个维的概念分层向上攀升或者通过维规约下钻(drill-down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现切片和切块(slice and dice)投影和选择操作转轴(pivot)立方体的重定位,可视化,或将一个3维立方体转化维一个2维平面序列其他OLAP操作钻过(drill_across):执行涉及多个事实表的查询钻透(drill_through):使用关

10、系SQL机制,钻到数据立方体的底层,到后端关系表概念仓库的四种视图P82数据仓库设计的四种视图自顶向下视图允许我们选择数据仓库所需的相关信息数据源视图揭示被操作数据库系统所捕获、存储和管理的信息数据仓库视图有事实表和维表所组成商务查询视图从最终用户的角度透视数据仓库中的数据三种数据仓库模型P84企业仓库(搜集关于跨越整个组织的主题的所有信息)数据集市(企业范围数据的一个子集,对于特定的客户是有用的。其范围限于选定的主 题,比如一个商场的数据集市)独立的数据集市VS.非独立的数据集市(数据来自于企业 数据仓库)虚拟仓库(操作数据库上的一系列视图只有一些可能的汇总视图被物化)10.OLAP服务器类

11、型P86逻辑上,OLAP服务器从数据仓库或数据集市中给商业用户提供多维数据物理上,OLAP的底层数据存储实现可以有多种不同的方式关系OLAP服务器(ROLAP)使用关系数据库或扩展的关系数据库存放并管理数据仓库的数据,而用OLAP中间件 支持其余部分;包括每个DBMS后端优化,聚集导航逻辑的实现,附加的工具和服务;较大的可扩展性多维OLAP服务器(MOLAP)基于数组的多维存储引擎(稀疏矩阵技术)能对预计算的汇总数据快速索引混合OLAP服务器(HOLAP)结合上述两种技术,更大的使用灵活性特殊的SQL服务器在星型和雪花模型上支持SQL查询11.方体计算的多路数组聚集方法(1) P1063体计算

12、的多路数组聚集方法(2)-将数组分成块(chunk,一个可以装入内存的小子方)压缩的稀疏数组寻址:(chunkjd, offset)从而减少内存访问和磁盘I/O-通过访问立方体单元,计算聚黛U可以优化访问单元组的次序, 使得每个单元被访问的次数最小化, 的开销,C(itern少o / 如 /苧=45 / 如 / 4T 7 4* 211Czzzb313141516B(crt) bl、9r) AbO123糖二aO al a2哪个是多路数组 聚集的最佳遍历 次序?数据预处理1.为什么要进行数据预处理?1)2)3)4)不完整的缺少属性值或某些感兴趣的属性,或仅包含聚集数据。含噪声的包含错误或存在偏离期

13、望的离群值。不一致的采用的编码或表示不同,如属性名称不同冗余的如属性之间可以相互导出1.2数据错误的不可避免性与危害高昂的操作费用 糟糕的决策制定组织的不信任分散管理的注意力1.3数据预处理的形式(主要任务)P31(1)数据清理补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致(2)数据集成 集成多个数据库、数据立方或文件(3)数据变换规范化和聚集(4)数据归约 简化数据、但产生同样或相似的结果现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据 的质量,从而有助于提高其后的挖掘过程的精度和性能。高质量的决策必然依赖于高质 量的数据,因此数据预处理是知识发现过程的重要

14、步骤。检测异常数据、尽早地调整数 据并归约待分析的数据,将在决策过程中得到高回报如何处理空缺值P39-40忽略元组:当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺 少值的百分比变化很大时,它的效果非常差。人工填写空缺值:工作量大,可行性低使用一个全局变量填充空缺值:比如使用unknown或-8使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样的基于推断的方法噪声数据P40噪声:一个测量变量中的随机错误或偏差引起不正确属性值的原因:数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一

15、致其它需要数据清理的数据问题重复记录不完整的数据不一致的数据如何处理噪声数据P40分箱(binning):首先排序数据,并将他们分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等聚类:监测并且去除孤立点计算机和人工检查结合计算机检测可疑数据,然后对它们进行人工判断回归通过让数据适应回归函数来平滑数据 数据变换P45平滑:去除数据中的噪声(分箱、聚类、回归)聚集:汇总,数据立方体的构建数据概化:沿概念分层向上汇总规范化:将数据按比例缩放,使之落入一个小的特定区间最小一最大规范化z-score规范化小数定标规范化属性构造通过现有属性构造新的属性,并添加到属性集中;以增加对高维

16、数据的结构的理解和精确度数据规约策略P47数据仓库中往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间数据归约(数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几 乎相同的)分析结果)数据归约策略数据立方体聚集 维归约 数据压缩 数值归约离散化和概念分层产生用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。6.分类数据的概念分层生成P60分类数据是指无序的离散数据,它有有限个值(可能很多个)。分类数据的概念分层生成方法:由用户或专家在模式级显式的说明属性的部分序。通过显示数据分组说明分层结构的一部分。说明属性集,但不说明它们的偏序,然后系统根

17、据算法自动产生属性的序,构造有 意义的概念分层。对只说明部分属性集的情况,则可根据数据库模式中的数据语义定义对属性的捆绑 信息,来恢复相关的属性。第四章、数据挖掘原语和DMQL数据挖掘原语的组成部分数据挖掘原语应该包括以下部分:说明数据库的部分或用户感兴趣的数据集要挖掘的知识类型用于指导挖掘的背景知识模式评估、兴趣度量如何显示发现的知识数据挖掘原语用于用户和数据挖掘系统通信,让用户能从不同的角度和深度审查和发现结 果,并指导挖掘过程。兴趣度度量没有兴趣度度量,挖掘出来的有用模式,很可能会给淹没在用户不感兴趣的模式中。简单性确定性实用性新颖性兴趣度的客观度量方法:根据模式的结构和统计,用一个临界

18、值来判断某个模式是不是用 户感兴趣的。第五章特征化和比较数据挖掘的分类从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。第六章关联规则挖掘什么是关联规则挖掘?关联规则挖掘:从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现 有趣的、频繁出现的模式、关联和相关性。应用:购物篮分析、分类设计、捆绑销售和亏本销售分析2.Apriori 算法 P151Apriori算法利用频繁项集性质的先验知识(prior knowledge),通过逐层搜索

19、的迭代方法, 即将k-项集用于探察(k+1)-项集,来穷尽数据集中的所有频繁项集。先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2,接着用L2找L3,直到找不 到频繁k-项集,找每个Lk需要一次数据库扫描。Apriori性质:频繁项集的所有非空子集也必须是频繁的。(模式不可能比A更频繁的出现)Apriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通 过相同的测试。Apriori算法基本步骤。能够根据所给数据写出算法具体执行过程。Apriori算法是最有影响的挖掘关联规则频繁项集的算法。使用逐层搜索的迭代方法找到1到K项频繁项集;即由k项集搜索生成(k+

20、1)项集。为提高频繁项集逐层产生的效率,利用Apriori性质。(1)扫描数据库,累积每个项的支持度计数,生成频繁1项集集合L1;(2)扫描数据库,由L1构造、搜索频繁2项集L2;(3)同理,生成L3,直到不能生成频繁k项集。注:每次搜索都要扫描一遍数据库。算法伪码:Ck: Candidate itemset of size kLk : frequent itemset of size kL1 = frequent items;for (k = 1; Lk !=; k+) do beginCk+1 = candidates generated from Lk;for each transact

21、ion t in database doincrement the count of all candidates in Ck+1 that are contained in tLk+1 = candidates in Ck+1 with min_support endreturn k Lk;连接步:为找Lk,通过将Lk-1与其自身连接产生候选k项集集合Ck。例如,设l1和l2是Lk-1中的项集,如果它们的前(k-2)个项相同的话,则是可连接的。 剪枝步:Ck是Lk的超集,即Ck中的成员可能是频繁的,也可能不是,但所有的频繁k 项集都包含在Ck中。为压缩Ck,剪枝:任何非频繁的(k-1)-项集

22、都不是频繁k项集的子集。设 L3=abc, abd, acd, ace, bcd自连接:L3*L3abcd from abc and abdacde from acd and ace剪枝:删acde,因为ade不在L3中,即非频繁C4=abcdTIDItems1001 3 42002 3 530012 3 54002 5Scan DC2l2itemset(2 322 531 S 5, |Jitem setsup1223334153item setsup1 21(1 32(1 51P 322 53(3 52itemsetsup.12233353C2Scan Ditem set(1(1 3(1 5

23、2 3(2 5(3 5C3 item setScan Dl3 it/mset sup2.何为ApriM朝质、反单调性?分析算法效教3 5 | 2Apriori性质:频繁项集的所有非空子集也必须是频繁的。i.e.,如果AB是频繁项集,A和B都应该是频繁项集反单调性:如果一个集合不能通过测试,则它的所有超集也都不能通过相同的测试。19多遍扫描事务数据库庞大的候选集数量冗长乏味的工作量:统计候选集支持度计数改进Apriori:通常的想法减少数据库扫描次数压缩候选集数量改进候选集支持度计数的统计方法多层关联规则一致支持度:对所有层都使用一致的最小支持度优点:搜索时容易采用优化策略,即一个项如果不满足最

24、小支持度,它的所有子项都可以不用搜索缺点:最小支持度值设置困难太高:将丢掉出现在较低抽象层中有意义的关联规则太低:会在较高层产生太多的无兴趣的规则递减支持度:在较低层使用递减的最小支持度抽象层越低,对应的最小支持度越小关联规则的兴趣度度量客观度量两个流行的度量指标支持度置信度主观度量最终,只有用户才能确定一个规则是否有趣的,而且这种判断是主观的,因不同的用户而异;通常认为一个规则(模式)是有趣的,如果:它是出人意料的 行动的(用户可以使用该规则做某些事情)挖掘了关联规则后,哪些规则是用户感兴趣的?强关联规则是否就是有趣的?第七章分类和预测分类预测P184分类:预测分类标号(或离散值)根据训练数

25、据集和类标号属性,构建模型来分类现有数据,并用来分类新数据 预测:建立连续函数值模型,比如预测空缺值典型应用信誉证实目标市场医疗诊断性能预测什么是预测?预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。预测和分类的异同相同点两者都需要构建模型都用模型来估计未知值预测当中主要的估计方法是回归分析线性回归和多元回归非线性回归不同点分类法主要是用来预测类标号(分类属性值)预测法主要是用来估计连续值(量化属性值)2擞据分类第一步,建立一个模型,描述预定数据类集和概念集假定每个元组属于一个预定义 的类,由一个类标号属性确定基本概念训练数据集:由为建立模型而被分析的数据元组形成训练样

26、本:训练数据集中的单个样本(元组)学习模型可以用分类规则、判定树或数学公式的形式提供第二步,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本,将已知的类标号和该样本的学习模型类预测 比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集,否则会出现“过分适应数据”的情况比较分类方法P187使用下列标准比较分类和预测方法预测的准确率:模型正确预测新数据的类编号的能力速度:产生和使用模型的计算花销健壮性:给定噪声数据或有空缺值的数据,模型正确预测的能力可伸缩性:对大量数据,有效的构建模型的能力可解释性:学习模型提供的理解和洞察的层次用判

27、定树归纳分类什么是判定树?类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点代表类或类分布判定树的生成由两个阶段组成判定树构建开始时,所有的训练样本都在根节点递归的通过选定的属性,来划分样本(必须是离散值)树剪枝许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝 判定树的使用:对未知样本进行分类通过将样本的属性值与判定树相比较4.贝叶斯分类P200来预测类成员的概率,即给定一个样本,计算贝叶斯分类利用统计学中的贝叶斯定理P ( D I h ) P ( h )P ( D )该样本属于一个特定的类的概率。P ( h I D )朴素贝叶斯分

28、类:假设每个属性之间都是相互独立的,并且每个属性对非类问题产生的 影响都是一样的。5.后向传播分类P212后向传播是一种神经网络学习算法;神经网络是一组连接的输入/输出单元,每个连接都 与一个权相连。在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确标号来 学习。优点预测精度总的来说较高健壮性好,训练样本中包含错误时也可正常工作输出可能是离散值、连续值或者是离散或量化属性的向量值对目标进行分类较快缺点训练(学习)时间长蕴涵在学习的权中的符号含义很难理解很难根专业领域知识相整合第八章聚类分析什么是聚类分析?聚类(簇):数据对象的集合在同一个聚类(簇)中的对象彼此相似不同簇中的对象则相异

29、聚类分析将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程 聚类是一种无指导的学习:没有预定义的类编号聚类分析的数据挖掘功能作为一个独立的工具来获得数据分布的情况作为其他算法(如:特征和分类)的预处理步骤聚类分析的典型应用模式识别空间数据分析在GIS系统中,对相似区域进行聚类,产生主题地图检测空间聚类,并给出它们在空间数据挖掘中的解释图像处理经济学(尤其是市场研究) 万维网对WEB上的文档进行分类对WEB日志的数据进行聚类,以发现相同的用户访问模式主要的聚类方法聚类分析算法种类繁多,具体的算法选择取决于数据类型,聚类的应用和目的,常 用的聚类算法包括:划分方法层次的方法基于密度的方法

30、基于网格的方法基于模型的方法孤立点挖掘什么是孤立点?一个数据集与其他数据有着显著区别的数据对象的集合例如:运动员:MichaelJordon,舒马赫,布勃卡孤立点产生原因度量或执行错误(年龄:-999)数据变异的结果孤立点挖掘给定一个n个数据对象的集合,以及预期的孤立点数目k,发现与剩余的数据 有着显著差异的头k个数据对象应用信用卡欺诈检测 移动电话欺诈检测 客户划分 医疗分析(异常)第九章电子商务与数据挖掘电子商务与数据挖掘完美结合在电子商务中进行成功的数据挖掘得益于:电子商务提供海量的数据如果一个电子商务网站平均每个小时卖出五件物品,那么它一个月的平均点击 量是160万次。丰富的记录信息良

31、好的WEB站点设计将有助于获得丰富的信息干净的数据从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合研究成果容易转化在电子商务中,很多知识发现都可以进行直接应用投资收益容易衡量对电子商务网站的Web数据挖掘通常在一个电子商务网站上应用的数据挖掘技术是Web数据挖掘。我们可以在一个电子商务网站挖掘些什么东西?内容挖掘(Web Content Mining)结构挖掘(Web Structure Mining)使用挖掘(Web Usage Mining)一名词解释1 .数据挖掘:从大型数据库的数据中提取人们感兴趣的知识。决策树:一个类似于流程图的树结构,内部节点表示一个属性(取值

32、)上的测试,其分支 代表每个结果;其每个叶子节点代表一个类别,树的最高节点就是根节点。聚类:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。数据分类:从数据库中发现数据对象的共性,并将数据对象分成不同的几类的一个过程。维:透视或关于一个组织想要记录的实体。多层次关联规则:一个关联规则的内容涉及不同抽象层次的内容。单层次关联规则:一个关联规则的内容涉及单一个层次的内容。局外者:数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。数据仓库:一个面向主体的、集成的、时变的、非易失的数据集合,支持管理过程的决 策制定。数据集市:数据仓库的一个部门子集,它针对选定的主题,因此是

33、部门范围的。数据区别:将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。数据特征化:目标类数据的一般特征或特性的汇总。噪声数据:指数据中存在错误、异常(偏离期望值)的数据。不完整数据:感兴趣的属性没有值。不一致数据:数据内涵出现不一致的情况。数据清洗:消除数据中所存在的噪声以及纠正其不一致的错误。数据集成:将来自多个数据源的数据合并到一起构成一个完整的数据集。数据消减:通过删除冗余特征或聚类消除多余数据。数据转换:将一种格式的数据转换为另一种格式的数据。分类:预测分类标号(或离散值),在分类属性中的训练样本集和值(类标号)的基础上分类,数据(建立模型)并使用它分类新数据。簇:是一组数

34、据对象的集合(是由聚类所生成的)。数据源:是表明数据地址的联机字符串数据源视图:是一个抽象层们能够让用户修改查看数据的方式,或者定义一个图表并在 稍后转换实际的源。一个图表题填空:菜单栏、标签页、解决方案资源管理器、属性窗口、错误窗口、设计 窗口、设计标签。(顺时针方向填写)P82二.简答题预测与分类的区别是什么?分类是预测数据对象的离散类别,预测是用于数据对象的连续取值数据分类由哪几步过程组成?第一步,建立一个模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。ID3算法的核心是什么?在决策树各级节点上选择属性时,用信息增益作为属性的选择标准,以使得在每一个叶节点 进行测试时能获得关

35、于被测试记录最大的类别信息。为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。朴素贝叶斯分类假定一个属性值对给定类的影响独立于其它属性的值。该假定称作类条 件独立。做此假定是为了简化所需计算,并在此意义下称为“朴素的”。设为一个类别未知的数据样本,H为某个假设,若数据样本X属于一个特定的类别C, 分类问题就是决定P(HIX),即在获得数据样本X时假设成立的概率。神经网络的优点和缺点分别是什么?优点:其对噪音数据的高承受能力,以及它对未经过训练的数据的分类能力。缺点:需要很长的训练时间,因而对于有足够长训练时间的应用更合适。典型的数据挖掘系统主要由哪几部分组成?数据库,数据仓库或

36、其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;图形 用户界面OLAP与OLTP的全称分别是什么?它们两者之间的区别是什么?联机事务处理 OLTP (on-line transaction processing);联机分析处理 OLAP (on-line analytical processing);OLTP和OLAP的区别:用户和系统的面向性:OLTP面向顾客,而OLAP面向市场;数据内容:OLTP系统管理当前数据,而OLAP管理历史的数据;数据库设计:OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计,而OLAP系统通常采用星形和雪花模型;视图:OLTP系统主要关注一个

37、企业或部门内部的当前数据,而OLAP系统主要关注汇总的 统一的数据;访问模式:OLTP访问主要有短的原子事务组成,而OLAP系统的访问大部分是只读操作,尽管许多可能是复杂的查询。数据仓库与数据集市的区别是什么?数据仓库收集了关于整个组织的主题信息,因此是企业范围的。对于数据仓库,通常使用星座模式,因为它能对多个相关的主题建模;数据集市是数据仓库的一个部门子集,它针对选定的主题,因此是部门范围的。对于数据集 市,流行星型或雪花模式,因为它们都适合对单个主题建模。不完整数据的产生原因有哪些?有些属性的内容有时没有有些数据当时被认为是不必要的由于误解或检测设备失灵导致相关数据没有记录下来与其他记录内

38、容不一致而被删除历史记录或对数据的修改被忽略了。噪声数据的产生原因有哪些?数据采集设备有问题在数据录入过程中发生了人为或计算机错误数据传输过程中发生错误由于命名规则或数据代码不同而引起的不一致。对遗漏数据有哪些处理方法?忽略该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。数据消减的主要策略有哪些?数据立方合计;维数消减;数据压缩;数据块消减;离散化与概念层次生成。数据源对象可以创建几种不同的安全认证选项?4种:使用特定用户名和密码;使用服务账户;使用当前用户的凭据;默认值。数据挖掘对聚类的典型要求有哪些?可伸缩性;处理不同类型属性的能力;发现任意形状的聚类;用于决定输入参数的领域知识 最小化;处理“噪声”数据的能力;对于输入记录的顺序不敏感;高维度;基于约束的聚类。简述下列聚类算法划分方法:给定一个n个对象或元组的数据库,一个划分方法构造数据的k个划分,每个划 分表示一个聚类,并且k n。层次方法:对给定数据对象集合进行层次的分解。基于密度的方法:只要是临近区域的密度超过某个阀值,就继续聚类。基于网格的方法:把对象空间量化为有限数目的单元。基于模型的方法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论