数据挖掘离线作业_第1页
数据挖掘离线作业_第2页
数据挖掘离线作业_第3页
数据挖掘离线作业_第4页
数据挖掘离线作业_第5页
免费预览已结束,剩余4页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、浙江大学远程教育学院数据挖掘课程作业姓名:李东学号:714030242005年级:14年秋信息管理学习中心:合肥学习中心第一章引言一、填空题(1) 数据库中的知识挖掘 (KDD)包括以下七个步骤: 数据清理 、数据集成、数据选择、 数据变换、 数据挖掘、模式评估禾廿 知识表示(2) 数据挖掘的性能问题主要包括:算法的效率、 可扩展性 和 并行处理(3) 当前的数据挖掘研究中,最主要的三个研究方向是:统计学 、 数据路技术 和机器学习(4) 孤立点是指:一些与数据的一般行为或模型不一致的孤立数据二、简答题(1)什么是数据挖掘?答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的,有用的,隐含的

2、,先前未知的和可能有用的模式或知识。(2 )一个典型的数据挖掘系统应该包括哪些组成部分?答:1,数据库、数据仓库或其他信息库;2,数据库或数据仓库服务器;3,知识库;4,数据挖掘引擎;5,模式评估模块;6图形用户界面。(3)Web挖掘包括哪些步骤?答:数据清理(可能有占全过程的60%的工作量);将数据存入数据仓库;建立数据立方体;选择用来进行数据挖掘的数据;数据挖掘(选择适当的算法来找到感兴趣的模式);展现挖掘结果;将模式或者知识应用或者存入知识库。(4 )请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘)答:常见的数据源包括关系数据路、数据仓库、事务数据库和高举数

3、据库系统和信息库。其中国际数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象关系数据库、异种数据库和遗产数据库、文本数据库和万维网等。第二章认识数据一、填空题(1) 两个文档向量di和d2的值为:di = (1,0, 3, 0, 2), d2 = (3, 2, 0, 0, 1),则它们的余弦 相似度为:5/13(2) 数据离散度的常用度量包括极差 、 分位数 、 四分位数 、 百分位数四分位数极差禾口(3) 一种常用的确定离群点的简单方法是:出落在至少高于第三个四分位数或低于第一个四分位数1.5*IQR处的值。:、单选题(1)对于下图所示

4、的正倾斜数据,中位数、平均值、众数三者之间的关系是:A、中位数=平均值=众数;B中位数 平均值 众数; C、平均值 中位数 众数;D;众数 中位数 平均值 选C(2 )下面的散点图显示哪种属性相关性?A不相关;B正相关;C负相关;D先正相关然后负相关;选C三、简答题(1)什么是基于像素的可视化技术?它有什么缺点?答:对于一个 M维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点;难以呈现对维空间的数据分布,不显示数据子空间是否存在稠密区域。(2)对称的和不对称的二元属性有什么区别?答

5、:对称的二元属性指变量的两个状态具有同等价值或相同权重;而对不对称的二元属性中,变量的两个状态的重要性是不同的,对称的二元属性可以使用简单匹配系数苹果它们的相异度;不对称的二元属性使用jaccard系数评估它们的相异度。第三章数据预处理一、填空题(1) 进行数据预处理时所使用的主要方法包括:数据清理_、数据集成 、数据变换和数据规约(2) 数据概化是指:沿概念分层向上概化(3) 数据压缩可分为:有损压缩禾廿两种类型。(4 )进行数值归约时,三种常用的有参方法是:线性回归方法、 多元回归和二、简答题(1)常用的数值属性概念分层的方法有哪些?答:分箱、直方图分析,聚类分析,基于熵的离散化和通过自然

6、划分分段。(2)请描述主成份分析(PCA )算法步骤答:1规范化输入的数据:所有属性落在相同的区间内;2,计算k个标准正交向量,即主成分;3,每个数据数据的向量都是这 k主成分向量的线性组合;4,主成分按照重要程度 降序排序。(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方 法。答:1,忽略元组。当类标号缺少是通常这么做,当每个属性缺省值的百分比变化很大时,他的效果非常差。2,人工填写空缺值。这种方法工作量大,可行性低。3,使用一个全局变量填充空缺值。4,使用属性的平均值填充空缺值。5,使用与给定元组属同一类的所有样本的平均值。6,使用最可能的值填充空缺值。(4

7、)常见的数据归约策略包括哪些?答1,数据立方聚集,2,维归约;3,数据压缩;4,数据归约;5,离散化和概念分层产 生;第六一七章挖掘频繁模式、关联和相关一、填空题(1 )关联规则挖掘中,两个主要的兴趣度度量是:支持度 和 置信度(2) Aprior算法包括连接和剪枝两个基本步骤(3) 项集的频率是指包含项集的事务数(4 )大型数据库中的关联规则挖掘包含两个过程:找出所有频繁项集和由频繁项集产生强关联规则(5) 根据规则中所处理的值类型,关联规则可分为:布尔关联规则和 量化关联规则(6)Apriori性质是指:频繁项集的所有非空子集也必须是频繁的 (7 )在多维关联规则挖掘中,我们搜索的不是频繁

8、项集,而是频繁谓词集 二、简答题(1)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。答:优点:搜索是容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索。缺点:最小支持度设置困难,太高则将丢掉出现在较低抽象层中有意义的关 联规则;太低则会在较高层产生太多的无兴趣的规则。(2)如何提高Apriori算法的有效性?有哪些常见方法?答:可以使用一下几个思路来提升Apriori算法:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法。常见方法包括:1,基于hash表的项集计数;2,事务压缩;3,划分;4,选样;5,动态项集计数。第八章分类一、

9、填空题(1) 数据分类模型的常用表示形式包括分类规则、决策树和数学公式等。(2 )朴素贝叶斯分类是基于类条件独立假设。二、简答题(1 )在判定树归纳中,为什么树剪枝是有用的?答:决策树建立时,血多分析反映的是训练数据中的噪声和离群点点,树剪枝可以识别并剪去这种分枝,以提高对未知数据分类的准确性。(2)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类优缺点。答:基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间,引入了很大开销。朴素贝叶斯分类做了类条件独立假设,大幅降低了计算开销。他的优点是容易实现并在大多数情况下可以取得较好的结果;他的缺陷是类条件独立在实际应用缺乏准确性,因为变量

10、之间经常存在依赖关系,这种依赖关系影响了朴素贝叶斯分类器的准确性。(3 )分类方法的常用评估度量都有哪些?答:精度(precision):标记为正类的元组实际为正类所占的百分比。召回率:正元组标 记为正的百分比。F量度:精度和召回率的调和评估指标。准确率,识别率:测试数据中正 被正确分类的元组所占的百分比。5,灵敏度:真正例(识别)率。6,特效性:真负例率。(4)简述数据分类的两步过程。答:第一步,建立模型:建立描述预先定义的数据类或概念集的分类器;第二步,在独立 测试集上评估模型的预测准确率,通过测试后再使用模型,对新的数据进行分类。三、算法题(1)使用判定树归纳算法,根据顾客年龄age (

11、分为3个年龄段:<18,18.23 ,>23),收入in come (取值为 high, medium, low),是否为 stude nt (取值为 yes和no),信用 credit_rating等级(取值为fair和excellent )来判定用户是否会购买PCGame即构建判定树buys_PCGame假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该 结果对每一个划分中的各个属性计算信息增益对age<18的顾客:Gai n(in come)=0.022,Gai n(stude nt)=0.162,Gai n(credit_rat in g)=0.323对ag

12、e>23的顾客:Gai n(in come)=0.042,Gai n(stude nt)=0.462,Gai n(credit_rat in g)=0.155in comestude ntcredit_rati ngclasshighnofairyesmediumyesfairyeshighnofairyesmediumyesexcelle ntyesin comestude ntcredit_rati ngclasshighnofairnomediumyesfairnohighnofairnomediumyesexcelle ntyeslownoexcelle ntyesIn come

13、stude ntcredit_rat ingclasshighnofairnohighyesexcelle ntyesmediumyesfairyeslowyesfairyeslownoexcelle ntno第十章聚类分析一、填空题(1 )在数据挖掘中,常用的聚类算法包括:划分方法 、层次方法、基于密度的方法基于网格的方法和基于模型的方法。(2)聚类分析常作为一个独立的工具来获得数据分布的情况(3 )一个好的聚类分析方法会产生高质量的聚类,具有两个特征:高类内相似度和低类间相似度(4) 许多基于内存的聚类算法所常用的两种数据结构是数据矩阵 和相似度矩阵(5) 基于网格的聚类方法的优点是:处理

14、速度快 二、简答题(1)简述基于划分的聚类方法。划分的准则是什么?答:基于划分的聚类方法: 给顶一个n个对象或元组的数据库, 一个划分方法构建数据的 k个划分,每个划分表示一个簇,丙炔k=n。划分方法要求每个组至少包含一个对象并且每个对象属于且仅数以一个组。聚类目标可以是最优化某种量度,比如最小化数据点与类中心的距离平方和等。划分准则是同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的远离或不同。(2 )列举离群点挖掘的常见应用。答:1,欺诈检测;2,网络入侵;3,故障诊断;4,可疑金融交易监控;第四章数据仓库和OLAP技术一、填空题(1) 数据仓库的多维数据模型可以有三种不同的形

15、式,分别是:星形模式、雪花模式和事实星座模式(2) 给定基本方体,方体的物化有三种选择:不物化 、部分物化 和全物化(3) 著名的数据仓库系统设计师W. H. Inmon认为,数据仓库与其他数据存储系统的区别的四个特征是:面向主题、数据集成、随时间而变化 和数据不易丢失(4) 在数据访问模式上, 数据仓库以事务操作 为主,而日常应用数据库则以只读查询为主。(5) 数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:分布的 、代数的和(6) 关于数据仓库的设计,四种不同的视图必须考虑,分别是:自上向下视图、数据源视图、 数据仓库视图、 商务查询视图(7) OLAP服务器的类型主要包括:关系

16、OLAP服务器、 多维OLAP服务器和 混合OLAP服务器(8 )求和函数sum()是一个 分布 的函数。(9 )方体计算的主要挑战是海量数据 和 有限的内存和时间之间的矛盾。二、简答题(1)为什么在进行联机分析处理 (OLAP)时,我们需要一个独立的数据仓库,而不是直接在 日常操作的数据库上进行。答:使用一个独立的数据仓库进行OLAP处理为了以下的目的:1提高两个系统的性能:操作数据库是为了 OLTP而设计的,没有为 OLAP操作优化,同时在错啊做数据库上处理 OLAP查询,会打打降低操作任务的性能;而数据仓库是为了 OLAP而设计,为复杂的OLAP查询,多维视图,汇总等 OLAP功能提供了

17、优化。2,两者有着不同的功能:操作数据库支 持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问,这是如果将事务处理的并行机制和回复机制用于这种OLAP操作,就会显著降低 OLAP的性能。3,两者有着不同的数据:数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。(2)为什么说数据仓库具有随时间而变化的特征?答:1,数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统主要保存当前 数据,而数据仓库从历史的角度提供信息。2,数据仓库中的每一个关键结构都隐式或显式的包含时间元素,而操作数据库中的关键结构可能就不包含时间元素。(2)试述对于多个异种信息源的集成,为什么许多

18、公司宁愿使用更新驱动的方法(update-driven ),而不愿使用查询驱动(query-driven )的方法?答:因为对于多个异种信息源的集成慢查询驱动方法需要负责的信息过滤盒集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法, 并且对于频繁的查询, 特别是需要聚集操作的查询,开销很大,而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询。(3 )请简述几种典型的多维数据的OLAP操作答:上卷:通过一个维的概念分层向上攀升或者通过位规约, 在数据立方体上进行聚集; 下卷: 上卷的逆操作, 由不太详细的数据得到更详细

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论