数据仓库与数据挖掘考试试题_第1页
数据仓库与数据挖掘考试试题_第2页
数据仓库与数据挖掘考试试题_第3页
数据仓库与数据挖掘考试试题_第4页
数据仓库与数据挖掘考试试题_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、填空题(15分)数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“卫心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的_、详细的数据库,也叫运营数据存储。二、多项选择题(10分)在数据挖掘的分析方法中,直接数据挖掘包括(ACD)分类关联估值分类关联估值

2、C预言数据仓库的数据过程中,数据仓库的数据过程中,软件的主要功能包括(ABC)数据抽取数据转换数据加载数据稽核数据抽取数据转换数据加载数据稽核数数据分类的评价准则包括()C精确度查全率和查准率几何均值数数据分类的评价准则包括()C精确度查全率和查准率几何均值9.层次聚类方法包括(BC)划分聚类方法凝聚型层次聚类方法分解型层次聚类方法基于密度聚类方法10贝.叶斯网络由两部分组成,分别是(A)D网络结构先验概率后验概率条件概率表三、计算题(30分)11一.个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定,使用算法计算生成的关联规则,标明每趟数据库扫描时的候

3、选集和大项目集。(15分)事务项目事务项目面包、果冻、花生酱啤酒、面包面包、花生酱啤酒、牛奶面包、牛奶、花生酱解:(1)由=面包、果冻、花生酱、牛奶、啤酒的所有项目直接产生1候-选,计算其支持度,取出支持度小于的项集,形成频繁集,如下表所示:项集支持度项集支持度面包面包花生酱花生酱牛奶牛奶啤酒啤酒组合连接中的各项目,产生候选集,计算其支持度,取出支持度小于的项集,形成频繁集,如下表所示:项集支持度项集支持度面包、花生酱面包、花生酱至此,所有频繁集都被找到,算法结束,所以,(面包e花生酱、,(,/,/(,/,5,(花生酱e面包),(,/,/(,/,5,所以,关联规则面包花生酱、花生酱e面包、均是

4、强关联规则。12给.定以下数据集(2,1,12,1,5,5,21,进行聚类,设定聚类数为个,相似度按照欧式距离计算。(分)解:()从数据集中随机地选择个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知,则可设2:C)对于中的任意数据样本(),计算它与个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当时,样本(,0,531距离该代表点的距离分别为,9当时,样本(,)距离该代表点的距离分别为26,11,-1,17。最小距离是或者将该元素放入的聚类中,则该聚类为(2),另一个聚类为(,)1。(3)1。TOC o 1-5 h z值,并且将其作为该聚类的新的代表点,

5、由此得到个均值代表点:,1()对于中的任意数据样本(),计算它与个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当时,样本(,)距离该代表点的距离分别为,,,。当时,样本(,)距离该代表点的距离分别为,98230最小距离是将该元素放入的聚类中,则该聚类为(23),另一个聚类为(,)。(,)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到个均值代表点:,()对于中的任意数据样本(),计算它与个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当时,样本(2,1,12,1,3,21)距离该代表点的距

6、离分别为-1,1,7,9,12,18,。,当时,样本(,)距离该代表点的距离分别为最小距离是将该元素放入的聚类中,则该聚类为(23),另一个聚类为5,)。至此,各个聚类不再发生变化为止,即误差平方和准则函数的值达到最优。四设计题(45分)13按.照题目给定的3个数据文件,任选一个建立数据流图,要求至少包括记录选项、字段选项、图形结点各一个。任选关联规则算法、贝叶斯网络、聚类、决策树()算法、神经网络中的一个进行挖掘,并给出选择:方向方向过滤:过滤后的字段。字段类型值缺失检查窈regiontenureagemarital集密围围围.汨范范范,3字段类型值缺失检查窈regiontenureagem

7、arital集密围围围.汨范范范,3勿?7uH无无无无无A.AA.X出输输输输输方向方向方向方向15给.出以上数据流图中模型的执行结果(生成模型完全展开后的数据),对于执行结果太多的,可节选部分结果。(10分)方向方向-?聚类-1:169记录|+炉age(40.763)|+炉marital(0.45)|+tenure(33.633)region(2-100%)-率:,聚类-2盯记录|+炉age(42.732)|+炉marital(0.0)|+tenure(32.138)+region(3-100%)-炀聚类-3:68iS录对以上模型生成的结果做一简要的分析,包括算法采用的基本原理、数学模+&m

8、arital(0.0)+tenure(34.147)型、算法步骤等。(1分-)聚类-4:9。记录+炉age(43.167)+tenure(39.478)答:/me聚类算法基本原理:将各个聚类子集内的所有数据样本的均值作为+tenure(39.478)该聚类的劉表点,算法的主要思想是通过迭代过程把数据划分为不同的类别,使得评价聚集类性能的准则函数达到最优,从而使生成的每个聚集类的紧凑,类间独立。操作步骤:输入:数据集,其中的数据样本只包含描述属性,不包含类别属性。聚类个数输出:()从数据集中随机地选择个数据样本作为聚类的出示代表点,每一个代表点表示一个类别()对于中的任意数据样本(),计算它与个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中(3)完成数据样本的划分之后,对于每一个聚类,计算其中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论