版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一、选择填空.数据仓库的特点分别是 面向主题、集成、相对稳定、反映历史变化。、 粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。 连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。在数据挖掘的分析方法中,直接数据挖掘包括(ACD )A分类 B 关联 C 估值 D 预言数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A数据抽取 B 数据转换 C 数据加载 D 数据稽核数据分类的评价准则包括(ABCD )A精确度 B 查全率和查准率 C F
2、-Measure D几何均值层次聚类方法包括(BC )A划分聚类方法B凝聚型层次聚类方法 C分解型层次聚类方法 D基于密 度聚类方法贝叶斯网络由两部分组成,分别是(A D )A网络结构 B 先验概率 C后验概率 D 条件概率表置信度(confidence)是衡量兴趣度度量(A )的指标。A、简洁性B、确定性C、实用性D新颖性关于OLAF和OLTP的区别描述,不正确的是:(C)A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D. O
3、LAP是以数据仓库为基础的,但其最终数据来源与OLTP-样均来自底层的数 据库系统,两者面对的用户是相同的简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中, 这种聚类类型称作(B )A、层次聚类 B 、划分聚类 C 、非互斥聚类 D 、模糊聚类将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? (C) A.频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流 挖掘为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A.探索性数据分析B. 建模描述C.预测建模D.寻找模式和规则6. 在数据挖掘的分析方法中,直接数据挖掘包括
4、( ACD ) A分类 B 关联 C 估值 D 预言7. 数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A数据抽取 B 数据转换 C 数据加载 D 数据稽核8. 数据分类的评价准则包括(ABCDA精确度 B 查全率和查准率 C F-Measure D几何均值9. 层次聚类方法包括( BC )A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密 度聚类方法10. 贝叶斯网络由两部分组成,分别是( A D )A 网络结构 B 先验概率 C 后验概率 D 条件概率表二、判断题1. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数 据、预测数据
5、等任务。 ( 对)2. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式 的发掘。(对) 3. 图挖掘技术在社会网络分析中扮演了重要的角色。 (对)4. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型 则对变量变化空间的一个有限区域做出描述。 (错)5. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。 (错)6. 离群点可以是合法的数据对象或者值。(对)7. 离散属性总是具有有限个值。(错)8. 噪声和伪像是数据错误这一相同表述的两种叫法。 (错)9. 用于分类的离散化方法之间的根本区别在于是否使用类信息。 (对)10. 特征提取技术并不依
6、赖于特定的领域。 (错)11. 序列数据没有时间戳。 (对)12. 定量属性可以是整数值或者是连续值。 (对)13. 可视化技术对于分析的数据类型通常不是专用性的。 (错)14. DSS 主要是基于数据仓库 . 联机数据分析和数据挖掘技术的应用。 (对)15. OLAP 技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继 数据库技术发展之后迅猛发展起来的一种新技术。 (对)16. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于: 后者把结 构强加于商务之上, 一旦系统设计完毕, 其程序和规则不会轻易改变; 而前者则 是一个学习型系统,能自动适应商务不断变化的要求。 (对)1
7、7. 数据仓库中间层OLAP服务器只能采用关系型 OLAP(错)18数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等 四个部分 . ( 错)19. Web 数据挖掘是通过数据库仲的一些属性来预测另一个属性 , 它在验证用户 提出的假设过程中提取信息 .(错)21. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。 (错)22. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对) 。23. 先验原理可以表述为: 如果一个项集是频繁的, 那包含它的所有项集也是频 繁的。(错24. 如果规则 不满足置信度阈值, 则形如 的规则一定也不满足置信度阈值, 其 中
8、 是 X 的子集。(对)25. 具有较高的支持度的项集具有较高的置信度。 (错)26. 聚类( clustering )是这样的过程: 它找出描述并区分数据类或概念的模型( 或函数 ) ,以便能够使用模型预测类标记未知的对象类。 (错)27. 分类和回归都可用于预测, 分类的输出是离散的类别值, 而回归的输出是连 续数值。 ( 对)28. 对于SV附类算法,待分样本集中的大部分样本不是支持向量, 移去或者减少这些样本对分类结果没有影响。(对)29. Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。(错)30. 分类模型的误差大致分
9、为两种:训练误差(training error)和泛化误差(generalization error).( 对)31. 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。(错)32. SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器( minimal margin classifier )( 错)33. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。 (错34. 聚类分析可以看作是一种非监督的分类。(对)35. K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由
10、算法自动地 确定。(错36. 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应 该被视为较优。(错37. 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对)38. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。(对)39. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚 类方法。(错)40. DBSCA是相对抗噪声的,并且能够处理任意形状和大小的簇。(对)三、计算题1. 一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定 supmin=40% conf min=40%使用AprioN 算
11、法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分)事务项目事务项目T1面包、果冻、花生酱T4啤酒、面包T2面包、花生酱T5啤酒、牛奶T3面包、牛奶、花生酱解:(1)由1=面包、果冻、花生酱、牛奶、啤酒的所有项目直接产生1-候选G,计算其支持度,取出支持度小于 supmin的项集,形成1-频繁集L1,如下表所示:项集C1支持度项集L1支持度面包4/5面包4/5花生酱3/5花生酱3/5牛奶2/5牛奶2/5啤酒2/5啤酒2/5所以,con fide nee(面包 -花生酱)=(4/5 ) / (3/5 ) =4/3 confmin(2)组合连接Li中的各项目,产生2-候选集C2
12、,计算其支持度,取出支持度小于supmin的项集,形成2-频繁集L2,如下表所示:项集C2支持度项集L2支持度面包、花生酱3/5面包、花生酱3/5至此,所有频繁集都被找到,算法结束,con fide nee (花生酱 面包) = (3/5 ) / (4/5 ) =3/4 conf min所以,关联规则面包花生酱、花生酱 面包均是强关联规则2. 给定以下数据集(2,4,10,12,15,3,21),进行K-Means聚类,设定聚 类数为2个,相似度按照欧式距离计算。(15分)解:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知 k=2,则可设m仁2
13、 m2=4(2) 对于X中的任意数据样本xm (1xmtotal ),计算它与k个初始代表点的 距离,并且将它划分到距离最近的初始代表点所表示的类别中:当 m仁2时,样 本(2,4, 10,12, 15, 3, 21)距离该代表点的距离分别为 2, 8, 10,13, 1,19。当m2=4时,样本(2 , 4, 10, 12, 15, 3, 21)距离该代表点的距离分别为-2 , 6, 8, 11, -1 , 17。最小距离是1或者-1将该元素放入m仁2的聚类中,则该聚类为(2, 3),另一 个聚类 口2=4为(4, 10, 12, 15, 21)。(3) 完成数据样本的划分之后,对于每一个聚
14、类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m仁2.5,m2=12(4) 对于X中的任意数据样本xm (1xmtotal ),计算它与k个初始代表点的 距离,并且将它划分到距离最近的初始代表点所表示的类别中:当 m1=2.5 时, 样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为 -0.5 ,0.5 ,1.5 , 7.5 ,9.5 ,12.5 ,18.5 。当m2=12时,样本(2 ,4, 10, 12, 15, 3, 21)距离该代表点的距离分别为-10, -9 , -8 , 2, 3, 9。最小距离是1.5将该元素放入m1=2
15、.5的聚类中,则该聚类为(2, 3, 4),另一 个聚类 口2=12为(10, 12, 15, 21)。(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均 值,并且将其作为该聚类的新的代表点,由此得到 k 个均值代表点: m1=3, m2=14.5:(6) 对于X中的任意数据样本xm (1xm0=0=P(X|senior)P(senior);所以:朴素贝叶斯分类器将 X 分到 junior 类。 解二:设元组的各属性之间不独立,其联合概率不能写成份量相乘的形式。所以已知:X=(department=system,age=26 30,salary=46K 50K),元组总数
16、为: 30+40+40+20+5+3+3+10+4+4+6=16。5 先验概率:当 status=senior 时,元组总数为: 30+5+3+10+4=52, P(senior)=52/165=0.32;当 status=junior 时 , 元 组 总 数 为 : 40+40+20+3+4+6=113 , P(junior)=113/165=0.68;因为status=senior 状态没有对应的age=2630区间,所以:P(X|senior)=0 ; 因为 status=junior 状态对应的 partment=systems、age=2630 区间的总元 组数为: 3,所以: P(
17、X|junior)=3/113;因 为 : P(X|ju ni or)P(ju nior)=3/113X 113/165=0.0180=P(X|senior)P(senior) ;所以:朴素贝叶斯分类器将 X 分到 junior 类。四、简答论述题 三种规范化方法:(1) 最小最大规范化( min-max 规范化):对原始数据进行线性变换,将原始 数据映射到一个指定的区间。(2) z-score 规范化(零均值规范化) :将某组数据的值基于它的均值和标准差 规范化,是其规范化后的均值为 0 方差为 1。, 其中 是均值, 是标准差(3) 小数定标规范化:通过移动属性 A 的小数点位置进行规范化
18、。k-means 聚类算法基本原理 :将各个聚类子集内的所有数据样本的均值作为该聚 类的代表点, 算法的主要思想是通过迭代过程把数据划分为不同的类别, 使得评 价聚集类性能的准则函数达到最优, 从而使生成的每个聚集类的紧凑, 类间独立。 操作步骤:输入:数据集 , 其中的数据样本只包含描述属性,不包含类别属性。聚类个数 K 输出:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代 表点表示一个类别( 2)对于 X 中的任意数据样本 xm( 1xmtotal ),计算它与 k 个初始代表点的 距离,并且将它划分到距离最近的初始代表点所表示的类别中(3) 完成数据样本的划分之后
19、,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到 k个均值代表点( 4)对于 X 中的任意数据样本 xm( 1xmtotal ),计算它与 k 个均值代表点的距离,并且将它划分到距离最近的均值代表点所表示的类别中( 5)重复 3.4 ,直到各个聚类不再发生变化为止。即误差平方和准则函数的值 达到最优1、数据仓库的组成? P2 数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统2、数据挖掘技术对聚类分析的要求有哪几个方面? P131 可伸缩性;处理不同类型属性的能力;发现任意形状聚类的能力;减小对先验知识和用户自定义参数的依
20、赖性;处理噪声数据的能力;可解释性和实用性3、数据仓库在存储和管理方面的特点与关键技术? P7 数据仓库面对的是大量数据的存储与管理并行处理针对决策支持查询的优化支持多维分析的查询模式4、常见的聚类算法可以分为几类? P132基于划分的聚类算法, 基于层次的聚类算法, 基于密度的聚类算法, 基于网格的 聚类算法,基于模型的聚类算法 等。5、一个典型的数据仓库系统的组成? P12数据源、数据存储与管理、OLAP服务器、前端工具与应用6、数据仓库常见的存储优化方法? P71 表的归并与簇文件;反向规范化,引入冗余;表的物理分割。7、数据仓库发展演变的5个阶段? P20以报表为主以分析为主以预测模型
21、为主以运行向导为主以实时数据仓库、自动决策应用为主8、ID3算法主要存在的缺点? P116(1)ID3算法在选择根结点和各内部结点中的分枝属性时,使用信息增益作为 评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属 性可能不会提供太多有价值的信息。(2)ID3算法只能对描述属性为离散型属性的数据集构造决策树。9、 简述数据仓库ETL软件的主要功能和对产生数据的目标要求。P30 ETL软件的主要功能:数据的抽取,数据的转换,数据的加载对产生数据的目标要求: 详细的、历史的、规范化的、可理解的、即时的、质量可控制的10、简述分类器设计阶段包含的3个过程。划分数据集,分类器构造,
22、分类器测试11、什么是数据清洗?数据清洗是一种使用模式识别和其他技术,在将原始数据转换和移到数据仓库之 前来升级原始数据质量的技术。13、 利用信息包图设计数据仓库概念模型需要确定的三方面内容。P57确定指标,确定维度,确定类别14、K-近邻分类方法的操作步骤(包括算法的输入和输出)。P128输Ai训练集皿 未知类标号臓辭本沪(wh *输出未知美标号臓蹄机濮标号,(1)对于未知类标号的数辭本益按照下式计算它弓训练集也中每一个数d(v:i)匸厂附) 2二 totals(2)S(l)步中的俪氏距匡按照由小到大的顺序耐展芥且取前k 个距匪从而找出x在沐中的k个近邻,他设分别是k个近 辎懈于类别 Ci
23、j c:t rj C我样本数氢“(3)如果p严azp, i二则汕类标号为m SP xEc(b 15、什么是技术元数据,主要包含的内容?P29技术元数据是描述关于数据仓库技术细节的数据,应用于开发、管理和维护Dvy包含:DW结构的描述,如DW的模式、视图、维、层次结构和导出数据的定义,数据 集市的位置和内容等业务系统、DW和数据集市的体系结构和模式汇总算法。包括度量和维定义算法,数据粒度、主题领域、聚合、汇总和预 定义的查询和报告。由操作型业务环境到数据仓库业务环境的映射。包括源数据和他们的内容、数据分割、数据提取、清洗、转换规则和数据刷新规则及安全(用户授权和存取 控制)16、业务元数据主要包
24、含的内容? P29业务元数据:从业务角度描述了 DW中的数据,提供了介于使用者和实际系 统之间的语义层,主要包括:使用者的业务属于所表达的数据模型、对象名和属性名访问数据的原则和数据的来源系统提供的分析方法及公式和报表的信息。18、 数据从集结区加载到数据仓库中的主要方法?P36SQL命令(如 Insert 或 Update)由DW供应商或第三方提供专门的加载工具由DW管理员编写自定义程序19、多维数据模型中的基本概念:维,维类别,维属性,粒度 P37维:人们观察数据的特定角度,是考虑问题的一类属性,如时间 维或产品维维类别:也称维分层。即同一维度还可以存在细节程度不同的各个 类别属性(如时间
25、维包括年、季度、月等)维属性:是维的一个取值,是数据线在某维中位置的描述。 粒度:DW中数据综合程度高低的一个衡量。粒度低,细节程度高, 回答查询的种类多20、Apriori算法的基本操作步骤P93Apriori使用一种称作逐层搜索的迭代方法,K项集用于探索K+1项集。 该方法是基于候选的策略,降低候选数Apriori剪枝原则:若任何项集是非频繁的,则其超集必然是非频繁的(不 用产生和测试超集)该原则基于以下支持度的特性:_X,Y:(X -Y)二 s(X) _ s(Y)项集的支持度不会超过其子集 支持度的反单调特性(anti-monotone ):如果一个集合不能通过测 试,则它的所有超集也都不能通过相同的测试。令k=1产生长度为1的频繁项集循环,直到无新的频繁项集产生从长度为k的频繁项集产生长度为k+1的候选频繁项集 连接步:项集的各项排序,前k-1个项相同若候选频繁子集包含长度为k的非频繁子集,则剪枝 剪枝步:利用支持度属性原则扫描数据库,计算每个候选频繁集的支持度 删除非频繁项,保留频繁项定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚 类和演变分析。使用你熟悉的现实生活的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 徐州工程学院《服饰配件设计》2022-2023学年第一学期期末试卷
- 邢台学院《模型制作》2022-2023学年第一学期期末试卷
- 信阳师范大学《数据结构及算法(Python)》2022-2023学年第一学期期末试卷
- 建筑物拆除工程招标合同三篇
- 新余学院《U界面设计》2022-2023学年第一学期期末试卷
- 西南交通大学《热力学与统计物理》2021-2022学年第一学期期末试卷
- 西华大学《艺术鉴赏》2022-2023学年第一学期期末试卷
- 2024年01月11255计算机网络(本)期末试题答案
- DB32-T 4736-2024 医疗卫生信用评价规范
- 西昌学院《舞蹈技术技巧》2023-2024学年第一学期期末试卷
- 《餐饮传菜部的工作》课件
- 科教版高中信息技术必修一信息与信息技术信息及其特征课件
- 《病毒性出血热》课件
- 贵州省安顺市2023-2024学年上学期高二期末语文试卷(含答案)
- 佛山市重点中学2024年高考化学一模试卷含解析
- 2023届中考语文专题练现代文阅读(记叙文):层次和行文线索问题(解析)
- 河道保洁培训课件
- 《社会调查研究与方法》课程复习题-课程ID-01304试卷号-22196
- 健康饮食营养与生殖健康
- 舞蹈表演专业大学生职业生涯规划书
- 自然资源数据平台建设需求
评论
0/150
提交评论