商务智能复习题_第1页
商务智能复习题_第2页
商务智能复习题_第3页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、-.z.z.一、选择题此题共 5 道小题,每题 2 分,共 10 分数据仓库是随着时间变化的,下面的描述不正确的选项是 (C)。数据仓库随时间的变化不断增加新的数据内容捕捉到的新数据会覆盖原来的快照数据仓库随事件变化不断删去旧的数据内容有关数据仓库的开发特点,不正确的描述(B 。数据仓库使用的需求在开发初期就要明确数据仓库开发要从数据出发分析和处理更灵活,且没有固定的模式在有关数据仓库测试,以下说法不正确的选项是 (D。测试和系统测试。当数据仓库的每个单独组件完成后,就需要对他们进展单元测试。系统的集成测试需要对数据仓库的所有组件进展大量的功能测试和回归测试。在测试之前没必要制定详细的测试方案

2、。关于根本数据的元数据是指 (D)。根本元数据与数据源、数据仓库、数据集市和应用程序等构造相关的信息根本元数据包括与企业相关的管理方面的数据和信息根本元数据包括日志文件和简历执行处理的时序调度信息下面关于数据粒度的描述不正确的选项是 (C)。粒度是指数据仓库小数据单元的详细程度和级别数据越详细,粒度就越小,级别也就越高数据综合度越高,粒度也就越大,级别也就越高粒度的具体划分将直接影响数据仓库中的数据量以及查询质量关于OLAP 的特性,下面正确的选项是D) (1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享A. (1) (2) (3)B. (2) (3) (4)C. (1) (

3、2) (3) (4)D. (1) (2) (3) (4) (5)关于OLAP 和OLTP 的区别描述,不正确的选项是: (C)OLAP 主要是关于如何理解聚集的大量不同的数据,它与OTAP 应用程序不同。与OLAP 应用程序不同,OLTPOLAPOLAP 是以数据仓库为根底的,但其最终数据来源与OLTP 一样均来自底层的数据库系统,两者面对的用户是一样的。关于OLAP 和OLTP 的说法,以下不正确的选项是: (A)OLAPOLAP 的最终数据来源与OLTPOLTPOLTPOLAP 技术的核心(D。在线性对用户的快速响应互操作性多维分析*超市研究销售纪录数据后发现,买啤酒的人很大概率也会购置尿

4、布,这种属于数据掘的哪类问.(A)关联规则B. 聚类C. 分类D. 自然语言处理分析型CRM C功能可以让 CRM 对所进展的销售活动相关信息进展存储和理,将客户所发生的交易与互动事件转化为有意义、高获利的销售商机。促销管理B. 个性化和标准化C. 客户分析和建模D. 客户沟通运用关键绩效指标法设计组织关键绩效指标依次经过以下几个步骤AA.确定关键成功领域、确定关键绩效要素、确定关键绩效指标方案目标、实施目标、评价结果、反响D.确定长期整体目标、确定短期目标什么是KDD. (A)A. 知识发现 B. 领域知识发现C. 文档知识发现D. 动态知识发现呼叫中心是一种基于D的一种新的综合信息效劳系统

5、A IT 技术B CTI 技术C WEB 技术D CRM技术.(C)频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘.(B)分类B. 聚类C. 关联分析D. 隐马尔可夫链使用交互式的和可视化的技术,对数据进展探索属于数据挖掘的哪一类任.A探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则.(B)探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则任务.(C)根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则务.(A)根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则21(D)A. 变量代换B. 离 散化C. 聚集D. 估计遗漏值下面哪个不属

6、于数据的属性类( D)A.标称B.序数区间D. 相 异在上题中,属于定量的属性类型(C)A.标称B.序数C. 区间D.相异只有非零值才重要的二元属性被称( C)。A.计数属性B.离散属性C. 非对称的二元属性D. 对称属性以下哪种方法不属于特征选择的标准方法 (D)。嵌入B.过滤C.包装下面不属于创立新属性的相关方法的(C)。特征提取B. 特征修改C. 映射数据到新的空间D. 特征构造下面哪个属于映射数据到新的空间的方. (A) A.傅立叶变换B. 特征加权C.渐进抽样D. 维归企业所建立的预测模型的好坏取决于模型(A)上的表现效果。得分集B. 训 练集C. 测 试集D. 评价集客户在经济活动

7、中具有多重身份,下面哪一种不是其身份之(C)。行为身份B. 所有权身份C. 学习身份D. 决策身份以下四条描述中,正确的一条(B)。企业实施数据挖掘,必须要有数据仓库。企业要实施数据挖掘最好的方式是请编外专家。来的现成模型设计之初的假设相吻合。在建模的时侯,增益最高的模型就是最好的模型。数据挖掘算法(D)形式来组织数据。行B. 列C. 记录D.表 格企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的选项(B)。数据越多越好。尽可能多的适合的数据。得分集数据是建模集数据的一局部。以上三条都正确。K均值类别侦测要求输入的数据类型必须(B)。整型B. 数 值型C. 字 符型D. 逻辑

8、型在决策树和累计增益图的关系转化过程图中决策树*一页节点的增益与累计增益图的(D)相对应。线段长度B. 线段斜率C. 相对应的线段长度D. 相对应的线段斜率企业为提升每个客户的价值,应实(C)最优化。促销活动B. 预算最优化C. 客户最优化D. 三者都不是数据挖掘的经典案例“啤酒与尿布试验最主要是应用(C)数据挖掘方法。分类B. 预测C. 组合或关联法则D. 聚 类企业成功实施数据挖掘, 需要以(B)知识或技术。预先的规划B.对商业文体的理解C. 综合商业知识和技能D. 都需要以下哪个不是专门用于可视化时间空间数据的技(B)A.等高线图 B. 饼图C.曲面图D.矢量场图在抽样方法中,当适宜的样

9、本容量很难确定时,可以使用的抽样方法是 (D)A.有放回的简单随机抽样B. 无放回的简单随机抽样C. 分层抽样D.渐进抽样设*=1,2,3是频繁项集,则可*产(C个关联规则A. 4 B. 5 C. 6 D. 7概念分层图(B图。无向无环 B. 有向无环C. 有向有环D. 无向有环以下哪些算法是分类算法B。A.DBSCAN B. C4.5 C. K-Mean D. EM以下哪些分类方法可以较好地防止样本的不平衡问题A。 A. KNN B. SVM Bayes D. 神经网络以下关于人工神经网络ANN的描述错误的有 (A。神经网络对训练数据中的噪声非常鲁棒可以处理冗余特征训练ANN至少含有一个隐藏

10、层的多层神经网络通过聚集多个分类器的预测来提高分类准确率的技术称为 (A) 。组(ensemble)B. 聚 (aggregate)C. 合 (bination)D. 投(voting)简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种类类型称作B。层次聚类B. 划分聚类C. 非互斥聚类D. 模糊聚类在根本 K 均值算法里,当邻近度函数采用A的时候,适宜的质心是簇中各点的位数A. 曼哈顿距离B. 平方欧几里德距离C. 余弦距离D. Bregman散度 C 是一个观测值,它与其他观测值的差异如此之大,以至于疑心它是由不同的机产生的A. 边界点B. 质心C. 离 群点D.

11、核心点 48. 检测一元正态分布中的离群点,属于异常检测中的基于 A 的离群点检测。统计方法B. 邻 近度C. 密度D. 聚类技术DBSCAN 在最坏情况下的时间复杂度是 B A. O(m)B. O(m2)C. m)D. O(m*log m)关于 K 均值和DBSCAN 的比拟,以下说法不正确的选项是 AA. K 均值丢弃被它识别为噪声的对象,而DBSCAN 一般聚类所有对象。B. K而 DBSCANC. K 均值很难处理非球形的簇和不同大小的簇,DBSCAN 可以处理不同大小和不同形状的簇。D. K 均值可以发现不是明显别离的簇,即便簇有重叠也可以发现,但是DBSCAN 会合并有重叠的簇。A

12、 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规52.下面哪种不属于数据预处理的方. (D)A 变量代换B 离散化C 聚集D 估计遗漏值二、判断题此题共 10 道小题,每题 1 分,共 10 分 T 1商务智能指收集、转换、分析和发布数据的过程,目的是为了更好的决策。 F 2数据分析是整合企业原始数据的第一步,包括数据抽取、转换和装载三个过程。 T 3维是人们观察数据的特定角度,是考虑问题时的一类属性。 F 4独立的数据集市架构的优点是企业内数据一致,不会产生信息孤岛。 T 5. 星型模型的核心是事实表,事实表把各种不同的维表连接起来。 F值。 T 7衡量客户忠诚的唯一尺度就是客

13、户是否重复或持久地购置企业的产品或者效劳。 T 8在BI 中,DW 是前提和根底,负责统一数据规则的处理和存储。 F 9客户效劳管理是对客户意见或投诉以及售前、售中、售后效劳进展管理。 F 10. 平衡计分卡共包括三个层面,分别是财务层面、客户层面、内部业务流程层面。 T 11数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。 F 12在聚类分析当中,簇内的相似性越大,簇间的差异越大,聚类的效果就越差。 F 13OLAP 是用来协助企业对响应事件或事务的日常商务活动进展处理。 T 14数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决

14、策的过程。 T 15. 数据预处理是整合企业原始数据的第一步,包括数据抽取、转换和装载三个过程。 F 16C4.5 决策树算法是国际上最早、最有影响力的决策树算法, T 17平衡计分卡是从财务、客户、内部运营、学习与成长四个角度,将组织的战略落实为可操作的衡量指标和目标值的一种新型绩效管理体系。 F 18客户效劳管理是对客户意见或投诉以及售前、售中、售后效劳进展管理。 F 19. 企业绩效管理的目的在于进一步加强本钱的事前控制,同时有助于通过盈亏分析,辅助产品科学的报价。FFTF3FFID3TC4.5FFTFFTSQL Server 2005FFTFT数据挖掘的目标不在于数据采集策略,而在于对

15、于已经存在的数据进展模式的开掘。 T 图挖掘技术在社会网络分析中扮演了重要的角色 T模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量化空间的一个有限区域做出描述 F寻找模式和规则主要是对数据进展干扰,使其符种规则以及模式F 离群点可以是合法的数据对象或者值。 T离散属性总是具有有限个值。 F噪声和伪像是数据错误这一一样表述的两种叫法。F用于分类的离散化方法之间的根本区别在于是否使用类信息。T特征提取技术并不依赖于特定的领域。FF定量属性可以是整数值或者是连续值。T49. 可视化技术对于分析的数据类型通常不是专用性的。T50. DSS 主要是基于数据仓库、联机数据分析和

16、数据挖掘技术的应用F51. OLAP 技术侧重于把数据库中的数据进展分析、转换成辅助决策信息是继数据库技术开展之后迅猛开展起来的一种新技术T52. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把构造强加于商务之 上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自适应商务不断变化的要求T53. 数据仓库中间层 OLAP 效劳器只能采用关系型OLAPF54数据仓库系统的组成局部包括数据仓库、仓库管理、数据抽取、分 析工具等四个局部。 (F)55.WebF 56.F 57. 聚类clusteringF58.(T)59. 对于 SVM本对分类结果没有影响T

17、60. Bayes 法是一种在后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 (F)三、名词解释此题共 4 道小题,每题 5 分,共 20 分1.商务智能决策,提升企业竞争力。数据仓库数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。数据集成供全面的数据共享。OLAPOLAP 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进展快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。数据挖掘数据挖掘是从大量的、不完全的、有噪声的、模糊的

18、、随机的数据中提取正确的、有用的、未知的、综合的以及人们感兴趣的知识并用于决策支持的过程。孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。01小数定标标准化。聚类:是将物理或抽象对象的集合分组成为多个类或簇(cluster中的对象之间具有较高的相似度,而不同簇中的对象差异较大。ROLAP通常采用星型或雪花型架构,由一个事实表和多个维度表构成。数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据一样的分析结果。以认为是以时间为关键属性的关联知识。掘的典型方法,可用于对新样本进展分类。遗传算法:是一种优化搜索算法,它首先产生一个初始可行解群体,然

19、后对这个群体通 创造、获取和使用知识的过程知识的创造、储存、分享、应用和更新Web 挖掘:Web 挖掘是从大量Web 文档的集合C 中发现隐含的、有用的模式P 的过程: CP 。四、简答题此题共 5 道小题,每题 6 分,共 30 分1实现商务智能的四个阶段是什么.答:实现商务智能的四个阶段是数据预处理、建立数据仓库、数据分析及数据展现2 分1 分数据仓库则是处理海量数据的根底; 1 分数据分析是表达系统智能的关键,一般采用OLAP 和 DM1 分数据展现则主要保障系统分析结果的可视化1 分2. 数据库系统的局限性杂。面这些细节数据会分散决策者的注意力。当事务型处理环境和分析型处理环境在同一个

20、数据库系统中的混乱。对于外部数据中的一些非构造化数据,数据库系统常常是无能为力。 3座模式,因为它能对多个相关的主题建模3市,流行星型或雪花模式,因为它们都适合对单个主题建模3 分4. OLAP 的特点快速性Fast:用户对OLAP 的快速反响能力有很高的要求。可分析性Analysis:OLAP 系统应能处理与应用有关的任何逻辑分析和统计分析。多维性 Multidimensional:多维性是 OLAP 的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。信息性Information:OLAP 系统应能及时获得信息,并且管理大容量信息。5简述OLAP 的根本操作

21、有哪些.答:OLAP 的根本操作有:(Slice and 2钻取(Drill) :钻取包含向下钻取(Drill-down(Drill-up)/上卷(Roll-up的深度与维所划分的层次相对应2旋转(Rotate)/(Pivot):通过旋转可以得到不同视角的数据2 分6简述OLAP 与数据挖掘的区别和联系。答:OLAP 侧重于与用户的交互、快速的响应速度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信息,尽管允许用户指导这一过程3 分OLAP 深度,可以发现OLAP 所不能发现的更为复杂、细致的信息3 分7何谓数数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析

22、、趋势分析、孤立点分析以及偏差分析等。3 分为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。简述数据预处理方法和内容。数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。据源的数据匹配问题、数值冲突问题和冗余问题等。数据变换:将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、标准化,还可能需要进展属性的重构。数据一样的分析结果。聚类分析;分类分析;关联分析;序列模式挖掘;回归分析;时间序列分析。数据挖掘中的数据需要采用以下格式: 所有数据应该在一个表格/数据库视图中 每一行对应于与业务问题相关的一个案例 忽略具有单一值/几乎

23、单一值的列 忽略所有行的值都不同的列 删除所有同义列 对于预测模型,目标列必须是可识别的12简述K-近邻分类法的根本思想。答:根本思想:K近邻分类是基于类比学习的,每个样本代表d 维空间的一个点。3 分当给定一个未知样本时,K-近邻分类法将搜索样本空间,找出最接近未知样本的 K 个训练样本,这K 个训练样本是未知样本的K 个“近邻。 3 分13关联规则挖掘能发现什么知识.简述其挖掘的根本步骤。答:关联规则挖掘有助于发现交易数据库中不同商品之间的联系,找出顾客购置行为模式。2 分minSupp集称其为频繁项集2 分然后由频繁项集生成关联规则,对于频繁项集A,假设BA,且置信度confidence

24、(B不小于最小置信度minConf,则 BA-B 构 成 关 联 规 则 2 分 14遗传算法与传统寻优算法相比有什么特.遗传算法为群体搜索,有利于寻找到全局最优解; 遗传算法处理的对象是个体而不是参变量,具有广泛的应用领域;遗传算法具有隐含并行性,具有更高的运行效率。*本的类别。决策树方法是数据挖掘中非常有效的分类方法。简述K输入:簇的数目k 和包含n 个对象的数据集。输出:k 个簇,使平方误差准则最小。步骤:任意选择k 个对象作为初始的簇中心;计算其它对象与这k 个中心的距离,然后把每个对象归入离它“最近的簇; 2 第 3简述构造智能CRM答:构建一个完整的智能CRM 系统的几个步骤:CR

25、MCRM 系统的企换,从而保证客户数据的一致性2建立客户数据仓库:规划数据仓库,以企业的业务模型为根底,确定需要建立能够描述制定数据存储策略以及各种商业规则等2 分1 分118何谓数据仓库.为什么要建立数据仓库.3 分建立数据仓库的目的有 3一是为了解决企业决策分析中的系统响应问题规模决策分析的响应速度。统事务数据库不能直接提供的。3 分简述数据仓库设计的三级模型及其根本内容。2关系模式、定义记录系统2 分I/O率和维护代价等。数据、建立广义索引等2 分聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster对象之间具有较高的相似度,而不同簇中的对象差异较大3 分3 分它与信息检索之间有

26、以下几方面的区别1 分于用户的信息需求,是用户无法预知的。着眼点不同:信息检索着重于文档中字、词和;而文本挖掘在于理解文本的内容和构造。求的文本子集;而文本挖掘是为了提醒文本中隐含的知识。简洁性等来衡量所发现知识的有效性、可用性和可理解性。使用场合不同:文本挖掘是比信息检索更高层次的技术,可用于信息检索技术不能解决的 5 分遗传算法为群体搜索,有利于寻找到全局最优解; 遗传算法处理的对象是个体而不是参变量,具有广泛的应用领域;遗传算法具有隐含并行性,具有更高的运行效率6 分商务智能应用趋势BI 到操作型或者实时型的关注价值、关注数据质量。商务智能开展的特点实时;标准化;嵌入式商务智能;移动商务智能;群众化趋势;供给商的动向; 易 用 性 。 26内涵不同;知识的管理过程和技术不同;关注的只是类型不同;面向的用户不同。27. Web 日志挖掘的应用获取用户访问模式信息,理解用户的意图和行为分析用户的存取模式,为用户提供个性化的效劳确定的潜在客户群,合理制订网络广告策略等改良Web 站点的构造,使点随时间、用户需求的变化而不断调整对日志数据进展多种统计,包括频繁访问页、单位时间访问频度、访问量的时间分布等利用关联规则确定相关Web 查询查询修正六、论述题共 10 分1、试举

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论