




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《数据挖掘》考试试题、单项选择题(本大题共20小题,每小题1分,共20分)在每小题列出的四个备选项中选择一项符合题目要求的,请将其代码填写在题后的括号内。错选、多选或未选均无分。下列选项中哪个不属于在线事务处理(OLTP)业务是()A、在线分析处理(OLAP) B、决策支持(DS)C、数据挖掘(DM) D、数据采集为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?( )A、探索性数据分析 B、建模描述C、预测建模 D、寻找模式和规则3.模式按实际应用分类时,下列哪个不包含在内()A、描述模式B、关联模式 C、聚类模式D、序列模式4.下列那个不是聚类分析的常用方法()A、特征聚类 B、CF树C、决策树D、随机搜索聚类法5.高层数据模型应该哪种表示方法()A、E-R图 B、物理数据模型C、逻辑数据模型D、低层数据类型下列哪个不是星形图的逻辑实体()A、指标B、维度C、详细类别 D、关系下列哪个不是数据仓库系统的完善工作()A、改正性维护 B、完善性维护 C、预防性维护 D、应用维护8.以下两种描述分别对应哪两种对分类算法的评价标准?( )(a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b) 描述有多少比例的小偷给警察抓了的标准。A.Precision,RecallB.Recall,PrecisionC.Precision,ROC D.Recall,ROC9.下列哪个不是包中包含的集合()A、步骤集合B、连接集合C、局部变量集合D、任务集合下列哪个不属于构建数据仓库系统的阶段()A、设想阶段B、规划阶段C、开发阶段 D、实施阶段下列哪个不属于数据挖掘的过程()A、评价阶段 B、巩固和运用阶段 C、挖掘阶段 D、维护阶段TOC\o"1-5"\h\z12.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?( )A、根据内容检索B、建模描述C、预测建模 D、寻找模式和规则假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?( )A、第一个8、第二个C、第三个 D、第四个只有非零值才重要的二元属性被称作:( )A计数属性B离散属性 C非对称的二元属性 D对称属性下面不属于创建新属性的相关方法的是:( )A特征提取 B特征修改 C映射数据到新的空间 D特征构造16.数据仓库是随着时间变化的,下面的描述不正确的是( )数据仓库随时间的变化不断增加新的数据内容;捕捉到的新数据会覆盖原来的快照;数据仓库随事件变化不断删去旧的数据内容;数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.下面关于数据粒度的描述不正确的是:( )粒度是指数据仓库小数据单元的详细程度和级别;数据越详细,粒度就越小,级别也就越高;数据综合度越高,粒度也就越大,级别也就越高;粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.数据挖掘算法以( )形式来组织数据.A行B列C记录D表格企业成功实施数据挖掘,需要以下( )知识或技术A预先的规划 B对商业文体的理解C综合商业知识和技能 D都需要.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( )A.关联规则发现B.聚类 C.分类 D.自然语言处理二、简答题(本大题共4小题,每小题10分,共40分).解释说明概念分层与数据泛化。答:数据泛化是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。
.聚类分析方法是什么?答:聚类通过把目标数据放入少数相对同源的组或“类”(cluster)里。分析表达数据,(1)通过一系列的检测将待测的一组基因的变异标准化,然后成对比较线性协方差。(2)通过把用最紧密关联的谱来放基因进行样本聚类,例如用简单的层级聚类(hierarchicalclustering)方法。这种聚类亦可扩展到每个实验样本,利用一组基因总的线性相关进行聚类。(3)多维等级分析(multidimensionalscalinganalysis,MDS)是「一种在二维Euclidean"距离”中显示实验样本相关的大约程度。(4)K-means方法聚类,通过重复再分配类成员来使“类”内分散度最小化的方法。.面向属性归纳的基本算法的四个步骤答:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的技术值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。.孤立点分析是什么?答:孤立点是指数据集中那些小模式数据,它可能是度量或执行错误所导致的,也可能是固有数据变异性的结果。Hawkins给出了其本质性定义:孤立点是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。一般的孤立点挖掘中存在两个基本任务:一是在给定的数据集合中定义什么样的数据可以被认为不一致的;二是找到一个有效的方法来挖掘这样的孤立点。目前已有的传统的孤立点挖掘算法主要包括四类算法基于统计的方法,基于距离的方法,基于密度的方法,基于偏离的方法和基于聚类的挖掘算法。既然通挝点的悍在蕴含丁一些既要的隘鼻信0.那玄,如*4肥斑苴京挖羯出来井跚以分析荷帝鸵T为更有效地挖也挪立点,晰究者们椎菊权堂.中#在四不向雹既开找丁许暮孤立4抡期r吧大做上有成下低英施安.曲的控掘方某于统计李方准,暴于画高的方性,幕于陶高的奔法、高俺牲据的就立点探潮,基:于)《则的#翼或立点推抿方摇卬买于害度啊抓立点挖到方法.爵卖握立由的挖糖方话部有*待别蛹用的疝囹.也者一迎的卜陷利限制.电丁携市前掘立由段睨方谚是m已却敷爵地的戚率分布及釜敦土如正击分布'均值.标准船).用不一敢tt楼北确定风立盅及苴个敷,谊冲寺济适用于败更敷抿,不埴用于商嗟浪排•.捣期数翳用竹矣敷常的投拙.*i于缰H•站厦立点橙澜JS用主葺湖在件斯计姓售域,这浪里是H3为忌蔺职宣切道敷枢的分布特征.因此BtFtt制丁它的应用花匹■雄于偏离皙提史点控掘方注是知道敌岗特性迭威吾适的相弁度函敏.共40分)个个方法的特点三通过共40分)个个方法的特点*、项弗野好财映裁-个M中的咐.第二25.请下面洋雷件排桃干座fl的拓立是抱握方法,祖割通国寿拈桂堡的搜据方法栾引发大察的抓立点推辙的思号+数据挖掘统计分析操作指引在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么样的目标是必要的,有了好的计划才能保LE资料采矿有条不紊的实施并取得成功。虽然我们把各个步骤按顺序排列,但要注意数据挖掘过程并不是线性的,要取得好的结果就要不断反复重复这些步骤。比如在“分析资料”时你可能觉得在"建衣数据挖掘数据库”时做的不够好,要往里州添加一些新的资料等等.数据挖掘过程主要包括以下几个方面,1、 定义商业问题2、 建立数据挖掘库3、 分析数据4、 准备数据5、 建立一模型6、 模型评价7、 模型实施其流程如下图所示!26.数据挖掘项目是一项系统工程,它作为从数据库中自动发现知识的过程,仍然需要来自不同领域专家共同参与知识发现的全部过程。请说明数据挖掘人员环境。答:1.主题领域专家:理解商业问题。这需要大数据科学家和行业专业,以及客户的业务专家一起来明确问题。这是整个大数据挖掘中最关键的一步。如果不理解业务就贸然开做,最后的项目一定是失败的。2.数据专家/数据分析专家:分析数据。当明确了业务问题之后,我们就需要去分析数据,看看到底哪些数据能够支撑我们的业务,用哪些数据去解决问题。在这个阶段,我们可能发现
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 冷冻食品采购合同
- 建设工程施工合同空
- 拆迁工程承包合同
- 无底薪房产销售合同年
- 度电线电缆购销合同汇编
- 城市公园环境监测与维护合同
- 《分布式能源》 教学大纲
- 《动物行为的研究》
- 宽带网络电话客户签约合同 (2025年版)
- 委托装潢服务合同范本
- 内设部室及人员调整工作方案
- 反违章安全培训课件
- 社会主义发展史智慧树知到期末考试答案2024年
- Q-GDW 644-2011 配网设备状态检修导则
- 《公路桥梁抗震性能评价细则》(JTG-T2231-02-2021)
- 代持股协议书范文集合
- 装饰装修工程监理细则详解样本
- 中国急性胰腺炎诊治指南
- 学生食堂满意度测评表
- 新生儿颅内感染课件
- 急诊科护士的急救护理的评估和监督机制
评论
0/150
提交评论