数据挖掘与数据仓库考试题

上传人：建*** IP属地：上海上传时间：2022-03-05 格式：DOCX 页数：8 大小：281.58KB 积分：20 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、2011年数据挖掘与数据仓库考试题1 （10分）讨论:：下列每项活动是否是数据挖掘任务?简单陈述你的理由。(a) 根据性别划分公司的顾客。不是。数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。数据挖掘技术服务用来探查大型数据库，发现先前未知的有用模式。还可以预测未来观测结果，例如，预测一位新的顾客是否会在一家百货公司消费100美元以上。但并非所有的信息发现任务都被视为数据挖掘，数据挖掘与信息检索不同，使用数据库管理系统查找个别的记录，或通过因特网的搜索引擎查找特定的Web页面，则是信息检索领域的任务，它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构，从而有效地组织和检索信

2、息。数据挖掘的任务可分为两大类：预测任务和描述任务。主要任务有四种：聚类分析，关联分析，异常检测，和预测建模。其目的是根据其它属性的值，预测特定属性的值，或导出概括数据中潜在联系的模式，主要是预测某些信息。而根据性别划分公司的顾客，只是一种简单的数据库查询操作，并没有涉及预测分析。(b) 根据可赢利性划分公司的顾客。不是。根据可赢利性划分公司的顾客是使用阈值进行的一种统计计算。它仅仅是根据消费结果统计将原有顾客进行划分，只是一种统计的结果，而没有根据这些结果的特点预测一个新的顾客的赢利性，这种预测才是数据挖掘。(c) 预测投一对骰子的结果。不是。因为骰子的六个数值出现的可能性是相同的，这是一种

3、概率计算，如果结果出现的可能性是不确定的，不相同的，则更像是数据挖掘的任务，但在很早以前利用数学已经能够很好的解决这个问题了。所以预测投一对骰子的结果不属于数据挖掘的任务，不带有发现新信息的预测特点。(d) 使用历史记录预测某公司未来的股票价格。这是数据挖掘的任务。可以通过对历史记录特点的分析来创建一种模型预测未来的公司的股票价格，这是数据挖掘任务中预测建模的一个例子，预测建模涉及以说明变量函数的方式为目标变量建立模型，有两类预测建模任务：分类，用于预测离散的目标变量；回归，用于预测连续的目标变量dmj预测某公司未来的股票价格则是回归任务，因为价格具有连续值属性。2 （10分）列举3种数据挖掘

4、功能，对每种举2个实际应用的例子。（1）支持商务智能应用。借助POS（销售点）数据收集技术，零售商可以在其商店的收银台收集顾客购物的最新数据。零售商可以利用这些信息，加上电子商务网站的日志、电购中心的顾客服务记录等其他的重要商务数据，更好地理解顾客的需求，做出明智的商务决策。数据挖掘技术可以用来支持广泛的商务智能应用，如顾客分析、定向营销、工作流管理、商店分布和欺诈检测等。商店可以根据顾客的购物习惯来安排端口的摆放位置，这是日常生活中数据挖掘最常见的一种应用。数据挖掘还能帮助零售商回答一些重要的商务问题，如“谁是最有价值的顾客？”“什么产品可以交叉销售或提升销售？”“公司明年的收入前景如何？

5、”这些是数据挖掘任务中的关联分析。通过商品销售情况，来分析购买商品的顾客特点，根据这些特点重要发掘最可能的消费者，这是关联分析在日常生活中的一种应用。（2）在医学、科学与工程中的应用。医学、科学与工程技术界的研究者正在快速积累大量数据，这些数据对获得有价值的新发现至关重要。例如，为了更深入地理解地球的气候系统，NASA已经部署了一系列的地球轨道卫星，不停地收集地表、海洋和大气的全球观测数据。然而，由于这些数据的规模和时空特性，传统的方法常常不适合分析这些数据集。数据挖掘开发的技术可以帮助地球科学家回答如下问题：“干旱和飓风等生态系统扰动的频度和强度与全球变暖之间有何联系？”“海洋表面温度对地

6、表降水量和温度有何影响？”“如何准确地预测一个地区的生长季节的开始和结束？”。我国神舟七号载人航天飞船的发射也是数据挖掘的一个应用，传统的技术通常不能处理太大量数据，而利用数据挖掘技术可以将卫星收集到的太空中的大量数据信息进行分析，这样才能保证飞船在太空中的顺利航行。3 （10分）比较急切分类（如，判定树、贝叶斯、神经网络）相对于懒散分类（如，k -最临近、基于案例的推理）的优缺点。决策树归纳的特点：（1）决策树归纳是一种构建分类模型的非参数方法，它不要求任何先验假设，不假定类和其他属性服从一定的概念分布。（2）找到最佳的决策树是NP完全问题，可以采用一种贪心的、自顶向下的递归划分策略建立决

7、策树。（3）已构台构建决策树技术不需要昂贵的计算代价，决策边界是直线（平面）。（4）决策树算法对于噪声的干扰具有相当好的鲁棒性，采用避免过分拟合的方法之后尤其如此。（5）冗余属性不会对决策树的准确率造成不利的影响。（6）决策树方法会存在数据碎片问题。（7）子树可能在决策树中重复多次。（8）当决策树很小时，训练和检验误差都很大，称为模型拟合不足；当规模变得太大时，即使训练误差还在继续降低，但是检验误差开始增大，称为模型过分拟合。贝叶斯网络（BBN）的特点：（1）BNN提供了一种用图形模型来捕获特定领域的先验知识的方法，网络还可以用来对变量间的因果依赖关系进行编码。（2）构造网格可能既费时又费力，

8、但一旦网格结构确定下来，添加新变量就十分容易。（3）贝叶斯网络很适合处理不完整的数据。（4）因为数据和先验知识以概率方式结合起来了，所以该方法对模型的过分拟合问题是非常鲁棒的。人工神经网络（ANN）的特点：（1）至少含有一个隐藏层的多层神经网络是一种普适近似。（2）ANN可以处理冗余特征，对训练数据中的噪声非常敏感。（3）ANN权值学习使用的梯度下降方法经常会收敛到局部极小值。训练ANN是一个很耗时的过程，而测试样例分类时非常快。基于密度的聚类（DBSCAN）优缺点：（1）它是相对抗噪声的，并且能够处理任意形状和大小的簇。当近邻计算需要计算所有的点对邻近度时，DBSCAN的开销可能很大。K均值

9、的优缺点：K均值并不适合所有的数据类型。它不能处理非球形簇、不同尺寸和不同密度的簇，尽管指定足够大的簇个数时它通常可以发现纯子簇。通过以上急切分类和懒散分类各种方法的特点对比可知，急切分类仅仅对于某些类型的数据进入分类，而懒散分类则对于不同大小和不同类型的数据都可以进行处理。急切分类对噪声较敏感而懒散分类而不是，急切分类方法较为简单，花费的时间和空间代价都较懒散分类少。4 （10分）假定你作为一个数据分析人员，受雇于一家移动通讯公司。通过一个例子说明打算如何使用数据挖掘技术为公司提供帮助。你的例子应包含问题描述，使用何种数据挖掘方法解决该问题，理由和预期效果（不需要定量分析）。例子如下：首先，

10、移动通信公司数据分析人员的主要工作是收集移动通信用户使用通信的方式，业务流量，并且收集用户的类型来分析各种用户使用信息的主要方式及销售情况，以此可以出台更加适合不同用户需求的业务套餐类型。使用数据挖掘中的聚类分析方法可以以一种较相似的主题来对结果进行分类，并且以一种更为简洁的方式呈现给用户，例如：报告聚类中最频繁出现的10个词语，来收集最多使用各种类型业务的用户特点。可以按照预先定义的分类，例如漫游类，本地外地类等等用户使用通信的方法来进行分类。利用数据挖掘中顺序关联分析可以检测出某些按照一定的高概率来查询到其他分类，并且允许更为高效的缓存，通过这种方法，可以得出具有相互关联的用户使用通信方式

11、和业务套餐的关系，进而通过查询一种类型推导出其他相关类型的分类用户特点。通过异常检测技术可以发现不寻常的用户通信方式，例如一个新方式的更加流行。总的来说，通过数据挖掘的聚类分析可以将通信用户进行分类，然后发掘出各种类型用户使用通信的需求和最普通具用的特点，通过对以往历史信息业务的分析，聚类，可能会发现新的需求，最后所用的广告策略就可以根据这些发掘出来的新特性采取相应的调整策略以满足大多数用户的需求，吸引更多的潜在客户，出台符合这些用户需求的业务产品类型，进而使公司拥有更多的客户，有更大的发展前景。5 （10分）假设数据挖掘的任务是将如下的八个点（用(x,y)代表位置）聚类为三个类。A1(2,1

12、0),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距离函数是Euclidean（欧几里得）函数。假设初始我们选择A1,B1,和C1为每个簇的中心，用k-means算法来给出（a）在第一次循环执行后的三个簇中心（b）最后的三个簇K均值算法的过程为：1：选择K个点作为初始质点。2： repeat3: 每个点指派到最近的质心，形成K个簇。4. 重新计算每个簇的质心、5. until质心不发生变化。 A1,B1,C作为初始质点，距离函数是Euclidean函数，指派点到最近的质心，方法为计算其他点到质点的欧几里得距离。计算距离如下

13、：A1-A2 ：dist=(2-2)2 +(5-10)2=25;A1-A3:dist=(8-2)2+(4-10)2=72; A1-B2:dist=(7-2)2+(5-10)2 =50; A1-B3:dist=(6-2)2+(4-10) 2=52;A1-C2:dist=(4-2)2+(9-10)2=5; B1-A2:dist=(2-5)2+(5-8)2=18; B1-A3:dist=(8-5)2+(4-8)2=25;B1-B2:dist=(7-5)2+(5-8)2=13 B1-B3:dist=(6-5)2+(4-8)2=17B1-C2:dist=(4-5)2+(9-8)2=2 C1-A2:dis

14、t=(2-1)2+(5-2)2=10 C1-A3:dist=(8-1)2+(4-2)2=53 C1-B2:dist=(7-1)2+(5-2)2=45 C1-B3:dist=(6-1)2+(4-2)2=29 C1-C2:dist=(4-1)2+(9-2)2=58其他五个结点选择与其最近的质心，三个簇分别为：B1,C2,B3,B2,A3C1,A2A1计算这三个簇的质心：B1,C2,B3,B2,A3的质心为：(（8+5+7+6+4）/5,(4+8+5+4+9)/5)即（6，6）；C1,A2的质心为：（2+1）/2，（5+2）/2）即为（1.5,3.5）;A1的质心为（2，10）。（a）在第一次循环

15、执行后的三个簇中心分别为（6，6），（1.5,3.5），（2，10）重新指派各个对象到离其最近的质心，与上面方面相同，形成的三个簇为A3,B1,B2,B3，C1，A2，A1,C2三个簇的质心分别为（6.5，5.25），（1.5，3.5），（3，9.5）;重新指派各个对象到离其最近的质心, 形成的三个簇为:A3,B2,B3C1,A2 A1,B1,C2三个簇的质心分别为：（7，4.3），（1.5，3.5），（3.67，9）；重新指派各个对象到离其最近的质心, 形成的三个簇为: A3,B2,B3C1,A2 A1,B1,C2三个簇的质心分别为：（7，4.3），（1.5，3.5），（3.67，9）；至此

16、质心不发生变化；（b）最后三个簇即为A3,B2,B3C1,A2 A1,B1,C2;6 （10分）考虑下面的由Big-University的学生数据库挖掘的关联规则major(X,”science”) Þ status(X,”undergrad”) （1）假定学校的学生人数（即，任务相关的元组数）为5000，其中56%的在校本科生的专业是科学，64%的学生注册本科学位课程，70%的学生主修科学(science)。(a) 计算规则(1)的支持度和置信度。(b) 考虑下面的规则major(X,”biology”) Þ status(X,”undergrad”) 17%,80%

17、（2）假定主攻科学的学生30%专业为biology。与规则(1)对比，你认为规则(2)新颖吗？解释你的结论。（1）对于形如“A B”的关联规则，支持度定义为support(A B) = 包含A和B的元组数/元组总数;规则（1）的支持度计算如下：主修科学(science) 且未注册本科学位课程的学生人数为：5000*70%-5000*64%*56%=1708；元组总数为5000；支持度为：1708/5000=34.16%对于形如“A B”的关联规则，置信度定义为：confidence(A B)= 包含A和B的元组数/包含的A元组数规则（1）的置信度计算如下：主修科学(science) 且未

18、注册本科学位课程的学生人数为：5000*70%-5000*64%*56%=1708；主修科学的人数为：5000*70%=3500 置信度为：1708/3500=48.8%（2）假定主攻科学的学生30%专业为biology：我们可以猜测下面的规则major(X,”biology”) Þ status(X,”undergrad”)的支持度和置信度应为34.16%*30%=10.238%，48.8%，而题目中给出的major(X,”biology”) Þ status(X,”undergrad”)的支持度和置信度应为17%，80%，与我们由规则（1）推测出来的相差较大，所以规则（

19、2）并不是冗余的，是新颖的。7 （15分）考虑为产品销售问题建立数据仓库。关注的主题是销售，用销售量、销售价和成本度量（由此可以计算销售金额和利润）。销售涉及销售的产品、时间、客户和销售代理。其中，产品用产品名称、产品类别、产品品牌等描述，时间用日、月、季、年描述，客户信息包括客户ID、客户名、送货地址（省、市、街道、门牌号）、帐号等信息，销售代理包括销售代理姓名、地区、省、市等信息(a) 给出每个维的概念分层。(b) 画出该数据仓库的星型模式图。(c) 由基本方体开始，为列出河南省客户购买的、由国美家电2004年销售的、小天鹅洗衣机，应当执行哪些OLAP操作？下钻，上卷，切片8 （15分）下表由雇员数据库的训练数据组成。数据已泛化。例如，年龄“3135”表示31到35的之间。对于给定的行，count表示department, status, age和salary在该行上具有给定值的元组数。departmentstatusagesalarycountsalessalessalessystem

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘与数据仓库考试题

文档简介

温馨提示

最新文档

评论

数据挖掘与数据仓库考试题

文档简介

温馨提示

最新文档

评论

相关文档