版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 一、填空题:(每题6分,共30分) 数据挖掘的主要问题包括:数据挖掘的性能问题包括:数据挖掘的分类方法有数据挖掘的聚类方法有5数据挖掘的基本步骤是6分,共30分)1.对于类特征化,二、问答题:(每题基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么?讨论哪种方法最有效,在什么条件下最有效。数据仓库和数据库有何不同?它们有那些相似之处?在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法,而不愿使用查询驱动的方法。为什么说强关联规则不一定都是有趣的,举例说明。TOC o 1-5 h z
2、三、证明题(10分)1证明频繁集的所有非空子集必须也是频繁的。2DApriori的一种变形将事务数据库D中的事务划分为个不重叠的部分。证明在D中是频繁的任何项集至少在D中的一个部分中是频繁的。四、算法分析与扩展(15分)1.描述判定树算法的思想。写出比较易懂的算法伪代码指出算法的不足之处,应该从哪些方面增强算法的功能和性能。五、计算题(15分)给定两个对象,分别用元组(22,1,42,10),(20,0,36,8)表示。1D计算两个对象之间的欧几里德距离;2D计算两个对象之间的蔓哈坦距离;3D给定年龄变量的如下度量值18,22,25,42,28,43,33,35,56,28计算age的平均绝对
3、偏差。一、填空题:(每题6分,共30分)数据挖掘是一个多学科领域,这些学科包括:数据库系统、统计学、机器学习、可视化、信息科学。数据挖掘的功能有特征化和区分、关联分析、分类和预测、聚类分析、孤立点分析、演变分析。数据挖掘的分类方法有判定树算法,贝叶斯方法,神经网络,K-最近邻分类,基于案例的推理,遗传算法,粗糙集方法,模糊集方法等。数据挖掘的聚类方法有划分方法、多媒体数据挖掘主要有析多媒体数据的关联规则挖掘。层次的方法、基于密度的方法、基于网格的方法、基于模型的方法。多媒体数据相似性搜索、多媒体数据多维分析、多媒体数据的分类与预测分二、问答题:(每题6分,共30分)数据仓库和数据库有何不同?它
4、们有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成数据仓库的源数据.它用表组织数据,采用ER数据模型。它们都为数据挖掘提供了源数据,都是数据的组合.试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法,而不愿使用查询驱动的方法。答:因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,源上进行的处理,
5、另外,还支持复杂的多维查询。当异种数据源上的数据格式一致或者转换比较容易,并且所要求的查询比较简单,不需要复杂的多维查询时,查询驱动方法可能更受欢迎。多维数据模型上的OLAP操作有那些?答:上卷,下钻,切片,切快,旋转在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的方法。答:1)忽略元组2)人工填写空缺值3)使用一个全局常量填充空缺值4)使用属性的平均值填充空缺值5)使用与给定元组属同一类的所有样本的平均值最可能的值填充空缺值其中,方法3到6使数据倾斜,填入的值可能不正确。不过,方法,用来支持管理人员的决,是面向操作型的数据库,是组成进行查询的同时并不影响局部数据6)使用6
6、是最常用的方法5简略比较雪花模式、事实星座、星型网查询模型概念,用例子解释你的观点星型模式:最常见的模型范例,其中数据仓库包括一个答的包含大批数据和不含冗余的中心标(事实表),一组小的属性表。这种模式图很像星星爆发,维表围绕中心表显示在射线上。sales事实表timekeytimekeyjdayitemkey|dayoftheweekibranchkey)monthlocationkeyquarterdollarssold问time维表雪花模式(snowflakeschema):雪花模式是星型模式的耳而把数据进一步分解到附加的表中。结果,模式图形成类似:雪花模式和星型模式的主要不同在于,雪花模
7、式的维表这种表易于维护,并节省存储空间,因为当维结构作为列住而,与巨大的事实表相比,这种空间的节省可以忽略。此夕I作,雪花结构可能降低浏览的性能。这样,系统的性能可II设计中,雪花模式不如星型模式流行。例2*2作为一个例子,AllElectronics的皿血$的雪花模式图24的星型模式相同。两个模式的主要不同是维表。星型卞中被规范化,导致新的泌皿表和supplier表。例如,现在if初brand,typeAsupplier_key,supplier_keysupplisupplier_key和$即/山_切城0类似地,星型模式中location1location和city0新的location表
8、中的location_key现在连接到c雪花模式中的province_or_state和country还可以进一步规范4time维表timekeydaydayofweekmonthquartervearsales事实表time_keyitem_keyHranch_7logatioiikeydollars_soldunitsbrand严ppligitem维垂item_keyitemnan 三、证明题(每题5分,共10分)1.证明频繁集的所有非空子集必须也是频繁的。反证法。根据定义,如果项集p(I)min_sup。如果项此,1uA也不是频繁的,即I满足最小支持度阈值A添加到1,则结果项集间(即1u
9、ADDmin_sup。矛盾。P(2.给定频繁项集l和l的子集s,证明规则的置信度。其中,min_sup,则1uA不可能比“s,(l-S,)”的置信度不可能大于S是s的子集。AB的置信度为:confn(s,u(l一s,)/n(s,)n(l)/n(s,)confn(l)/n(s),又因为根据定义,规则则s,(l一s,)的置信度为:规则s(l-s)的置信度同理可得:s,(ls,)”的置信度不可能大于“confn(AuB)/n(A)n(A)表示项集s是s的子集,所以规则“s(l一s)”的置信度四、算法分析与扩展(15分)1.描述判定树算法的思想。树以代表训练样本的单个节点开始(步骤1)如果样本都在同一
10、个类,则该节点成为树叶,并用该类标记(步骤2和3)否则,算法使用称为信息增益的基于滴的度量作为启发信息,选择能够最好地将样本分类的属性骤6)。该属性成为该节点的“测试”或“判定”属性(步骤是分类的,即取离散值的。连续值的属性必须离散化。对测试属性的每个已知的值,创建一个分枝,并据此划分样本(步骤算法使用同样的过程,递归地形成每个划分上的样本判定树。一旦一个属性出现在一个节点上,就不必考虑该节点的任何后代上(步骤13)。递归划分步骤仅当下列条件之一成立时停止:(a)给定节点的所有样本属于同一类(步骤2和3)。(b)没有剩余属性可以用来进一步划分样本(步骤这涉及将给定的节点转换成树叶,并用存放节点
11、样本的类分布。I不是频繁的,即I更频繁出现。因7)。在算法的这个版本中,所有的属性都810)。4)。在此情况下,使用多数表决(步骤samples中的多数所在的类标记它。换(c)分枝testattributeDa;没有样本(步骤11)。在这种情况下,以一个树叶(步骤12)。2.写出比较易懂的算法伪代码伪码:算法:GenerateAecisionjree由给定的训练数据产生一棵判定树。输入:训练样本samples,由离散值属性表示;候选属性的集合输出:一棵判定树。“s(l-s)”A出现的次数n(s,)n(s),一种方式,可以samPles中的多数类创建attributMlist。(步5)。 方法:
12、0)创建节点N; #ifsamples都在同一个类返回N作为叶节点,以类Ifattributlist为空00N作为叶节点,标记为CthenC标记thensamples中最普通的类;叮多数表决 # #test_attribute;(6)选择attributedlist中具有最高信息增益的属性(7)标记节点NDlestattribute;foreachtest_attribute中的已知值ai由节点N长出一个条件为test_attribute=ai的分支设S是Samples中test_attribute=ai的样本的集合ifsiDOthen加上一个树叶,标记为samples中的最普通的类else加
13、上一个由Fenerate_decision_tree返回的节点指出算法的不足之处,应该从哪些方面增强算法的功能和性能。信息增益度量有倾斜,它倾向于适合具有许多值的属性。不能、处理空缺值,此算法还可能面对碎片,重复和复制的问题。对追加样本的学习不方便,算法的可伸缩性不强等。五、计算题(15分)给定两个对象,分别用元组(22,1,42,10),(20,0,36,8)表示。4计算两个对象之间的欧几里德距离;5计算两个对象之间的蔓哈坦距离;6计算两个对象之间的明考斯基距离,q=3。 # #距离公式:欧几里德距离公式:d(i、7)=曼哈坦距离公式:丿良订一习1卩+|力2习2$ # 明考斯基距离公式:|X
14、ii-习i|+xi2-Xj2+1.对于类特征化,ra丿)=(比i一引F+局一丐2卩+-基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么?讨论哪种方法最有效,在什么条件下最有效。数据仓库和数据库有何不同?它们有那些相似之处?在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法,而不愿使用查询驱动的方法。为什么说强关联规则不一定都是有趣的,举例说明。三、证明题1证明频繁集的所有非空子集必须也是频繁的。2DApriori的一种变形将事务数据库D中的事务划分为个不重叠的部分。证明在D中是频繁
15、的任何项集至少在D中的一个部分中是频繁的。四、算法分析与扩展1.描述判定树算法的思想。写出比较易懂的算法伪代码指出算法的不足之处,应该从哪些方面增强算法的功能和性能。五、计算题给定两个对象,分别用元组(22,1,42,10),(20,0,36,8)表示。1D计算两个对象之间的欧几里德距离;2D计算两个对象之间的蔓哈坦距离;一、选择题1.企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是(B)。A数据越多越好B尽可能多的适合的数据C得分集数据是建模集数据的一部分D以上三条都正确2.数据挖掘算法以(D)形式来组织数据。A行B列C记录D表格3.企业成功实施数据挖掘,需要以下(B)知
16、识或技术A预先的规划B对商业文体的理解C综合商业知识和技能D都需要4D有关数据集市的说法正确的是(B)AD是大型的、针对特定目标且建设成本较低的一种数据仓库B叮施不同的数据集市时,同一含义的字段定义一定要相同C叮立的数据集市是根据中央数据仓库派生出来的D叮独立的数据集市是根据操作数据形成的5在超市所从事的信息中介活动中,哪项属于挖掘序列模式A.B.C.针对所有客户,对其货蓝子里的商品进行分析D.针对注册客户,进行客户分类,确定重要客户以及服务对策6.如果对简单线性回归模型进行显著性检验的结果是不能拒绝H,这就意味着:0(D)该模型有应用价值B该模型无应用价值该模型求错了DX与Y之间毫无关系7.
17、进行回归分析时,需要对回归分析结果进行检验,对回归系数显著性进行检验时,使用(AB)统计8.CD.W.以上都不是在利用D.W.检验回归自相关性时,下列叙述正确的叮当DW-2时,如果ui存在正自相关DW-,2时,如果DW.dU,认ui存在负自相关当DW-2时,如果4DW.dL,认为ui存在负自相关;如果4DW.duU,认为i存在正自相关D当D.W.值在2左右时,模型不存在一阶自相关9.下列说法错误的是(D)AImportance(a,B)=1,则B是独立的项,它表示对产品A的购买和产品B的购买是两个独立的事件bImportance(A,b)0,表示当a为真时,B的概率会下降下列说法正确的是(B)
18、AEM聚类属于硬聚类Bk-means属于分割聚类Ck-means属于软聚类DEM聚类属于层次聚类二、填空题数据挖掘的三大支柱分别是(数据挖掘技术与算法)(无所不在的数据)(建立有效的预测模型)数据仓库的优点是(数据仓库是从一个点上观察整个企业,而不是许多小定义的“地下仓库”的拼凑集合)和(数据挖掘记录的是最令人感兴趣的详细的数据)在利用SQLSERVER2005进行数据挖掘时,数据挖掘的任务中,(时序分析)可以没有输入根据下表资料完成表中指标的计算并回答问题。某年某地区按人口年龄分组的某疾病资料年龄人口数患者数新发病例数死亡数死亡百分比%患病率口发病叮死亡率口病死率%0208292048817
19、0912.335.892.050.111.842040366394511521723.2912.314.150.463.774060281612731332230.149.694.720.788.0660以93701104625上34.2511.744.912.6722.73合计157090132250173100.0039.6315.834.0236.40(1)患者中以(020)岁组为最多,占(36.91)%(2)患病率以(2040)岁组为最高,达叮12.31叮(3)发病率以(60以上)岁组为最高,达叮4.91叮 #(4)死亡率以(60以上)岁组为最高,达到(2.67叮 (5)病死率以(60
20、以上)岁组为最高,达到(22.73DD # #可以分为(确定性时间序列分析方法时间序列分析方法就其发展的历史阶段和使用的方法来看,和(随机时间序列分析方法D # #人脑中的神经网络是一种高度(并行D的非线性信息处理系统 # #7.神经网络的能力特征包括(自适应性D(自学习D(自组织D8.生物神经元在结构上由(细胞体(Cellbody)D(树突(Dendrite)D(轴突(Axon)D(突触(Synapse)D # #四部分组成9.BP学习算法中,各层权值调整公式形式上都是一样的,均由3个因素决定,即(学习率)(本层输 # 出的误差信号)和本层输入信号发烧,上呼吸道感染是(2)项集(筛在利用SQ
21、LSERVER2005进行关联规则挖掘的时候,常常通过(最小支持度)(最小项集大小)选项集)来控制项集的显示三、问答题(答案略)简述数据挖掘与机器学习、统计学之间的区别与联系。讨论下列每项活动是否是数据挖掘任务:(a)根据性别划分公司的顾客。(b)根据可赢利性划分公司的顾客。(c)计算公司的总销售额。(d)按学生的标识号对学生数据库排序。(e)预测掷一对骰子的结果。(f)使用历史记录预测某公司未来的股票价格。(g)监视病人心率的异常变化。(h)监视地震活动的地震波。(i)提取声波的频率。/模型?企业面对海量数据,应如何具体实施数据挖掘,使之转换成可行的结果 4数据仓库和数据集市有什么区别?简述
22、数据分类的两步过程?直线回归分析中应注意哪些问题?如何评价所建立的多元线性回归方程的优劣?残差分析有何作用?指数平滑方法中有哪几个重要的参数?它们的几何意义是什么?什么是人工神经网络?DOApriori算法的基本原理什么是聚类分析?聚类方法有几种?其距离计算有哪几种方法?聚类分析的统计量包括哪两种?DOEM聚类的基本步骤四、分析计算题(答案略)1.假定你作为一个数据挖掘顾问,受雇于一家保健品销售公司。通过特定的例子说明如何使用诸如聚类、分类、关联规则挖掘和异常检测等技术,数据挖掘可以为公司提供帮助。2证明频繁集的所有非空子集必须也是频繁的。3.考虑有四个与某疾病有关的因素与该病的患病率资料如下
23、:用excel建库,并对其进行多重回归和相关分析。某疾病的患病率与四个影响变量xlx2x3x4y(患病率)xlx2x3x4y(患病率)1725142656.92547630115.8456243887.4242244282.6842122765.412661214120.3113294888.51067913108.875273496.272666078.511581024109.2129155274.3467156103.31256921102.2234204682462372578.8120185698.74.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,1
24、5,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70,求:1)使用按箱平均值平滑对以上数据进行平滑,箱的深度是3。解释你的步骤。2)对于数据平滑,还有哪些其他方法?5.某地10名一年级女大学生的胸围(cm)与肺活量(L)数据如下表所示。试建立肺活量Y与胸围X的回归方程,并估计胸围为75厘米时相应肺活量均数的95%可信区间以及个体值的95%预测区间。 # 学生编号12345678910胸围X72.583.978.388.477.181.778.374.873.779.4肺活量Y2.513.111.
25、913.282.832.863.161.912.983.2810名一年级女大学生的胸围(cm)与肺活量(L)6.有学者认为,血清中低密度脂蛋白增高和高密度脂蛋白降低是引起动脉硬化的一个重要原因。现测量了30名被怀疑患有动脉硬化的就诊患者的载脂蛋白A叮载脂蛋白B、载脂蛋白E、载脂蛋白C、低密度脂蛋白中的胆固醇、高密度脂蛋白中的胆固醇含量,资料如下表所示:30名就诊患者血清中低、高密度脂蛋白中的胆固醇含量及载脂蛋白的测量结果载脂蛋白AD载脂蛋白B载脂蛋白E载脂蛋白C低密度脂蛋白高密度脂蛋白序号i(mg/dl)(mg/dl)(mg/dl)(mg/dl)(mg/dl)(mg/dl)XXXXYY1234
26、1211731067.014.71376221391326.417.81624331981126.916.71348141181387.115.7188395139948.613.613851617516012.120.321565713115411.221.51714081581419.729.61484291581377.418.219756101321517.517.211337111621106.015.9145701214411310.142.88141131621377.220.718556141691298.516.715758151291386.310.119747161661
27、4811.533.415649171851186.017.515669181551216.120.415457191751114.127.214474201361109.426.09039211531338.516.921565221101499.524.71844023160865.310.811857241121238.016.612734251471108.518.413754262041226.121.012672271311026.613.413051281701278.424.713562291731238.719.0188853013213113.829.212238用相关软件完成:试分别求Y,丫对X,X,X,X的线性回归方程,并作分析。121234用向前法、向后法和逐步回归法选择自变量,看结果是否一致。作Y/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 白血病饮食健康
- 清廉金融文化宣传
- 如何讲礼仪培训课件
- 六年级下册草原课件
- 世界艾滋病日2024年
- 《寒假读书心得报告》课件
- 《中医骨科护理常规》课件
- 《国外汽车品牌赏析》课件
- 2024版汽车租赁与买卖合同3篇
- 煤炭供销合同
- 求平面直角坐标系中三角形的面积市公开课一等奖省名师优质课赛课一等奖课件
- 幼儿卫生学皮肤课件
- 维吾尔族服饰课件
- 高考作文指导系列:核心概念的界定课件23张
- 浙江省杭州市各县区乡镇行政村村庄村名居民村民委员会明细
- 北京科技大学第二批非教学科研岗位招考聘用(必考题)模拟卷和答案
- 2022年医院财务科长年终工作总结
- 《小学六年级英语复习教学建议》讲座课件
- 学校刷牙评分表
- 社团面试评分表
- DB37T 4243-2020 单井地热资源储量评价技术规程
评论
0/150
提交评论