版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 1.p26 1.3假设你是BigUniversity的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。该数据库包括如下信息:每个学生的、地址和状态(例如本科生或研究生)所修课程以与他们的GPA(平均积分点)。描述你要选取的结构。该结构的每个成分的作用是什么。答:该数据挖掘结构应该包括以下几个主要成分:(1)一个数据库、数据仓库或其它信息库,它由一系列包含学生和课程信息的数据库、数据仓库、电子表格、或其它信息库组成。(2)一个数据库或数据仓库服务器,它根据用户的数据挖掘请求获取相关的数据。(3)一个知识库,它包含领域知识,用于指导搜索或评估结果模式的兴趣度。例如,知识库可能包含概念
2、层次结构和元数据(例如,描述来自多个异构数据源的数据)。(4)一个数据挖掘引擎,它由一系列负责分类、关联、聚类分析、演变和偏差分析的功能模块组成。(5)一个模式评估模块,它与数据挖掘模块串联工作,采用兴趣度的方法,将搜索重心投注在兴趣模式上。(6)一个图形用户界面,它为用户提供对数据挖掘系统的交互式途径。2.p63 2.4中列数是最大值和最小值的平均数。五数概括就是中位数、四分位数Q1和Q3、最小值和最大值箱线图(盒图)在p35分位数图是一种观察单变量数据分布的简单有效方法,他显示给定属性的所有数据(允许用户评估总的情况和不寻常的出现)。其次它绘出了分位数信息3.p63 2.5问:以计数、标准
3、差和中位数为例说明分布的或代数的度量有利于有效的增量计算,而整体度量不行。答:计数:当前的计数count可以作为一个值来保存,当有x个新值加进来时,可以很容易地更新count值为(count+x)。这就是分布式度量,可以很容易地进行增量计算。标准差:如果我们之前存储了已有数据平方的和sum和它们的计数count,就可以很容易地利用公式得到新的标准差,只需要计算新加入数据平方的和并将其加入sum中,同时更新count值,随后将它们插入计算中就可获得新的标准差。这些都不用重新扫描整个数据集而可以轻松得到。这就是代数度量,可以容易进行增量计算。中位数:要准确得到中位数必须扫描整个数据集。当加入了新的
4、数据后必须重新进行排序,然后在新的排序后的数据集中查找中位数。这是比较困难的,这就是整体度量,没办法对增量进行有效的计算。4.p63 2.6数据缺省值处理(1)忽略元组。当缺少类标号时通常这样做(假定挖掘任务涉与分类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺少值的百分比变化很大时,它的性能特别差。(2)人工填写缺失值。一般该方法很费时,并且当数据集很大,缺少很多值时,该方法可能行不通。(3)使用一个全局常量填充缺失值。将缺失的属性值用同一个常数(如“Unknown”)替换如果缺失值都用“Unknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有一样
5、的值“Unknown”。因此,尽管该方法简单,但是它并不是十分可靠。(4)使用属性的均值填充缺失值。(5)使用与给定元组属同一类的所有样本的属性均值。(6)使用最可能的值填充缺失值。可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。5.p63 2.7(1)问:使用分箱均值光滑对数据进行光滑的步骤(深度为3)答:对数据进行排序;将数据划分到大小为3的等频箱中;计算每个箱的均值;箱中的值都被箱的均值替换。(2)问:如何确定数据中的离群点答:可以通过聚类来检测离群点,将类似的值组织成群或簇。直观地,落在簇集合之外的值视为离群点。电脑和人的检查可以结合来判断,先由电脑根据已有的数据分布状况
6、得出可能的离散点,然后再由人来对这些可能的离散点进行进一步的分析来确定离散点,这样大减少了人单独工作的工作量。(3)问:对于数据光滑还有哪些方法答:类似的还有分箱中位数光滑,此时箱中的每一个值都被箱中位数替换。分箱边界光滑,箱中的最大和最小值同样被视为箱边界,箱中的每个值都被最近的边界值替换。一般来说,宽度越大光滑效果越大。箱可以是等宽的,每个箱值的区间围是个常量。此外可以用一个函数(如回归函数)拟合数据来光滑数据。线性回归涉与找出拟合两个属性的最佳线,使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩展,其中涉与的属性多于两个,并且数据拟合到一个多维曲面。概念分层也可以用于数据光滑。
7、6.p63 2.8问:数据集成需要考虑的问题答:实体识别问题。模式集成和对象匹配需要技巧,来自多个信息源的现实世界的等价实体必须能够匹配。数据冗余。一个属性可能是冗余的,如果它能由另一个或另一组属性“导出”。属性或命名的不一致也可能导致结果数据集中的冗余。数据值冲突的检测与处理。对于现实世界的同一实体,来自不同数据源的属性值可能不同,这可能是因为表示、比例或编码不同。7.p63 2.9(1)方差公式(2)散布图:将每个值当做坐标对画点 图:将数据都按递增序排序,然后画点(3)z-score规化(零均值规化)属性 (数值减去均值除以标准差)(4)答案是0.82,非常相关。卡方检验公式其中oij是
8、实际计数,eij是期望频度。8.p63 2.12(1)最小最大规化(2)小数定标规化,移动小数点位置进行规,移动位数取决于最大绝对值。(3)更愿用哪种规方法?。小数定标。保持了数据的结构并且是直观表达并仍然可以在age的组进行挖掘。最大最小有一个多余的功能就是禁止了任何未来值落在现在的最小最大值之外,没有考虑到“越界错误”,而未来的数据里可能出现。Z-score用标准差表示数据到平均值的距离,不像小数定标那样直观。9.p97 3.2(1)雪花型模式、事实星座形、星形网查询模型雪花型模式和事实星座形都是星形模式的变种。雪花型模式的维表可能是规化形式,以便减少冗余;事实星座形模式允许事实表共享维表
9、。星形网查询模型由中心点发出的射线组成,其中每条射线代表一个维的概念分层,而概念分层的每个抽象级称为一个脚印,代表诸如上卷、下钻等OLAP操作可用的粒度。(2)数据清理、数据变换、刷新数据清理:检测数据中的错误,可能时订正它们。数据变换:将数据由遗产或宿主格式转换成数据仓库格式。刷 新:传播由数据源到数据仓库的更新。(3)企业数据仓库、数据集市、虚拟仓库企业数据仓库收集了整个组织关于主题的所有信息,它提供企业围的数据集成,通常来自一个或多个操作数据库系统或外部信息提供者,并且是跨功能的。通常,它包含细节数据和汇总数据,其大小有数千兆字节到数百千兆字节到更多。它可以在传统的大型机、超级计算机服务
10、器或并行结构平台上实现。它需要广泛的商务建模,可能需要多年设计和建设。数据集市包含企业围数据的一个子集,对于特定的用户群是有用的。其围限于选定的主题。包括在数据集市的数据通常是汇总的。它可以再低价格的部门服务器上实现,基于UNIX/LINUX或Windows。它的实现周期一般是一周计,而不是以月计或以年计。然而如果它的设计或规划不是企业围的从长远讲可能涉与很复杂的集成。独立数据集市数据来自一个或多个操作系统或外部信息提供者,或者在特定的部门或地域局部产生的数据;依赖的数据集市的数据直接来自企业数据仓库。虚拟仓库是操作数据库视图的集合。为了有效地处理查询,只有一些可能的汇总视图可以物化。虚拟仓库
11、易于建立,但需要操作数据库服务器具有剩余能力。10.p98 3.4(1)雪花型模式图(2)求每个学生CS课程的平均成绩,OLAP操作在course维表中由course_id上卷到department在student维表中由student_id上卷到university按如下选择对中心立方体切块:(department=“CS”) and (university = “Big University”)(3)如果每维有5层,则立方体包含54=625个方体11.p98 3.5(1)观看节目的星形模式图(2)列出2004年学生观众GM-Place的总付费,需要采用哪些OLAP。在date上由date_
12、id上卷到year;在game上由game_id上卷到all;在location上由location_id上卷到location_name;在spectator上由spectator_id上卷到status;按以下选择进行切块:(status=“student”)and(location=“GM_Place”)and(year=2004)(3)位图索引结构的优点和问题。对于基数较小的域,位数索引非常有用,因为比较、连接和聚集操作都变成了位算术运算,大大减少了处理时间。由于字符串可以用单个二进位表示,位图索引显著降低了空间和I/O开销。对于基数较高的域,需要使用压缩技术才可以使用这个技术,就像例
13、子中的date,这个位向量是非常长的,十年收集的数据就会得到3650条日期记录,也就意味着date位向量有3650个二进位。12.p98 3.6简略讨论星形模式和雪花型模式的相似点和不同点,分析相对优缺点。哪种模式更实用,给出观点并述理由。答:相似点:他们都有一个事实表和多个维表。主要区别:雪花型模式有些维表是规的,把数据进一步分解到附加的表中。星形模式的优点是非常简易,使得操作有效率。但它需要更多的空间。雪花型模式易于维护并节省存储空间。但是与巨大的事实表相比,这种空间的节省可以忽略,由于执行查询需要更多的连接操作,它可能降低浏览的性能。因此星形模式更实用,因为只要需占用的空间不是特别大,效
14、率是要比空间优先考虑的。在一些工厂里,有时会将雪花型模式中的数据转换成星形模式来加速处理过程。13.p97 3.9(1)列出度量的三种类型度量可以根据所用的聚集函数类型分成三类,即分布的、代数的和整体的(2)方差属于哪一类,如果数据分成了块,描述怎么计算答:方差属于代数的。如果立方体被分割成了一些块,方差可以照以下步骤求得:首先挨个读出每个块中的数据,同时累加元组求得xi2的和xi的和。当读完所有块的数据后,计算xi的均值,之后按提示中给出的公式进行求解即可得到方差。(3)函数是最高的10个销售额,如何有效地计算该度量。对于每个方体,用10个单位来存储目前最高的10个销售额。读取每个方体中的数
15、据,如果某个元组中的销售额比存储的最高的10个销售额中的一个高,就将该销售额加入到最高的10个销售额列表中,同时剔除原列表中最小的那个数据。通过该操作的不断循环执行,最终可以得到最高的10个销售额。14.p97 3.14三种主要的数据仓库应用:信息处理、分析处理和数据挖掘的区别是什么。讨论OLAP挖掘(OLAM)动机答:信息处理支持查询、基本的统计分析,并使用交叉表、表、图表或图进行报告。分析处理支持基本的OLAP操作,包括切片与切块、下钻、上卷和转轴。一般对汇总和详细历史数据操作,支持数据仓库数据的多维数据分析。数据挖掘支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并
16、使用可视化工具提供挖掘结果。OLAM的动机有以下几点:数据仓库中数据的高质量。经过预处理而构造的数据仓库不仅用作OLAP,而且也用作数据挖掘的有价值的数据源。环绕数据仓库的信息处理基础设施。全面的数据处理和数据分析基础设施已经或将要围绕数据仓库而系统地建立,谨慎的做法就是尽量利用可用的基础设施,不是一切从头做起。基于OLAP的探测式数据分析。有效的数据挖掘需要探测式数据分析。用户常常想遍历数据库,选择相关数据,在不同粒度上分析它们,并以不同的形式提供知识/结果。数据挖掘功能的联机选择。用户常常不知道挖掘什么类型的知识,通过将OLAP与多种数据挖掘功能集成在一起,为用户选择所期望的数据挖掘功能,
17、动态改变数据挖掘任务提供了灵活性。15.p177 5.1(1)项集s的任意非空子集s的支持度至少和s的支持度一样大令D为相关事务数据,|D|为事务的数量。通过定义知support(s)=support_count(s)/|D|设s为s的任意非空子集。通过定义得support(s)=support_count(s)/|D|因为support_count(s)>= support_count(s),所以support(s)>= support(s)。(2)给定频繁项集l和l的子集s,证明“s=>(l-s)”的置信度不可能大于“s=>(l-s)”的置信度,其中s是s的子集。答
18、:令s是l的一个子集,则confidence(s=>(l-s)=support(l)/support(s)令s是s的一个子集,则confidence(s=>(l-s)=support(l)/support(s)因为support(s)>= support(s),所以confidence(s=>(l-s)<= confidence(s=>(l-s)(3)apriori的一种变形将事务数据库D中的事务划分成n个不重叠的部分,证明在D中频繁的任何项集至少在D的一个部分中是频繁的。答:假设频繁项集在D的任何部分中都不频繁。设F为D的任何频繁项集。令D是相关事务数据集。令C是D中事务的总数量。令A是D中包含F的事务数量。令min_sup是最小支持度阈值。因为F是频繁项集,所以A=C*min_sup.令D分成n个不重叠的部分,d1,d2dn。那么D=d1d2dn.令c1 c2cn分别是各部分d1dn的事务数量。则C=c1+c2+cn令a1 a2an分别是各部分d1dn中包含F的事务数量,则A=a1+a2+anA=C*min_sup即a1+a2+an=( c1+c2+c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44770-2024智能火电厂技术要求
- 拖拉机买卖合同范本
- 日光温室大棚租赁合同范本2篇
- 二零二四年度版权购买合同:网易云音乐版权购买协议3篇
- 人合伙生意简单协议书范本
- 2024年度工程居间与5G技术应用合同3篇
- 2024年度居间合同:工程设计中介5篇
- 光伏太阳能板质量争议解决合同2024年度
- 2024年度钢筋工程材料配送与物流服务合同
- 财会职业访谈报告范文
- 2024年食品安全生产经营大比武理论考试题库-下(多选、判断题)
- 一年级拼音默写表
- 光伏发电项目并网接入系统方案
- 完整版牙体牙髓病学总结
- 印刷常见不良与解决对策汇总
- 食材验收管理小组及职责
- 本科教学工作审核评估学院汇报PPT课件
- 回转窑安装施工方案
- 城市轨道交通车站的作用
- 联合国国际货物买卖合同公约(CISG)
- 从组织行为学的视角探讨医院办公室管理工作
评论
0/150
提交评论