数据挖掘概念与技术第三版部分习题答案汇总_第1页
数据挖掘概念与技术第三版部分习题答案汇总_第2页
数据挖掘概念与技术第三版部分习题答案汇总_第3页
数据挖掘概念与技术第三版部分习题答案汇总_第4页
数据挖掘概念与技术第三版部分习题答案汇总_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.4数据仓库和数据库有何不一样?有哪些相同之处?答:区分:数据仓库是面向主题,集成,不易更改且随时间改变数据集合,用来支持管理人员决议,数据库由一组内部相关数据和一组管理和存取数据软件程序组成,是面向操作型数据库,是组成数据仓库源数据。它用表组织数据,采取ER数据模型。相同:它们都为数据挖掘提供了源数据,都是数据组合。1.3定义以下数据挖掘功效:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉现实生活数据库,给出每种数据挖掘功效例子。答:特征化是一个目标类数据通常特征或特征汇总。比如,学生特征可被提出,形成全部大学计算机科学专业一年级学生轮廓,这些特征包含作为一个高年级平均成绩(GPA:Gradepointaversge)信息,还有所修课程最大数量。区分是将目标类数据对象通常特征与一个或多个对比类对象通常特征进行比较。比如,具备高GPA学生通常特征可被用来与具备低GPA通常特征比较。最终描述可能是学生一个通常可比较轮廓,就像具备高GPA学生75%是四年级计算机科学专业学生,而具备低GPA学生65%不是。关联是指发觉关联规则,这些规则表示一起频繁发生在给定数据集特征值条件。比如,一个数据挖掘系统可能发觉关联规则为:major(X,“computingscience”)⇒owns(X,“personalcomputer”)[support=12%,confidence=98%]其中,X是一个表示学生变量。这个规则指出正在学习学生,12%(支持度)主修计算机科学而且拥有一台个人计算机。这个组一个学生拥有一台个人电脑概率是98%(置信度,或确定度)。分类与预测不一样,因为前者作用是结构一系列能描述和区分数据类型或概念模型(或功效),而后者是建立一个模型去预测缺失或无效、而且通常是数字数据值。它们相同性是他们都是预测工具:分类被用作预测目标数据类标签,而预测经典应用是预测缺失数字型数据值。聚类分析数据对象不考虑已知类标号。对象依照最大花蕾内部相同性、最小化类之间相同性标准进行聚类或分组。形成每一簇能够被看作一个对象类。聚类也便于分类法组织形式,将观察组织成类分层结构,把类似事件组织在一起。数据演变分析描述和模型化随时间改变对象规律或趋势,尽管这可能包含时间相关数据特征化、区分、关联和相关分析、分类、或预测,这种分析明确特征包含时间序列数据分析、序列或周期模式匹配、和基于相同性数据分析2.3假设给定数据集值已经分组为区间。区间和对应频率以下。―――――――――――――――――――――――――――――――――――――年纪频率―――――――――――――――――――――――――――――――――――――1~52005~1545015~2030020~50150050~8070080~11044―――――――――――――――――――――――――――――――――――――计算数据近似中位数值。解答:先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597∵200+450+300=950<1597<2450=950+1500;∴20~50对应中位数区间。∴median=32.97岁。2.2假定用于分析数据包含属性age。数据元组age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。答:(a)该数据均值是什么?中位数是什么?均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27=29.96中位数应是第14个,即x14=25=Q2。(b)该数据众数是什么?讨论数据峰(即双峰、三峰等)。这个数集众数有两个:25和35,发生在一样最高频率处,所以是双峰众数。(c)数据中列数是什么?数据中列数是最大数和最小数均值。即:midrange=(70+13)/2=41.5。(d)你能(粗略地)找出数据第一个四分位数(Q1)和第三个四分位数(Q3)吗?数据集第一个四分位数应发生在25%处,即在(N+1)/4=(27+1)/4=7处。所以:Q1=20。而第三个四分位数应发生在75%处,即在3×(N+1)/4=21处。所以:Q3=35(e)给出数据五数概括。一个数据集分布5数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值组成。它给出了分布形状良好汇总+而且这些数据是:13、20、25、35、70。(f)画出数据盒图。(g)分位数—分位数图与分位数图不一样之处是什么?分位数图是一个用来展示数据值低于或等于在一个单变量分布中独立变量粗略百分比。这么,他能够展示全部数分位数信息,而为独立变量测得值(纵轴)相对于它们分位数(横轴)被描绘出来。但分位数—分位数图用纵轴表示一个单变量分布分位数,用横轴表示另一单变量分布分位数。两个坐标轴显示它们测量值对应分布值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像信息。落在该线以上点表示在y轴上显示值分布比x轴对应等同分位数对应值分布高。反之,对落在该线以下点则低。2.4假设医院检测随机选择18个成年人年纪和身体脂肪数据,得到以下结果:(a)计算年纪和脂肪百分比均值、中位数和标准差.年纪均值=(23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=836/18=46.44,中位数=(50+52)/2=51,标准差=方差平方根=开根号(1/n[∑(Xi)2-1/n(∑Xi)2])=开根号1/18[2970.44]=12.85.脂肪百分比均值=28.78,中位数=30.7,标准差=8.99.(b)绘制年纪和脂肪百分比盒图(c)依照这两个属性,绘制散布图,各q-q图q-q图散布图(d)依照z-score规范化来规范化这两个属性(P46)(e)计算相关系数(皮尔逊积矩系数).这两个变量是正相关还是负相关?ra,b=∑(ai-A)(bi-B)/NσAσB=(∑(aibi)-NAB)/NσAσB=(∑(aibi)-18*46.44*28.78)/18*12.85*8.99=0.82相关系数是0.82。变量呈正相关。3.3使用习题2.4给出age数据回答以下问题:(a)使用分箱均值光滑对以上数据进行光滑,箱深度为3。解释你步骤。评述对于给定数据,该技术效果。(b)怎样确定数据中离群点?(c)对于数据光滑,还有哪些其余方法?解答:(a)使用分箱均值光滑对以上数据进行光滑,箱深度为3。解释你步骤。评述对于给定数据,该技术效果。用箱深度为3分箱均值光滑对以上数据进行光滑需要以下步骤:步骤1:对数据排序。(因为数据已被排序,所以此时不需要该步骤。)步骤2:将数据划分到大小为3等频箱中。箱1:13,15,16箱2:16,19,20箱3:20,21,22箱4:22,25,25箱5:25,25,30箱6:33,33,35箱7:35,35,35箱8:36,40,45箱9:46,52,70步骤3:计算每个等频箱算数均值。步骤4:用各箱计算出算数均值替换每箱中每个值。箱1:44/3,44/3,44/3箱2:55/3,55/3,55/3箱3:21,21,21箱4:24,24,24箱5:80/3,80/3,80/3箱6:101/3,101/3,101/3箱7:35,35,35箱8:121/3,121/3,121/3箱9:56,56,56(b)怎样确定数据中离群点?聚类方法可用来将相同点分成组或“簇”,并检测离群点。落到簇集外值能够被视为离群点。作为选择,一个人机结合检测可被采取,而计算机用一个事先决定数据分布来区分可能离群点。这些可能离群点能被用人工轻松检验,而无须检验整个数据集。(c)对于数据光滑,还有哪些其余方法?其它可用来数据光滑方法包含别分箱光滑方法,如中位数光滑和箱边界光滑。作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中数据范围均是常量。除了分箱方法外,能够使用回归技术拟合成函数来光滑数据,如经过线性或多线性回归。分类技术也能被用来对概念分层,这是经过将低级概念上卷到高级概念来光滑数据。3.5以下规范化方法值域是什么?答:(a)min-max规范化。值域是[new_min,new_max]。(b)z-score规范化。值域是[(old_min-mean)/σ,(old_max-mean)/σ],总来说,对于全部可能数据集值域是(-∞,+∞)。(c)小数定标规范化。值域是(-1.0,1.0)。3.7使用习题2.4给出ge数据,回答以下问题:()使用mn-mx规范化将ge值35变换到[0.0,1.0区间。(b)使用-sore规范化变换ge值35,其中ge标准差为12.94岁。()使用小数定标规范化变换ge值35。(d)对于给定数据,你愿意使用哪种方法?陈说你理由。解答:3.9假设12个销售价格统计组已经排序以下51011131535,50,55,72,92,204,215。使用以下每种方法将其划分成三个箱。)等频(等深)划分。b)等宽划分。)聚类。解答:)等频(等深)划分。bn15,10,1,13bn115,35,50,55bn172,91,204,215b)等宽划分。每个区间宽度是:215-53=70bn15,10,1,13,15,35,50,55,72bn191bn1204,215)聚类。我们能够使用一个简单聚类技术:用2个最大间隙将数据分成3个箱。bn15,10,1,13,15bn135,50,55,72,91bn1204,2153.11使用习题2.4给出ge数据,)画出一个等宽为10等宽直方图;b)为以下每种抽样技术勾画例子:SSOR,SSR,聚类抽样,分层抽样。使用大小为5样本和层“青年“中年”和“老年。解答:)画出一个等宽为10等宽直方图;8765432105 5 5 5 5 5b)为以下每种抽样技术勾画例子:SSOR,SSR,聚类抽样,分层抽样。使用大小为5样本和层“青年“中年”和“老年。元组:T113T1022T1935T215T1125T2035T316T1225T2135T416T1325T2236T519T1425T2340T620T1530T2445T720T1633T2546T821T1733T2652T922T1835T2770SSOR和SSR不是同次随机抽样结果能够不一样但前者因无放回所以不能有相同元组。SSORn=5)SSR=5)T416T720T620T720T1022T2035T1125T2135T2652T2546聚类抽样:设起始聚类共有6类,可抽其中m类。Sp1Sp2Spe3Sp4Sp5Sp6T113T620T1125T1633T2135T2652T215T720T1225T1733T2236T2770T316T821T1325T1835T2340T416T922T1425T1935T2445T519T1022T1530T2035T2546Sp2 Sp5T620T2135T720T2236T821T2340T922T2445T1022T2546T113youngT1022youngT1935ddegeT215youngT1125youngT2035ddegeT316youngT1225youngT2135ddegeT416youngT1325youngT2236ddegeT519youngT1425youngT2340ddegeT620youngT1530ddeeT2445ddegeT720youngT1633ddeeT2546ddegeT821youngT1733ddeeT2652ddegeT922youngT1835ddeeT2770norT416youngT1225youngT1733ddeeT2546ddeeT2770Sor4.3假定数据仓库包含三维:time,doctor和patient;和两个度量:count和charge;其中,charge是医生对病人一次诊治收费。(a)列举三种流行数据仓库建模模式答:三类模式通惯用于建模数据仓库架构星形模型,雪花模型和事实星座模型。(b)使用(a)列举模式之一,画出上面数据仓库模式图数据仓库星形模型(C)由基本方体[day,doctor,patient]开始,为列出每位医生收费总数,应该执行哪些OLAP操作?沿课程(course)维从course_id“上卷”到department。沿时间(time)维从day“上卷”到year。取time=,对维time作“切片”操作沿病人(patient)维从个别病人“上卷”到全部病人。(d)为得到一样结果,写一个SQL查询。假定数据存放在关系数据库中,其模式为fee(day,month,year,doctor,hospital,patient,count,charge)。答:SQL查询语句以下:selectdoctor,SUM(charge)fromfeewhereyear=groupbydoctor4.4假定gUnvrty数据仓库包含以下4个维udnttudn_ne,_d,o,tu,unvsy),ou(ou_ne,dpen),s(e,y)和ntuordpt,nk);2个度量:ont和vg_gde。在最低概念层,度量vg_gde存放学生实际课程成绩。在较高概念层,vg_gde存放给定组合平均成绩。)为该数据仓库画出雪花形模式图。b)由基本方体tudn,or,t,nruor]开始,为列出gUnvety每个学生CS课程平均成绩,应该使用哪些特殊OP操作。)假如每维有5层(包含al,如“udn<aor<tu<unvety<l,该立方体包含多少方体?解答:)为该数据仓库画出雪花形模式图。雪花模式如图所表示。b)由基本方体udnt,ou,s,ntuor]开始,为列出gUnvety每个学生CS课程平均成绩应该使用哪些特殊OP操作。这些特殊联机分析处理(OP)操作有:. 沿课程(oue)维从or_d“上卷”到dpent。. 沿学生(udnt)维从udnt_d“上卷”到nvety。. 取dpen=“CS”和nvety=“g(oue)维和学生(udnt)维切片。v. 沿学生(udnt)维从unvsy下钻到udnt_ne。)假如每维有5(包含al“udn<aor<au<unvety<l,该立方体包含多少方体?这个立方体将包含54=625个方体。4.5假定数据仓库包含4维:date,spectator,location,和game,和两个度量:count和charge;其中,charge是观众在给定日期观看节目标付费。观众能够是学生、成年人或老年人,每类观众有不一样收费标准。(a)画出该数据仓库星形模式图。答:星形模式图以下:b.由基本方体[date,spectator,location,game]开始,为列出学生观众在GM_Place总付费,应执行OLAP操作:沿时间(date)维从date_id“上卷”到year。沿时间(game)维从game_id“上卷”到全部。沿时间(location)维从location_id“上卷”到location_name。沿时间(spectator)维从spectator_id“上卷”到status。以status="students",locationname="GMPlace"andyear=作转轴操作4.6数据仓库能够用星形模式或雪花模式建模。简略讨论这两种模式相同点和不一样点,然后分析它们相对做优、缺点。哪种模式更实用,给出你观点并陈说你理由。答:星形模式或雪花模式相同点是它们包含一个事实表和一些维表。它们主要不一样在于,雪花模式维表可能是规范化形式,方便降低了冗余,这种表易于维护并节约存放空间。然而,与巨大事实表相比,这种空间节约能够忽略。另外,因为执行查询需要更多连接操作,雪花形结构可能降低浏览性能,这么,系统性能可能相正确受到影响。星型模式优点是简单、这使得它更有效,但它需要更多空间。所以,只要空间要求不是太大时,星形模式比雪花模式愈加好,因为通常效率比空间具备更高优先级。在工业上,有时可能将数据从一个雪花模式非规范化为星型模式以加紧处理速度,另一个选择是保持雪花模式维表,然后相同数据当前用户折叠为星形。4.94.115.15.25.4假定基本方体有三维A,B,C,其单元数以下:|A|=1000000,|B|=100,|C|=1000.假定每维均等地分块成10部分。(a)假定每维只有一层,画出完整立方体格。答:完整立方体格以下列图(b)假如每个立方体单元存放一个4字节度量,若立方体是稠密,所计算立方体有多大?答:所计算立方体大小以下:all:1A:1,000,000;B:100;C:1,000;小计:1,001,100AB:1,000,000*100=100,000,000;BC:100*1,000=100,000;AC:1,000,000*1,000=1,000,000,000;小计:1,100,100,000ABC:1,000,000*100*1,000=100,000,000,000总和:1+1,001,100+1,100,100,000+100,000,000,000=101,101,101,101*4=404,404,404,404字节(C)指出空间需求量最小立方体中块计算次序,并计算2-D平面计算所需要内存空间总量。答:次序计算,需要最少数量空间B-C-A.如图所表示:计算二维平面需要总主内存空间是:总空间=(100×1,000)+(1,000,000×10)+(100×10,000)=20,100,000单元*4字节/单元=80,400,000字节6.3Apriori算法使用子集支持性质先验知识。(a)证实频繁项集全部非空子集也必须是频繁。答:设s是一个频繁项集,min_sup是最小支持度阀值,任务相关数据D是数据库事务集合,|D|是D有事务量,则有Support_count(s)=min_sup×|D|;再设s’是s非空子集,则任何包含项集s事务将一样包含项集s’,即:support_count(s')supportcount(s)=min_sup×|D|.所以,s’也是一个频繁项集。(b)证实项集s任意非空子集s’支持最少和s支持度一样大。答:设任务相关数据D是数据库事务集合,|D|是D事务量,由定义得:设s’是s非空子集,由定义得:由(a)可知:support(s’)support(s)由此证实,项集s任意非空子集s’支持最少和s支持度一样大。(c)给定频繁项集l和l子集s,证实规则置信度不可能大于答:设s是l子集,则设s’是s非空子集,则由(b)可知:support_count(s')supportcount(s),另外,confidence(s’)(l-s’))confidence(s)(l-s))所以,规则置信度不可能大于。6.6设数据库有5个事务。设min_sup=60%,min_conf=80%(a)分别使用Apriori和FP增加算法找出全部频繁项集。比较两种挖掘过程效率。效率比较:Apriori需数次扫描数据库而FP增加建立FP树只需一次扫描。在Apriori算法中产生候选是昂贵(因为联接),而FP增加不产生任何候选。(b)列举全部与下面元规则匹配强关联规则(给出支持度S和置信度C),其中,X是代表用户变量,itemi是表示项变量(如:“A”、“B”等):答:k,oe[0.6,1]e,ok[0.6,1]6.8.数据库有4个事务,设min_sup=60%,min_conf=80%(a)在item_category粒度(比如,itemi能够是“Milk”),对于下面规则模板对最大k,列出频繁k项集包含最大k频繁k项集全部强关联规则(包含它们支持度S和置信度c).(b)在粒度(比如:itemi能够是“Sunset-Milk”)对于下面规则模板对最大k,列出频繁k项集(但不输出任何规则)。6.14下面相依表汇总了超级市场事务数据。其中,hotdogs表示包含热狗事务,hotdogs表示不包含热狗事务,hamburge

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论