数据挖掘-概念与技术(第三版)部分习题答案_第1页
数据挖掘-概念与技术(第三版)部分习题答案_第2页
数据挖掘-概念与技术(第三版)部分习题答案_第3页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.4 数据仓库和数据库有何不同?有哪些相似之处? 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持 管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向 操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用 ER 数据模型。相似:它们都为数据挖掘提供了源数据,都是数据的组合。1.3 定义以下数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟 悉的现实生活的数据库,给出每种数据挖掘功能的例子。答:特征化 是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有 大学的计算机科学专业一

2、年级学生的轮廓, 这些特征包括作为一种高的年级平均成绩 (GPA:Grade point aversge) 的信息, 还有所修的课程的最大数量。区分 是将目标类数据对象的一般特性与一个或多个比照类对象的一般特性进行比拟。例如, 具有高 GPA 的学生的一般特性可被用来与具有低 GPA 的一般特性比拟。最终的描述可能是学生的 一个一般可比拟的轮廓, 就像具有高 GPA 的学生的 75%是四年级计算机科学专业的学生, 而具有低 GPA 的学生的 65%不是。关联 是指发现关联规那么,这些规那么表示一起频繁发生在给定数据集的特征值的条件。例如,一 个数据挖掘系统可能发现的关联规那么为: major(

3、X, “computing science ) ? owns(X, “ personal computer )support=12%, confidence=98% 其中, X 是一个表示学生的变量。这个规那么指出正在学习的学 生, 12%(支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率 是98%(置信度,或确定度)。分类与预测 不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功 能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性 是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用

4、是预测缺失的数字型数据的值。聚类分析 的数据对象不考虑的类标号。对象根据最大花蕾内部的相似性、最小化类之间 的相似性的原那么进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织 形式,将观测组织成类分层结构,把类似的事件组织在一起。数据演变分析 描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据 的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、 序列或周期模式匹配、和基于相似性的数据分析2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。年龄 频率152005154501520300205015005080

5、7008011044计算数据的近似中位数值。解答: 先判定中位数区间: N=200+450+300+1500+700+44=3194; N/2=1597/ 200+450+300=950<1597<2450=950+1500 ; 2050对应中位数区间。式(23):fnedtan = £ +5/2-0小n idth - 20 +3197/2-9501500x 30 = 32.97/ media n=32.97 岁。2.219,52,假定用于分析的数据包含属性age。数据元组的age值(以递增序)是:13,15,16,16,20,20,21,22,22,25,25,25,2

6、5,30,33,33,35,35,35,35,36,40,45,46, 70。答:(a)该数据的均值是什么?中位数是什么? 均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/ 27=29.96丘=二工兀=迪Z 27 = 29 96 “° (公式和儿Np中位数应是第14个,即x14=25=Q2。该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。这个数集的众数有两个:25和35,发生在同样最高的频率处,因此是双峰众数。 数据的中列数是什么?数据的中列数是最大数和最小

7、数的均值。即: 你能(粗略地)找出数据的第一个四分位数( 数据集的第一个四分位数应发生在而第三个四分位数应发生在 75%处,即在3X (N+1)/4=21 处。所以:Q3=35(e) 给出数据的五数概括。一个数据集的分布的5数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最 大值构成。它给出了分布形状良好的汇总+并且这些数据是:13、20、25、35、70。(f) 画出数据的盒图。(b)(c)(d)midra nge=(70+13)/2=41.5 。Q1)和第三个四分位数(Q3吗?25%处,即在(N+1)/4=(27+1) /4=7 处。所以:Ql=20。(g)分位数一分位数图与分位

8、数图的不同之处是什么?分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数一分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点那么低。2.4假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果:2

9、32327273941474950%fatP 9.5P 26.5P 7.817.831-425.927,427,23L2咻525454565758586061%fat.34.642.5茨.833.430.234.132.941,235J(a) 计算年龄和脂肪百分比的均值、中位数和标准差年龄均值=(23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=836/18=46.44,中位数=(50+52)/2=51,标准差=方差的平方根=开根号(1/n刀(Xi) 2-1/n(刀Xi) 2)=开根号1/182970.44=12. 85.脂肪百

10、分比均值=28. 78,中位数=30.7,标准差=8.99.(b) 绘制年龄和脂肪百分比的盒图age5320I&O(c)根据这两个属性,绘制散布图,各q-q图scatteir pK»tQo散布图q-q(d)根据 z-scoreME232327273941474950z-aye-L83-LS3-1.51-L51-0.58-0420.040.200,28% fat9*57,817.81.125.927427.23L2-214-0.25-2.:U-1+220.29-0,32-045-0.180,27525454565758586061zaqe0.430.590.590.740.82

11、0.90DJJI)1.061.13%fat3丄642.52&833.430.234432.941.235,7z- %fat0.651.53O.U0.51().16(J. 59().461.380.77图标准化来标准化这两个属性(P46)(e)计算相关系数(皮尔逊积矩系数).这两个变量是正相关还是负相关?ra,b=刀(ai-A)(b i-B)/N<ra <tb=(刀(aib)-NAB ) /N<ra<tb=(刀(a i bi )-18*46.44*28. 78)/18*12 .85*8.99=0.82相关系数是0.82。变量呈正相关。3.3 使用习题2.4给出的a

12、ge数据答复以下问题:(a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为 定的数据,该技术的效果。(b) 如何确定数据中的离群点?(c) 对于数据光滑,还有哪些其他方法?3。解释你的步骤。评述对于给解答:(a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。评述对于给定的数据,该技术的效果。用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤:步骤1对数据排序。(因为数据已被排序,所以此时不需要该步骤。)步骤2:将数据划分到大小为 3的等频箱中。箱 1 : 13, 15, 16箱 4: 22, 25, 25箱 7: 35, 35, 35箱 2: 16, 19, 20箱

13、 5: 25, 25, 30箱 & 36, 40, 45箱3:箱6:箱9:20, 21, 2233, 33, 3546, 52, 70步骤3:计算每个等频箱的算数均值。步骤4:用各箱计算出的算数均值替换每箱中的每个值。箱1:44/3 , 44/3 , 44/3箱 2 : 55/3 , 55/3 ,55/3箱3:21, 21 , 21箱4:24, 24, 24箱 5: 80/3, 80/3 , 80/3箱 6 :101/3101/3 , 101/3箱7:35, 35, 35箱 8: 121/3 , 121/3,121/3箱9:56, 56, 56(b) 如何确定数据中的离群点?聚类的方法

14、可用来将相似的点分成组或“簇,并检测离群点。落到簇的集外的值可以被视为离群点。作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据分布来区 分可能的离群点。这些可能的离群点能被用人工轻松的检验,而不必检查整个数据集。(c) 对于数据光滑,还有哪些其他方法?其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。除了分箱方法外,可以 使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。分类技术也能被用来对概念分 层,这是通过将低级概念上卷到高级概念来光滑数据。3.5如下标准化方法的值域是

15、什么?答:(a) mi n-max 标准化。值域是new_min, new_max。(b) z-score标准化。值域是(old_min mean)/ c, (old_max mean)/,总的来说,对于所有可能的数据集的值域是(一 OO, +8 )。(c) 小数定标标准化。值域是(1.0,1.0)。3.7 使用习题2.4给岀的age数据,答复以下问题:(a) 使用min-max 标准化将 age值35变换到0.0 , 1.0区间。(b) 使用z-score标准化变换 age值35,其中age的标准差为 12.94岁。(c) 使用小数定标标准化变换age值35。(d) 对于给定的数据,你愿意使

16、用哪种方法?陈述你的理由。解答:(a) 使用inin-max标准化将age值35变换到00 L0区间.T1110x=70 new_miii=0.0 new_max1.0T上皿一(阳imag-阳j皿口 max d min 电35 1370-13(1.0-0.0)+0,0 = 03860(b) 使用z-score标准化变换age值35,其中age的标准差为12.94趴一 13 + 15 + 2x16 + 19 + 2x20 + 21 + 2x22 + 4x25A =2730+2x33 + 4x35 + 36 卡斗0+4§+ 46 十 52 +70H27809=29.963J7iu-)或

17、衬二 _;= 167.4986, » = J巧=12.9421N'=0.3966 弋 0.400,v-A 35-29.9635.037"一 6 -12.7002- 12.7002或v/=v-A 35-29.96312.94215.03712.9421= 0.3S920.39(c) 使用小数宦标标准化变换畔雯值站.由于最大的绝对值为險所y 矗二洛=o出3.9假设12个销售价格记录组已经排序如下:5 , 10, 11, 13, 15, 35,50, 55, 72 , 92 , 204, 215。使用如下每种方法将其划分成三个箱。(a) 等频(等深)划分。(b) 等宽划分

18、。(c) 聚类。解答:(a)等频(等深)划分。bi n15,10,11,13bi n115,35,50,55bin172,91,204,215(b) 等宽划分。每个区间的宽度是: (215-5)/3=70bi n15,10,11,13,15,35,50,55,72bi n191bi n1204,215(c) 聚类。我们可以使用一种简单的聚类技术:用2个最大的间隙将数据分成3个箱。bi n15,10,11,13,15bi n135,50,55,72,91bi n1204,2153.11使用习题2.4给岀的age数据,(a) 画岀一个等宽为10的等宽直方图;(b 解答:(a)画岀一个等宽为10的等

19、宽直方图;7654321152535455565)为如下每种抽样技术勾(画b例 元组:T113T1022T 1935T215T1125T 2035T316T1225T 2135T416325T2236T519T1425T 2340T620T1530T2445T720T1633T2546T821T1733T 2652T922T1835T 2770SRSWOR但前者因无放回和SRSWR :不是同次的随机抽样结果可以不同, 勾所以不能有相同的元组。SRSWOR(n=5)SRSWR(n=5)T416T720T620T720T1022T2035T1125T2135T 2652T2546聚类抽样:设起始聚

20、类共有 6类,可抽其中的 m类。Sample1Sample2Sample3Sample4Sample5Sample6T113T620T1125T1633T 2135T2652T215T720T1225T1733T 2236T2770T316T821T1325T1835T2340T416T922T1425T1935T 2445T519T1022T1530T 2035T2546Sample2 Sample5T620T 2135T720T 2236T821T 2340T922T 2445T1022T2546T113youngT1022youngT1935middle ageT215youngT112

21、5youngT 2035middle ageT316youngT1225youngT2135middle ageT416youngT1325youngT 2236middle ageT519youngT1425youngT 2340middle ageT620youngT1530middle ageT 2445middle ageT720youngT1633middle ageT2546middle ageT821youngT1733middle ageT 2652middle ageT922youngT1835middle ageT2770seniorT416youngT1225youngT

22、1733middle ageT2546middle ageT 2770Se nior4.3假定数据仓库包含三维:time,doctor 和patient; 和两个度量:count和charge;其中,charge是医生对病人一次诊治的收费。(a) 列举三种流行的数据仓库建模模式答:三类模式一般用于建模数据仓库架构的星形模型,雪花模型和事实星座模型。(b) 使用 列举的模式之一,画出上面的数据仓库的模式图timedoctorditnensLondooctoridphone#adtlnisssex数据仓库的星形模型(C)由根本方体day,doctor,patient开始,哪些OLA操作?沿课程(c

23、ourse )维从course_id 沿时间(time)维从day "上卷到 year。 取time=2004,对维 time作"切片 操作 沿病人(patient)维从个别病人"上卷到(d)为得到同样结果,写一个答:SQL查询语句如下:select doctor, SUM(charge) from fee where year=2004 group by doctor为列出2004年每位医生的收费总数,应当执行 "上卷至U department 。全部病人。(d)为得到同样结果,写一个SQL查询。假定数据存放在关系数据库中,其模式为fee(day, m

24、onth , year, doctor, hospital , patient, count, charge)。答:SQL查询语句如下:select doctor, SUM(charge)from feewhere year=2004group by doctor.area_id ,4departme nt) 假和 avg_grademajor,status,uni versity), course(course_ name,semester(semester, year) 和口 instructor(dept, rank) ; 2 个度量 :count 在最低概念层,度量avg_grade存

25、放学生的实际课程成绩。定在较高概念层,avg_grade存放给定组合的平均成绩。为该数据仓库画出雪花形模式图。BigUni(b)由基 本方体student, course, semester, instructor 开始,为歹列 岀BigUniversity 每个学生的CS课程的平均成绩,应当使用哪些特 殊的OLAP操作。(解答?)dimension table仙打 tablecourseunivstiideiH维表事实表维衷b由根本方体student, course, semester, instructor 开始,为 歹列岀BigU niversity每个学生的 CS课程的平均成绩,应当使

26、用哪些特殊的OLAP操作。这些特殊的联机分析处理OLAP 操作有:i. 沿课程course维从 course_id "上卷至U department。ii. 沿学生student维从 student_id "上卷至U university。iii. 取 department= “ CS 和 university= “ Big University 沿课程course维和学生student维切片。iv. 沿学生student维从 university 下钻至U student_name。c这个立方体将包含54=625个方体。如 果 每 维 有5层4.5 假定数据仓库包含4维:

27、date, spectator, location,和game,和两个度量:count和charge;其中,charge 是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老年人,每类观众有不同的收费标准。(a)画出该数据仓库的星形模式图。diinrusion lubkaaiLiename des-criprion producerdlineu4uu Mble答:星形模式图如下:date iJ game id countlOCfHfO/1 dimeiKioik tbleI 门 12 目 tLEl id.IQ 沁 Oli-lldUK 曲MICsTieeiciry|pio iute coi

28、intn- ' 9fIb.由根本方体date, spectator, location,game开始,为列出2004年学生观众在 GM_Place的总付费,应执 行的OLAF操作:沿时间(date)维从date_id"上卷到year。沿时间(game维从game_id "上卷到全部。沿时间(location )维从 location_id"上卷至U location _name。沿时间(spectator )维从 spectator_id"上卷至U status 。以 status="students" , location

29、name="GM Place" and year=2004 作转轴操作4.6数据仓库可以用星形模式或雪花模式建模。简略讨论这两种模式的相似点和不同点,然后分析它们的相 对做优、缺点。哪种模式更实用,给出你观点并陈述你的理由。答:星形模式或雪花模式的相似点是它们包含一个事实表和一些维表。它们主要的不同在于,雪花模式的维表可能是标准化形式,以便减少了冗余,这种表易于维护并节省存储空间。然而,与巨大的事实表相比, 这种空间的节省可以忽略。此外,由于执行查询需要更多的连接操作,雪花形结构可能降低浏览的性能,这 样,系统的性能可能相对的受到影响。星型模式的优点是简单、这使得它更有效,

30、但它需要更多的空间。因 此,只要空间的要求不是太大时,星形模式比雪花模式更好,因为通常效率比空间具有更高的优先级。在工 业上,有时可能将数据从一个雪花模式非标准化为星型模式以加快处理速度,另一种选择是保持雪花模式的 维表,然后相同数据的当前用户折叠为星形。解答;(a) 根携汁韓O;立h休听用的楽卑两&列出度A的三聊类里,一-冲疫垢恃别是;分布戌闱虽代数代庭址整偉式度屋。(b) 时于貝3 个IfHimr locaiion脚product的薮捱 < 占怀.喀杵variance ' H 苇丨属干啄一売f御果tV工厅休弁削成一空块+描述旬诃计怀它"捉亦匕汁尊1 审4va

31、iiaiM上萌数的公式是T忆对'其中.貢是这些Ti曲平均值*闵为varianc#馬数的ii算iJ式是:因比方差函数町表示为;所以.方羞甫数是代赴度量如果立方怵可以桩分成许寿大块.方差可M用如T方法计算,逐牛读取大疑申制每一个数据.探宦甘歌加如下聚集(1) 元组的散号;(2) ?的和匕(3) 口的和.读完所乜的块以后.将冗蛆的故虽M 3)的和、策的帀册入.就叩&用上述£式岗到方£vamnce °(c) ffi!進齟数是"最贏的10个抽售讨论如何在數据立方体里有效的计 SMS.(1) 对每个立方悴用始时先用血个存储单元存储住意选庄的巾个悄吿顿

32、(2) 将这10个存储教兀屮的销他箱由大到小排呼:G)在立方体中读一个兀组,如果诛兀紺屮的镌售额丸于10中廉小销宦 離就出1前销宵楸替换授小梢售额口(4) £K(2). (3).削判读疋卫厅休屮所有脚兀组后停止(a) 简要播述毎种实现摂术°关系联机分析处理技术(ROLAP)是中间册务器.可用于执抒爹址视阳任 务.介于关系的JB端胭务器和客户歳端匸具之闻。恼用关系的或扩死关系的 DBMS iZU并管理救挣仓粛.面OLZ中何件支持其余部井"薛址联桩仆折处'淳服齐器(MOLAP '由蔓干数织的引隼文挣数旅 的寒维式用.粕菱绻视罔復接缺射到数据立方侏数爼姑

33、构.混佥麻机分折处理冷务器(HOLAP)站介RQLAP和MOLAP Li札 得 益于ROLAP RXW可惮绷性和MOLAP的快連计聲 HOLAP允许将大量的详 细数据存放在关系数据库中.內塞穽保持在分出的MOLAP存常屮.(b) 时每韩枝术,解释如下函豔如f町实Bb1敎据仓库的A生(包括聚集人ROLA?;采用一个OLAP眼务器.戲据仕吟的产生训以由一个猊用戸总克疝壷的关菸即或护摆的关系芒故拥牛管曙蜿炷cDBMS)取现,这个实事我可以仔佛给定立方怵的聚集數据刑由给运数据芷方体的模式连播謳播出时抽彖级屮的最据MOL.4P- h产于一个数抵住陥 MOLAP技忒他川至惰数绍结构宅存储捡挥和歩跻敌址聚宝

34、束il谆独据立方休。HOL4P: HOLAP兹术的持色睦曲用一个比豪数撕JT来存帖费抑利一些低层次的聚集、并且痕用一个MOLAP柬怕蘭崙站次的嫌集.ii.上卷*ROLA?:沿一堆用汇总的实事麦上卷.我们在凿會期望维的一牛迂此的表屮#找记说电例如.从H到上卷敎据维.其中选弾那些包含所有辖疋伯的,间的II牺的记菲记求中给定的测食域的値.例如以理耳计的销吿绘+将会包含用于期望的上卷的局部和-MOLAPr在数蹴立方悴中埶行上稚.为得到期望的维克嬪華爬到相昨的舉念层.例如、沿着地点维从城市上程的国家.轉到更泛化的HOL-AP: It Fl E0LAP过代述行t 的方仏将佥与ROLAP戒MOLAP祖f儿

35、主釦翻见在依菲在相应维的啊厅叩所赖用的技札Hi.下钻.ROLAPifJlU汇恿的事实表出臬维下仙览为拽表屮的记录这个表包俾林期望维的一个泛化:囲如,沿地点壯从国辣到省或看州下 诂.选卄于一臓念层能最低机域的记术.聞荷側邑含所有持辺桃的地点 在遠神情况下.塘市城可能包舍所有的值-这个记录中裁定的测量域的伪将会包含下钻所期塑得利求和.例轴dolhr5_3d(hMOLAP.为了在數据芒片休中埶肝卜殆揉低.直撰降低概念分层以得 到期里的隼.例如.椽可以沿日期握从月倚下牯到毎日,用日聚集数提 而不是用月.MOL4P:快用HOLAP技耒斛丁下诂的吁法尊会与ROLAP或MOLA? 相1U.丰翌伟理在按靠在栢

36、M缩的执衍中所忡用的社术LV.壇垢理新.OLAP:衍执f 丁暉号也仃.丸检评是古相应的元怨齐旷总丈表中.如假设邓是.那么插入元组劃汇总的事实表中,并且何上档播蚱果.否那么 更新元illffi.井且也向上传插席果.MOLAP: 'h f执fj lfl厦史谒.先检苒是山咱磺的元胞处在MOLAP立H和札 如苕不是-剧桶人元胞列谏文方体.并向上传攜鲂上丄匹更新该兀胞F并且向上传播结果HOLAP: lROLAP或MOLAP相似主婪表达在依靠在相应堆的执杠 中所便用的技*.抹喜欢挥种实现技齐?为什么?HOLAP经育說优处或用固AjLk ROLAP和MOLAP厅肚的优点.: 且防止了它心的猷点、斜呆

37、立方休是很鸭密的,応该透择MOLAP方法。如果数 据是稱踰的.且幣比拟爲.加将金有许塞T胞眼从揩数半长J,这丼姑况下* 往往无空计算冰山立厅体.而不是对立方休完全物化r5.1 5.2丄1 S£LO«M«:方体只包會3人星本擊元*去人乩. D (2) (d . b. d d.3厶)和卩)(£6:j几血6 JH1?© =d卜产屍垢 RcjAd" »tn7*NClBftLwa.(a) jt-tftur方聲中包含*少个养空方律?(b) 兗仝才方体中包介姜少金苓于 <«t)擊元?(c) 虹果并立方专旳条gfj"

38、;也/-2淖山令方徉岂冷參W空舉鼻 車元?(d) 单元e是爾单元(E耍耳存在車元位畐"足单元c的侍岷化<D/fl 过用樂“如豊換C中的"得劉丄并旦d与具右用問的燮墮弟夕方 体总仅加可卑元畑氓4«(新立万停 WXt«方休甲片寥卩个厨羊元?H8:(1)兗仝方体中色含多少牛非空方体?2f(b) jt±rt方停中钮含多少八辛主聚复 非晶鼻)单元?(1) 每T单元可一 严T个菲仝ST震的©元这样0聒篙消除的靈 共输3-1«-3不单元(2) 我们稻3小个只文介一次(共迅丁2演/,的单元,1曲芝( A- 几几),交两次'WW

39、了 3 X»)EQ元.试样5,个交 4的卓元达样软勺:t个參空果集单元.(C)1聚冰山$方体的豪件足cotinm廉山XT方体乞含参少个车空舉 集单元?.“乩)右2个卜数国为它是由单元1?竝元丄鸟生的;(2) CUAu.去必)佝26UE,网为它曼出单元】和単兀2产生臥(3) iL-. A,rf«3 fl244t«L闵为它灵由車无1H氟元2Q生臥 (九去耐扫3牛计厳闵为它是由G元】.牟元2和越元3瞅兀rE用罩据誉厂存点阻冗:C匸冗r田与哺乂兀2一:】爭非.厂性厘换上中的昌虫丄 幷兰与f 4匕哇刁刃廃遠-于工方怀尿叹产旳甲亓;纭虛卉T暮怖才方常+ 惑止才耳佟白事夕馬甲耳

40、丫殺电F牛H牛就*匕(1)(4|. ("". dk血I II口)(J|x ir rfj, - ,那#mJi Ii3;同rn % H,""比孑曲 妇(4) U*4i.r 孤炖 It(5>(t4z,*-i.- 比 3 Ji(fif %牛气&丸h疑1.(7) (#*.i. -.i*4勺l科史世釣百方療方妄.Qli芳克戲亀订W WiLimy ZD牺爪BIX ! njtf |5| ki F .BRW Sw<iofIXHLUOJ-t 5 *醇即一宵岭円用赛丸卑电虹上4尸上嗾它HI的可疔性人性(L. S1F1SSE '.ffilt-flM!

41、的带宜电方恨创ID 7MtlJ 丁方停.g l'W ts? ifrir,址i=l闖黑i轉卅寺专任.Mf注电贺肛魁弋收岂丁 一ft芳鑿捧d筹悒出为齐佯的骷or賓山心世产龊送辛.TTTff的$中H顶F石萍刁下卩整.Makiw-沟,匐训数?1武-荚申誑Iff幻宅、昶!"厲需需花BLPCf 口卿叵下的走丨曲j片社吃頁一狂鼻幵邙Srar-Cbttf:便理昱比挡咔门磧悶下乂 1%忆卜为丿馬整型-惶心出占杜毎討K同討进?7.i:ij U!T1±,»円乩.屮干蛊畴h 邂叭主宣万惦MiZtilT昉初 ar-CiitjnLi nt BUC 吕.乓划 jffn鬲js借科昱带齐弼

42、m呻i«rm*Jj卞方暉.MiiJtiWX诽一诈.0 靳弔打前口辭庐X. 5tu<'3biDf rl: BUC 15用.(lJ . WftM 側弧- iLlOOm.'. *4Mt* in y.芍伍空乓于汁FT卡也之于悴.BUC和号2匚血警.用武疗.®?功,霜»*用辽方尊用昨茫叮軒.方拿也可祓慎再.105.4假定根本方体有三维 A,B,C,其单元数如下:|A|=1OOOOOO,|B|=1OO,|C|=1OOO.假定每维均等地分块成局部。(a)假定每维只有一层,画出完整的立方体的格。答:完整的立方体的格如以下图.:ABC(b) 如果每个立方体单元

43、存放一个 4字节的度量,假设立方体是稠密的,所计算的立方体有多大?答:所计算的立方体大小如下:all : 1A: 1,000,000; B 100; C 1,000;小计:1,001,100AB 1,000,000*100=100,000,000; BC 100*1,000=100,000; AC 1,000,000*1,000=1,000,000,000;小计:1,100,100,000ABC 1,000,000*100*1,000=100,000,000,000总和:1+1,001,100+1,100,100,000+100,000,000,000=101,101,101,101 *4 =

44、 404,404,404,404 字节(C指出空间需求量最小的立方体中的块计算次序,并计算2-D平面计算所需要的内存空间总量。答:顺序计算,需要最少数量的空间B-C-A.如下图:AC AB EC计算二维平面需要的总主内存空间是:总空间 =(100X 1,000) + (1,000,000 X 10) + (100 X 10,000) = 20,100,000 单元 * 4字节/单元=80,400,000 字节 6.3 Apriori算法使用子集支持性质的先验知识。(a)证明频繁项集的所有非空的子集也必须是频繁的。|D|答:设s是一个频繁项集,min_sup是最小支持度阀值,任务相关的数据D是数

45、据库事务的集合,是 D 有事务量,那么有 Support_count(s) = min_supX |D| ;再设s'是s的非空子集,那么任何包含项集 s的事务将同样包含项集s',即: support_ count(s')巨 support count(s)= min_sup x |D|.所以,s '也是一个频繁项集。(b)证明项集s的任意非空子集s '的支持至少和s的支持度一样大。答:设任务相关的数据D是数据库事务的集合,|D|是D的事务量,由定义得:打impporLcount'S)S-UpponiSJ rpT*设s'是s的非空子集,由定

46、义得:网卩呦们 =丿由(a)可知:support (s' ) - support(s)由此证明,项集S的任意非空子集s'的支持至少和S的支持度一样大。(C)给定频繁项集丨和丨的子集s证明规那么“一 Q -的置信度不可能大于 飞卩一 “设s'是S的非空子集,那么唤陋叱心卩-旳=円:;7卅由( b) 可知:support_count(s')> support count(s),此外,con fide nee (s' ) (l-s ')卜二 con fide nce(s) (l- s ) 所以,规那么的置信度不可能大于 飞n (f $广。6.6

47、设数据库有 5 个事务。设 min_sup =60%, min_conf=80%TfDT100M, O, N, K. E, ¥T2Q0LJ. O, N: K, E, Y JTMO(M, Af K, E)T40CM. U, G K YT50D(C, O. O, K. I Ea分别使用Apriori和FP增长算法找出所有频繁项集。比拟两种挖掘过程的效率。Apriurirn 3o3n2k5e寸y3d1a1u1c2411m3o3k5e4y3lilO1mk3ine2my9akToe3oy2kv4叶丁eyL2 =mk3ok3i H3ke4k>-3C'3=oks3key2I .工二i

48、temCGndittonal pattern baseconditicmal treefrequent patternyk.m: k:3g:3o (k-ejUiil), k,e:2k:3.e:3k,o:3. e,o:3. kje,o:3Hl 22、41 k:3km: 3 g 1k:4 k用75 V?, 100;75%, 100%7S%, 100%6.14下面的相依表汇总了超级市场的事务数据。其中, 含热狗的事务,hamburgers表示包含汉堡包的事务,hot dogs表示包含热狗的事务,hot dogs表示不包hamburgers表示不包含汉堡包的事务,效率比拟:Apriori需屡次扫描数据

49、库而FP增长建立FP树只需一次的扫描。在Apriori算法中产生候选是 昂贵的由于联接,而 FP增长不产生任何候选。b列举所有与下面的元规那么匹配的强关联规那么给出支持度S和置信度C,其中,X是代表顾客的变量,item i是表示项的变量如:“ A'、“ B等:Vr traitnarfiffii, hirt/S' X, it mi /Y, iff j加泸 Ufm讣s, r答:k,o e 0.6,1e,o * k 0.6,16.8 .数据库有4 个事务,设 min_sup =60%, min_conf=80%TfT)讪申(in tlu* fnrm of01nuoKis-Crab, S unset-Milk r Dairyland-CheesCi lAest-Bread02T200Best -Cheese Dainland-M i lk s Go Idem fanii- Apple, Taty-Fi 巳卜 Wonder- Bread01T300piilr, Dmryland-Mil

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论