数据挖掘-概念与技术习题解答_第1页
数据挖掘-概念与技术习题解答_第2页
数据挖掘-概念与技术习题解答_第3页
数据挖掘-概念与技术习题解答_第4页
数据挖掘-概念与技术习题解答_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DataMiningConceptsandTechniquesJiaweiHan MichelineKamber 范明孟晓峰译11.6定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚征包括作为一种高的年级平均成绩(GPA:Gradepointaversge的信息,区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般GPA的学生的一般特性可被用来与具有GPA的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA的学生的75%是四年级计算机科学专业的学生,GPA65%不是。征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X,“computingscience”)owns(X,“personalcomputer”) 其中,X98%(置信度,或确定度。或概念的模型(或功能,而后者是建立一个模型去预测缺失的或无效数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可1.9列举并描述说明数据挖掘任务的五种原语。挖掘的数据类型:这种原语指明了所要执行的特定数据挖掘功能,如特(也被称为超规则)模式兴趣度度量:这种原语允许用户指定功能,用于从知识中分割不感发现模式的可视化:这种原语述及发现的模式应该被显示出来。为了使1.13描述以下数据挖掘系统与数据库或数据仓库集成方法的差别:不耦紧密耦合:数据库或数据仓库系统被完全整合成数据挖掘系统的一部1.142章数据预处理2.12.2∵∴20~50我们有:L120,N3197,(fq)l950,fqdian1500,wdt30,使用公式(2.3:

3197/2950medianL

width20

30

∴median=32.972.22.4ageage值(以递增序)该数据的众数是什么?讨论数据的峰(即双峰、三峰等x1NN

8092729.9630(2.1。中位数应是第x14=25=Q2该数据的众数是什么?讨论数据的峰(即双峰、三峰等这个数集的众数有两个:2535,发生在同样最高的频率处,因此是双峰数据的中列数是最大术和最小是的均值。即:midrange=(70+13)/2=41.575%3×(N+1)/4=21处。所以:Q3=355数概括由最小值、第一个四分位数、中位数、第三个分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变两种分布分位数值展示。一条线(yx)可画到图中,以增加图像的信息。落在该线以上的点表示在y轴上显示的值的分布比x的分布高。反之,对落在该线以下的点则低。2.32.72.4age3步骤1(23箱1:13,15,16 箱2:16,19,20 箱4:22,25,25 箱5:25,25,30 箱 箱 箱34箱1:44/3,44/3,44/3箱 箱箱 箱 箱箱 箱8:121/3,121/3,121/3箱2.42.10min-maxz-scoremin-max值域是[new_min,new_max]z-score值域是[(old_min-meanσ,(old_max-mean)/σ],总的来说,对于所有可能2.52.122.4age使用min-maxage35变换到[0.0,1.0]z-score规范化变换age35,其中age12.94使用小数定标规范化变换age35使用min-maxage35变换到[0.0,1.0]∵minA=13,maxA=70,new_minA=0.0,new_maxA=1.0

new_

new_

35131.00.00.00.38607013z-score规范化变换age35,其中age12.94A1315216192202122243023343536404546528092

AA

161.2949,

sAs或s2 167.4986,s

v'vA3529.963

0.3966

或vs

vA

35

5.0370.3892使用小数定标规范化变换age35。70j=2。v'

10

2.62.141250,55,72,92,204,215等频(等深)等频(等深)每个区间的宽度是:(215-232.72.152.4age10为如下每种抽样技术勾画例子:SRSWOR,SRSWR,聚类抽样,分层510 为如下每种抽样技术勾画例子:SRSWOR,SRSWR,聚类抽样,分层56mmiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddle2.83章数据仓库与OLAPsudentstuden_nae,area_id,major,status,university),course(course_name,department),semester(semesteryearinstructor(dept,rank);2个度量:countavg_grade。在最低概念层,度量avg_grade存放学生的实际课程成绩。在较高概念层,avg_grade存放给定组合的平均成绩。[student,course,semester,instructor]BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。all,[studentcoursesemesterinstructorBigUniversityCSOLAP操作。这些特殊的联机分析处理(OLAP)沿课程(course)course_iddepartment沿学生(student)student_iduniversitydepartment=“CSuniversity=“BigUniversity”,沿课程(course)维和学生(student)沿学生(student)universitystudent_name5(allstudent<major<status<university<all,54=625

studentstudent

3.43.44章数据立方体计算与数据泛化4.12008-11-4.12考虑下面的多特征立方体查询:按{item,region,month}2004100美元、货架1.25~1.5倍之间的元组找出总销售额部分。SQLSQL item,region,month,Min(shelf),SUM(R1) cube item,region,month:suchthat R1.shelf≥1.25*MIN(Shelf)and(R1.Shelf≤1.5*MIN(Shelf)and这不是一个分布多特征立方体,因为在“suchthat”语句中采用了“≤”条2008-11-2008-11-5章挖掘频繁模式、关联和相关Apriori5.2.2节介绍了由频繁项集产生关联规则的方法。提出了一个更有效的方5.2.2节的方法更有效(5.1(b)5.1(c)数据库有5个事物。设min_sup=60%,min_conf=80。 {M,O,N,K,E, {D,O,N,K,E, {M,A,K, {M,U,C,K, {C,O,O,K,I,AprioriFP增长算法找出所有的频繁项集。比较两种挖列举所有与下面的的元规则匹配的强关联规则(给出支持度s和置A:AprioriFP增长算法找出所有的频繁项集。比较两种挖掘过Apriori55×min_sup=3 C LOKE

L1

C2

L2

C FP-growthAprioriL1。再按支持度计数的递减序排序,得到:L={(K:5),(E:4),(M:3),(O:3),(Y:3)}。扫描没个事LFP-树。5.3FP条件FP效率比较:AprioriFP-增长算Apriori算法中的自身连接过程产生候选项集,候选项集产生的计算代价非常高,而FP-增长算法不需产生任列举所有与下面的的元规则匹配的强关联规则(给出支持度s和置信度c,其中,如“A:xtransaction,buys(X,“E”)∧buys(X,“E”)buys(X,“K”)[s=0.6,K,O→E[s(support)=0.660%,c(confidence)=1100%]E,O→K[s(support)=0.660%,c(confidence)=1Java2008-12-2009-01-6章分类和预测count?department,agesalary的值分别为“systems26…3046K…50使用上面得到的多层前馈神经网络,给定训练实例(sales,senior31…3546K…50K如何修改基本决策树算法,以便考虑每个广义数据元组(即每一行)给定一个数据元组,它的属性department,agesalary的值分别为“systems26…3046K…50K解一:P(46K-∵∴P(X|junior)=P(systems|junior)P(26-30|junior)P(46K-P(46K-∵∴P(X|senior)=P(systems|senior)P(26-30|senior)P(46K-∵∵∴P(X|junior)P(junior)=0.01796×0.68=0.0122128>0=0=P(X|senior)P(senior);Xjunior类。所以已知:X=(department=system,age=26…30,salary=46K…50K),元组总数status=senior当status=junior时,元组总数为:40+40+20+3+4+6=113status=seniorage=26

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论