《数据仓库与数据挖掘》实验指导书_第1页
《数据仓库与数据挖掘》实验指导书_第2页
《数据仓库与数据挖掘》实验指导书_第3页
《数据仓库与数据挖掘》实验指导书_第4页
《数据仓库与数据挖掘》实验指导书_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《数据仓库与数据挖掘》实验指导

(适用于信息系统与信息管理专业)

目录

1/.1.«

刖S1

实验一、SPSSClementine软件功能演练5

实验二、SPSSClementine数据可视化9

实验三、决策树C5.0建模17

实验四、关联规那么挖掘30

实验五、欺诈屏蔽/异常检测/神经网络38

实验六、分类和回归树节点(C&RT)51

实验七、多项Logistic回归61

实验八、综合实验:电力负荷预测67

前S

一、课程简介

数据挖掘(DataMining),就是从大量数据中获取有效的、新颖的、

潜在有用的、最终可理解的模式的非平凡过程。数据挖掘的广义观点:

数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数

据中“挖掘〃有趣知识的过程。数据挖掘,又称为数据库中知识发现

(KnowledgeDiscoveryinDatabase,KDD),因此,数据挖掘和数据仓

库的协同工作,一方面,可以迎合和简化数据挖掘过程中的重要步骤,

提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完

整性。另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和

相对独立的方面和工具。

数据挖掘有机结合了来自多学科技术,其中包括:数据库、数理

统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、

信息检索、图像与信号处理、空间数据分析等,这里我们强调数据挖

掘所处理的是大规模数据,且其挖掘算法应是高效的和可扩展的。通

过数据挖掘,可从数据库中挖掘出有意义的知识、规律,或更高层次

的信息,并可以从多个角度对其进行浏览观察。所挖掘出的知识可以

帮助进行决策支持、过程控制、信息管理、查询处理等等。因此数据

挖掘被认为是数据库系统最重要的前沿研究领域之一,也是信息工业

中最富有前景的数据库应用领域之一。当前数据挖掘应用主要集中在

电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医

药等方面。而据Gartner的报告也指出,数据挖掘会成为未来10年内

重要的技术之一。

二、课程的任务和实验的教学目标

课程编号:5405190

课程属性:专业任选课

实验学时:12

适用专业:信息管理与信息系统

先修课程:管理信息系统、计算机根底、数据库技术、统计学

?数据仓库与数据挖掘?是一门理论和实践相结合的课程,它在整

个信息系统与信息管理专业中处于信息系统应用的前沿应用的地位,

是计算机科学的算法理论根底和数据库、数据仓库技术、统计技术的

结合,以及在管理实践中应用。其上机实验的目的主要是实现数据挖

掘的主要算法,训练学生实际动手进行数据挖掘设计和软件应用的能

力,加深对数据挖掘相关概念和算法的理解。

本课程具有技术性和实践性较强的特点,因此,配合根本原理的

讲授,应当安排相应的实习操作。通过实验和操作,使学生稳固和加

深数据仓库与数据挖掘理论知识,进一步加强学生独立分析问题和解

决问题的能力、综合设计及创新能力的培养,为今后工作打下良好的

根底。经过多层次、多方式的全面训练后,学生应到达以下要求:

1.进一步稳固和加深数据仓库与数据挖掘根本知识的理解,提

高综合运用所学知识,建立和管理数据的能力。

2.能根据需要选学参考书,查阅相关的工具,通过独立思考,

深入钻研有关问题,学会自己独立分析问题、解决问题,具有一定的

创新能力。

3.能正确处理大规模数据,选择数据挖掘工具的开发平台和相

关的软件解决实践问题。

4.能独立撰写实验报告,准确分析实验结果,总结有关的问题,

提出相关的建议。

三、实验教材及参考书

理论课教材及参考书:

年数据仓库与数据挖掘教程(丛书名:高等院校信息管理与信

息系统专业系列教材)陈文伟编著,清华大学出版社

e

轩JiaweiHan,MichelineKamber.DataMining:Conceptsand

Techniques.高等教育出版社(影印版),20015

①IanH.Witten,EibeFrank.DataMining:PracticalMachine

LearningToolsandTechniques(第二版).机械工业出版社(影

印版),2005.

,RichardJ.Roiger,MichaelW.Geatz.DataMining:A

Tutorial-BasedPrimer.清华大学出版社,2003.

实验教材:

b

四、实验根本内容及学时分配

按照?数据仓库与数据挖掘?实验教学大纲的要求,共设立实验8

个,总计20学时。试验根本内容与学时分配如下表:

每组实验者开出

序号实验名称实验学时实验属性

人数类别要求

1SPSSClementine软件功能演练21演练本科必开

实验二、SPSSClementine数据

221演练本科必开

可视化

3决策树C5.0建模21验证综合本科必开

4关联规那么挖掘21验证综合本科必开

5欺诈屏蔽/异常检测/神经网络21验证综合本科必开

6分类和回归树节点(C&RT)21验证综合本科必开

7多项Logistic回归21验证综合本科必开

实验八、综合实验:电力负荷预

861综合实验本科必开

五、实验方式与根本要求

1、本课程的实验为非单独设课,因此,应该课程的内容安排和

进度,配合技术原理的讲授,进行相应的操作和实验。

2、该课以综合性实验为主,教师给出实验题目,实验前学生必

须进行预习,

3、在规定的时间内,由学生独立完成,出现问题,教师要引导

学生独立分析、解决,不得包办代替。

4、实验中按要求做好学生实验情况及结果记录,实验后认真填

写实验记录。

5、实验指导书仅作为上机时的参考步骤,不能作为唯一的依据,

以教材和课堂讲授为准。

实验一、SPSSClementine软件功能演练

【实验目的】

1、熟悉SPSSClementine软件功能和操作特点。

2、了解SPSSClementine软件的各选项面板和操作方法。

3、熟练掌握SPSSClementine工作流程。

【实验内容】

1、翻开SPSSClementine软件,逐一操作各选项,熟悉软件功能。

2、翻开一有数据库、或新建数据文件,读入SPSSClementine,并使用各种

输出节点,熟悉数据输入输出。(要求:至少做access数据库文件、excel文件、

txt文件、可变文件的导入、导出)

【实验步骤】

1、启动Clementine:

请从Windows的"开始”菜单中选择:

所有程序

SPSSClementine

SPSSClementine

2、Clementine窗口

当第一次启动Clementine时,工作区将以默认视图翻开。中间的区域称作

流工作区。在Clementine中,这将是用来工作的主要区域。

Clementine中绝大局部的数据和建模工具都在选项板中,该区域位于流工

作区的下方。每个选项卡都包含一组以图形表示数据挖掘任务的节点,例如访问

和过滤数据,创立图形和构建模型。

要将节点添加到工组区,可在节点选项板中双击图标或将其拖拽至工作区后

释放。随后可将各个图标连接以创立一个表示数据流动的流。

PatientRecords

窗口的右上方是输出和对象管理器。这些选项卡用于查看和管理各种

Clementine对象。

“流”选项卡包含了当前会话中翻开的所有流。可以将这些流保存并关闭,

也可将其添加到工程中。

“输出”选项卡包含了由Clementine中的流操作产生的各类文件。可以显

示、重命名和关闭此处所列的表格、图形和报告。

;输出模型(S)

Table(13个字段,1,000条记录)

Drug的分布

NaJoJC的直方图

EPatientRecords(8个字段,20。条…

BNav.K的散点函

[Drug]的分析

“模型”选项卡是一个功能强大的工具,包含了在一次会话中产生的所有模

型(即,已在Clementine中构建完毕的模型)。通过它,可以对模型作更深入

的查看、将其添加至流中、导出或为其加注解。

窗口右侧底部的局部是工程工具,它用来创立和管理数据挖掘工程。查看在

Clementine中创立的工程有两种方式-类视图或CRISP-DM视图。

“CRISP-DM”选项卡提供了一种组织工程的方式。“类”选项卡提供了一种在

Clementine中按类别(即,按照所创立对象的类别)组织工作的方式。当要获

取数据、流、模型等对象的详尽目录时,这种视图十分有用。

CRISP-DM类

B&DrugDiscovery

白e流

西drug

西drugplot

西druglearn

西drugreport

卷节点

日&|已生成的画

、Drug

臼后表、图形和报告

匕Distributionofname

匕Webof[regionmaincropclaimtyp

匕PatientRecords(8个字段,200:

S&其他

-QDataconsiderations.doc

实验二、SPSSClementine数据可视化

【实验目的】

1、熟悉SPSSClementine绘图。

2、了解SPSSClementine图形选项面板各节点的使用方法。

3、熟练掌握SPSSClementine数据可视化流程。

【实验内容】

1、翻开SPSSClementine软件,逐一操作各图形选项面板,熟悉软件功能。

2、翻开一有数据库、或新建数据文件,读入SPSSClementine,并使用各种

输出节点,熟悉数据输入输出。(要求:至少做分布图、直方图、收集图、多重

散点图、时间散点图)

【实验步骤】

1、启动Clementine:

请从Windows的"开始”菜单中选择:

所有程序

PSSClementine

SPSSClementine

餐SPSSClementine11.1►In31Demos

In31Documentation

二LicenseAuthorizationWizard

♦SPSSClementineClient11.1

工SPSSLicenseUtility

2、建立一个流、导入相关数据,翻开图形选项面板

一后收藏夹(F)~•数据源(U)~•圮录选项(R)~•字段选项(D)画形(研)・建模(M)~・输出(0)|

散点图象彩图宜方图收复多塞散点同网络许饴时同散点图

3、绘制以下各类图形

U)以颜色为层次的图

Sex

•F

•M

(2)以大小为层次的图

BP

HIGH

LOW

NORMAL

(3)以颜色、大小、形状和透明度为层次的图

BP

▲HIGH

■LOW

•NORMAL

Sex

・F

•M

Age

•10-19.99

•20-29.99

■30-39.99

■40-40.99

•50•59.99

■60-69.99

■70-80

(4)以面板图为层次的图

BP

HIGHLOWNORMAL

0.000

0.5000.6000.7000.8000.9000.5000.6000.7000.8000.9000.5000.6000.7000.8000.900

Na

(5)三维收集图

(6)动画散点图

西Nav.K的散点图#81,-JOS"

13文件®编辑@。生成◎・回勾回

BP=NORMAL

图形外观注解

(7)分布图

(8)直方图

(9)收集图

皿NatoK起出Age由Cholesterol:平均值的集合fl占1回文

日文件⑹编辑@。生成◎居固国©IH匚邮晒

HIGH

N

10a

182F

K

4

o

60.00

46.00

%30.00

15.00

图形外观注解

U|Ha_to_K起出Age由Cholesterol:平均值的集合«1

国文件(D编辑(g)。生成⑨叵画画里㈣

X

「0

Ne

图茏外观注解

(10)多重散点图

Cholesterol

Age

Y字段心K

未标准化时的多重散点图

Cholesterol

Age

Y字段

标准化后的多重散点图

(11)网络图

SexCholesterolBP

实验三、决策树C5.0建模

【实验目的】

1、熟悉SPSSClementine建模方法。

2、掌握SPSSClementine分布图、散点图、网络图的创立方法。

3、掌握决策树。

【实验内容】

1、创立散点图。

2、创立分布图。

3、创立网络图。

【实验步骤】

假设你是一位正在汇总研究数据的医学研究员。己收集了一组患有同一疾病

的患者的数据。在治疗过程中,每位患者均对五种药物中的一种有明显反响。的

任务就是通过数据挖掘找出适合治疗此疾病的药物。

此例如使用名为druglearn.str的流,此流引用名为DRUGIn的数据文件。

可以从任何ClementineClient安装软件的Demos目录下找到这些文件,也可

以通过从Windows的“开始”菜单项选择择Start>[All]Programs>SPSS

Clementine11.1>Demos访问这些文件。文件druglearn.str位于

Classification_Module目录中。此demo中使用的数据字段包括:

年龄(数值)

性别M或F

BP血压:高、正常或低

胆固醇血液中的胆固醇含量:正常或高

Na血液中钠的浓度

K血液中钾的浓度

药品对患者有效的处方药

1、读取文本数据

使用变量文件节点读取定界文本数据。可以从选项板中添加变量文件节点,

方法是单击源选项卡找到此节点,或者使用收藏夹选项卡(默认情况下,其中包

含此节点)。然后,双击新添加的节点以翻开相应的对话框。

5T变文件

31

C收藏夹(F)|・数据源(U)・记录选项(R)•字段选项(D)▲图形(G)・建模(M)■输日

(g)(a)A㊂公△△

数据席可变文件破棒抽样汇总导出类型社博敢虑图分布图直方图神经网络

单击紧挨“文件”框右边以省略号“…”标记的按钮,浏览到系统中的

Clementine安装目录。翻开demos目录,然后选择名为DRUGIn的文件。选

择从文件读取字段名,并注意已载入此对话框中的字段和值。

单击数据选项卡,覆盖和更改某个字段的存储。注意,存储不同于类型或数

据字段的用途。类型选项卡可帮助了解数据中的更多字段类型。还可以选择读取

值来查看各个字段的实际值,具体取决于在值列中的选择。此过程称为实例化。

♦VdrEle回

团刷新

(B)C:\ProgramFileslSPSSClementine^1,1\DEMOS\DRUG1n

字段覆□盖存储类型输入格式

Age□Q整数

Sex□固字符串

断0因字符串

Cholesterol□IAI于脩甲

Na□?(未知)

K

□囚字符串

Drug

◊整数

④实数

。时间

■日期

购时间教

@查看当前字段查看未使用的字段设置

文件数据过滤类型注解

确定取消

(0)J(C)应用®|重量®

类型选项卡可帮助了解数据中的更多字段类型。还可以选择读取值来查看各

个字段的实际值,具体取决于在值列中的选择。此过程称为实例化。

♦DRUGln囚

我刷新同回

$CLEO_DEMOS/DRUG1n

VCrd“A读取值清除值清除所有值

字段类型值缺失检查方向

QAge夕连续[15,74]、输入

囚Sex。西标志M/F、输入

|A|BP品集合HIGH.LO...、输入

[A|Cholesterol标志NORMAU...,输入

Na[0.500169,...、输入

K夕连续[0.020022,...、输入

Drug出集合drugA.dru...、输入

G查看当前字段O查看未使用的字段设置

文件数据过滤类型注解

确定⑼取消(C)应用®重置回

2、添加表。

现在已载入数据文件,可以浏览一下某些记录的值。其中一个方法就是构建

一个包含表节点的流。要将表节点添加到流中,可双击选项板中的表节点图标或

将其拖放到工作区。

双击选项板中的某个节点后,该节点将自动与流工作区中的选定节点相连

接。此外,如果尚未连接节点,那么可以使用鼠标中键将源节点与表节点相连接。

要模拟鼠标中键操作,请在使用鼠标时按下Alt键。

►|霸|

DRUGIn表

要查看表,请单击工具栏上的绿色箭头按钮执行流,或者右键单击表节点,

然后选择执行。

♦druglearn*一Cleaentine11.1

文件⑹编辑©插入①视图。工具①超节点⑤窗口⑫)黏助过

国表(7个字段.200条记录)

目文件(D编辑(0。生成@x|@i

AgeSexBPICholesterolNaK|Drug|

17825MNORMALHIGH0.780.04drugY

17939MNORMALHIGH0.610.04drugY

18067FNORMALHIGH0.790.05drugY

18122FHIGHNORMAL0.820.04drugY

18259FNORMALHIGH0.880.06drugX

18320FLOWNORMAL0.810.07drugX

18436FHIGHNORMAL0.580.04drugY

18518FHIGHHIGH0.890.02drug丫

18657FNORMALNORMAL0.550.02drugY

i-1-i-i・r118770MHIGHHIGH0.590.06drugB

LB1J|18847MHIGHHIGH0.560.05drugA

v—/18965MHIGHNORMAL0.860.02drugY

DRUGIn表19064MHIGHNORMAL0.740.04drugY

19158MHIGHHIGH0.770.04drugY

19223MHIGHHIGH0.530.07drugA

19372MLOWHIGH0.550.03drugY

19472MLOWHIGH0.500.07drugC

19546FHIGHHIGH0.770.02drugY

19656FLOWHIGH0.850.07drugC

19716MLOWHIGH0740.06drugC一

19852MNORMALHIGH0.550.06drugX

19923MNORMALNORMAL0.780.06drugX

20040FLOWNORMAL0.68▼

3、创立分布图

数据挖掘过程中,创立汇总视图通常有助于研究数据。Clementine提供了

假设干不同类型的图表供您选择,具体取决于要汇总分析的数据类型。例如,要

找出每种药物的对症患者的比例,请使用分布节点。

IQ-

6080

将分布节点添加到流,并将其与源节点相连接,然后双击该节点以编辑要显

示的选项。选择药品作为要显示其分布的目标字段。然后,在对话框中单击执行

最终图表将有助于查看数据的“结构〃。结果说明,药品Y的对症患者最

多,而药品B和药品C的对症患者最少。

此外,还可以添加并执行数据审核节点,同时快速浏览所有字段的分布图和

直方图。

可以在“输出”选项卡中找到数据审核节点。

4、创立散点图

现在我们来看一下有哪些因素会对药品(目标变量)产生影响。作为研究员,

您一定知道钠和钾的浓度在血液中有着重要的影响。由于两者都是数值,您可以

用颜色区分药品,创立一个关于钠和钾的散点图。

Drug

将散点图节点放在工作区中,并将其与源节点相连接,然后双击该节点对其

进行编辑

Drug

在“散点图”选项卡中,选择Na作为X字段,选择K作为Y字段,

并选择药品作为交叠字段。然后单击执行。

此散点图清楚地显示一个阈值,在此阈值上方,对症药品始终是Y,在此

阈值下方,对症药品均不是Yo此阈值是一个比率,即钠(Na)和钾(K)的

比率。

0.086ooOoDrug

OOdrugA

,。岸°o•drugB

0.076。°yo

・°。oo•drugC

©6o

嘴oo(9oOdrugX

0oo

0.06o•drugY

oo

ooo

o

*0,05oPoo

0o*

oO°o'

―oX

0.04

o

0.03

0.02

IIIII

0.50.60.70.80.9

Na

5、创立网络图

因为很多数据字段均可分类,也可尝试绘制网络图,此图表将反映不同类别

之间的联系。首先,将网络节点与您工作区中的源节点相连接。

在“网络节点”对话框中,选择BP(血压)和药品。然后单击执行。

此图显示,药品Y与三种级别的血压均相关。Y是最正确药品。

实验四、关联规那么挖掘

【实验目的】

1、熟悉C5Q规那么归纳

2、掌握购物篮分析的方法。

【实验内容】

1、字段和记录的筛选。

2、规那么归纳(C5.0)分类。

3、购物篮分析。

【实验步骤】

本例如处理描述超级市场购物篮内容(即,所购置的全部商品的集合)的虚

构数据,以及购置者的相关个人数据(可通过忠诚卡方案获得)。目的是寻找购

置相似产品并且可按人口统计学方式(如按年龄、收入等)刻画其特征的客户群。

本例如说明了数据挖掘的两个阶段:

・关联规那么建模和一个揭示所购置商品之间联系的Web显示

•C5.0规那么归纳(描绘已标识产品组的购置者的特征)

注意:此应用不直接使用预测建模,因此,不对最终模型进行准确性度量,

在数据挖掘过程中也不存在与之相关的训练/检验两个步骤的区分。

本例使用名为baskrule的流,该流引用名为BASKETSIn的数据文件。任

何ClementineClient安装的Demos目录中都具有这些文件,通过从Windows

的"开始”菜单中选择Start>[All]Programs>SPSSClementine11.1>Demos可

访问这些文件。文件baskrule位于Classification_Module目录下。

1、访问数据

使用“变量文件”节点连接到数据集BASKETSln,选择要从该文件读取的

字段名称。将“类型”节点连接到数据源,然后将该节点连接到“表”节点。将

字段卡ID的类型设置为无类型(因为每个忠诚卡ID在数据集中只出现一次,

因此对于建模没有用处)。选择集作为字段性别的类型(这是为了确保GRI建

模算法不会将性别视为标志)。

beer_beans_pizza

现在,执行该流以将“类型”节点实例化并显示表。数据集包含18个字段,

其中每条记录表示一个购物篮。

以下标题中会显示18个字段。

购物篮摘要:

•cardid.购置此篮商品的客户的忠诚卡标识符。

•value.购物篮的总购置价格。

•pmethod.购物篮的支付方法。

卡持有者的个人详细信息:

•sex

•homeown.卡持有者是否拥有住房。

•收入

•age

购物篮内容一产品类别的出现标志:

•fruitveg

・freshmeat

•daily

•cannedveg

•cannedmeat

•frozenmeal

•beer

•wine

•softdrink

•fish

•confectionery

3、发现购物篮内容的关系

首先,需要使用一般规那么归纳(GRI)大致了解购物篮内容的关系(关联)

以生成关联规那么。选择要在此建模过程中使用的字段,方法是:编辑“类型”

节点,将所有产品类别的方向设置为双向,并将所有其他方向设置为无。(双向

表示该字段可以是结果模型的输入或输出。)

注意:通过按住Shift键并单击以选择多个字段,然后指定列中的选项,可

为多个字段设置选项。

A读取值清除值清除所有值

一0

cardid一

连0

value[10,007.4...0

%集

pmethodCARD.CA...0

W无

sexF,M0

homeownYES/NO0

O®无

Q夕0

income[10200,30...无

O夕或

age双

dairy、输入

cannedveg◎输出

囚cannedmeat

⑥)双向

|A]frozenmeal

0无

Q查看当前字段C查看未使用的字段设置

国分区

类型格式注解

确定(。)取消(C)应用®重置®

指定了用于建模的字段后,请将GRI节点附加到“类型”节点,编辑它,

选择选项只显示值为真的标志变量,然后执行GRI节点。结果(管理器窗口右

上角“模型”选项卡上的非精练模型)包含您可以查看(使用上下文菜单,然后

选择浏览)的关联规那么。

R11字段

后项前项支持度%置信度

frozenmealcannedveg▲

16.787.43

beer

cannedvegfrozenmeal

17.085.88

beer

beercannedveg

17.384.39

frozenmeal

frozenmealbeer29.30058.020

beerfrozenmeal30.20056.290

cannedvegfrozenmeal30.20057.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论