数据仓库与数据挖掘实验指导_第1页
数据仓库与数据挖掘实验指导_第2页
数据仓库与数据挖掘实验指导_第3页
数据仓库与数据挖掘实验指导_第4页
数据仓库与数据挖掘实验指导_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库与数据挖掘课程实验本实验是数据仓库与数据挖掘课 程的验证 性实验环节课程共计 8学时。实验目标:1、掌握建立和配置数据仓库的基本操作技能。主要包括数据仓库 系统的安装。2、掌握数据仓库 中数据的 处理技术。主要包括数据仓库的建模、事务 数据的转 换、备份数据的恢复。3、掌握基于数据仓库 的自动数据分析技 术的基本操作技能。包括多维 数据分析 和数据挖掘。4、掌握一种专 用数据挖掘 软件,用以分析处理文本或 电子表格的数据。实验环境:l Microsoft SQLServer2000l Microsoft SQLServer2000Analysis Servcel DBMiner2.0l

2、 Microsoft SQLServer2000PACK4l JAVA 运行时环境: JRE5.0l WEKA3.55实验项 目 :l 实验 1:安装数据 仓库系统平台 1.5 学时l 实验 2:构建数据仓库数据环境 1.5学时l 实验 3:多维数据分析 1.5 学时l 实验 4:基于数据 仓库的数据挖掘 实验 2.0 学时l 实验 5:数据挖掘平台 应用实验 1.5 学时实验 1:安装数据 仓库系统平台l 实验 任务:1. 掌握Microsoft Server2000数据仓库系统的安装与配置2. 安装实验分析环境:1 安装 Microsoft Server2000analysisServic

3、e2 安装 DBMiner2.03安装Java运行时环境JRE5.04 安装 WEKAl 实验 准备:请从黑板或网上 获取安装文件所在的网 络地址。并记 在下面 :网络资料的地址是 :本实验不得超过1 .5学时。l 实验 指导:Lab1.1 检查并安装 Microsoft Server2000单元目标:确保完整正确的数据 仓库实验环 境工作步骤:1. 检查你所使用的 电脑上是否有 MicrosoftServer200(。如果有,启动并检查 Microsoft Server2000是否安装了 Server Pack3以上的补丁文件。2. 如果以上都没 问题,则本实验结束。3. 下载相应的系统文件

4、安装。先安装 Microsoft Server2000再安装Server Pack3 或 ServerPack4Lab1.2 检查 并安装数据分析 环境单元目标:确保安装了相 应的数据分析 软件工作步骤:1. 检查 你所使用的 电脑是否安装了 Microsoft Server2000analysisService,DBMi ner2.0,JRE5.0,WEKA3.5.5。如果都已安装且能正常 运行,则本实验结束。否则进 入以下步 骤。2. 如果没有安装以上 软件。请 按以下次序从网 络资料地址上下 载软件完成 安装。完成Labl.1和Lab1,2后,本实验结束。实验 2:构建数据 仓库数据环境

5、l 实验 任务:本实验主要验证 ETL 的数据 处理过程。主要实验 任务有:1. 构建数据仓库模型,并在数据 仓库系统中生成相应的数据表。2. 将事务数据库中的数据 转入数据 仓库中。3. 还原备份和还原的数据 仓库中的数据。l 实验 准备:请从黑板或网上 获取数据文件所在的网 络地址。并记 在下面 :数据文件的地址是 :本实验不得超过 1.5学时。本实验 将使用 MicrosoftSQLServer的示例数据库:Northwind,这是一个商贸公司的销售数据库。我们将这个事 务型的数据导入到分析型的数据 仓库中去。l 实验 指导:Lab2.1用caseStudio2.15建立数据仓库的星型模

6、型单元目标:建立 Northwind_DW 的数据仓库模型。如下图所示。并根据该 模型生成相 应的数 据仓库的维表和事实表的结构。工作步骤:1. 按下图样式建立 Northwind_DW 的昨型数据模型 ,请根据原事务数据库中相应字段的数据 类型和宽度,对应地设计相应字段的数据 类型和宽度。2.安装并启动CaseStudio2.15设计以上模型。3. 运行生成脚本(Generatescript生成相应的SQL代码。Lab2.2将事务型数据加载到分析数据环境中单元目标:根据以上实验单元建立的数据模型,在MicrosoftSQL2000中建立相应的物理数 据仓库。工作步骤:1. 请从教师课件中 数

7、据仓库与数据挖掘”目录下的Lab2008中下载文档多维数据分析操作演练.pdf”2. 用Adobe reader打开该文档。3. 在数据仓库创建部分,可以使用Lab2.1中的模型进行创建和转化4. 按照上面所列步 骤进行操作。最终 完成事实表和维表的数据 转移Lab2.3数据仓库中数据的备份与恢复单元目标:1. 将已生成的数据 仓库的数据进行备份。2 .利用备份文件向新的数据 库中还原数据仓库的数据。工作步骤:1、备份打开Sqlserver企业管理器,在需要备份的数据库上点鼠标右键,所有任务中选备 份数据库。再从Sqlserver安装目录中的Data目录下,拷贝出要备份的数据库文件*mdf,*

8、ldf, 并备份这两个文件2、还原将要还原的数据库文件*.mdf,*ldf拷贝到Sqlserver安装目录下的Data目录下。打 开Sqlserver企业管理器,新建一个数据库,在数据库这一项上点鼠标右键,在所有任务 中选导入数据库,以拷贝到Data目录下的mdf恢复数据库。还原过程中,如果有什么异常 ,请参考“数据仓库与数据挖掘技 术上机 ”目录下的 数据仓库实习指导.pdf中的还原部分的内容。实验 3:多维数据分析l 实验任务:本实验主要验证OLAP多维分析的过程。主要包括完成OLAP数据库的创建,多 维数据集的 创建。存储和处理多维数据,浏览多维数据集等实验任务。l 实验 准备:本实验使

9、用的操作参考为Lab2.2中下载的文档,多维数据分析操作演练.pdf 本实验不得超过 1.5学时。l 实验指导:Lab3.1多维数据分析实验单元目标:1. 掌握Microsoft analysisService的中对OALP数据库的操作步骤2. 在使用过程中熟悉和理解相 应的概念。工作步骤:1. 在多维数据分析操作演练.pdf”中从P85开始进行相应的操作演练。2. 在实验过程中,如果对相应的操作还不是很理解 ,请在”数据仓库 与数据挖掘技术上机”目录下有“Sqlserve数据分析.rar”文档,解 压后,有详细的帮助和演 练信息。实验 4:基于数据仓库的数据挖掘 实验l 实验任务:1. 基于

10、 Microsoft SQLserver2000AnalysesService 的数据挖掘模型对数据仓库中的数据 进行决策树分析和聚类分析;2. 使用 DBMiner2.0 对数据仓库中的数据进行聚类、关联 分析;3. 使用 DBMiner2.0 对数据仓库的数据分析 进行可视化l实验准备:本实验的实验指导参考资料在网上,请下载参考。本实验不得超过1.5学时。l实验指导:Lab4.1 基于 Microsoft SQLserver2000AnalysesService 的数据挖掘单元目标:掌握 Microsoft SQLserver2000AnalysesService的数据挖掘模型的使用步骤工

11、作步骤:.rar请在”数据仓库与数据挖掘技术上机”目录下有“Sqlserve数据分析 ”文档,解压后,按下图所指,完成 数据挖掘”的演练。MkrosoftSQL Server 2000Analysis Servicesrrri!eaamss“也蜜他与.xt-TKjtrCiiuR.qi呛山 hi; wt 护 mKfni 百出甲 + 疋碗P - IffiECT* TO ft MWtff -F.t&31SH.E THlX 否*祖1T*K可鼻 M.h TO t: ,C-15 &KtWT( 1,雷曲il二讷时h省4耐备* 阪,K fK-Lab4.2基于DBMiner2.0的数据挖掘(选做单元目标:掌握

12、DBminer2.0 对数据仓库中的数据 进行可视化分类、聚类、关联 分析由于时间有限,指导教师将进行一些现场的演练指导。工作步骤:1. 在”数据 仓库与数据挖掘技 术”目录下下载相应的操作手册“ DBMinerManual.pd”文档,阅读第一、二章。2. 对多维数据集进行可视化分析。 (chapter43. 对多维数据集 进行关联分析。 (chapter64. 对多维数据集 进行分类挖掘。 (chapter75. 对多维数据集 进行聚类分析。 (chapter8实验 5:数据挖掘平台 应用实验l 实验 任务:1.熟悉 WEKA 数据挖掘平台的基本功能。2. 能够对存于文本或 电子表格中的数

13、据 进行数据挖掘分析3. 本实验为选做,对毕业论 文分析数据有利用价 值。l 实验 准备:1.下载Java运行时环境JRE152. 下载 WEKA 并安装运行3.在”数据仓库与数据挖掘技术”目录下下载“WEKA中文使用手册.pdf ”T,较详细的使用 说明4. 所需要的数据存放在 数据仓库与数据挖掘技术WEKA_DATA”下。I实验指导:Lab5.1用WEKA进行决策树分析单元目 标:掌握 WEKA 进行决策树分析的步 骤。工作步骤:WEKA把分类(Classification和回归(Regression都放在“Classify选项卡中,这是 有原因的。在这两个任务中,都有一个目标属性(输出变

14、量。我们希望根据一个样本(WEKA 中称作实例的一组特征(输入变量,对目标进行预测。为了实现这一目的 ,我们需要有 一个训练数据集,这个数据集中每个 实例的输入和输出都是已知的。观 察训练集中的 实例,可以建立起 预测的模型。有了这 个模型,我们就可以新的 输出未知的 实例进行 预测了。衡量模型的好坏就在于 预测的准确程度。在 WEKA 中,待预测的目标(输出被称 作Class属性,这应该是来自分类任务的类” 一般的若Class属性是分类型时我们的 任务才叫分类,Class属性是数值型时我们的任务叫回归。选择算法我们使用C4.5决策树算法对bank-data建立起分类模型。我们来看原来的“ba

15、nk data.csv文件。“ID属性肯定是不需要的。由于 C4.5算法可以处理数值型的属性,我 们不用像前面用关 联规则那样把每个变量都离散化成分 类型。尽管如此,我们还是把“Children属性转换成分类型的两个值“YES和“NO。另 外,我们的训练集仅取原来数据集 实例的一半;而从另外一半中抽出若干条作 为待预 测的实例,它们的“pePS性都设为缺失值。经过了这些处理的训练集数据在这里下 载;待预测集数据在这里下载。我们用“ Explore打开训练集“ bank.arff观察,一下它是不是按照前面的要求 处 理好了。切换到“Classify选项卡,点击“Choos按钮后可以看到很多分 类

16、或者回归的 算法分门别类的列在一个树型框里。3.5版的 WEKA 中,树型框下方有一个 “Filter.按钮,。点击可以根据数据集的特性过滤掉不合适的算法。我们 数据集的输入属性中有“ Bin ary型(即只有两个 类的分类型和数值型的属性,而Class变量是“ Bin ary的;于是我们勾选“ Binary attributes 。“ Nuamtterirbicutes 和“。 Binaryclass 。点“0K后回到树形图,可以发现一些算法名称变红了,说明它们不能用。选择“tre es下的“ J48这就是我们需要的C4.5算法,还好它没有变红。点击“Chooser边的文本框,弹出新窗口为该

17、算法设置各种参数。点“More查看 参数说明,点“ Cap abilities是查看算法适用范围。这里我们把参数保持默认。现在来 看左中的 “ TestOption 。我们没有专门设置检验数据集,为了保证生成的模型的准确性而不至于出现过拟合(overfitting的现象,我们有必要采用10折交叉验证(10-fold crossvalidation来选择和评估模型。若不明白交叉验证 的含义可以Google一下。建模结果OK, 选上“ Cros-svalidation并在“Folds框填上“ 10。点“Star按钮开始让算法生成决策树模型。很快, 用文本表示的一棵决策 树,以及对这个决策树的误差分

18、析等等结果出现在右边的“Cl assifieroutput 中。同时左下的 “Resultslist 出现了一个项目显示刚才的时间和算法名称。如果换 一个模型或者换个参数,重 新“Star一次,则“Resultsst又会多出一项。我们看到“ J48算法交叉验证的结果之一为Correctly Classified Instances206 68.6667% 也就是说这个模型的准确度只有 69%左右。也许我们需要对原属性 进行处理,或者修改算法的参数来提高准确度。但这 里我 们不管它,继续用这个模型。右键点击“ResultSst刚才出现的那一项,弹出菜单中选择“Visualizetree ”新,窗

19、口里可以看到 图形模式的决策树。建议把这个新窗口最大化 ,然后点右键, 选“Fito screen 可以把这个树看清楚些。看完后截图或者关掉。这里我们解释一下“ConfusioriMatrix ”勺含义。= Confusion Matrix =ab R,我 们常用支持度(Support)和置信度Confidenee)来衡量它的重要性。规则 的支持度是用来估计在一个购物篮中同时观察到L和R的概率P(L,R,而规则的置信 度是估计购物栏中出现了 L时也出会现R的条件概率P(R|L。关联规则的目标一般是产生支持度和置信度都 较高的规则。 有几个类似的度量代替置信度来衡量 规则的关联程度,它们分别是

20、Lift (提升度?)P(L,R/(P(LP(R Lift=1时表示L和R独立。这个数越大,越表明L和:R存在在一 个购物篮中不是偶然现象。Leverage(不知道怎么翻译):P(L,R-P(LP(R 它和Lift的含义差不多。Leverage=0时L 和R独立,Leverage越大L和R 的关系越密切。 Conviction (更不知道译了) P(LP(!R/P(L,!R (!R :表示 R 没有发生) Conviction也是用来衡量L和R的独立性。从它和lift的关系 对R取反,代入Lift 公式后求倒数)可以看出,我们也希望 这个值越大越好。 值得注意的是,用 Lift 和 Lever

21、age作标准时,L和R是对称的,Con fide nee和Conv iction则不然。参数设置 现在我们计划挖掘出支持度在 10%到 100%之间,并且 lift 值超过 1.5且 lift 值排在前 100位的那些关 联规则。我们把 “lowerBoundMinSupport和 “upperBoundMinSuppor分别设为 0.1 和 1,“ metricTypeS 为 lift, “ min Metric 设为 1.5, “n umRuleS” 为 100。其他选项保持默认即可。“OK之后在“Explorer中点击“Star开始运行算 法,在右边窗口显示数据集摘要和挖掘 结果。 下面

22、是挖掘出来的 lift 排前 5的规则。 Bestrulesfound: 1 . age=52_maxsave_act=YEScurrent_act=YES 1 1 3 = income=43759_max61 conf:(0.54 lev:(0.0 45 conv:(1.852.income=43759_max80 = age=52_maxsave_act=YEScurrent_act=YES61 conf:(0.76 lev:(0.0 45 conv:(3.253. income=43759_maxcurrent_act=YES63 = age=52_maxsave_act=YES61 c

23、onf:(0.97 lev:(0.0 45 conv:(15.724. age=52_maxsave_act=YES151 = income=43759_maxcurrent_act=YES61 conf:(0.4 lev:(0.0 45 conv:(1.495. age=52_maxsave_act=YES151 = income=43759_max76conf:(0.5 lev:(0.09 55 conv:(1.72 对于挖掘出的每条 规则, WEKA 列出了它 们关联程度的四 项指标。 命令行方式 我们也可以利用命令行来完成挖掘任 务,在“SimlpcCLI”模块中输入如下格式 的命令:

24、java weka.associations.Apriorioptions -t directory-pathbank-data-final.arff 即可完成 Apriori 算法。 注意, “-t ”参数后的文件路径中不能含有空格。 在前面我们使用的 option 为 -N 100-T 1 -C 1.5-D 0.05-U 1.0-M 0.1 -S -1.0 命令行中使用 这些参数得到的 结果和前面利用 GUI 得到的一 样。 我们还可以加上 I ”“- 参数,得到不同项数的频繁项集。 我用的命令如下: java weka.associations.Apriori-N 100 -T 1 -C

25、 1.5-D 0.05-U 1.0-M 0.1 -S-1.0 -I -t d:wekabank-data-final.arff挖掘结果在上方显示。Lab5.3用WEKA进行聚类分析 单元目标:掌握 WEKA 进行聚类分析的步 骤。工作步骤:聚类分析中的 类” cluster)和前面分类的 类” class)是不同的, cluster对更加准确的翻译应该是 簇” 。聚类的任务是把所有的 实例分配到若干的簇,使得 同一个簇的 实例聚集在一个簇中心的周 围 ,它们之间距离的比 较近;而不同簇实 例之间的距离比较远。对于由数值型属性刻画的 实例来说,这个距离通常指欧氏 距离。现在我们对前面的“ ban

26、 data”作聚类分析,使用最常见的K均值K- mean算法。下面我们简单描述一下K均值聚类的步骤。K 均值算法首先随机的指定 K 个簇中心。然后: 1将每个实例分配到距它最近的簇中心,得到 K 个簇;2计分 别计算各簇中所有实例的均值,把它们作为各簇新的簇中心。重复1和2,直到K 个簇中心的位置都固定,簇的分配也固定。 上述 K 均值算法只能 处理数值型的 属性,遇到分类型的属性时要把它变为若干个取值0和 1 的属性。 WEKA 将自动 实施这个分类型到数值型的变换,而且WEKA会自动对数值型的数据作标准化。 因此,对于原始数据“bandata.csv,我们所做的预处理只是删去属性“id;保存为 ARFF格式后,修改属性“ childrer为分类型。这样得到的数据文件为“ bank.arff,含 600条实例。用“ Explorer打开刚才得到的“ bank.arff并切换到,“ Cluster点”。“Choose按钮选择“SimpleKMeans;这是WEKA中实现K均值的算法。点击旁边的文本框,修改“numClusters为6,说明我们希望把这600条实例聚成6 类,即K=6。下面的“see参数是要设置一个随机种子,依此产

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论