数据仓库与数据挖掘实验指导

上传人：s*** IP属地：天津上传时间：2021-05-01 格式：DOCX 页数：18 大小：100.50KB 积分：25 举报 版权申诉

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、数据仓库与数据挖掘课程实验本实验是数据仓库与数据挖掘课程的验证性实验环节课程共计 8学时。实验目标：1、掌握建立和配置数据仓库的基本操作技能。主要包括数据仓库系统的安装。2、掌握数据仓库中数据的处理技术。主要包括数据仓库的建模、事务数据的转换、备份数据的恢复。3、掌握基于数据仓库的自动数据分析技术的基本操作技能。包括多维数据分析和数据挖掘。4、掌握一种专用数据挖掘软件,用以分析处理文本或电子表格的数据。实验环境：l Microsoft SQLServer2000l Microsoft SQLServer2000Analysis Servcel DBMiner2.0l

2、 Microsoft SQLServer2000PACK4l JAVA 运行时环境： JRE5.0l WEKA3.55实验项目：l 实验 1:安装数据仓库系统平台 1.5 学时l 实验 2:构建数据仓库数据环境 1.5学时l 实验 3:多维数据分析 1.5 学时l 实验 4:基于数据仓库的数据挖掘实验 2.0 学时l 实验 5:数据挖掘平台应用实验 1.5 学时实验 1:安装数据仓库系统平台l 实验任务:1. 掌握Microsoft Server2000数据仓库系统的安装与配置2. 安装实验分析环境:1 安装 Microsoft Server2000analysisServic

3、e2 安装 DBMiner2.03安装Java运行时环境JRE5.04 安装 WEKAl 实验准备:请从黑板或网上获取安装文件所在的网络地址。并记在下面 :网络资料的地址是 :本实验不得超过1 .5学时。l 实验指导:Lab1.1 检查并安装 Microsoft Server2000单元目标:确保完整正确的数据仓库实验环境工作步骤:1. 检查你所使用的电脑上是否有 MicrosoftServer200（。如果有,启动并检查 Microsoft Server2000是否安装了 Server Pack3以上的补丁文件。2. 如果以上都没问题,则本实验结束。3. 下载相应的系统文件

4、安装。先安装 Microsoft Server2000再安装Server Pack3 或 ServerPack4Lab1.2 检查并安装数据分析环境单元目标:确保安装了相应的数据分析软件工作步骤:1. 检查你所使用的电脑是否安装了 Microsoft Server2000analysisService,DBMi ner2.0,JRE5.0,WEKA3.5.5。如果都已安装且能正常运行,则本实验结束。否则进入以下步骤。2. 如果没有安装以上软件。请按以下次序从网络资料地址上下载软件完成安装。完成Labl.1和Lab1,2后,本实验结束。实验 2:构建数据仓库数据环境

5、l 实验任务:本实验主要验证 ETL 的数据处理过程。主要实验任务有:1. 构建数据仓库模型,并在数据仓库系统中生成相应的数据表。2. 将事务数据库中的数据转入数据仓库中。3. 还原备份和还原的数据仓库中的数据。l 实验准备:请从黑板或网上获取数据文件所在的网络地址。并记在下面 :数据文件的地址是 :本实验不得超过 1.5学时。本实验将使用 MicrosoftSQLServer的示例数据库:Northwind,这是一个商贸公司的销售数据库。我们将这个事务型的数据导入到分析型的数据仓库中去。l 实验指导:Lab2.1用caseStudio2.15建立数据仓库的星型模

6、型单元目标:建立 Northwind_DW 的数据仓库模型。如下图所示。并根据该模型生成相应的数据仓库的维表和事实表的结构。工作步骤:1. 按下图样式建立 Northwind_DW 的昨型数据模型 ,请根据原事务数据库中相应字段的数据类型和宽度,对应地设计相应字段的数据类型和宽度。2.安装并启动CaseStudio2.15设计以上模型。3. 运行生成脚本（Generatescript生成相应的SQL代码。Lab2.2将事务型数据加载到分析数据环境中单元目标：根据以上实验单元建立的数据模型,在MicrosoftSQL2000中建立相应的物理数据仓库。工作步骤：1. 请从教师课件中数

7、据仓库与数据挖掘”目录下的Lab2008中下载文档多维数据分析操作演练.pdf”2. 用Adobe reader打开该文档。3. 在数据仓库创建部分，可以使用Lab2.1中的模型进行创建和转化4. 按照上面所列步骤进行操作。最终完成事实表和维表的数据转移Lab2.3数据仓库中数据的备份与恢复单元目标:1. 将已生成的数据仓库的数据进行备份。2 .利用备份文件向新的数据库中还原数据仓库的数据。工作步骤:1、备份打开Sqlserver企业管理器,在需要备份的数据库上点鼠标右键,所有任务中选备份数据库。再从Sqlserver安装目录中的Data目录下，拷贝出要备份的数据库文件*mdf,*

8、ldf, 并备份这两个文件2、还原将要还原的数据库文件*.mdf,*ldf拷贝到Sqlserver安装目录下的Data目录下。打开Sqlserver企业管理器,新建一个数据库，在数据库这一项上点鼠标右键,在所有任务中选导入数据库，以拷贝到Data目录下的mdf恢复数据库。还原过程中,如果有什么异常 ,请参考“数据仓库与数据挖掘技术上机 ”目录下的数据仓库实习指导.pdf中的还原部分的内容。实验 3:多维数据分析l 实验任务:本实验主要验证OLAP多维分析的过程。主要包括完成OLAP数据库的创建，多维数据集的创建。存储和处理多维数据,浏览多维数据集等实验任务。l 实验准备:本实验使

9、用的操作参考为Lab2.2中下载的文档,多维数据分析操作演练.pdf 本实验不得超过 1.5学时。l 实验指导:Lab3.1多维数据分析实验单元目标:1. 掌握Microsoft analysisService的中对OALP数据库的操作步骤2. 在使用过程中熟悉和理解相应的概念。工作步骤:1. 在多维数据分析操作演练.pdf”中从P85开始进行相应的操作演练。2. 在实验过程中,如果对相应的操作还不是很理解 ,请在”数据仓库与数据挖掘技术上机”目录下有“Sqlserve数据分析.rar”文档，解压后,有详细的帮助和演练信息。实验 4:基于数据仓库的数据挖掘实验l 实验任务:1. 基于

10、 Microsoft SQLserver2000AnalysesService 的数据挖掘模型对数据仓库中的数据进行决策树分析和聚类分析;2. 使用 DBMiner2.0 对数据仓库中的数据进行聚类、关联分析;3. 使用 DBMiner2.0 对数据仓库的数据分析进行可视化l实验准备:本实验的实验指导参考资料在网上,请下载参考。本实验不得超过1.5学时。l实验指导：Lab4.1 基于 Microsoft SQLserver2000AnalysesService 的数据挖掘单元目标：掌握 Microsoft SQLserver2000AnalysesService的数据挖掘模型的使用步骤工

11、作步骤：.rar请在”数据仓库与数据挖掘技术上机”目录下有“Sqlserve数据分析 ”文档,解压后，按下图所指，完成数据挖掘”的演练。MkrosoftSQL Server 2000Analysis Servicesrrri!eaamss“也蜜他与.xt-TKjtrCiiuR.qi呛山 hi； wt 护 mKfni 百出甲 + 疋碗P - IffiECT* TO ft MWtff -F.t&31SH.E THlX 否*祖1T*K可鼻 M.h TO t： ,C-15 &KtWT( 1，雷曲il二讷时h省4耐备* 阪，K fK-Lab4.2基于DBMiner2.0的数据挖掘（选做单元目标:掌握

12、DBminer2.0 对数据仓库中的数据进行可视化分类、聚类、关联分析由于时间有限,指导教师将进行一些现场的演练指导。工作步骤:1. 在”数据仓库与数据挖掘技术”目录下下载相应的操作手册“ DBMinerManual.pd”文档，阅读第一、二章。2. 对多维数据集进行可视化分析。 (chapter43. 对多维数据集进行关联分析。 (chapter64. 对多维数据集进行分类挖掘。 (chapter75. 对多维数据集进行聚类分析。 (chapter8实验 5:数据挖掘平台应用实验l 实验任务:1.熟悉 WEKA 数据挖掘平台的基本功能。2. 能够对存于文本或电子表格中的数

13、据进行数据挖掘分析3. 本实验为选做,对毕业论文分析数据有利用价值。l 实验准备:1.下载Java运行时环境JRE152. 下载 WEKA 并安装运行3.在”数据仓库与数据挖掘技术”目录下下载“WEKA中文使用手册.pdf ”T,较详细的使用说明4. 所需要的数据存放在数据仓库与数据挖掘技术WEKA_DATA”下。I实验指导:Lab5.1用WEKA进行决策树分析单元目标:掌握 WEKA 进行决策树分析的步骤。工作步骤:WEKA把分类（Classification和回归（Regression都放在“Classify选项卡中，这是有原因的。在这两个任务中，都有一个目标属性（输出变

14、量。我们希望根据一个样本（WEKA 中称作实例的一组特征（输入变量,对目标进行预测。为了实现这一目的 ,我们需要有一个训练数据集,这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例,可以建立起预测的模型。有了这个模型,我们就可以新的输出未知的实例进行预测了。衡量模型的好坏就在于预测的准确程度。在 WEKA 中,待预测的目标（输出被称作Class属性，这应该是来自分类任务的类” 一般的若Class属性是分类型时我们的任务才叫分类,Class属性是数值型时我们的任务叫回归。选择算法我们使用C4.5决策树算法对bank-data建立起分类模型。我们来看原来的“ba

15、nk data.csv文件。“ID属性肯定是不需要的。由于 C4.5算法可以处理数值型的属性，我们不用像前面用关联规则那样把每个变量都离散化成分类型。尽管如此，我们还是把“Children属性转换成分类型的两个值“YES和“NO。另外,我们的训练集仅取原来数据集实例的一半;而从另外一半中抽出若干条作为待预测的实例,它们的“pePS性都设为缺失值。经过了这些处理的训练集数据在这里下载;待预测集数据在这里下载。我们用“ Explore打开训练集“ bank.arff观察，一下它是不是按照前面的要求处理好了。切换到“Classify选项卡，点击“Choos按钮后可以看到很多分类

16、或者回归的算法分门别类的列在一个树型框里。3.5版的 WEKA 中,树型框下方有一个 “Filter.按钮,。点击可以根据数据集的特性过滤掉不合适的算法。我们数据集的输入属性中有“ Bin ary型（即只有两个类的分类型和数值型的属性，而Class变量是“ Bin ary的;于是我们勾选“ Binary attributes 。“ Nuamtterirbicutes 和“。 Binaryclass 。点“0K后回到树形图，可以发现一些算法名称变红了，说明它们不能用。选择“tre es下的“ J48这就是我们需要的C4.5算法，还好它没有变红。点击“Chooser边的文本框,弹出新窗口为该

17、算法设置各种参数。点“More查看参数说明，点“ Cap abilities是查看算法适用范围。这里我们把参数保持默认。现在来看左中的 “ TestOption 。我们没有专门设置检验数据集,为了保证生成的模型的准确性而不至于出现过拟合（overfitting的现象，我们有必要采用10折交叉验证（10-fold crossvalidation来选择和评估模型。若不明白交叉验证的含义可以Google一下。建模结果OK, 选上“ Cros-svalidation并在“Folds框填上“ 10。点“Star按钮开始让算法生成决策树模型。很快, 用文本表示的一棵决策树，以及对这个决策树的误差分

18、析等等结果出现在右边的“Cl assifieroutput 中。同时左下的 “Resultslist 出现了一个项目显示刚才的时间和算法名称。如果换一个模型或者换个参数,重新“Star一次，则“Resultsst又会多出一项。我们看到“ J48算法交叉验证的结果之一为Correctly Classified Instances206 68.6667% 也就是说这个模型的准确度只有 69%左右。也许我们需要对原属性进行处理,或者修改算法的参数来提高准确度。但这里我们不管它,继续用这个模型。右键点击“ResultSst刚才出现的那一项,弹出菜单中选择“Visualizetree ”新,窗

19、口里可以看到图形模式的决策树。建议把这个新窗口最大化 ,然后点右键, 选“Fito screen 可以把这个树看清楚些。看完后截图或者关掉。这里我们解释一下“ConfusioriMatrix ”勺含义。= Confusion Matrix =ab R，我们常用支持度(Support)和置信度Confidenee)来衡量它的重要性。规则的支持度是用来估计在一个购物篮中同时观察到L和R的概率P(L,R,而规则的置信度是估计购物栏中出现了 L时也出会现R的条件概率P(R|L。关联规则的目标一般是产生支持度和置信度都较高的规则。有几个类似的度量代替置信度来衡量规则的关联程度，它们分别是

20、Lift (提升度？)P(L,R/(P(LP(R Lift=1时表示L和R独立。这个数越大，越表明L和：R存在在一个购物篮中不是偶然现象。Leverage(不知道怎么翻译)：P(L,R-P(LP(R 它和Lift的含义差不多。Leverage=0时L 和R独立，Leverage越大L和R 的关系越密切。 Conviction (更不知道译了) P(LP(!R/P(L,!R (!R ：表示 R 没有发生) Conviction也是用来衡量L和R的独立性。从它和lift的关系对R取反，代入Lift 公式后求倒数)可以看出，我们也希望这个值越大越好。值得注意的是，用 Lift 和 Lever

21、age作标准时，L和R是对称的，Con fide nee和Conv iction则不然。参数设置现在我们计划挖掘出支持度在 10%到 100%之间，并且 lift 值超过 1.5且 lift 值排在前 100位的那些关联规则。我们把 “lowerBoundMinSupport和 “upperBoundMinSuppor分别设为 0.1 和 1,“ metricTypeS 为 lift， “ min Metric 设为 1.5， “n umRuleS” 为 100。其他选项保持默认即可。“OK之后在“Explorer中点击“Star开始运行算法，在右边窗口显示数据集摘要和挖掘结果。下面

22、是挖掘出来的 lift 排前 5的规则。 Bestrulesfound: 1 . age=52_maxsave_act=YEScurrent_act=YES 1 1 3 = income=43759_max61 conf:(0.54 lev:(0.0 45 conv:(1.852.income=43759_max80 = age=52_maxsave_act=YEScurrent_act=YES61 conf:(0.76 lev:(0.0 45 conv:(3.253. income=43759_maxcurrent_act=YES63 = age=52_maxsave_act=YES61 c

23、onf:(0.97 lev:(0.0 45 conv:(15.724. age=52_maxsave_act=YES151 = income=43759_maxcurrent_act=YES61 conf:(0.4 lev:(0.0 45 conv:(1.495. age=52_maxsave_act=YES151 = income=43759_max76conf:(0.5 lev:(0.09 55 conv:(1.72 对于挖掘出的每条规则， WEKA 列出了它们关联程度的四项指标。命令行方式我们也可以利用命令行来完成挖掘任务，在“SimlpcCLI”模块中输入如下格式的命令：

24、java weka.associations.Apriorioptions -t directory-pathbank-data-final.arff 即可完成 Apriori 算法。注意， “-t ”参数后的文件路径中不能含有空格。在前面我们使用的 option 为 -N 100-T 1 -C 1.5-D 0.05-U 1.0-M 0.1 -S -1.0 命令行中使用这些参数得到的结果和前面利用 GUI 得到的一样。我们还可以加上 I ”“- 参数，得到不同项数的频繁项集。我用的命令如下： java weka.associations.Apriori-N 100 -T 1 -C

25、 1.5-D 0.05-U 1.0-M 0.1 -S-1.0 -I -t d:wekabank-data-final.arff挖掘结果在上方显示。Lab5.3用WEKA进行聚类分析单元目标：掌握 WEKA 进行聚类分析的步骤。工作步骤：聚类分析中的类” cluster)和前面分类的类” class)是不同的， cluster对更加准确的翻译应该是簇” 。聚类的任务是把所有的实例分配到若干的簇，使得同一个簇的实例聚集在一个簇中心的周围，它们之间距离的比较近；而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说，这个距离通常指欧氏距离。现在我们对前面的“ ban

26、 data”作聚类分析，使用最常见的K均值K- mean算法。下面我们简单描述一下K均值聚类的步骤。K 均值算法首先随机的指定 K 个簇中心。然后： 1将每个实例分配到距它最近的簇中心，得到 K 个簇；2计分别计算各簇中所有实例的均值，把它们作为各簇新的簇中心。重复1和2,直到K 个簇中心的位置都固定，簇的分配也固定。上述 K 均值算法只能处理数值型的属性，遇到分类型的属性时要把它变为若干个取值0和 1 的属性。 WEKA 将自动实施这个分类型到数值型的变换，而且WEKA会自动对数值型的数据作标准化。因此，对于原始数据“bandata.csv，我们所做的预处理只是删去属性“id；保存为 ARFF格式后，修改属性“ childrer为分类型。这样得到的数据文件为“ bank.arff，含 600条实例。用“ Explorer打开刚才得到的“ bank.arff并切换到，“ Cluster点”。“Choose按钮选择“SimpleKMeans；这是WEKA中实现K均值的算法。点击旁边的文本框，修改“numClusters为6,说明我们希望把这600条实例聚成6 类，即K=6。下面的“see参数是要设置一个随机种子，依此产

人人文库> 全部分类> 应用文书 > 合同范本

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据仓库与数据挖掘实验指导

文档简介

温馨提示

最新文档

评论

数据仓库与数据挖掘实验指导

文档简介

温馨提示

最新文档

评论

相关文档