版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库与数据挖掘设计指导书数据仓库与数据挖掘设计指导书自编东华理工大学数据仓库与数据挖掘课程组目 录实验一:数据仓库的环境配置与构建实验实验二:数据仓库的OLAP技术实验实验三:数据挖掘方法实践实验实验一、数据仓库的环境配置与构建实验实验目的:1)了解数据挖掘与商务智能之间的联系与区别;2)分析数据挖掘仓库的特性和构架;3)掌握数据挖掘的功能和建模的标准CRISP-DM。4)掌握MSS的分析服务、报表服务和整合服务,并能够用以解决实际问题。实验结果分析与要求:完成实验目的中的内容,记录操作中的各个步骤,并进行分析。实验内容:1、将Excel数据表导入SQL数据库中的数据表 材料:SQL范例资
2、料.xls中的三国表。 软件:SQL Server 2008 R2基本步骤:1) 首先按照三国表中的属性在数据口中建立对应的表。2) 打开VS选择项目中的“Integration Services”项目,并制定项目的保存位置,最后单击“确定”按钮即可新建一个SSIS项目。3) 在“控制流”选项卡中,从工具箱拖拽“数据挖掘查询任务”的图示到工作区中。4) 切换“数据流”选项卡,先制定数据的源,因为要导入的是Excel数据,所以从工具箱拖拽Excel源的图示到工作区中,然后再Excel源上右击,选择菜单上的“编辑”。5) 在Excel源编辑器中,单击“新建”按钮来制定Excel数据的源,在Exce
3、l连接管理器中,单击“浏览”按钮来选择Excel文件,完成后单击“确定”按钮。6) 在“Excel工作表的名称”下拉列表中选择要导入的数据表,然后单击“确定”按钮,完成数据源的设置。7) 建立数据转换,从工具箱中拖拽“数据转换”到工作区中。8) 在Excel源上右击,选择“添加路径”。9) 指定“Excel源”到“数据转换”,最后单击“确定”按钮。10) 输出指定“Excel源输出”,输入指定“数据转换输入”,单击“确定”按钮。11) 设置数据流的目标,要导入到SQL的数据库中,从工具箱中拖拽“SQL Server目标”到工作区。12) 然后在“数据转换”上右击,选择添加路径来建立与数据流目标
4、的连接。13) 在“数据流”对话框中,指定从“数据转换”到“SQL Server目标”,单击“确定”按钮。在“选择输入输出”对话框中,输出指定“数据转换输出”,输入指定“SQL Server目标输入”,单击“确定”按钮。14) 最后设置数据导入的位置,在“SQL Server目标”上右击,选择“编辑”。15) 在“SQL 目标编辑器”窗口中,单击“新建”按钮,然后在“配置 OLE DB连接管理器”窗口转中,同样单击“新建”按钮。16) 在“连接管理器”窗口中,“服务器名”选择SQL数据库的位置,在“登录到服务器”中选择“使用windows身份验证”,在“选择或输入一个数据库名”指定数据要导入的
5、数据库,单击“确定”按钮返回上一个窗口,再单击“确定”按钮。17) 最后要指定数据要导入哪一个数据表,选择完成后单击“确定”按钮。18) 接下来选择“映射”,接着单击“确定”按钮即可。19) 现在已经完成配置,单击“启动调用”按钮,测试是否错误,执行完毕为绿色,执行中为黄色,错误为红色。20) 可以到导入的SQL数据库的数据表位置查看数据是否都已经导入了。选择SQL Server Management Studio打开后找到之前导出的数据表来查看。21) 选择“选择前1000行”后则可以看到结果。2、对数据进行抽样材料:SQL范例资料.xls中的三国表。 软件:SQL Server 2008
6、R2 基本步骤:在“数据转换”中选择“百分比抽样”,抽样的百分比为20%。其他同“将Excel数据表导入SQL数据库中的数据表”的操作步骤。实验二、交换机数据仓库的OLAP技术实验实验目的:1)掌握决策树模型的基本概念和计算方法,并用其预测三国表中“身份属性”与其他属性的关系;2)掌握贝叶斯分类器的基本概念,并用其预测三国表中“身份属性”与其他属性的关系;3)掌握关联规则的基本概念和种类,并用其预测“肾细胞癌转移情况”。4)对比以上三种模型,分析其联系与区别。实验结果分析与要求:完成实验目的中的内容,记录操作中的各个步骤,并进行分析。实验内容:1、 使用决策树模型预测三国表中“身份属性”与其他
7、属性间的关系;材料:SQL范例资料.xls中的三国表。软件:SQL Server 2008 R2 基本步骤:1) 首先将三国表导入到SQL数据库中。2) 新建Analysis Service 项目,进入项目中的新建挖掘结构,使用数据挖掘向导来建立,进入数据挖掘向导首页后单击“下一步”按钮。3) 从现有关系数据库或数据仓库读取数据,即为默认值,故直接在这个页面单击“下一步”按钮。4) 到数据挖掘技术部分,选择“Microsoft决策树”后,单击“下一步”按钮。5) 选择所要用数据的数据库位置后,单击“下一步”按钮。6) 选择要使用的数据表,单击“下一步”按钮。7) 选择所需输入变量与预测变量,以
8、及索引键;以序列号码为索引,身份为预测变量,并单击“建议”按钮以了解预测变量与其他变量间的相关性,可找出较具影响力的输入变量,完成后单击“确定”按钮,这时会回到原来的页面,单击“下一步”按钮。8) 单击“建议”按钮,此时程序会提出一些变量的相关系数,用户可自行选择输入与否。9) 声明正确的数据属性,完成后单击“下一步”按钮。10) 在此可选择测试数据的百分比,本实验中无测试数据,百分比选择“0”。11) 更改挖掘结构名称,单击“完成”按钮。12) 选择上方的挖掘模型查看器后,程序询问是否生成和部署项目,单击“是”按钮。13) 接下来单击“运行”按钮。14) 运行完成后单击“关闭”按钮。15)
9、建模完成,生成数据挖掘结构接口包含数据挖掘结构、挖掘模型、挖掘模型查看器、挖掘准确度图标以及挖掘模型预测;其中在挖掘结构中,主要是呈现数据间的关联性以及分析的变量。而在挖掘模型中,主要是列出所建立的挖掘模型,也可以新建挖掘模型,并调整变量,变量使用状况包含Ignore(忽略)、Input(输入变量)、Predict(预测变量、输入变量)以及PredictOnly(预测变量)。而在挖掘模型上右击,选择“设置算法参数”针对方法论的参数设置加以编辑。挖掘模型查看器则是呈现此树状结构,对于数据的分布进一步的加以了解。而可以从“依赖关系网络”了解因变量与自变量间的关联性强弱程度。2、 使用贝叶斯模型预测
10、三国表中“身份属性”与其他属性间的关系;材料:SQL范例资料.xls中的三国表。软件:SQL Server 2008 R2 基本步骤:除挖掘技术部分选择合适的挖掘方法外,其他步骤同上。3、 使用关联规则预测肾癌表中“肾细胞癌转移情况”;材料:SQL范例资料.xls中的肾癌。软件:SQL Server 2008 R2 基本步骤:除挖掘技术部分选择合适的挖掘方法外,其他步骤同上。实验三、数据挖掘方法实践实验实验目的:1)掌握逻辑回归模型;2)使用逻辑回归模型完成三个实例,并进总结。3)使用神经网络模型对“肾癌”表中数据进行分析。实验内容:1、 使用逻辑回归模型对“肾癌”表中数据进行分析;材料:SQ
11、L范例资料.xls中的肾癌表。软件:SQL Server 2008 R2 基本步骤:1) 首先将三国表导入到SQL数据库中。2)新建Analysis Service 项目,进入项目中的新建挖掘结构,使用数据挖掘向导来建立,进入数据挖掘向导首页后单击“下一步”按钮。3) 从现有关系数据库或数据仓库读取数据,即为默认值,故直接在这个页面单击“下一步”按钮。4) 到数据挖掘技术部分,选择“Microsoft逻辑回归”后,单击“下一步”按钮。5) 确认数据库中的数据表。6) 选择“癌症$”数据表进行分析,选中“事例”复选框。7) 选择变量,其中预测变量为“肾细胞癌转移情况”,输入变量为“患者的年龄(岁
12、)”、“肾细胞癌血管内皮生长因子(VEGF)”、“肾细胞癌组织内微血管数(MV)”、“肾癌细胞核组织学分级”与“肾细胞癌分期”。8) 要确定变量的数据内容类型以及数据类型,其中输入变量中“患者的年龄(岁)”、“肾细胞癌组织内微血管数()”为Continuous,其他皆为Discrete。9) 在此可选择测试数据的百分比,本实验中无测试数据,百分比选择“0”。10) 单击“挖掘模型查看器”选项卡,所呈现的是概率值,在对应的输入变量条件下,其预测变量所发生的概率。11) 根据挖掘准确度图标,红线越靠近蓝色表示越准确。本实验中原始模型(红线)与理想模型(蓝线)很接近,表示此模型准确度较高。12) 再根据分类矩阵可以发现,建立的逻辑回归模型所预测结果与实际分类结果的预测正确率高达97.15%。13) 根据逻辑回归模型,利用“挖掘模型预测”选项卡生成预测值。2、 使用逻辑回归模型对“高中成绩”表中数据进行分析;材料:SQL范例资料.xls中的高中成绩。软件:SQL Server 2008 R2 基本步骤:同上。3、 使用逻辑回归模型对“三
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 拖拉机职业教育课程设置考核试卷
- 2024年度第二节专用合同条款:XX房地产开发合作协议3篇
- 2024年度单休制数据中心运营公司劳动合同标准文本2篇
- 2024年校园设施维护服务协议版B版
- 先进制造技术应用-第1篇-洞察分析
- 2024年新旧交替住宅买卖协议
- 血型配对优化-洞察分析
- 预防拐骗安全教案
- 网络品牌建设与推广-洞察分析
- 2024年度人工智能实习生劳动合同3篇
- 北京市海淀区2021-2022学年第一学期四年级期末考试语文试卷(含答案)
- 2024-2030年中国企业大学行业运作模式发展规划分析报告
- 电动力学-选择题填空题判断题和问答题2018
- 房地产激励培训
- 山东省济南市2023-2024学年高二上学期期末考试地理试题 附答案
- 【MOOC】微型计算机原理与接口技术-南京邮电大学 中国大学慕课MOOC答案
- 违章建筑举报范文
- 糖尿病伤口护理
- 人教版(2024新版)八年级上册物理期末必刷单项选择题50题(含答案解析)
- 建筑师业务实习答辩
- 在编警察聘用合同范例
评论
0/150
提交评论