版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库与数据挖掘设计指导书自编东华理工大学软件学院数据仓库与数据挖掘课程组2012年11月目录实验一:数据仓库的环境配置与构建实验实验二:数据仓库的OLAP技术实验实验三:数据挖掘方法实践实验实验一、数据仓库的环境配置与构建实验实验目的:1了解数据挖掘与商务智能之间的联系与区别;2分析数据挖掘仓库的特性和构架;3掌握数据挖掘的功能和建模的标准CRISP-DM。4掌握MSS的分析服务、报表服务和整合服务,并能够用以解决实际问题。实验结果分析与要求:完成实验目的中的内容,记录操作中的各个步骤,并进行分析。实验内容:1、将Excel数据表导入SQL数据库中的数据表材料:SQL范例资料.xls中的三
2、国表。软件:SQL Server 2008 R2基本步骤:1首先按照三国表中的属性在数据口中建立对应的表。2打开VS选择项目中的“Integration Services”项目,并制定项目的保存位置,最后单击“确定”按钮即可新建一个SSIS项目。3在“控制流”选项卡中,从工具箱拖拽“数据挖掘查询任务”的图示到工作区中。4切换“数据流”选项卡,先制定数据的源,因为要导入的是Excel数据,所以从工具箱拖拽Excel源的图示到工作区中,然后再Excel源上右击,选择菜单上的“编辑”。5在Excel源编辑器中,单击“新建”按钮来制定Excel数据的源,在Excel连接管理器中,单击“浏览”按钮来选择
3、Excel 文件,完成后单击“确定”按钮。6在“Excel工作表的名称”下拉列表中选择要导入的数据表,然后单击“确定”按钮,完成数据源的设置。7建立数据转换,从工具箱中拖拽“数据转换”到工作区中。8在Excel源上右击,选择“添加路径”。9指定“Excel源”到“数据转换”,最后单击“确定”按钮。10输出指定“Excel源输出”,输入指定“数据转换输入”,单击“确定”按钮。11设置数据流的目标,要导入到SQL的数据库中,从工具箱中拖拽“SQL Server目标”到工作区。12然后在“数据转换”上右击,选择添加路径来建立与数据流目标的连接。13在“数据流”对话框中,指定从“数据转换”到“SQL
4、Server目标”,单击“确定”按钮。在“选择输入输出”对话框中,输出指定“数据转换输出”,输入指定“SQL Server目标输入”,单击“确定”按钮。14最后设置数据导入的位置,在“SQL Server目标”上右击,选择“编辑”。15在“SQL 目标编辑器”窗口中,单击“新建”按钮,然后在“配置 OLE DB连接管理器”窗口转中,同样单击“新建”按钮。16在“连接管理器”窗口中,“服务器名”选择SQL数据库的位置,在“登录到服务器”中选择“使用windows身份验证”,在“选择或输入一个数据库名”指定数据要导入的数据库,单击“确定”按钮返回上一个窗口,再单击“确定”按钮。17最后要指定数据要
5、导入哪一个数据表,选择完成后单击“确定”按钮。18接下来选择“映射”,接着单击“确定”按钮即可。19现在已经完成配置,单击“启动调用”按钮,测试是否错误,执行完毕为绿色,执行中为黄色,错误为红色。20可以到导入的SQL数据库的数据表位置查看数据是否都已经导入了。选择SQL Server Management Studio打开后找到之前导出的数据表来查看。21选择“选择前1000行”后则可以看到结果。2、对数据进行抽样材料:SQL范例资料.xls中的三国表。软件:SQL Server 2008 R2基本步骤:在“数据转换”中选择“百分比抽样”,抽样的百分比为20%。其他同“将Excel数据表导入
6、SQL数据库中的数据表”的操作步骤。实验二、交换机数据仓库的OLAP技术实验实验目的:1掌握决策树模型的基本概念和计算方法,并用其预测三国表中“身份属性”与其他属性的关系;2掌握贝叶斯分类器的基本概念,并用其预测三国表中“身份属性”与其他属性的关系;3掌握关联规则的基本概念和种类,并用其预测“肾细胞癌转移情况”。4对比以上三种模型,分析其联系与区别。实验结果分析与要求:完成实验目的中的内容,记录操作中的各个步骤,并进行分析。实验内容:1、使用决策树模型预测三国表中“身份属性”与其他属性间的关系;材料:SQL范例资料.xls中的三国表。软件:SQL Server 2008 R2基本步骤:1首先将
7、三国表导入到SQL数据库中。2新建Analysis Service 项目,进入项目中的新建挖掘结构,使用数据挖掘向导来建立,进入数据挖掘向导首页后单击“下一步”按钮。3从现有关系数据库或数据仓库读取数据,即为默认值,故直接在这个页面单击“下一步”按钮。4到数据挖掘技术部分,选择“Microsoft决策树”后,单击“下一步”按钮。5选择所要用数据的数据库位置后,单击“下一步”按钮。6选择要使用的数据表,单击“下一步”按钮。7选择所需输入变量与预测变量,以及索引键;以序列号码为索引,身份为预测变量,并单击“建议”按钮以了解预测变量与其他变量间的相关性,可找出较具影响力的输入变量,完成后单击“确定”
8、按钮,这时会回到原来的页面,单击“下一步”按钮。8单击“建议”按钮,此时程序会提出一些变量的相关系数,用户可自行选择输入与否。9声明正确的数据属性,完成后单击“下一步”按钮。10在此可选择测试数据的百分比,本实验中无测试数据,百分比选择“0”。11更改挖掘结构名称,单击“完成”按钮。12选择上方的挖掘模型查看器后,程序询问是否生成和部署项目,单击“是”按钮。13接下来单击“运行”按钮。14运行完成后单击“关闭”按钮。15建模完成,生成数据挖掘结构接口包含数据挖掘结构、挖掘模型、挖掘模型查看器、挖掘准确度图标以及挖掘模型预测;其中在挖掘结构中,主要是呈现数据间的关联性以及分析的变量。而在挖掘模型
9、中,主要是列出所建立的挖掘模型,也可以新建挖掘模型,并调整变量,变量使用状况包含Ignore(忽略、Input(输入变量、Predict(预测变量、输入变量以及PredictOnly(预测变量。而在挖掘模型上右击,选择“设置算法参数”针对方法论的参数设置加以编辑。挖掘模型查看器则是呈现此树状结构,对于数据的分布进一步的加以了解。而可以从“依赖关系网络”了解因变量与自变量间的关联性强弱程度。2、使用贝叶斯模型预测三国表中“身份属性”与其他属性间的关系;材料:SQL范例资料.xls中的三国表。软件:SQL Server 2008 R2基本步骤:除挖掘技术部分选择合适的挖掘方法外,其他步骤同上。3、
10、使用关联规则预测肾癌表中“肾细胞癌转移情况”;材料:SQL范例资料.xls中的肾癌。软件:SQL Server 2008 R2基本步骤:除挖掘技术部分选择合适的挖掘方法外,其他步骤同上。实验三、数据挖掘方法实践实验实验目的:1掌握逻辑回归模型;2使用逻辑回归模型完成三个实例,并进总结。3使用神经网络模型对“肾癌”表中数据进行分析。实验内容:1、使用逻辑回归模型对“肾癌”表中数据进行分析;材料:SQL范例资料.xls中的肾癌表。软件:SQL Server 2008 R2基本步骤:1首先将三国表导入到SQL数据库中。2新建Analysis Service 项目,进入项目中的新建挖掘结构,使用数据挖
11、掘向导来建立,进入数据挖掘向导首页后单击“下一步”按钮。3从现有关系数据库或数据仓库读取数据,即为默认值,故直接在这个页面单击“下一步”按钮。4到数据挖掘技术部分,选择“Microsoft逻辑回归”后,单击“下一步”按钮。5确认数据库中的数据表。6选择“癌症$”数据表进行分析,选中“事例”复选框。7选择变量,其中预测变量为“肾细胞癌转移情况”,输入变量为“患者的年龄(岁”、“肾细胞癌血管内皮生长因子(VEGF”、“肾细胞癌组织内微血管数(MV”、“肾癌细胞核组织学分级”与“肾细胞癌分期”。8要确定变量的数据内容类型以及数据类型,其中输入变量中“患者的年龄(岁”、“肾细胞癌组织内微血管数(MV”
12、为Continuous,其他皆为Discrete。9在此可选择测试数据的百分比,本实验中无测试数据,百分比选择“0”。10单击“挖掘模型查看器”选项卡,所呈现的是概率值,在对应的输入变量条件下,其预测变量所发生的概率。11根据挖掘准确度图标,红线越靠近蓝色表示越准确。本实验中原始模型(红线与理想模型(蓝线很接近,表示此模型准确度较高。12再根据分类矩阵可以发现,建立的逻辑回归模型所预测结果与实际分类结果的预测正确率高达97.15%。13根据逻辑回归模型,利用“挖掘模型预测”选项卡生成预测值。2、使用逻辑回归模型对“高中成绩”表中数据进行分析;材料:SQL范例资料.xls中的高中成绩。软件:SQL Server 2008 R2基本步骤:同上。3、使用逻辑回归模型对“三国”表中数据进行分析;数据仓库与数据挖掘设计指导书 材料:SQL 范例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖南文理学院《固体物理学》2021-2022学年第一学期期末试卷
- 湖南农业大学《汇编语言与微机原理》2023-2024学年第一学期期末试卷
- 污水处理厂工程及配套管网工程监理规划(新)
- 6.2.4 向量的数量积(教学课件)高一数学同步备课系列(人教A版2019必修第二册)
- 2024至2030年中国镀不锈钢产品行业投资前景及策略咨询研究报告
- 2024至2030年中国磁饱和电感式稳压器行业投资前景及策略咨询研究报告
- 2024至2030年中国直接测汞仪行业投资前景及策略咨询研究报告
- 2024至2030年中国气缸铝管行业投资前景及策略咨询研究报告
- 2024至2030年中国板栗包装袋行业投资前景及策略咨询研究报告
- 大学生职业规划大赛《环境科学专业》生涯发展展示
- 《泰坦尼克号》电影赏析
- 大学生劳动教育概论智慧树知到期末考试答案章节答案2024年南昌大学
- (完整word版)PT100温度传感器三根芯线的接法
- 重力式桥台计算程序表格
- ETDRS视力记录表
- 增值税预缴税款表电子版
- 玻璃幕墙工程技术规范与应用
- 三级医师查房登记本(共3页)
- 全国医疗服务价格项目规范(2012版)
- 乌鲁木齐市律师服务收费指导标准
- 三国志11全人物能力数值表
评论
0/150
提交评论