




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘概念与分析试验汇报编制日期:11月27日目录一、相关名词解释 31.1数据仓库 31.2数据挖掘 31.3决议树 31.4时序 31.5关联规则 4二、试验环境 4三、试验准备 5四、试验内容 5五、试验步骤 55.1对数据挖掘相关名词进行了解和利用 55.2对此次试验数据库环境进行熟悉环境 55.3准备工作 55.3.1创建一个AnalysisServices项目 55.3.2创建一个数据源 65.3.3创建数据源视图 85.4挖掘步骤 105.4.1Microsoft决议树挖掘技术—创建用于目标邮件方案挖掘结构 105.4.2Microsoft时序挖掘技术—各个型号自行车销售量做出预测 145.4.3Microsoft关联规则挖掘技术—创建市场篮方案 155.4.4Microsoft时序分析与聚类分析挖掘技术—查看客户浏览AdventureWorks网站方式 175.5数据挖掘结果分析 195.5.1Microsoft决议树挖掘技术—目标邮件方案挖掘结果分析 195.5.2Microsoft时序挖掘技术—各个型号自行车销售量预测结果分析 205.5.3Microsoft关联规则挖掘技术—创建市场篮方案结果分析 215.5.4Microsoft时序分析与聚类分析挖掘技术—查看客户浏览AdventureWorks网站方式结果分析 22一、相关名词解释1.1数据仓库a)英文名称为DataWarehouse,可简写为DW。数据仓库是决议支持系统和联机分析应用数据源结构化数据环境。数据仓库研究和处理从数据库中获取信息问题。数据仓库特征在于面向主题、集成性、稳定性和时变性。b)数据仓库系统是一个信息提供平台,他从业务处理系统取得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种伎俩从数据中获取信息和知识。c)从功效结构化分,数据仓库系统最少应该包含数据获取(DataAcquisition)、数据存放(DataStorage)、数据访问(DataAccess)三个关键部分。1.2数据挖掘a)数据挖掘(DataMining),就是从大量数据中获取有效、新奇、潜在有用、最终可了解模式非平凡过程。数据挖掘广义观点:数据挖掘就是从存放在数据库,数据仓库或其余信息库中大量数据中“挖掘”有趣知识过程。数据挖掘,又称为数据库中知识发觉(KnowledgeDiscoveryinDatabase,KDD),也有些人把数据挖掘视为数据库中知识发觉过程一个基本步骤。知识发觉过程以下步骤组成:(1)数据清理,(2)数据集成,(3)数据选择,(4)数据变换,(5)数据挖掘,(6)模式评定,(7)知识表示。数据挖掘能够与用户或知识库交互。1.3决议树a)决议树是用二叉树形图来表示处理逻辑一个工具。能够直观、清楚地表示加工逻辑要求。尤其适合于判断原因比较少、逻辑组合关系不复杂情况。b)决议树提供了一个展示类似在什么条件下会得到什么值这类规则方法。比如,在贷款申请中,要对申请风险大小做出判断,决议树基本组成部分:决议节点、分支和叶子。c)数据挖掘中决议树是一个经常要用到技术,能够用于分析数据,一样也能够用来做预测(就像上面银行官员用他来预测贷款风险)。惯用算法有CHAID、CART、Quest和C5.0。1.4时序a)Microsoft时序算法是MicrosoftSQLServerAnalysisServices(SSAS)提供回归算法,用于创建数据挖掘模型以预测连续列,如预测方案中产品销售额。其余Microsoft算法创建依靠给定输入列来预测可预测列模型(如决议树模型),而时序模型预测则仅依照算法在创建模型时从原始数据集派生趋势。以下关系图(图1.1)显示了一个经典模型,用于预测各个时间销售额。图1.1关系图关系图中显示该模型由两部分组成:历史信息以红色显示,预测信息以蓝色显示。红色数据代表算法用于创建模型信息,而蓝色数据则代表模型做出预测。由红色数据和蓝色数据联合形成线称为“序列”。每个预测模型必须包含一个事例序列,即区分序列列中不一样点列。比如,因为关系图中数据显示了几个月中历史和预测销售额序列,所以数据列为事例序列。b)Microsoft时序算法一个主要功效就是能够执行交叉预测。也就是说,假如使用两个单独但相关序列为该算法定型,就能够使用得到模型依照其余序列行为预测一个序列结果。比如,一个产品实际销售额可能会影响另一个产品预测销售额。1.5关联规则a)数据关联是数据库中存在一类主要可被发觉知识。若两个或多个变量取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析目标是找出数据库中隐藏关联网。有时并不知道数据库中数据关联函数,即使知道也是不确定,所以关联分析生成规则带有可信度。关联规则挖掘发觉大量数据中项集之间有趣关联或相关联络。关联规则挖掘在数据挖掘中是一个主要课题,最近几年已被业界所广泛研究。b)关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出全部高频项目组(FrequentItemsets),第二阶段再由这些高频项目组中产生关联规则(AssociationRules)。1.Apriori算法:使用候选项集找频繁项集2.基于划分算法3.FP-树频集算法1.6时序分析与聚类分析a)Microsoft次序分析和聚类分析算法是由MicrosoftSQLServerAnalysisServices(SSAS)提供一个次序分析算法。该算法经过将相同次序分到一组或一类中来查找最常见次序。这些次序能够采取多个格式,包含:1.用来说明用户浏览网站时点击路径数据。2.用来说明客户将商品添加到在线零售商购物车中次序数据。二、试验环境此次数据挖掘试验采取SQLserverdevelopment版本;数据仓库示例为SQLserver自带AdventureWorksDB和AdventureWorksDW;三、试验准备创建一个AnalysisServices项目;创建一个数据源;创建数据源视图;四、试验内容Microsoft决议树挖掘技术;Microsoft时序挖掘技术;Microsoft关联规则挖掘技术;Microsoft时序分析与聚类分析挖掘技术;五、试验步骤5.1对数据挖掘相关名词进行了解和利用5.2对此次试验数据库环境进行熟悉环境注意是在安装SQLserver过程中得把整个数据库示例全部安装;5.3准备工作5.3.1创建一个AnalysisServices项目.打开MicrosoftSQLServerManagementStudio,连接好数据库,确认是否有AdventureWorks与AdventureWorksDW两个数据库,以下列图所表示:.打开MicrosoftVisualStudio,点击文件—新建项目—AnalysisServices项目,然后将项目名称改为AdventureWorks,以下列图:.点击确定即完成了AnalysisServices项目标创建。 5.3.2创建一个数据源.在处理方案资源管理器中,右键单击“数据源”文件夹,然后选择“新建数据源”。系统将打开数据源向导。在“欢迎使用数据源向导”页面中,单击“下一步”按钮。.单击“新建”按钮向AdventureWorks数据库添加连接。.(1)在“连接管理器”“提供程序”列表中,选择“本机OLEDB\MicrosoftOLEDBProviderforSQLServer”;(2)数据库服务器名为当地服务器也可填localhost;(3)使用SQLserver身份验证;(4)在选择或输入一个数据库名栏中选择AdventureWorksDW数据库;(5)点击测试按钮,显示测试成功之后点击下一步继续。.在“模拟信息”页中,选择“默认值”,再单击“下一步”。.在“完成向导”页面中,数据源默认名称为AdventureWorksDW。.单击“完成”。新数据源AdventureWorksDW将显示在处理方案资源管理器“数据源”文件夹中。5.3.3创建数据源视图.在处理方案资源管理器中,右键单击“数据源视图”,选择“新建数据源视图”,在“欢迎使用数据源视图向导”页上,单击“下一步”。.在“选择数据源”页“关系数据源”下,系统将默认选中您在上一个任务中创建AdventureWorksDW数据源。单击“下一步”。在“选择表和视图”页上,选择以下各表,然后单击右箭头键,将这些表包含在新数据源视图中:(1)dbo.ProspectiveBuyer(2)dbo.vAssocSeqLineItems(3)dbo.vAssocSeqOrders(4)dbo.vTargetMail(5)dbo.vTimeSeries.在“完成向导”页上,默认情况下,系统将数据源视图命名为AdventureWorksDW。单击“完成”。系统将打开数据源视图设计器,显示AdventureWorksDW数据源视图。点击完成按钮出现以下所表示AdventureWorksDW数据源视图。5.4挖掘步骤5.4.1Microsoft决议树挖掘技术—创建用于目标邮件方案挖掘结构.在处理方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”。在“欢迎使用数据挖掘向导”页上,单击“下一步”。.在“选择定义方法”页上,确认已选中“从现关于系数据库或数据仓库”,再单击“下一步”。在“选择数据挖掘技术”页“您要使用何种数据挖掘技术?”下,选择“Microsoft决议树”。.在“选择数据源视图”页上,请注意已默认选中AdventureWorksDW。在数据源视图中,单击“浏览”查看各表,然后单击“关闭”返回该向导。.在“指定表类型”页上,选中vTargetMail表旁边“事例”列中复选框,再单击“下一步”。(1)在“指定定型数据”页上,确保已选中CustomerKey列旁边Key列中复选框。(2)选中BikeBuyer列旁边“输入”和“可预测”。(3)选中以下各列旁边“输入”复选框:Age、CommuteDistance、EnglishEducation、EnglishOccupation、FirstName、Gender、GeographyKey、HouseOwnerFlag、LastName、MaritalStatus、NumberCarsOwned、NumberChildrenAtHome、Region、TotalChildren、YearlyIncome。(1)在“完成向导”页上“挖掘结构名称”中,键入TargetedMailing。(2)在“挖掘模型名称”中,键入TM_Decision_Tree。(3)选中“允许钻取”复选框。点击完成可见以下挖掘视图5.4.2Microsoft时序挖掘技术—各个型号自行车销售量做出预测前几步同决议树方法。在“选择数据挖掘技术”页“您要使用何种数据挖掘技术?”下,选择“Microsoft时序”。在“指定表类型”页上,选择vTimeSeries表旁边“事例”复选框,再单击“下一步”。(1)在“定型数据”页上,选择TimeIndex和ModelRegion列旁边“键”复选框。(2)选择“数量”列旁边“输入”和“可预测”复选框。(1)在“完成向导”页“挖掘结构名称”中,键入Forecasting。(2)在“挖掘模型名称”中,键入Forecasting,再单击“完成”。5.4.3Microsoft关联规则挖掘技术—创建市场篮方案前几步同决议树方法。在“选择数据挖掘技术”页“您要使用何种数据挖掘技术?”下,选择“Microsoft关联规则”。在“指定表类型”页上,选中vAssocSeqOrders表旁“事例”复选框,选中vAssocSeqLineItems表旁边“嵌套”复选框,再单击“下一步”。(1)在“指定定型数据”页上,依次去除CustomerKey旁边“键”复选框和LineNumber旁边“键”和“输入”复选框。(2)选中Model列旁边“键”和“可预测”复选框。然后,系统也将自动选中“输入”复选框。在“完成向导”页“挖掘结构名称”中,键入Association。在“挖掘模型名称”中,键入Association,再单击“完成”。5.4.4Microsoft时序分析与聚类分析挖掘技术—查看客户浏览AdventureWorks网站方式前几步同决议树方法。在“选择数据挖掘技术”页“您要使用何种数据挖掘技术?”下,选择“Microsoft次序分析与聚类分析”。在“指定表类型”页上,选中vAssocSeqOrders表旁“事例”复选框,选中vAssocSeqLineItems表旁边“嵌套”复选框,再单击“下一步”。 (1)在“指定定型数据”页中,去除CustomerKey旁“键”复选框。 (2)选中Model列旁“输入”和“可预测”复选框,再单击“下一步”。(1)在“指定列内容和数据类型”页上,单击“下一步”。(2)在“完成向导”页“挖掘结构名称”中,键入SequenceClustering。(3)在“挖掘模型名称”中,键入SequenceClustering,再单击“完成”。5.5数据挖掘结果分析5.5.1Microsoft决议树挖掘技术—目标邮件方案挖掘结果分析挖掘结果—决议树结果分析:(1)在“决议树”选项卡上,能够检验组成挖掘模型全部树模型。因为目标邮件模型仅包含单个可预测属性(BikeBuyer),所以只需查看一颗树。(2)检验决议树查看器中TM_Decision_Tree模型会看出,在预测自行车购置行为时,年纪是最主要原因。从决议书中能够看出,按年纪对客户进行分组之后,每个年纪节点决议树下一个分支都有所不一样。经过浏览“决议树”选项卡,我们能够得出以下结论:没有汽车或者有一辆汽车、年纪在34到40购置者购置自行车可能性非常大,居住在太平洋地域、没有汽车或者有一辆汽车更年轻单身客户购置汽车可能性也非常大。注意:值1指示该客户之前购置了自行车;值0指示该客户还未购置自行车。节点底纹颜色越深,节点中具备目标值事例所占百分比越大。挖掘结果—依赖关系网络结果分析:(1)“相关性网络”选项卡能够显示决定挖掘模型预测能力各个属性之间关系。(2)相关性网络中间节点(BikeBuyer)表示挖掘模型中可预测属性。周围每个节点各表示一个会影响可预测属性结果属性。可使用该选项卡左侧滑块控制显示链接强度。向下移动滑块时,仅显示最强链接。(3)单击网络中单个节点,然后参考选项卡底部颜色图例,可查看所选节点预测哪些节点,它本身又是由哪些节点预测。5.5.2Microsoft时序挖掘技术—各个型号自行车销售量预测结果分析挖掘结果—查看决议树挖掘结果—图表选项卡图相对图表图绝对图表结果分析:(1)该图表同时显示历史数据和未来数据。未来数据带有底纹,方便与历史数据区分开。使用“预测步骤”列表,可控制要显示数据未来步骤数量。使用“显示偏差”复选框,可在预测中添加错误栏。 (2)正如上述图表所表示,全部区域总销售额通常会增加,而且每12个月(在11月)出现一次峰值。预测将按此趋势进行。5.5.3Microsoft关联规则挖掘技术—创建市场篮方案结果分析挖掘结果—相集“项集”选项卡显示三种主要信息,这些信息与Microsoft关联算法发觉项集相关:支持度(发生项集事务数量)、大小(项集中项数量)以及项集实际组成。依照算法参数设置方式,算法能够生成大量项集。使用“项集”选项卡顶部控件,能够筛选查看器,使其仅显示包含指定最小支持度和项集大小项集。结果分析:(1)市场篮方案依照客户在线购物篮中已经有其余产品创建一个可预测客户购置需求数据挖掘模型,该模型可预测可能出现在购物篮中其余项或客户想要放入购物篮项。经过结果分析,比如若要仅查看包含关于Mountain-200自行车信息项集,可在“筛选项集”中输入Mountain-200。能够在查看器中看到,只有包含“Mountain-200”字样项集被显示。查看器中返回每个项集都包含关于销售Mountain-200自行车事务信息。比如,在“支持度”列中包含值710项集表示:在全部事务中,710个购置Mountain-200自行车人也购置了Sport-100自行车,这个就表现了相集中关联信息。5.5.4Microsoft时序分析与聚类分析挖掘技术—查看客户浏览AdventureWorks网站方式结果分析经过使用Microsoft次序分析和聚类分析算法,能够找到客户将项放入购物篮次序。然后可使用上述信息简化网站流程,这么便可引导客户购置更多产品。挖掘结果—“分类关系图”选项卡结果分析:节点颜色明暗度表示分类中全部事例密度,节点越暗,包含事例越多。能够更改节点明暗度代表含义,使其表示属性和状态。比如,在“明暗度变量”列表中选择“模型”,并在“状态”
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年洗护用品合作协议书
- 2025年幼儿园跳皮筋标准教案
- XX中学财务管理制度
- 航空食品卫生安全保障措施
- 场地租赁合同篮球场
- 《化学元素周期表的应用:高一化学教学教案》
- 三方协商产品销售代理合同
- 《初中历史专题研究:古代文明探秘》
- 电子邮件营销计划表
- 2024-2025学年下学期高中英语选修一第三单元A卷
- 语文修改语病-五年(高考2020至2024)修改病句真题详尽解析
- 2024年中国木制床头柜市场调查研究报告
- 成人有创机械通气气道内吸引技术操作标准解读
- 12S108-1-倒流防止器选用及安装-给排水图集
- 公共危机管理题库
- 完整版:美制螺纹尺寸对照表(牙数、牙高、螺距、小径、中径外径、钻孔)
- 物流工程(第5版) 课件 4 集装单元及其系统
- 纸基覆铜板制造技术
- 煤炭资源地质勘探工作技术规范
- 软式内镜清洗消毒技术规范-WS-507-2016
- 《批判性思维原理和方法》全套教学课件
评论
0/150
提交评论