数据仓库与数据挖掘课程实验指导书_第1页
数据仓库与数据挖掘课程实验指导书_第2页
数据仓库与数据挖掘课程实验指导书_第3页
数据仓库与数据挖掘课程实验指导书_第4页
数据仓库与数据挖掘课程实验指导书_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、潘怡 编著数据仓库与数据挖掘课程实验指导书长 沙 学 院 计 算 机 科 学 与 技 术 系2009年9月前 言本书是数据仓库与数据挖掘课程及数据分析与挖掘的实验指导书。全书分为三个部分,第一部分为实验内容对每个实验的实验目的、实验类型、实验学时、实验原理及知识点、实验环境(硬件环境、软件环境)和实验内容及步骤进行简单介绍,第二部分为实验指导对每个实验的实验方法,实验步骤及补充的实验知识进行详细介绍,第三部分为实验报告。本实践课程主要介绍数据仓库的工作机理及其构建过程,。要求学生熟练使用数据库管理系统ms sql server,掌握典型的数据仓库系统及其开发工具的使用,理解数据挖掘的工作原理与

2、流程,掌握典型数据挖掘技术及其工具的使用方法,熟悉sql server bi dev集成挖掘环境。要求学生实验前认真准备,实验后提供实验报告,给出详细设计方法以及设计依据。实验报告的格式应采用统一封面,统一的实验报告纸。封面应包括:课程名称、实验序号、名称、专业、班级、姓名、同组实验者、实验时间。实验报告内容应包括:实验名称、目的、内容、实验步骤、实验记录、数据处理(或原理论证、或实验现象描述、或结构说明等)。目 录第一部分 实验内容实验1:实践sql server数据多维分析环境实验2:实践关联规则挖掘方法实验3:实践决策树挖掘方法实验4:实践聚类挖掘方法实验5:实践神经网络挖掘方法第二部分

3、 实验指导实验1:实践sql server数据多维分析环境实验2:实践关联规则挖掘方法实验3:实践决策树挖掘方法实验4:实践聚类挖掘方法实验5:实践神经网络挖掘方法第三部分 实验报告第一部分实验内容实验1:实践sql server数据多维分析环境一实验目的学习和掌握sql server 2005 analysis services 工具集,包括如何在 bi development studio 的 analysis services 项目中定义数据源、数据源视图、维度、属性、层次结构和多维数据集,如何查看多维数据集和维度,理解并掌握olap分析的基本过程与方法。二实验类型 验证型三实验学时 4

4、学时四实验原理及知识点1sql server 服务 2服务器注册3系统数据源连接4数据源视图处理5多维数据集6事实表和维度表;7星型架构模型;8元数据结构。五实验环境1硬件设备要求:pc及其联网环境;2软件设备要求:操作系统windows, sql server 2005, sql server 2005 bi dev studio 。六实验内容及步骤i. 建立sql server 2005 数据挖掘实验环境1 启动sql server 服务,打开bi开发环境2 注册服务器3 建立系统数据源连接4 建立数据库和数据源视图5 浏览多维数据集数据6 编辑多维数据集数据ii. 实践多维数据集分析 假

5、设一连锁超市的用户需求如下,从无到有设计一个数据仓库的基本架构,要求能够满足以下查询:1 查询公司在2005年的总销售金额2 查询公司在2005年第一季度的销售金额3 查询公司在2005年上半年的销售金额4 查询某供应商s1于2005年提供产品p1的金额总量5 查询某供应商s1于2005年提供某产品p1的金额总量6 查询某门市店d1于2005年共销售某一种商品p1的总金额7 查询公司在2005年度共销售多少金额类别为c1的商品p1的总金额根据要求:1 建事实表和维度表2 设计星型架构模型3 分析元数据结构。七思考与练习1什么是sql sever 2005 bi dev studio?它包含几个

6、主要部分?2如何注册服务器?3如何设计数据源视图?4如何建立多维数据集?5什么是事实表和维度表?6什么是星型架构?7什么是元数据?实验2:实践关联规则挖掘方法一实验目的学习和掌握使用sql server 2005进行关联规则数据挖掘,了解并掌握挖掘结构、挖掘模型的基本概念,能够使用数据挖掘向导创建数据挖掘结构和模型,掌握数据挖掘设计器的使用方法,掌握模型查看器方法,能够使用挖掘准确性图表,了解模型的提升图,能够创建数据挖掘报告。二实验类型 设计型三实验学时 4学时四实验原理及知识点1sql server 挖掘结构2sql server 挖掘模型3事实表4嵌套表5键6输入列7可预测列8挖掘参数五

7、实验环境1硬件设备要求:pc及其联网环境;2软件设备要求:操作系统windows, sql server 2005, sql server 2005 bi dev studio 。六实验内容及步骤1 数据准备选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗和校验,为挖掘工作做好数据准备。2 创建数据源3 创建数据源视图4 创建挖掘结构5 创建挖掘模型6 使用模型查看器查看挖掘模型7 使用挖掘准确性图表查看模型8 使用挖掘模型预测窗口9 创建数据挖掘报告实验3:实践决策树挖掘方法一实验目的学习和掌握使用sql server 2005进行决策树挖掘,选择合适的数据进行决策树分析,并尝试

8、给出合理解释(例如,使用案例数据库建立给客户分群的决策树挖掘模型,或者判断学生升学意向)。在实验过程中了解并掌握挖掘模型的参数意义及设置方法,能够使用数据挖掘向导创建数据挖掘结构和模型,要求使用柱状图等方式展现最终挖掘结果。二实验类型 设计型三实验学时 4学时四实验原理及知识点1hunt算法2. 最佳划分的度量方法3. 信息熵增益五实验环境1硬件设备要求:pc及其联网环境;2软件设备要求:操作系统windows, sql server 2005, sql server 2005 bi dev studio 。六实验内容及步骤1数据准备选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗

9、和校验,为挖掘工作做好数据准备。2创建数据源3创建数据源视图4创建挖掘结构5创建挖掘模型6使用模型查看器查看挖掘模型7使用挖掘准确性图表查看模型8使用挖掘模型预测窗口9创建数据挖掘报告实验4:实践聚类挖掘方法一实验目的学习和掌握使用sql server 2005进行聚类挖掘,选择合适的数据进行聚类分析,并尝试给出合理解释在实验过程中了解并掌握挖掘模型的参数意义及设置方法,能够使用数据挖掘向导创建数据挖掘结构和模型,要求能够掌握模型察看方法。二实验类型 设计型三实验学时 4学时四实验原理及知识点1k-mean算法五实验环境1硬件设备要求:pc及其联网环境;2软件设备要求:操作系统windows,

10、 sql server 2005, sql server 2005 bi dev studio 。六实验内容及步骤1数据准备选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗和校验,为挖掘工作做好数据准备。2创建数据源3创建数据源视图4创建挖掘结构5创建挖掘模型6使用模型查看器查看挖掘模型7使用挖掘准确性图表查看模型8使用挖掘模型预测窗口9创建数据挖掘报告实验5:实践神经网络挖掘方法一实验目的学习和掌握使用sql server 2005进行神经网络数据挖掘,了解并掌握挖掘结构、挖掘模型的基本概念,能够使用数据挖掘向导创建数据挖掘结构和模型,掌握数据挖掘设计器的使用方法,掌握模型查看器

11、方法,能够使用挖掘准确性图表,了解模型的提升图,能够创建数据挖掘报告。二实验类型 设计型三实验学时 4学时四实验原理及知识点1神经网络的拓扑2神经网络的组合和激活3神经网络的反向传播、误差函数4神经网络的处理五实验环境1硬件设备要求:pc及其联网环境;2软件设备要求:操作系统windows, sql server 2005, sql server 2005 bi dev studio 。六实验内容及步骤1数据准备选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗和校验,为挖掘工作做好数据准备。2创建数据源3创建数据源视图4创建挖掘结构5创建挖掘模型6使用模型查看器查看挖掘模型7使用挖

12、掘准确性图表查看模型8使用挖掘模型预测窗口9创建数据挖掘报告第二部分实验指导实验1:实践sql server数据多维分析环境i. 建立sql server 2005 数据挖掘实验环境一sql sever 2005 安装1)sql server 2005的一般部署步骤当你第一次把sqlserver2005的cd或者dvd光盘放到server里的时候,你会看到一个引导窗口(图a),上面是产品介绍和运行须知。图asqlserver2005的引导页面。要注意的是,即使你是用单张dvd进行安装,这个页面顶部的文字显示的还是“光盘12(disc 1 of 2)”。要开始安装,就要选择“安装(install

13、)”标题下的“server组件、工具、在线工具书和示例(server components, tools, books online, and samples)”选项。弹出的第一个画面是产品的最终用户许可证协议。你需要勾选“我接受协议条款和条件(i accept the licensing terms and conditions)”,点击“下一步(next)”按钮继续。我在这里就不列出许可证页面了。你对此可能已经很熟悉了。下一个画面(图b)显示的是安装程序要提前安装的一些程序。.net框架2.0是这里的关键。如果你决定在同一台server上安装sqlserver2005以及其他应用程序,那就

14、要确保它们都能够使用这个框架。点击“安装(install)”按钮来安装这些项目。当这些项目安装完毕后,你可以点击“下一步”按钮。图b当所有需要预先安装的程序都安装到你的系统里之后,sqlserver2005的安装向导就会启动。安装向导完成的第一项任务是扫描你的系统,以确保它满足sqlserver2005的最低要求。在下面的图c里,你会看到系统检测提示有两个方面存在问题。第一个是硬件的最低要求。它之所以出现是因为我是用虚拟机来安装sqlserver2005的,而虚拟机分配到的内存只有384兆,这个问题很容易解决。第二个是要求具有internet信息服务功能(iis feature require

15、ment),这个有点严重。sqlserver2005的一些服务,例如报告服务(reporting services)要求使用iis。所以,继续安装之前,我要退出sqlserver2005的安装过程,再在server上安装iis。之后,才能继续进行安装。图c系统检测会检查出一些存在的问题,这样你可以在安装之前就解决它们,从而避免一些可能发生的错误。安装的下一步(图d)就相当简单了。填好你的名字、公司名和产品密钥。点击“下一步”继续。图d在这一画面里,你需要选希望与sqlserver2005一起安装的组件。如果这是你的第一台server,那么就要选上sqlserver数据库服务(sql serve

16、r database services)选项。为了保证完整性,我安装了所有的服务,但是本文不会讨论故障转移集群。如果你想要选择更加详细的选项,或者更改默认的安装路径(c:program filesmicrosoft sql server),点击“高级(advanced)”按钮,然后会弹出一个更加常见的功能选择窗口。下面的图e向你显示的是“组件选择(component selection)”画面。在图f里,显示的是“高级(advanced)”画面。在窗口里,点击“下一步(next)”继续安装。图e qlserver2005的主要组件选择画面。图f sqlserver2005引入了sqlserve

17、r命名实例(named instance)的概念。你可以选择升级已有的命名实例(图g),你也可以选择在安装sqlserver2005时默认的实例。在本文的例子里,我使用的“默认(default)”选项。图g 择你的实例。正如以往,sqlserver服务需要使用特定的验证信息登录到系统。你可以选择让所有的sql服务都共享相同的验证信息,或者你可以为每个服务都提供自己的登录验证信息,我建议在进行更大范围安装时使用后面这种方式。但是,在本文里,我让所有的服务都共享一个帐号,并使用内置的“本地系统(local system)”帐号。 这个画面还让你选择在安装完成之后启动哪些服务。你可以在图h的屏幕截图

18、中看到安装程序默认选择的服务是哪些。图h为每项sql服务选择服务帐号在安装的下一个画面(图i)里,系统会问你是否想要使用混合模式的windows身份验证(mixed mode authentication),这种模式让你可以使用sqlserver帐号。除非你有充足的理由不使用,否则最好使用windows身份验证模式。用户帐号的维护更简单,这是你公司潜在安全漏洞较少的一个地方。如果你需要使用混合模式,就要向安装程序提供你希望系统管理员(sa)帐号使用的密码。图i选择你的身份验证模式。排序规则是不同的字符集和排序顺序的组,sqlserver正是通过它们才能够用于不同的区域和语言。sqlserver

19、2005安装程序让你可以选择“sql排序规则(sql collations)”,这样你就可以向后兼容先前版本的sqlserver。但是,如果你要安装“分析服务(analysis services)”,sql的排序规则就不能用于这项服务。微软建议你使用windows排序规则而不用sql排序规则,除非你需要解决向后兼容性的问题。windows排序规则为你提供了同时用于unicode和非unicode文本的连续字符串比较功能。在本文的安装示例里,我将用到用于sql和分析服务的latin1_general排序规则指示项(图j)和排序顺序。图j“安装进度(setup progress)”窗口让你能够了解

20、安装程序安装各个组件到哪一步了。图o二、其他实验步骤及方法:参考教材第8章相关内容。ii. 实践多维数据集分析参考教材第3章及第8章相关内容。实验2:实践关联规则挖掘方法1挖掘结构和挖掘模型的基本概念挖掘结构和挖掘模型均是sql server analysis services的主要数据挖掘对象。挖掘结构定义了挖掘的域,挖掘模型则对应于挖掘结构中挖掘算法的应用。一个挖掘结构包括数据和内容类型,与数据源捆绑,挖掘模型包含一个定一号参数的算法,以及从挖掘结构得到的列清单。一个挖掘结构可以对应多个挖掘模型。2 microsoft 关联算法基本原理关联模型基于包含各事例的标识符及各事例所包含项的标识符

21、的数据集生成。事例中的一组项称为“项集”。关联模型由事例中一系列项集和说明这些项如何分组的规则组成。算法标识的规则可用于根据客户购物车中已有的项来预测客户将来可能购买的产品。以下关系图显示了项集中的一系列规则。正如该关系图中所示,microsoft 关联算法可能会在数据集中找到许多规则。该算法使用两个参数(support 和 probability)来说明项集以及该算法生成的规则。例如,如果 x 和 y 表示购物车中可能有的两个项,则 support 参数是数据集中包含 x 和 y 这两项组合的事例的数目。通过将 support 参数与用户定义的 minimum_support 和 maxim

22、um_support 参数结合使用,该算法可控制生成的项集数。probability 参数也称为“置信度”,表示数据集中既包含 x 也包含 y 的一部分事例。通过将 probability 参数与 minimum_probability 参数结合使用,该算法可控制生成的规则数。 microsoft 关联算法遍历数据集以查找同时出现在某个事例中的项。然后,该算法将最少出现了由 minimum_support 参数指定的最少事例数次数的关联项分为项集。例如,项集可以为“mountain 200=existing, sport 100=existing”,并且支持的数目可以为 710,那么该算法将根

23、据项集生成规则。可以使用这些规则根据是否存在该算法标识为重要项的其他特定项,预测数据库中的某项是否存在。例如,某规则可以为“if touring 1000=existing and road bottle cage=existing, then water bottle=existing”,并且其概率可能为 0.812。在此例中,该算法发现由于购物篮中存在 touring 1000 轮胎和水壶套,因此预测购物篮中也可能存在水壶。3 microsoft 关联算法的列关联模型必须包含一个键列、多个输入列以及一个可预测列。输入列必须为离散列。关联模型的输入数据通常包含在两个表中。例如,一个表可能包含

24、客户信息,而另一个表可能包含客户购物情况。您可以使用嵌套表将该数据输入到模型中。在 microsoft sql server 2005 analysis services (ssas) 中,数据必须作为包含在事例表中的一系列事例提供给数据挖掘算法。不是所有的事例都可以用一行数据就可说明。例如,一个事例可能派生自两个表,其中一个表包含客户信息,而另一个表包含客户采购信息。客户表中的一位客户可能在采购表中有多条采购信息,在这种情况下,很难使用单个行来说明该数据。analysis services 提供了一种用来处理这些事例的独特方法,那就是使用“嵌套表”。 第一个表(父表)包含客户的信息,并且为每

25、位客户关联了一个唯一标识符。第二个表(子表)包含每位客户的采购信息。子表中的采购信息又通过唯一标识符(customerkey 列)与父表关联。关系图中的第三个表显示了这两个表的结合。 嵌套表作为特殊列显示在事例表中,该列的数据类型为 table。对于任何特定事例行,此列均包含从子表中选出的、与父表相关的行。 要创建嵌套表,两个源表必须包含定义的关系,以便一个表中的项可与另一个表建立关联。在 business intelligence development studio 中,4使用 microsoft 关联规则查看器查看挖掘模型项集“项集”选项卡显示被模型识别为经常发现一起出现的项集的列表。该

26、选项卡显示具有以下列的网格:“支持”、“大小”和“项集”。有关支持的详细信息,请参阅 microsoft 关联算法。“大小”列显示项集中的项的数量。“项集”列显示模型发现的实际项集。可以使用“显示”列表控制项集的格式,可将格式设置为以下选项:显示属性名称和值仅显示属性值仅显示属性名称可以使用“最低支持”和“最小项集大小”来筛选选项卡中显示的项集数量。还可使用“筛选项集”并输入必须存在的项集特征,来进一步限制项集的显示数量。例如,如果键入 water bottle = existing,则可将项集限制为仅包含 water bottle 的那些项集。“筛选项集”选项还可显示以前使用过的筛选器的列表

27、。通过单击列标题,可以对网格中的行进行排序。 规则“规则”选项卡显示关联算法发现的规则。“规则”选项卡包含一个具有以下列的网格:“概率”、“重要性”和“规则”。概率说明出现规则结果的可能性。重要性用于度量规则的用途。尽管规则出现的概率可能很高,但规则自身的用途可能并不重要。重要性列就是说明这一情况的。例如,如果每个项集都包含属性的某个特定状态,那么,即使概率非常高,预测状态的规则也并不重要。重要性越高,规则越重要。可以使用“最小概率”和“最低重要性”来筛选规则,此操作类似于可在“项集”选项卡中进行的筛选。您也可以使用“筛选规则”,根据属性包含的状态来筛选规则。 通过单击列标题,可以对网格中的行

28、进行排序。 依赖关系网络“依赖关系网络”选项卡包括一个依赖关系网络查看器。查看器中的每个节点代表一个项,如 state = wa。节点间的箭头代表项之间有关联。箭头的方向表示按照算法发现的规则确定的项之间的关联。例如,如果查看器包含三个项 a、b 和 c,并且 c 是根据 a 和 b 预测的,那么,选择了节点 c 时,则有两个箭头指向节点 c,即 a 到 c 和 b 到 c。查看器左边的滑块可当作与规则的概率关联的筛选器使用。降低滑块将只显示最强链接。5microsoft 决策树算法参数microsoft 决策树算法支持多个参数,具体参数详见帮助文档6数据源可自定义或选择adventurewo

29、rks示例数据库。实验3:实践决策树挖掘方法1实验内容可参照msdn帮助文档。(2microsoft 决策树算法说明microsoft 决策树算法是由 microsoft sql server 2005 analysis services (ssas) 提供的分类和回归算法,用于对离散和连续属性进行预测性建模。对于离散属性,该算法根据数据集中输入列之间的关系进行预测。它使用这些列的值或状态预测指定的可预测列的状态。具体地说,该算法标识与可预测列相关的输入列。例如,在预测哪些客户可能购买自行车的方案中,假如在十名年轻客户中有九名购买了自行车,但在十名年龄较大的客户中只有两名购买了自行车,则该算法

30、从中推断出年龄是自行车购买情况的最佳预测因子。决策树根据朝向特定结果发展的趋势进行预测。 对于连续属性,该算法使用线性回归确定决策树的拆分位置。如果有多个列设置为可预测列,或输入数据包含设置为可预测的嵌套表,则该算法将为每个可预测列分别生成一个决策树。3microsoft 决策树算法原理microsoft 决策树通过在树中创建一系列拆分(也称为节点)来生成数据挖掘模型。每当发现输入列与可预测列密切相关时,算法便会向该模型中添加一个节点。随着算法不断向模型中添加新节点,便形成了树结构。该树的顶端节点描述了客户总体可预测列的分解。随着模型的不断增大,该算法将考虑所有列。4microsoft 决策树

31、算法参数microsoft 决策树算法支持多个参数,具体参数详见帮助文档5使用 microsoft 树查看器查看挖掘模型决策树生成决策树模型时,analysis services 将为每个可预测属性生成一个单独的树。从查看器的“决策树”选项卡上的“树”列表中选择单个树,可查看该树。 决策树由一系列拆分组成,最重要的拆分由算法确定,位于“全部”节点中查看器的左侧。其他拆分出现在右侧。“全部”节点中的拆分最为重要,由于该节点包含了数据集内引起拆分的最充分的条件,因而产生了第一个拆分。 可以展开或折叠决策树中的各个节点,以显示或隐藏各节点后出现的拆分。您还可以使用“决策树”选项卡上的选项来设置树的显

32、示方式。使用“显示级别”滑块,可以调整树中显示的级别数。使用“默认扩展”,可以设置模型中所有树的默认显示级别数。预测离散属性如果树是使用离散可预测属性生成的,则查看器将在树的每个节点上显示以下信息:导致拆分的条件。表示可预测属性的状态分布情况的直方图,其中各个状态按使用频率高低进行排列。可以使用“直方图”选项来更改在树的直方图中显示的状态数。如果可预测属性有很多状态,这一功能将非常有用。各种状态按使用频率高低自左到右显示在直方图中;如果选择显示的状态数少于属性的状态总数,则使用频率最低的状态将集中以灰色显示。若要查看某个节点的各种状态的确切数目,可以将指针停留在该节点上来查看 infotip(

33、信息提示),也可以选择该节点以便在“挖掘图例”中查看其详细信息。如果使用“背景”选项选择了特定属性状态,则各个节点的背景色将表示处于所选状态的事例的密集程度。可以使用此选项来突出显示包含所关注的特定目标的节点。预测连续属性如果树是使用连续可预测属性生成的,则查看器为树中的每个节点显示一个菱形图,而不是直方图。菱形图有一个表示属性范围的线条。菱形位于节点的中间,其宽度表示该节点处属性的方差。菱形越窄,说明该节点生成的预测越精确。查看器还显示用于确定节点中的拆分的回归公式。其他决策树显示选项为决策树模型启用钻取后,即可访问支持某个节点的定型事例,方法是:右键单击树中的该节点,然后选择“钻取”。可以

34、在数据挖掘向导内启用钻取,也可以在“挖掘模型”选项卡中通过调整挖掘模型的钻取属性来启用钻取。可以使用“决策树”选项卡上的缩放选项来放大或缩小某个树,也可以使用“调整为合适大小”将整个模型放入查看器的屏幕中。如果某个树太大而无法将其调整为适合屏幕的大小,则可使用“导航”选项在树中导航。单击“导航”将打开一个单独的导航窗口,可通过它来选择要显示的模型部分。还可以将树视图图像复制到剪贴板上,以便可将其粘贴到文档或图像处理软件中。可以使用“复制图形视图”仅复制查看器中树的可见部分,也可以使用“复制整个图形”来复制树中所有扩展节点。依赖关系网络“依赖关系网络”显示了模型中的输入属性和可预测属性之间的依赖

35、关系。查看器左侧的滑块可起到与依赖关系强度相联系的筛选器的作用。如果向下拉动滑块,则查看器中只会显示最强链接。 选择一个节点后,查看器将突出显示该节点特定的依赖项。例如,如果选择一个可预测节点,查看器也将突出显示有助于预测该可预测节点的各个节点。 如果查看器包含大量的节点,则可使用“查找节点”按钮来搜索特定的节点。单击“查找节点”将打开“查找节点”对话框,可以在该对话框中使用筛选器来搜索和选择特定的节点。查看器底部的图例说明了图表中不同颜色代码所代表的依赖关系类型。例如,如果选择一个可预测节点,该节点将呈青绿色,而预测所选节点的节点呈橙色。 挖掘图例在选中决策树模型中的某个节点时,挖掘图例显示

36、下列信息: 节点中按可预测属性的状态划分的事例的数目。节点的可预测属性的各种事例的概率。一个直方图,其中包含可预测属性的各种状态的数目。访问某个特定节点所需的条件,也称为“节点路径”。 停靠和使用“挖掘图例”的方式与解决方案资源管理器的使用方式类似。实验4:实践聚类挖掘方法1microsoft 聚类分析算法说明microsoft 聚类分析算法是由 microsoft sql server 2005 analysis services (ssas) 提供的分段算法。该算法使用迭代技术将数据集中的事例分组为包含类似特征的分类。在浏览数据、标识数据中的异常及创建预测时,这些分组十分有用。 聚类分析模

37、型标识数据集中可能无法通过随意观察在逻辑上得出的关系。例如,在逻辑上可以得知,骑自行车上下班的人的居住地点通常离其工作地点不远。但该算法可以找出有关骑自行车上下班人员的其他并不明显的特征。在下面的关系图中,分类 a 表示有关通常开车上班人员的数据,而分类 b 表示通常骑自行车上班人员的数据。聚类分析算法不同于 microsoft 决策树算法等其他数据挖掘算法,区别在于无需指定可预测列便能生成聚类分析模型。聚类分析算法严格地根据数据以及该算法所标识的分类中存在的关系定型。2microsoft 聚类分析算法原理microsoft 聚类分析算法首先标识数据集中的关系并根据这些关系生成一系列分类。散点

38、图是一种非常有用的方法,可以直观地表示算法如何对数据进行分组,如下面的关系图所示。散点图可以表示数据集中的所有事例,在该图中每个事例就是一个点。分类对该图中的点进行分组并阐释该算法所标识的关系。在最初定义分类后,算法将通过计算确定分类表示点分组情况的适合程度,然后尝试重新定义这些分组以创建可以更好地表示数据的分类。该算法将循环执行此过程,直到它不能再通过重新定义分类来改进结果为止。microsoft 聚类分析算法提供下列两种方法来计算点在分类中的适合程度:expectation maximization (em) 和 k-means。对于 em 聚类分析,该算法使用一种统计方法来确定分类中存在

39、数据点的概率。对于 k-means,该算法使用距离度量值将数据点分配给其最接近的分类。 生成分类时不使用其用法设置为只预测的列。在生成分类后,将计算这些列在分类中的分布。3microsoft 聚类分析算法参数参数 说明 clustering_method指定算法要使用的聚类分析方法。有下列聚类分析方法可用:scalable em (1)、non-scalable em (2)、scalable k-means (3) 和 non-scalable k-means (4)。默认值为 1。cluster_count指定将由算法生成的大致分类数。如果无法基于相应的数据生成该大致数目的分类,则算法将生

40、成尽可能多的分类。如果将 cluster_count 设置为 0,则算法将使用试探性方法最准确地确定要生成的分类数。默认值为 10。cluster_seed指定在为建模初始阶段随机生成分类时所要使用的种子数字。默认值为 0。minimum_support指定每个分类中的最小事例数。默认值为 1。modelling_cardinality指定在聚类分析过程中构建的示例模型数。默认值为 10。stopping_tolerance指定一个值,它可确定何时达到收敛而且算法完成建模。当分类概率中的整体变化小于 stopping_tolerance 参数与模型大小之比时,即达到收敛。默认值为 10。sam

41、ple_size如果 clustering_method 参数设置为其中一个可缩放聚类分析方法,请指定算法在每个传递中使用的事例数。如果将 sample_size 参数设置为 0,则会在单个传递中对整个数据集进行聚类分析操作,从而导致内存和性能问题。默认值为 50000。maximum_input_attributes指定算法在调用功能选择之前可以处理的最大输入属性数。如果将此值设置为 0,则指定不限制输入属性的最大数量。默认值为 255。maximum_states指定算法支持的最大属性状态数。如果属性的状态数大于该最大状态数,算法将使用该属性的最常见状态,同时忽略剩余状态。默认值为 100

42、。4使用 microsoft 分类查看器查看聚类挖掘模型microsoft sql server 2005 analysis services (ssas) 中的 microsoft 分类查看器可以显示使用 microsoft 聚类分析算法生成的挖掘模型。microsoft 聚类分析算法是一种分段算法,用于浏览数据以标识数据中的变体并创建预测。在 analysis services 中浏览挖掘模型时,该模型会使用模型的相应查看器,显示在数据挖掘设计器的“挖掘模型查看器”选项卡上。microsoft 分类查看器提供了以下选项卡,用于浏览分类挖掘模型:分类关系图microsoft 分类查看器的“分

43、类关系图”选项卡可以显示挖掘模型中的所有分类。两个分类之间连线的明暗度表示分类的相似程度。如果明暗度较浅或无明暗度,则表示分类的相似程度较低。连线的颜色越深,链接的相似性越强。通过调整分类右侧的滑块,可以调整查看器显示的连线数。降低滑块将只显示最强链接。默认情况下,明暗度代表分类的总体。通过使用“明暗度变量”和“状态”选项,可以选择明暗度代表的属性和状态对。明暗度越深,特定状态所对应的属性分布范围就越大。明暗度越浅,分布范围就越小。 若要重命名某个分类,请右键单击其节点,再选择“重命名分类”。新名称会在服务器中永久保留。 若要将关系图的可见部分复制到剪贴板,请单击“复制图形视图”。若要复制完整

44、的关系图,请单击“复制整个图形”。使用“放大”和“缩小”可以放大或缩小关系图,使用“缩放关系图以适应窗口”可以适应屏幕大小。分类剖面图“分类剖面图”选项卡可以提供模型中的算法创建的分类的总体视图。此视图显示了分类中的每个属性以及属性的分布。每个单元的 infotip 显示分布统计信息,每个列标题的 infotip 显示分类的总体。离散属性显示为彩条,连续属性显示为菱形图,表示每个分类中的平均偏差和标准偏差。通过“直方图条”选项可以控制直方图中可见的图条数。如果存在的图条数多于您选择显示的图条数,则会保留重要性最高的那些图条,其余图条则组合到一个灰色的存储桶内。可以更改分类的默认名称,使名称更具

45、描述性。右键单击分类的列标题,再选择“重命名分类”,即可重命名分类。也可以通过选择“隐藏列”来隐藏分类。若要打开一个窗口,以便为分类提供更大、更详细的视图,请双击“状态”列中的任一单元,或双击查看器中的任一直方图。 单击列标题,可以将列中的属性按照其对分类的重要性来进行排序。也可以在查看器中拖动列以将其重新排序。分类特征若要使用“分类特征”选项卡,请从“分类”列表中选择一个分类。选择分类后,可以检查特定分类的组成特征。分类包含的属性将列在“变量”列中,所列属性的状态则列在“值”列中。属性状态将按重要性顺序列出,重要性由这些状态会出现在分类中的概率表示。概率显示在“概率”列中。分类对比可以使用“

46、分类对比”选项卡来比较两个分类的属性。使用“分类 1”和“分类 2”列表可以选择要比较的分类。查看器将确定分类之间最为重要的一些差异,并按重要性顺序显示与这些差异关联的属性状态。属性右侧的条表示属性状态所倾向的分类,条的大小则表示属性状态倾向于相应分类的程度。实验5:实践神经网络挖掘方法1microsoft 神经网络分析算法说明在 sql server analysis services 中,microsoft 神经网络算法组合输入属性的每个可能状态和可预测属性的每个可能状态,并使用定型数据计算概率。之后,可以根据输入属性,将这些概率用于分类或回归,并预测被预测属性的结果。使用 microso

47、ft 神经元网络算法构造的挖掘模型可以包含多个网络,这取决于用于输入和预测的列的数量,或者取决于仅用于预测的列的数量。一个挖掘模型包含的网络数取决于挖掘模型使用的输入列和预测列包含的状态数。2microsoft 神经网络算法原理microsoft 神经网络算法使用由三层神经元(即感知器)组成的多层感知器网络,该网络也称为反向传播 delta 法则网络。这些层分别是输入层、可选隐藏层和输出层。在一个多层感知器网络中,每个神经元接收一个或多个输入,产生一个或多个相同的输出。每个输出都是对神经元的输入之和的简单非线性函数。输入只是从输入层中的节点传递到隐藏层中的节点,最后传递到输出层。同一层中的神经

48、元之间没有连接。(如果没有隐藏层,则输入从输入层中的节点传递到输出层中的节点。)有关多层感知器神经网络的详细探讨不属于本文档的范围。使用 microsoft 神经元网络算法构造的挖掘模型可以包含多个网络,这取决于用于输入和预测的列的数量,或者取决于仅用于预测的列的数量。一个挖掘模型包含的网络数取决于挖掘模型使用的输入列和预测列包含的状态数。在使用 microsoft 神经网络算法创建的神经网络中,存在三种神经元类型:输入神经元输入神经元提供数据挖掘模型的输入属性值。对于离散输入属性,输入神经元通常代表输入属性的单个状态,其中包括缺少的值。例如,一个二进制输入属性生成一个输入节点,该节点说明缺少

49、的或现有的状态,并指示该属性是否存在值。用作输入属性的 boolean 列可生成三个输入神经元:一个神经元用于 true 值,一个神经元用于 false 值,还有一个神经元用于缺少或现有的状态。具有两个以上状态的离散输入属性可为每个状态生成一个输入神经元,并为缺少的或现有的状态生成一个输入神经元。一个连续的输入属性可生成两个输入神经元:一个是针对缺少的或现有的状态的神经元,一个是针对连续属性自身的值的神经元。输入神经元可向一个或多个隐藏神经元提供输入。 隐藏神经元 隐藏神经元接收来自输入神经元的输入,并向输出神经元提供输出。输出神经元 输出神经元代表数据挖掘模型的可预测属性值。对于离散输入属性

50、,输出神经元通常代表可预测属性的单个预测状态,其中包括缺少的值。例如,一个二进制可预测属性可生成一个输出节点,该节点说明缺少的或现有的状态,以指示该属性是否存在值。用作可预测属性的 boolean 列可生成三个输出神经元:一个神经元用于 true 值,一个神经元用于 false 值,还有一个神经元用于缺少或现有的状态。具有两种以上状态的离散可预测属性可为每个状态生成一个输出神经元,并为缺少的或现有的状态生成一个输出神经元。连续可预测列可生成两个输出神经元:一个是针对缺少的或现有的状态的神经元,一个是针对连续列本身的值的神经元。如果通过检查可预测列集生成了 500 个以上的输出神经元,则 ana

51、lysis services 将在挖掘模型中生成一个新的网络,用于代表超出部分的输出神经元。神经元可接收多个输入:对于输入神经元,神经元接收来自原始数据的输入;对于隐藏神经元和输出神经元,神经元接收来自神经网络中其他神经元的输出的输入。输入在神经元之间建立了关系,而这些关系可用作分析特定事例集时的路径。为每个输入都分配了一个称为“权重”的值,该值用于说明特定的输入对于隐藏神经元或输出神经元的相关性和重要性。分配给输入的权重值越大,则该输入与算法在确定该输入是否成功分类一个特定事例时所收到的神经元的相关性就越高,重要性也就越大。相应地,每个神经元都分配有一个称为“激活函数”的简单非线性函数,用于

52、说明特定神经元对于神经网络层的相关性或重要性。隐藏神经元使用双曲正切函数作为其激活函数,但输出神经元使用 s 函数 (sigmoid) 作为其激活函数。这两个函数都是非线性连续函数,允许神经网络在输入和输出神经元之间建立非线性关系模型。3microsoft 神经网络分析算法参数hidden_node_ratio指定隐藏神经元相对于输入和输出神经元的比率。以下公式可确定隐藏层中神经元的初始数目:hidden_node_ratio * sqrt(total input neurons * total output neurons)默认值为 4.0。holdout_percentage指定定型数据中

53、用于计算维持错误的事例的百分比,定型挖掘模型时的停止条件中将用到此百分比。默认值为 30。holdout_seed指定一个数字,用作在算法随机确定维持数据时伪随机生成器的种子。如果该参数设置为 0,算法将基于挖掘模型的名称生成种子,以保证重新处理期间模型内容的一致性。默认值为 0。maximum_input_attributes确定在应用功能选择前,可应用于算法的输入属性的最大数。如果将此值设置为 0,则为输入属性禁用功能选择。默认值为 255。maximum_output_attributes确定在应用功能选择前,可应用于算法的输出属性的最大数。如果将此值设置为 0,则为输出属性禁用功能选择。默认值为 255。maxi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论