数据挖掘-决策分析_第1页
数据挖掘-决策分析_第2页
数据挖掘-决策分析_第3页
数据挖掘-决策分析_第4页
数据挖掘-决策分析_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实验报告一:决策树方法

实验目的:

使用SQLServerBusinessIntelligenceDevelopmentStudio

对上述数据建立数据立方体,并进行数据挖掘分析,挖掘的知识类型

不限,将挖掘过程和结果形成实验报告。

实验内容:

(1)利用给定的数据库,新建一个数据挖掘项目;

(2)依次建立数据源,数据源视图,维度,多维度数据集,挖掘机构;

(3)选择不同的算法对挖掘的结果进行分析,预测.

(4)根据以上分析,提出可以执行的决策

实验步骤:

创建AnalysisServices项目

更改存储数据挖掘对象的实例

创建数据源视图

创建用于目标邮件方案的挖掘结构

创建目标邮件方案的第一步是使用BusinessIntelligence

DevelopmentStudio中的数据挖掘向导创建新的挖掘结构和决策树

挖掘模型。

在本任务中,您将基于Microsoft决策树算法创建初始挖掘结构。

若要创建此结构,需要首先选择表和视图,然后标识将用于定型的列和

将用于测试的列

1.在解决方案资源管理器中,右键单击''挖掘结构”并选择"新建挖掘结

构“启动数据挖掘向导。

2.在“欢迎使用数据挖掘向导”页上,单击”下一步

3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓

库“,再单击"下一步“。

4.在“创建数据挖掘结构“页的”您要使用何种数据挖掘技术?”下,选

Microsoft决策树

5.单击”下一步〃。

6.在“选择数据源视图“页上的”可用数据源视图“窗格中,选择

TargetedMailingo可单击"浏览”查看数据源视图中的各表,然

后单击”关闭〃返回该向导。

7.单击''下一步〃。

8.在“指定表类型"页上,选中vTargetMail的”事例〃列中的复选框

以将其用作事例表,然后单击“下一步“。稍后您将使用

ProspectiveBuyer表进行测试,不过现在可以忽略它。

9.在“指定定型数据“页上,您将为模型至少标识一个可预测列、一个

键列以及一个输入列。选中BikeBuyer行中的''可预测”列中的复

选框。

10.单击''建议"打开”提供相关列建议”对话框。

只要选中至少一个可预测属性,即可启用"建议〃按钮。”提供相关

列建议”对话框将列出与可预测列关联最密切的列,并按照与可预测

属性的相互关系对属性进行排序。显著相关的列(置信度高于

95%)将被自动选中以添加到模型中。

查看建议,然后单击"取消“忽略建议。

11.确认在CustomerKey行中已选中''键〃列中的复选框。

12.选中以下行中“输入“列中的复选框。可通过下面的方法来同时

选中多个列:突出显示一系列单元格,然后在按住Ctrl的同时选中

一个复选框。

1.Age

2.CommuteDistance

3.EnglishEducation

4.EnglishOccupation

5.Gender

6.GeographyKey

7.HouseOwnerFlag

8.MaritalStatus

9.NumberCarsOwned

10.NumberChildrenAtHome

11.Region

12.Totalchildren

13.Yearlylncome

13.在该页的最左侧的列中,选中以下行中的复选框。

1.AddressLinel

2.AddressLineZ

3.DateFirstPurchase

4.EmailAddress

5.FirstName

6.LastName

确保这些行仅选择了左侧列中的复选标记。这些列将添加到结构中,

但不会包含在模型中。但是,模型生成后,它们将可用于钻取和测

试。有关钻取的详细信息,请参阅针对挖掘模型和挖掘结构使用钻

取(AnalysisServices-数据挖掘)。

14.单击“下一步“。

检查和修改每列的内容类型和数据类型

15.在”指定列的内容和数据类型“页上,单击”检测〃运行用来确定

每列的默认数据类型和内容类型的算法。

16.查看”内容类型〃和“数据类型"列中的各项;如有必要,请进行

更改,以确保设置与下表所示一致。

通常,向导会检测数值,并分配相应的数值数据类型;但有些情况

下,您可能想要将数值作为文本处理。例如,GeographyKey应

作为文本处理,因为对此标识符进行数学运算是不对的。

列内容类型数据rm类MZ-型Ttji

AddressLinelDiscreteText

AddressLine2DiscreteText

AgeContinuousLong

BikeBuyerDiscreteLong

CommuteDistanceDiscreteText

CustomerKeyKeyLong

DateLastPurchaseContinuousDate

EmailAddressDiscreteText

EnglishEducationDiscreteText

EnglishOccupationDiscreteText

FirstNameDiscreteText

GenderDiscreteText

GeographyKeyDiscreteText

HouseOwnerFlagDiscreteText

LastNameDiscreteText

MaritalStatusDiscreteText

NumberCarsOwnedDiscreteLong

NumberChildrenAtHomeDiscreteLong

RegionDiscreteText

TotalChildrenDiscreteLong

YearlyIncomeContinuousDouble

17.单击''下一步"。

指定测试集

1.在“创建测试集“页上,将”测试数据百分比''保留其默认值:30。

2.对于“测试数据集中的最大事例数〃,请键入1000o

3.单击“下一步“。

司指定钻取

可以针对模型和结构启用钻取。该窗口中的复选框针对命名模型启用钻

取,并允许您从用来为模型定型的模型事例检索详细信息。

如果基础挖掘结构也已经配置为允许进行钻取,则可以从模型事例和挖

掘结构返回详细信息(其中包括挖掘模型中所不包含的列)。有关详细

信息,请参阅针对挖掘模型和挖掘结构使用钻取(AnalysisServices-

数据挖掘)

口命名模型和结构并指定钻取

1.在“完成向导“页上的”挖掘结构名称“中,键入Targeted

Mailing。

2.在“挖掘模型名称“中,键入TM_Decision_Tree。

3.选中“允许钻取''复选框。

4.查看“预览“窗格。请注意,仅显示出那些选作”键输入"或"可

预测”的列。您选择的其他列(例如,AddressLinel)不能用于生

成模型,但是将在基础结构中可用,您可以在处理和部署模型之后

查询这些列。

创建聚类分析挖掘模型

1.切换到BusinessIntelligenceDevelopmentStudio中数据

挖掘设计器的“挖掘模型”选项卡。

请注意,设计器显示两列,一列是挖掘结构,另一列是在前一课中

创建的TM_Decision_Tree挖掘模型。

2.右键单击“结构“列,选择”新建挖掘模型

3.在“新建挖掘模型”对话框中的''模型名称"中,键入

TM_Clusteringo

4.在“算法名称"中,选择"Microsoft聚类分析”。

5.单击''确定〃。

新模型现在显示在数据挖掘设计器的''挖掘模型"选项卡中。此模型是用

Microsoft聚类分析算法生成的,它将具有相似特征的客户进行分类并

预测每个分类的自行车购买行为。虽然您可以修改新模型的列用法和属

性,但在本教程中不需要对TM_Clustering模型进行任何更改。

司创建NaiveBayes挖掘模型

1.在数据挖掘设计器的"挖掘模型”选项卡中,右键单击"结构“列,

并选择“新建挖掘模型

2.在“新建挖掘模型”对话框中的“模型名称“下,键入

TM_NaiveBayeSo

3.在“算法名称“中,选择MicrosoftNaiveBayes,再单击''确

定”。

此时将显示一条消息,说明MicrosoftNaiveBayes算法不支持

Age和YearlyIncome歹!J,这些都是连续列。

4.单击”是“,以确认此消息并继续下面的操作。

设置HoldoutSeed

1.在BusinessIntelligenceDevelopmentStudio的数据挖掘

设计器中,单击"挖掘结构“选项卡或“挖掘模型”选项卡。

TargetedMailingMiningstructure显示在‘'属性”窗格中。

2,确保按F4可以打开“属性“窗格。

3.确保CacheMode已设置为KeepTrainingCaseSo

4.为HoldoutSeed输入12。

臼部署并处理模型

在数据挖掘设计器中,可以处理挖掘结构、与挖掘结构关联的特定挖掘

模型,或者结构以及与该结构关联的所有模型。在本任务中,我们将同

时处理结构和所有模型。

口部署项目并处理所有挖掘模型

1.在“挖掘模型”菜单上选择”处理挖掘结构和所有模型

如果更改了结构,系统将提示您在处理模型之前生成和部署项目。

单击”是

2.在”处理挖掘结构-TargetedMailing”对话框中单击“运

行“。

”处理进度〃对话框将打开以显示有关模型处理的详细信息。模型处

理可能需要一些时间,具体取决于您的计算机。

3.模型处理完成后,在“处理进度”对话框中单击“关闭

4.在”处理挖掘结构-V结构〉〃对话框中单击”关闭〃。

在”决策树〃选项卡中浏览模型

1.在"数据挖掘设计器“中,选择''挖掘模型查看器”选项卡。

默认情况下,设计器将打开添加到结构中的第一个模型(在本例中

为TM_Decision_Tree)。

2.使用放大镜按钮调整树的显示大小。

默认情况下,Microsoft树查看器仅显示树的前三个级别。如果树

级别不到三个,则查看器仅显示现有级别。可以使用“显示级别“滑

块或''默认扩展〃列表查看更多级别。

3.将“显示级别“滑到第四条。

4.将“背景“值更改为lo

通过更改“背景”设置,可以迅速查看每个节点中[BikeBuyer]的

目标值为1的事例的数量。请注意,在这种特定的情况下,每个

事例均表示一个客户。值1指示该客户之前购买了自行车;值。

指示该客户尚未购买自行车。节点的底纹颜色越深,节点中具有目

标值的事例所占的百分比越大。

5.将光标放在标记为“全部”的节点上。将出现显示以下信息的工具

提示:

・事例总数

・非自行车购买者事例的数量

・自行车购买者事例的数量

・缺少[BikeBuyer]值的事例的数量

或者,将光标放在树中的任何节点上,查看从上级节点到达该节点

所需的条件。还可以在''挖掘图例〃中查看同样的信息。

6.单击"Age>=34且V41〃的节点。直方图将显示为一个穿过

该节点的窄水平条,并表示此年龄范围中以前买过自行车的客户(粉

色)和没有买过自行车的客户(蓝色)的分布情况。查看器显示:

没有汽车或者有一辆汽车、年龄在34到40的客户有可能购买自

行车。再进一步考察发现,实际年龄在38到40的客户购买自行

车的可能性会增加。

由于您在创建结构和模型时启用了钻取,因此,可以从模型事例和挖掘

结构中检索详细的信息,其中包括挖掘模型中所不包含的列(例如,

emailAddress和FirstName)。

有关详细信息,请参阅针对挖掘模型和挖掘结构使用钻取(Analysis

Services-数据挖掘)。

口钻取到事例数据

1.右键单击某个节点,然后依次选择“钻取“和”仅限模型列

每个定型事例的详细信息将以电子表格方式显示。这些详细信息来

自您在生成挖掘结构时选作事例表的vTargetMail视图。

2.右键单击某个节点,然后依次选择“钻取“和”模型和结构列

将显示同一个电子表格,并在末尾处附加结构列。

返回页首

、、依赖关系网络〃选项卡

''依赖关系网络”选项卡显示决定挖掘模型预测能力的各个属性之间的

关系。依赖关系网络查看器进一步证实了我们的发现:年龄和地区是预

测自行车购买行为的重要因素。

「在"依赖关系网络〃选项卡中浏览模型

1.单击BikeBuyer节点以确定它的依赖关系。

依赖关系网络的中间节点(BikeBuyer)表示挖掘模型中的可预

测属性。粉色阴影指示所有属性都会对自行车购买行为产生影响。

2.调整”所有链接“滑块可确定影响最大的属性。

向下滑动滑块时,将只保留对[BikeBuyer]列影响最大的属性。

通过调整滑块,可以发现年龄和地区是预测个人自行车购买行为的

最主要因素

Microsoft聚类分析算法将事例分组为包含类似特征的分类。在浏览数

据、标识数据中的异常及创建预测时、这些分组十分有用。

Microsoft分类查看器提供了以下选项卡,用于浏览聚类分析挖掘模

型:

分类关系图

分类剖面图

分类特征

分类对比

以下部分介绍如何选择适当的查看器以及如何浏览其他挖掘模型。

•浏览决策树模型(数据挖掘基础教程)

・浏览NaiveBayes模型(数据挖掘基础教程)

小分类关系图〃选项卡

''分类关系图〃选项卡显示挖掘模型中的所有分类。分类之间的线条表示

''接近程度”,其明暗度取决于分类之间的相似程度。每个分类的实际颜

色表示分类中变量和状态的出现频率。

法”分类关系图〃选项卡中浏览模型

1,使用“挖掘模型查看器”选项卡顶部的“挖掘模型”列表,可切换到

TM_Clustering模型。

2.在''查看器”列表中,选择“Microsoft分类查看器”。

3.在“明暗度变量”框中,选择BikeBuyer。

默认变量是Population,但可将其更改为模型中的任意属性,以

发现其包含的成员具有所需属性的分类。

4.在''状态”框中选择1,可以浏览那些购买自行车的事例。

“密度”图例描述了在''明暗度变量〃和''状态〃中选定的属性状态对的

密度。在此示例中,明暗度最深的分类就是自行车购买者百分比最

高的分类。

5.将鼠标悬停在明暗度最深的分类上。

工具提示将显示具有BikeBuyer=1属性的事例所占的百分

比。

6.选择密度最高的分类,右键单击该分类,然后选择“重命名分类”

并键入BikeBuyersHigh以用作日后标识。单击''确定"。

7.查找明暗度最浅(也就是密度最低)的分类。右键单击该分类,

然后选择"重命名分类”并键入BikeBuyersLow。单击''确定〃。

8.单击BikeBuyersHigh分类,并将其拖到窗格的适当区域,

以便清楚地查看它与其他分类的连接。

选择某个分类时,将此分类连接到其他分类的线条将突出显示,以

便您方便地查看此分类的所有关系。如果该分类处于未选定状态,

则可以通过线条的暗度来确定关系图中所有分类之间关系的紧密程

度。如果明暗度较浅或无明暗度,则表示分类的相似程度较低。

9.使用网络左侧的滑块,可筛选掉强度较低的链接,找出关系最接

近的分类。AdventureWorksCycles市场部可能希望将相似的

分类组合在一起,以便确定提供目标邮件的最佳方法。

返回页首

目、分类剖面图〃选项卡

”分类剖面图〃选项卡提供TM_Clustering模型的总体视图。”分类

剖面图”选项卡对于模型中的每个分类都包含一列。第一列列出至少与

一个分类关联的属性。查看器的其余部分包含每个分类的某个属性的状

态分布。离散变量的分布以彩色条显示,最大条数在”直方图条”列表中

显示。连续属性以菱形图显示,表示每个分类中的平均偏差和标准偏差。

「在”分类剖面图〃选项卡中浏览模型

1.将”直方图''条数设置为5。

在我们的模型中,任意一个变量的最大状态数均为50

2.如果''挖掘图例”妨碍了"属性配置文件”的显示,请移开图例。

3.选择BikeBuyersHigh歹!J,并将其拖到Population歹(J

的右侧。

4.选择BikeBuyersLow歹!J,并将其拖到

BikeBuyersHigh列的右侧。

5.单击BikeBuyersHigh歹h

”变量〃列按照其对该分类的重要性来进行排序。滚动浏览该列,查

看BikeBuyerHigh分类的特征。例如,他们上下班路程较短的

可能性较大。

6.双击BikeBuyersHigh列中的Age单元格。

”挖掘图例〃显示更详细的视图,您可以看到这些客户的年龄范围,

也可以看到他们的平均年龄。

7.右键单击BikeBuyersLow列并选择“隐藏列“。

返回页首

目、分类特征〃选项卡

使用"分类特征“选项卡,您可以更加详细地检查组成分类的特征。您可

以一次浏览一个分类,而不是比较所有分类的特征(就像在''分类剖面

图”选项卡中那样)。例如,如果从''分类”列表中选择

BikeBuyersHigh,则可以看到此分类中的客户的特征。尽管显示

方式与分类剖面图查看器不同,但查找结果却是相同的。

&意:

除非设置了holdoutseed的初始值,否则在您每次处理模型时,结

果都会有所不同。有关详细信息,请参阅Holdoutseed元素。

返回页首

工、分类对比〃选项卡

使用"分类对比“选项卡,可以浏览区分分类的特征。当您从''分类1"

和“分类2”列表中各选择一个分类后,查看器会计算这两个分类之间

的区别,并显示各分类最独特的属性的列表。

拉”分类对比〃选项卡中浏览模型

1.在“分类1”框中,选择BikeBuyersHigho

2.在“分类2”框中,选择BikeBuyersLow。

3.单击“变量“按字母顺序排序。

BikeBuyersLow和BikeBuyersHigh分类中的客户之

间的其他一些显著差异包括年龄、汽车拥有情况、子女数量和所在

地区。

依赖关系网络

”依赖关系网络”选项卡的工作方式与Microsoft树查看器的”依赖关

系网络”选项卡的工作方式相同。查看器中的每个节点代表一个属性,

而节点之间的线条代表关系。在查看器中,您可以查看影响可预测属性

BikeBuyer的状态的所有属性。

「在“依赖关系网络〃选项卡中浏览模型

1,使用“挖掘模型查看器”选项卡顶部的“挖掘模型”列表切换到

TM_NaiveBayes模型。

2.使用“查看器“列表切换到"MicrosoftNaiveBayes查看

器”。

3.单击BikeBuyer节点以确定它的依赖关系。

粉色阴影指示所有属性都会对自行车购买行为产生影响。

4,调整滑块可标识影响最大的属性。

向下滑动滑块时,将只保留对[BikeBuyer]列影响最大的属性。

通过调整滑块,可以发现影响最大的几个属性为:拥有汽车的数量、

通勤距离以及子女总数。

返回页首

口属性配置文件

''属性配置文件”选项卡说明输入属性的不同状态如何影响可预测属性

的结果。

嵇''属性配置文件〃选项卡中浏览模型

1.在"可预测”框中,确认已选中BikeBuyero

2.如果“挖掘图例“妨碍”属性配置文件”的显示,请将它移开。

3.在“直方图“条框中,选择5。

在我们的模型中,任意一个变量的最大状态数均为

50

系统会列出影响该可预测属性的状态的属性以及输入属性的每个状

态的值及其在该可预测属性的每个状态中的分布。

4.在''属性"列中,查找NumberCarsOwned0请注意,自行

车购买者(标为1的列)与非自行车购买者(标为0的列)的直

方图的差异。如果一个人拥有的汽车数量为0或1,则此人很有

可能会购买自行车。

5.双击自行车购买者(标为1的列)列中的NumberCars

Owned单元格。

"挖掘图例”将显示一个更为详细的视图。

返回页首

口属性特征

使用“属性特征”选项卡,可以选择属性和值,以查看所选值事例中出现

其他属性值的频率。

整”属性特征〃选项卡中浏览模型

1.在“属性“列表中,确认已选中BikeBuyero

2.将"值“设置为T。

在查看器中,您将看到,家中无子女、通勤距离较近和居住在北美

洲地区的客户更有可能购买自行车。

国属性对比

使用“属性对比”选项卡,可以调查自行车购买的两个离散值与其他属性

值之间的关系。由于TM_NaiveBayes模型只有1和0两个状

态,因此您无需对查看器进行任何更改。

在查看器中,您会看到,没有汽车的人一般会购买自行车,而有两辆汽

车的人一般不会购买自行车。

选择输入数据

测试挖掘模型准确性的第一步是选择将用于测试的数据源。您将根据测

试数据测试模型的准确性,然后将它们与外部数据一起使用。

口选择数据集

1.切换到BusinessIntelligenceDevelopmentStudio中的数

据挖掘设计器的“挖掘准确性图表”选项卡,并选择“输入选择“选项

卡。

2.在"选择要用于准确性图表的数据集〃组框中,选择”使用挖掘结

构测试事例”,以便使用您在创建挖掘结构时保留的测试数据来测试

模型。

有关其他选项的详细信息,请参阅测量挖掘模型准确性(Analysis

Services-数据挖掘)。

。选择模型、可预测列和值

下一步是选择要包含在提升图中的模型、用于比较模型的可预测列以及

要预测的值。

w注意:

''可预测列名称”列表中的挖掘模型列限制为用法类型设置为Predict

或PredictOnly而且内容类型为Discrete或Discretized的

列。

工显示模型的提升

1.在数据挖掘设计器的''输入选择”选项卡上,在”选择要在提升图

中显示的可预测的挖掘模型列"下选中''同步预测列和值”复选框。

2.在“可预测列名称〃列中,确认为每个模型都选择了Bike

Buyero

3.在”显示〃列中,选择每个模型。

默认情况下,系统会选中挖掘结构中的所有模型。可以决定不包含

某一模型,但对于本教程,请选中所有模型。

4.在''预测值〃列中,选择lo对于具有相同可预测列的每个模型,

将自动填充相同的值。

5.选择''提升图"选项卡以显示提升图。

当您单击该选项卡时,便会对服务器和数据库的挖掘结构和输入表

或测试数据运行预测查询。结果将绘制在图上。

输入”预测值”时,提示图会绘制随机推测模型和理想模型。您创建

的挖掘模型将处于这两种极限情况之间,即介于随机推测模型和精

确无误的预测模型之间。与随机推测相比,任何提高均被视为''提

升〃。

6,使用图例可以查找表示理想模型和随机推测模型的彩色线。

您将注意到TM_Decision_Tree模型提供最大的提升,其表现

优于聚类分析模型和NaiveBayes模型。

使用筛选器

通过筛选,您可以轻松地创建基于数据子集生成的模型。筛选器只应用

于该模型,而且不会更改基础数据源。有关如何将筛选器应用于嵌套表

的信息,请参阅数据挖掘中级教程(AnalysisServices-数据挖掘)。

口事例表的筛选器

首先,您将复制TM_Decision_Tree模型。

口复制决策树模型

1.在BusinessIntelligenceDevelopmentStudio中,在解决

方案资源管理器中选择ASDataMining2008。

2.单击“挖掘模型”选项卡。

3.右键单击TM_Decision_Tree模型,然后选择“新建挖掘模

型”。

4.在"模型名称"字段中,键入TM_Decision_Tree_Male。

5.单击“确定

然后为模型创建一个筛选器,用于根据客户的性别选择客户0

创建挖掘模型的事例筛选器

1.右键单击TM_Decision_Tree_Male挖掘模型以打开快捷

菜单。

-或-

选择该模型。在''挖掘模型”菜单上,选择''设置模型筛选器

2.在“模型筛选器”对话框的”挖掘结构列”文本框中,单击网格中的

第一行。

下拉列表只显示该表中列的名称。

3.在''挖掘结构列〃文本框中,选择“性别

文本框左侧的图标会发生改变,以指示所选项是表还是列。

4.单击“运算符”文本框,并从列表中选择等于(=)运算符。

5.单击”值〃文本框,然后键入Mo

6.单击网格中的下一行。

7.单击“确定“关闭模型筛选器。

筛选器显示在“属性“窗口中。或者,您也可以从“属性"窗口启动''模

型筛选器”对话框。

8.重复上述步骤,但这次应将

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论