版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘与商务智能课程实验指导实验一数据仓库的构建一、实验目的及要求(一)实验目的理解数据库与数据仓库之间的区别与联系;掌握典型的关系型数据库及其数据仓库系统的工作原理以及应用方法;掌握数据仓库建立的基本方法及其相关工具的使用。(二)实验要求利用实验室和指导教师提供的实验软件,认真完成规定的实验项目,真实地记录实验中遇到的各种问题和解决的方法与过程,并绘出模拟实验案例的数据仓库模型。实验完成后,应根据实验情况写出实验报告。二、实验设备及软件基于MSSQLServer2005服务系统以及AnalysisServices系统。三、实验内容以SQLServer2005为系统平台,设计、建立数据库,并
2、以此为基础创建数据仓库。四、实验步骤创建MicrosoftSQLServer2005AnalysisServices(SSAS)项目后,通常通过定义此项目将要使用的一个或多个数据源来开始使用此项目。定义数据源时,将定义要用于连接此数据源的连接字符串信息。在以下任务中,把AdventureWorksDW示例数据库定义为AnalysisServicesTutorial项目的数据源。为了实现本教程教学目的,此数据库位于您的本地计算机上,而源数据库通常驻留在一台或多台远程计算机中。定义新的数据源在解决方案资源管理器中,右键单击“数据源”,然后单击“新建数据源”。将打开数据源向导。在“欢迎使用数据源向导
3、”页上,单击“下一步”。将显示“选择如何定义连接”页。在该页上,可以基于新连接、现有连接或以前定义的数据源对象来定义数据源。以前定义的数据源对象是当前项目中或当前解决方案的其他项目中的现有数据源定义。在本教程中,将基于新连接定义新数据源。在“选择如何定义连接”页上,单击“新建”。将显示“连接管理器”对话框。在此对话框中,可定义数据源的连接属性。连接管理器是将在运行时使用的连接的逻辑表示形式。例如,连接管理器包括一个在设计时设置的连接字符串属性;在运行时,将通过使用连接字符串属性中的值创建一个物理连接。在“提供程序”列表中,确保已选中“本机OLEDBMicrosoftOLEDBProviderf
4、orSQLServer。AnalysisServices还支持“提供程序”列表中显示的其他访问接口。在“服务器名称”文本框中,键入localhosT。要连接到本地计算机上的命名实例,请键入localhost实例名。将项目部署到AnalysisServices的特殊实例时,AnalysisServices引擎将连接到MicrosoftSQLServer的默认实例(位于AnalysisServices实例所在的计算机上)的AdventureWorksDW数据库。如果在定义数据源时指定特定的计算机名或IP地址,则项目或部署的应用程序将与指定计算机而不是本地计算机建立连接。通过AnalysisServ
5、ices部署向导,可以在部署时指定源数据的实际服务器名。确保已选中“使用Windows身份验证”。在“选择或输入数据库名称”列表中,选择AdventureWorksDW。下图显示了包含到目前为止已定义设置的“连接管理器”。7.单击“确定”,然后单击“下一步”。将显示“模拟信息”页。在该向导的此页上,可以定义AnalysisServices用于连接数据源的安全凭据。在本教程中,您将选择AnalysisServices服务帐户,因为该帐户具有访问AdventureWorksDW数据库所需的权限。8.选择“使用服务帐户”,然后单击“下一步”。下图显示了随后出现的“完成向导”页。9.在“完成向导”页上
6、,单击“完成”以创建名为AdventureWorksDW的新数据源。下图显示了解决方案资源管理器的“数据源”文件夹中的新数据源。ArL:ilysi5ServicesTutorial-MierosotViEm:ilStudio文件(F)編辑CE)视图i:V)项目生成调试数据库迦工具0)窗口址)社区帮助i:H)Bevelcprn巨口七丁Default解决方案资源管理器-解决方案“AnalysisSer.X一:解决方案AnalysisServicesTutorial,!(1亍项目)-|AnalysieServicesTutorial-1-场零据源*:*AdventureWorksBW.dz-_j数据
7、源观图Adventm-eiforks珊.dsv爹维数据集丄维度丄挖掘结构_j角色丄程序集丄杂项电解决方案资源管理器国类观图圜错误列表支|任务列表同输出已保存的项定义多维数据集及其属性在解决方案资源管理器中,右键单击“多维数据集”,然后单击“新建多维数据集”。在“欢迎使用多维数据集向导”页上,单击“下一步”。在“选择生成方法”页上,确认已选中“使用数据源生成多维数据集”选项和“自动生成”选项,然后单击“下一步”。在“选择数据源视图”页上,确认已选中AdventureWorksDW数据源视图,然后单击“下xiR”步。该向导扫描在数据源对象中定义的数据库中的表,以标识事实数据表和维度表。事实数据表包
8、含相关的度量值,如售出的部件数等。维度表包含有关这些度量值的信息,如售出产品、售出该产品的月份等。在向导标识完事实数据表和维度表后,请在“检测事实数据表和维度表”页上单击“下一在“标识事实数据表和维度表页上,将显示该向导所标识的事实数据表和维度表。对于AnalysisServicesTutorial项目,该向导标识四个维度表和一个事实数据表。为该事实数据表定义了一个度量值组。每个维度表必须链接到多维数据集中的一个事实数据表。维度表具有下列关系类型之一:与事实数据表的直接主键-外键关系。这称为“星型架构”。通过某个其他表与事实数据表的间接主键-外键关系。这称为“雪花型架构”。在“标识事实数据表和
9、维度表”页上,还可以指定时间维度表,然后将时间属性与指定维度表中的列相关联。时间属性与指定时间维度表中的列相关联是基于时间的多维表达式(MDX)计算(如YTD和ParallelPeriod)所必需的,而且时间智能向导将使用这一关联定义与时间相关的计算成员。下图显示了该向导的“标识事实数据表和维度表页,其中为AnalysisServicesTutorial项目选择了事实数据表和维度表。在“标识事实数据表和维度表”页的“时间维度表”列表中,选择Time,然后单击“下一步。在“选择时间段”页上,将时间属性名称映射到以指定为“时间”维度的维度为基础的维度表中的相应列。根据以下列表映射这些属性:将Yea
10、r属性映射到CalendarYear列。将HalfYear属性映射到CalendarSemester列。将Quarter属性映射到CalendarQuarter列。将Month属性映射到EnglishMonthName列。将Date属性映射到FullDateAlternateKey列。下图演示了该向导中的这些列映射。单击“下一步”按钮进入向导的下一页。随即会出现“选择度量值”页,其中显示了该向导所选择的度量值。该向导选择它标识为事实数据表的表中的各数值数据类型列作为度量值。在本课中,只定义了一个度量值组。但在第4课中,您将使用多个度量值组。在“选择度量值”页上,查看在“Internet销售”度
11、量值组中选择的度量值,然后清除下列度量值的复选框:促销关键字货币关键字销售区域关键字修订号该向导选择事实数据表中未链接到维度的所有数值列作为度量值。但这四列不是实际的度量值。前三列是将事实数据表与未在此多维数据集的初始版本中使用的维度表链接起来的键值。下图显示了“选择度量值”页上已清除的复选框和其余选定维度。单击“下一步”由于您前面已在该向导选择了“自动生成”选项,因此该向导将扫描层次结构。该向导对定义为维度表的表中的各列记录进行采样,以确定列之间是否存在层次结构关系。层次结构关系是多对一关系,例如“市/县”和“省/市/自治区”之间的关系。在该向导完成对维度的扫描和对层次结构的检测后,请在“检
12、测层次结构”页上单击“下xIR”步。在“查看新建维度”页上,通过展开树控件显示该向导检测到的三个维度的层次结构和属性,查看其中每个维度的维度层次结构。下图显示了“查看新建维度”页上的这三个维度。容维数据集向导|n|x|FroductTime+Lustomer上一步d)下一步完成世)II取消查看新建錐度查看新連錐度的结构并根据需要进行更改KUU15.依次展开“产品”维度和“属性”,然后清除LargePhoto复选框。单击“下一步”。LargePhoto列在本教程项目的多维数据集中不是很有用,并且由于它可能会占用大量空间,因此最好将其从多维数据集中删除。在“完成向导”页上,将多维数据集的名称更改为
13、AnalysisServicesTutorial。在该页上,也可以查看多维数据集的度量值组、度量值、维度、层次结构和属性。单击“完成按钮以完成向导。在解决方案资源管理器的AnalysisServicesTutorial项目中,AnalysisServicesTutorial多维数据集显示在“多维数据集”文件夹中,而三个数据库维度则显示在“维度”文件夹中。此外,多维数据集设计器在开发环境的中央显示AnalysisServicesTutorial多维数据集。请注意,在BusinessIntelligenceDevelopmentStudio的其他选项卡上也已打开数据源视图设计器。在多维数据集设计器
14、的工具栏上,将缩放级别更改为50%,以便轻松查看多维数据集中的维度表和事实数据表。下图显示了该设计器中的维度表和事实数据表。请注意,事实数据表是黄色的,维度表是蓝色的。下图显示了该设计器中的维度表和事实数据表。请注意,事实数据表是黄色的,维度表是蓝色的。flAiL:dlysisServicesTutorial-MicrosoftViEu:alStudio文件电)編辑视图项目g)生成调试格式数据库数据源视图窖维数据集工具窗口社区C)帮助HevelopmentAdventurecube设计Adventin-e.Iitf.dsv设计f起始页对象浏览器X|观多维数据集结构|丄维度用法|命计算|孚KFb
15、上:操作|通分区|旨透观翻译|袪浏览器3韬1掘鋼昭*丨也?,1囲1耳包电*度量值数据源视图DefaultJAdverLtureWorksIliY田adlQInternetS:ale5H:inn甜錐度DWA层次结构嘉属性13HE田田SAjIf日n.tur已norksShipIImt己Cuzt口mmrOrderIlmtmHueHateProduet匾错误列表岗任务列表圍输出已保存的项在“文件”菜单上,或者在BIDevelopmentStudio的工具栏上,单击“全部保存”。这将保存到目前为止您在AnalysisServicesTutorial项目中所做的更改,您可以根据需要在此处停止教程,以后再继
16、续。实验二多维数据组织与分析(OLAP)一、实验目的及要求(一)实验目的1理解维(表)、成员、层次(粒度)等基本概念及其之间的关系;理解多维数据集创建的基本原理与流程;3理解并掌握OLAP分析的基本过程与方法;(二)实验要求利用实验室指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出多维数据组织模型及其OLAP操作过程。实验完成后,应根据实验情况写出实验报告。二、实验设备及软件安装SQLServer2005服务系统、AnalysisServices系统。三、实验内容1运用AnalysisServer工具进行维度、度量值以及多维数
17、据集的创建(模拟案例)。2使用维度浏览器进行多维数据的查询、编辑操作。3.对多维数据集进行切片、切块、旋转、钻取操作。四、实验步骤在多维数据集设计器中检査多维数据集和维度的属性在多维数据集设计器中,在“多维数据集结构”选项卡的“度量值”窗格中,展开“Internet销售”度量值组。此时将显示为“Internet销售”度量值组定义的度量值。可以将这些度量值拖到所需的顺序中,以此更改这些度量值的顺序。度量值的顺序将影响某些客户端应用程序对这些度量值进行排序的方式。度量值组被命名为InternetSales,这是因为基础事实数据表在数据源视图中的友好名称为InternetSales。请注意,大写字母
18、“S”前自动添加了一个空格,以增加该名称的用户友好特性。度量值组及其包含的每个度量值都有属性,在“属性”窗口中可以编辑这些属性。下图显示了多维数据集设计器的“度量值”窗格中的度量值组和度量值。卩;AiudlysieServicesTutorial-MicrosoftVieu:=l1Studio-|n|x|pBevelopmentTDefaijlt錐度层次结构丨裁属性Time(dbo.Di.文件g)編辑视閣边项目g)生成调试格式辺数据库)数据源视閣多泄数据集工具窗口社区帮助Adventure._cube设计Adventm-e.If.dsv设计对象浏览器|X多维数据集结构维度用法|定计算|宵Km|
19、歸操作|塾分区|因透观翻译|恚浏览器連|噺師血*丨也呼丨X丨也丨贡*度量值数据源观图:R丁日塚lilternetSaleJAdventur已WorksUW-I咼Dj|OrderQusiltityDjjIgitFriceDj|ExtendedAiriountDj|1匸山tPriceHisconntFctDj|IliscountAitiountDj|FroduetEtaiulardCostDj|TttilFr:du21CoetDjjS:ileEAniountDj|TasAmtnullFreightDj|ernetS:ilesi十数田田人己已匸厲m_enorkzUnShip1;址已CustomerO
20、rderDueFroduet區错误列表任务列表同输出已保存的项在多维数据集设计器中,在“多维数据集结构”选项卡的“维度”窗格中,检查AnalysisServicesTutorial多维数据集中的多维数据集维度。请注意,尽管在数据库级别只创建了三个维度(如解决方案资源管理器所示),但在AnalysisServicesTutorial多维数据集中却有五个多维数据集维度。该多维数据集包含的维度比数据库多,其原因是,根据事实数据表中与时间相关的不同事实数据,“时间”数据库维度被用作三个与时间相关的单独多维数据集维度的基础。这些与时间相关的维度也称为“角色扮演维度”。使用三个与时间相关的多维数据集维度,
21、用户可以按照下列三个与每个产品销售相关的单独事实数据在多维数据集中组织维度:产品订单日期、履行订单的到期日期和订单发货日期。通过将一个数据库维度重复用于多个多维数据集维度,AnalysisServices简化了维度管理,降低了磁盘空间使用量,并减少了总体处理时间。在“多维数据集结构”选项卡的“维度”窗格中,展开“客户”,再单击“编辑客宀,”此时,在维度设计器中将显示Customer维度。(请注意,数据源视图设计器和多维数据集设计器仍处于打开状态。)维度设计器包含下列三个选项卡:“维度结构”、“翻译”和“浏览器”。请注意,“维度结构”选项卡包含下列三个窗格:“属性”、“层次结构和级别”和“数据源
22、视图”。“属性”窗格显示多维数据集向导设计的属性,“层次结构和级别”窗格显示多维数据集向导定义的用户层次结构。在维度设计器的“维度结构”选项卡上,可以添加、删除和编辑层次结构、级别和属性。下图显示了维度设计器的“维度结构”选项卡。AiuilysisServicesTutorial一MicrosoftV1eu:i1udio文件編辑观图项目迥生成调试格式)数据库数据源观图维度工具窗口址)社医帮助1A令l&DevelopmentTIlefaialtCnSto.er.di.设计AdverLtm-e.cube设计AdvAntnfe.DM.dsv设计X云维度结构加翻译|匕浏览器辐丨国ifess田Engli
23、shCoutltryReg田:EnglishEdue:mtion:EnglishUc匚up:mtion田:FirstN:iiTie田:FrernzhCoutlt:ryRegi田FrenchEdue:mtion0:FrenchUc匚up:mtion0JGender田:GeugraphyBley田HoueeOwnerFlag田LaztN:aine0:MaritalE:MidileHsitie田:N:iiTieEtyle田NuiTiberCar三Owned田:NuiTiberChildren吐討1T*1层次结构和级别I品层次结构回JFruvinceN:iiTieGeogi_aphyKey金Cueto
24、merv銅级别数据源观图GeographyKeyCityStateProvinceCodeStateProvinceN:=jtieCDuntrjrRegionCodeEnglishCcnjiLtryRegictlII:iineSp:aTLishCourLtryFLegiorJT:iiTieFrenchCoutltryRegiorJTamePoetalCodeS:aleETerritoryKeyCuztomertdbo.DimC.fCusttjrTiELb:EyGeogiaphyKeyCuwtomerAlt.TitleFirstNziTiEMiddleNameLastNaiTiEN:=urieS
25、tylEBirthli注tEMarit:alStatusr匾错误列表面任务列表圍输出已保存的项在设计环境中单击选项卡,或在解决方案资源管理器中右键单击多维数据集后单击视图设计器,可以切换到多维数据集设计器。5.在多维数据集设计器中,单击“维度用法”选项卡。在此AnalysisServicesTutorial多维数据集视图中,可以看到“Internet销售度量值组所用的多维数据集维度。如果多维数据集包含多个度量值组,则多维数据集维度可能只用于其中有些度量值组,而不用于其他度量值组。此外,可以定义每个维度及使用该维度的每个度量值组之间的关系类型。下图显示了多维数据集设计器的“维度用法”选项卡。*:
26、tliiteiTLetS:aleEMolap0%新連分医.存储设置设计聚合炀mffi禹错误列表臣任务列表国输出已保存的项单击“浏览器”选项卡。请注意,由于浏览多维数据集尚未部署到AnalysisServices实例中,因此无法对其进行浏览。此时,AnalysisServicesTutorial项目中的多维数据集只是一个可以部署到任何AnalysisServices实例的多维数据集定义。部署和处理多维数据集时,将在AnalysisServices实例中创建定义的对象,然后用基础数据源的数据填充这些对象。下图显示了多维数据集设计器中的“浏览器”选项卡。在下面的任务中,您将浏览AnalysisSer
27、vicesTutorial多维数据集和它的每个维度,以确定为了改进该多维数据集的功能而需要执行的更改类型。浏览已部署的多维数据集通过单击BusinessIntelligenceDevelopmentStudio中的“客户选项卡,切换到“客户”维度的维度设计器,然后单击“浏览器”选项卡。“省/市/自治区名-地域”用户层次结构将显示在“浏览器”选项卡的工具栏上的“层次结构”列表中;当前级别的名称“(全部)”将直接显示在该工具栏下方,而“(全部)”级别的单独成员将显示在浏览器窗格中。默认情况下,“(全部)”级别的唯一成员的名称是“全部”并且可见。对于方案维度等维度,可以更改或隐藏此级别的名称。在“级
28、别和成员”窗格中,展开“(全部)”级别的“全部”级别成员以显示“省/市/自治区名”级别的成员。展开此级别的Alabama成员以显示“地域”级别。展开“地域”级别的280成员,以在“客户”级别查看该成员。使用维度设计器的“级别和成员”窗格,可以在多维数据集向导所设计的用户层次结构中轻松查看每个级别的成员,因而可以确定需要进行的功能更改。请注意以下几点内容:此层次结构没有定义“市/县”级别,“地域”级别的成员是DimGeography表键值,“客户”级别显示客户的电子邮件地址而不是客户的姓名。下图显示了“级别和成员”窗格中的展开层次结构。9ArL:alyEiEServicesTutorial-Mi
29、crosoftVisualStudio-I因MLe层啟结构:蠱StateProvinceNarrie-G-eoetarhy|1r4r4r文件通编辑视團匹)项目生成迪调试数据库)维度追)工具窗口社区帮助注|De化pmentj|DefaultAdventuie.cubn设计Time,dim设计ICiistoBer-dia设计Adventm-p.Dii1.dsv设计X区錐度结构|洛翻译匕浏览器当前级别:兀Customer0All日丄Alab:inia曰280t::AlbAriJebony35田+田田d田J田B:jreiTL田丿BrLdenbiirg田E;ritishC:liinibia田JBrijT
30、LEwick田丄C:lifurnia田Ch:rentm-Maritimm田dColorado田JCorLTLecticut匾错误列表自任务列表園输出就绪在“客户”维度的维度设计器的工具栏上,在“层次结构”列表中选择“英语国家/地区区域名”,然后在“级别和成员”窗格中展开“全部”级别成员。随即会显示“英语国家/地区区域名”属性的属性层次结构。默认情况下,维度的每个属性都具有包含以下两个级别的层次结构:“(全部)”级别和包含每个属性成员的级别。第二个级别的名称是属性名本身。下图显示了“英语国家/地区区域名”属性的层次结构。ArLalysisServicesTutorial-MicrosoftVis
31、ualStudio|n|x|文件迪编辑视图迪项目生成调试数据库维度TM(T)窗口社区帮助01)询kR01晶窃臨1巧k0二|LNBevelopmentDefault4.Adven+m-H.cube设计Time,dim设计CustoBer.dia设计Adven+m-H.UW.d丹设计仃X丘维度结构I览翻译|匕浏览器技丨型固圏料車夢丨层炯构:语言:I駄认位当前级别:(All)Al*aaa0aa-r:aliaC:iTLadaFrancmGermaryUnit*KingdomUrLitmdUnkTLuffn咼错误列表制任务列表圍输出就绪在解决方案资源管理器中,双击“维度”文件夹中的“时间”。随即在BID
32、evelopmentStudio的维度设计器中打开“时间维度。5.在“时间”维度的维度设计器中,单击“浏览器”选项卡。随即将在“层次结构列表中显示用户层次结构CalendarYear-CalendarSemester-CalendarQuarterEnglishMonthNameFullDateAlternateKey。6.展开“全部”级别成员以显示CalendarYear级别的成员。展开2003成员以显示CalendarSemester级别的成员。展开1成员以显示CalendarQuarter级别的成员。展开2成员以显示EnglishMonthName级别的成员。展开June成员以显示Ful
33、lDateAlternateKey级别的成员。下图显示了为显示FullDateAlternateKey属性而扩展的层次结构。文件g)編辑观图迪项目世)生成0)调试数据库维度TM(T)窗口社医帮助设计Customer,dim设计Adventure.cube设计tXArL:alysisServicesTutorial-MicrosoftVisualStudioIrfpElIlevelupmerLttDetaultTEflJ-显錐度结构|滋翻译|匕浏览器底炊结拘:|ACalendarYear-CalendarSemester二|语言:|就认恒当前级别:-d+J2001(All)All+2002-20
34、03lae田日田日-2003-06-010000002003-06-020000002003-06-030000002003-06-040000002003-06-050000002003-06-060000002003-06-070000002003-06-080000002003-06-090000002003-06-100000002003-06-110000002003-06-12000000.错误列表目任务列表倉输出就绪lB匪血黯姗毎问单击AnalysisServicesTutorial多维数据集的设计器选项卡,切换到BIDevelopmentStudio中的多维数据集设计器。选择“
35、浏览器”选项卡,然后在设计器的工具栏上单击“重新连接”。也可以单击浏览器窗格中间显示的“单击此处可再次尝试加载浏览器”链接。该设计器的左窗格显示了AnalysisServicesTutorial多维数据集的元数据。您会看到“透视”和“语言”选项显示在“浏览器”选项卡的工具栏上。您还会看到“浏览器”选项卡包含两个位于“元数据”窗格右侧的窗格:上面的窗格是“筛选器”窗格,下面的窗格是“数据”窗格。下图突出显示了多维数据集设计器中的各个窗格。晶T|DevelopmentDefaultCustomer,dim设计Adventm-e.DW.dsv设计X元数据窗格筛选器窗格ArL:ilyEieServic
36、esTutoriil-MicrosoftVisualStudi0-Inlxl7注”広T侯|Development和妄雪熒匡匸|f_文件的編辑视團理项目g)生成调试数据库)寥錐数据集工耳窗口社区帮助AualysisS.cube设计|Time,dimCustomer,dim设计Adventure.DW.dsv设计An.HB叵辽叵厲嚏辽辽辽唸叵辽辽O田田田田田田田田田田田田田雪錐数据集结构|二錐度用法|计算|上KFA卜:操作I劇分区透视|申翻译|浏览器维度层次结构运算符筛选表;透屯:lAnalysisSeyvicesTu|吾営:I就认恒就绪Lyzie5ervi:ezTlitor1:alMeasm-e
37、s:-rTierDateHueD注EmployeeGeugi-aphynternetS:ileEOrderDmt.ailsFrijduetFrom:tionResellerS:leEReaEonS:ileETerritor7atD任务列表T荀输出岛错误列表将筛选字段拖至此处I将列字段拖至此处选挥维度将汇总或明细字段拖至此处数据窗格在“元数据”窗格中,依次展开“度量值”、“Internet销售”,然后将“销售额”度量值拖到“数据”窗格的“将合计或详细信息字段拖至此处”区域。在“元数据”窗格中,展开“客户”。请注意,“客户”维度中的所有属性层次结构均显示在“元数据”窗格中。“客户”维度列表还包含“
38、省/市/自治区名-地域”用户层次结构。可以使用任意一个或多个属性层次结构来确定多维数据集的维度。不过,对于业务用户而言,各维度在同一级别包含如此多的可见层次结构,可能会很难进行浏览。将“英语国家/地区区域名”属性层次结构拖到“数据”窗格的“将行字段拖至此处”区域。现在便可查看按各客户所在国家/地区确定维度的Internet销售。下图显示了这一确定维度的过程。AnalysisServicesTutorial-MicrosoftVisualStudioIrfT刃文件的编辑视團边项目生成调试数据库篓维数据集TM(I)窗口社区帮助01)H甜剑Jkdventure.cube设计Time,dim设计藏爹维
39、数据集结构I剑维度用法I计算IKF口卜:操作|囲分区|因透视|J翻译|浏览器述丨您割曲訂烈適f|囲冒宜丨透视:RdventureWorksD7?语f:|駄认怕_错误列表自任务列表圍输出爲聯駅滂篩呼诵貂就绪在“元数据”窗格中,依次折叠“客户”和“度量值”,展开“产品”,右键单击“产品系列”,然后单击“添加到列区域”。现在可以查看按国家/地区和产品系列确定维度的Internet销售。不过,您会看到每个产品系列由单个字母表示,而不是由产品系列的全名表示。下图显示了按国家/地区和产品系列确定维度的Internet销售。在“元数据”窗格中,折叠“产品”,展开“订购日期”,然后将OrderDate.Cal
40、endarQuarter拖到“数据”窗格的“将筛选器字段拖至此处”区域。在“数据”窗格的筛选器字段区域中,单击OrderDate.CalendarQuarter旁边的向下箭头,清除“(全部)”旁边的复选框,选中“1”旁边的复选框,然后单击“确定”。随即可查看按国家/地区和产品系列确定维度的、第一日历季度的Internet销售。不过,您实际上查看的是各日历年度而不是任何特定日历年度的第一日历季度值。下图显示了按国家/地区和产品系列确定维度的、每年第一日历季度的Internet销售。维度层次貉构运算符筛选表达式雄挥维度1OrderDate.Calendai-Quarter1ProductLineM
41、RST总计EnglishCoimtryRegionBueSalesAjtiliutltSalesAjTujiiTLtSalesAjth:iutltSalesAjtu:iijtl+SalesAjtu:iutlt山丄妣r:alia997T5T.1199999875029120.4058005912T128.61000000699TT5T.11999998T9061000.58440184C:=LiLada2T3T36.129999999948943.34769998782736.i:i7i:ii:ii:ii:ii:ii:i12T3T36.1299999991977844.8620999TFr:iT
42、Li:e348562.4499999981323295.8034999955001.2099999995348562.AAddddddS2644017.T1430033Germ:=LTLV428772.4699999981390063.2491999954382.2899999995428772.Ae-dagagdE!2894312.33820041UrdtEdKingdom528278.1099999971610247.364367636.3299999989528278.1099999973391712.21090071UrdtEdStates1302225.539999994322438
43、.40530076217168.7899999881302225.539999999389789.51080357总计3879331.8199999714624108.5763013604053.2999999923879331.8199999729358677.2207068在“元数据”窗格中,展开OrderDate.CalendarYear,然后展开CalendarYear。右键单击CalendarYear属性层次结构的2002成员,然后单击“添加到子多维数据集区域”。随即将在“数据”窗格上方的“筛选器”窗格中显示“订购日期”维度的2002成员,并限定在“数据”窗格中显示的值。这等效于多维
44、表达式(MDX)查询语句中的WHERE子句。有关详细信息,请参阅MDX查询基础知识(MDX)。每一产品系列的Internet销售的日历季度1的值(按国家/地区确定维度)现被限定为2002年,如下图所示。如何启用多维数据集的钻取功能在AnalysisManager树窗格中,在“教程”数据库下,展开“多维数据集”文件夹,右击“Sales多维数据集,然后单击“编辑”命令。在多维数据集编辑器中,单击“工具”菜单中的“钻取选项”命令。在“多维数据集钻取选项”对话框中选择“启用钻取”复选框。单击“全选”,然后单击“确定”按钮。保存,然后关闭多维数据集编辑器。如何给角色提供钻取权限在AnalysisMana
45、ger树窗格中,在“教程”数据库下,展开“多维数据集”文件夹,右击“Sales”多维数据集,然后单击“管理角色”命令。多维数据集角色管理器出现,显示Sales多维数据集现有角色的列表。在多维数据集角色管理器中,单击“Management”角色,然后在“钻取”列中单击扩展按钮(“”)。(还可以单击“编辑”。)“编辑多维数据集角色”对话框出现。选中“允许钻取”复选框。单击“确定”按钮。在多维数据集角色管理器中,“Management”角色显示钻取已启用。关闭多维数据集角色管理器。如何使用AnalysisManager分析管理器深化到源系统在AnalysisManager树窗格中,在“教程”数据库下
46、,展开“多维数据集”文件夹,右击“Sales”多维数据集,然后单击“浏览数据”命令。多维数据集浏览器出现,显示在多维数据集内汇总的数据。通过双击“USA”、“WA”和“REDMOND”级别,展开“Country”级别。为了更好地查看数据,可能需要最大化“多维数据集浏览器”窗口。右击“Abbey”的单位销售额,然后单击“钻取”命令。“钻取数据”对话框显示源系统中的事务,这些事务在AnalysisServices中创建了该单元值。关闭“钻取数据”对话框。关闭多维数据集浏览器。实验三数据挖掘一、实验目的及要求(一)实验目的1理解数据挖掘的基本概念及其过程;2理解数据挖掘与数据仓库、OLAP之间的关系
47、3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。(二)实验要求利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并绘出实验案例的数据挖掘模型。实验完成后,应根据实验情况写出实验报告。二、实验设备及软件安装SQLServer2005服务系统、AnalysisServices系统。三、实验内容将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft决策树”算法在客户群中找出会员卡选择模式。请将要挖掘的维度(事例维度)设置为客户,再将Member_Card成员的属性设置为数据挖掘算法识别模式时要使用的信
48、息。然后选择人口统计特征列表,算法将从中确定模式:婚姻状况、年收入、在家子女数和教育程度。下一步需要训练模型,以便能够浏览树视图并从中读取模式。市场部将根据这些模式设计新的会员卡,使其适应申请各类会员卡的客户类型四、实验步骤1创建揭示客户模式的数据挖掘模型在AnalysisManager树视图中,展开“多维数据集”文件夹,右击“Sales”多维数据集,然后选择“新建挖掘模型”命令。打开挖掘模型向导。在“选择数据挖掘技术”步骤中的“技术”框中选择Microsoft决策树”。单击“下一步”按钮。在“选择事例”步骤中,在“维度”框中选择“Customer”。在“级别”框中,确保选择了“Lname”。
49、单击“下一步”按钮。在“选择被预测实体”步骤中,选择“事例级别的成员属性”然后在“成员属性”框中选择“MemberCard。单击“下一步”按钮。在“选择训练数据步骤中,滚动到“Customer”维度,清除“Country”、“StateProvince”和“City”框(因为不需要在聚集级别上而只需要在单独的客户级别上确定客户模式)。单击“下一步”按钮。在“创建维度和虚拟多维数据集(可选)”步骤中,在“维度名称”框中输入“CustomerPatterns”。然后在“虚拟多维数据集名称”框中输入“TrainedCube”。单击“下一步”按钮。在最后的步骤中,在“模型名称”字段中键入“Custom
50、erpatternsdiscovery”。确保选择了“保存并开始处理”。单击“完成”按钮。则消息,说明“已成功完成处理”然后单击“关闭”按钮。2读取客户决策树现在已在OLAP挖掘模型编辑器中。可以使用编辑器编辑模型属性或者浏览其结果。最大化OLAP挖掘模型编辑器。决策树显示于右窗格中。其中包括四个窗格。中间的“内容详情”窗格(1)显示焦点所在的决策树的部分。“内容选择区”窗格(2)显示树的完整视图。该窗格使您可以将焦点设置到树的其它部分。其它的两个窗格分别是“特性”窗格(3)(特性信息可以用“合计”选项卡以数值方式查看或者用“直方图”选项卡以图形方式查看)和与焦点所在节点相关联的“节点路径”区
51、域。在“内容详情”窗格的决策树区域中,颜色代表“事例”的密度(在本事例中为:客户的密度)。颜色越深则节点中包含的事例就越多。单击“全部”节点。该节点为黑色,因为它代表(7632)事例的100%。7632代表1998年活动的客户数目(即Sales多维数据集中有事务记录的客户)。这个数字也说明在1998年并非所有的客户都是活动的,因为我们从“Customer”维度的“Lname”级别中所包含的9991个客户中只得到7632个事例。特性窗格显示“全部”节点中,所有事例的55.83%(或者说4263个示例)可能选择铜卡(Bronze);11.50%可能选择金卡(Golden);23.32%可能选择普通
52、卡(Normal);9.34%可能选择银卡(Silver)。如果没有显示百分比,则可以调整“特性”窗格中“合计”面板的“可能性”列的大小。如果选择了树的不同节点,此百分比将会更改。让我们调查一下哪些客户可能选择金卡。若要执行此操作,则需要重新画出树以便勾画出金卡的高密度区。在右下角的“树颜色基于”字段中选择“Golden”。该树显示另一种颜色模式。可以看出“Customer.Lname.YearlyIncome=$150K+”节点的密度高于其它任何节点。树的第一个级别由“yearlyincome”属性决定。树的组织由算法决定,其基础是该属性在输出中的重要性。这意味着“yearlyincome”
53、属性是最重要的因素,它将决定客户可能选择的会员卡的类型。选择“Customer.Lname.YearlyIncome=$150K+节点。该特性窗格显示收入较多的客户中,45.09%的客户可能会选择金卡。这个百分比要比“全部”节点中的(11.50%)高得多。当继续在树中做进一步调查时,让我们调查一下这些百分比是如何演化的。双击“Customer.Lname.YearlyIncome=$150K+”节点。该树现在只显示“Customer.Lname.YearlyIncome=$150K+节点下的子树。选择“Customer.Lname.MaritalStatus=M”节点。在“节点路径”窗格中,可
54、以看到包含于该节点的客户的完整的特征定义:收入高于150000美元且已婚的客户。该“特性”窗格现在显示:与上一级别(45.09%)相比,较高百分比(81.05%)的客户可能会选择金卡。我们再返回到顶层,进行一种与此不同的调查,即调查可能选择普通卡的客户。若要返回顶层节点,可以单击从“Customer.Lname.YearlyIncome=$150K+节点左面伸出来的线(方法1)或者使用“内容选择区”回到树的顶部(方法2)。在“树颜色基于”字段中选择“Normal”。树刷新节点的颜色之后,可以看到“Customer.Lname.YearlyIncome=$150K+节点的颜色非常浅;这意味着这些
55、客户选择普通卡的可能性非常小。另一方面,可以看到“Customer.Lname.YearlyIncome=$10K$30K节点的颜色非常深。这意味着这些客户选择普通卡的可能性非常高。“特性”窗格显示在此年收入范围内的客户中,91.92%的客户可能会选择普通卡。树还显示已无法对此节点进行进一步调查。这意味着在树的这个分支中,年收入是决定客户选择普通卡的可能性的唯一因素。可以查看树的其它分支并调查客户选择一种卡而不选择另一种卡的可能性。市场部可以使用此信息来确定最可能选择某种类型卡的客户的特征。根据这些特征(收入、子女数、婚姻状况等等),可以重新定义会员卡服务和方案以便更好地适应其客户。完成对决策
56、树的分析之后,请关闭OLAP挖掘模型编辑器3浏览数据挖掘维度在AnalysisManager树视图中,展开“共享维度文件夹,右击“Customerpatterns维度,然后单击“浏览维度数据”命令。维度浏览器打开。展开“全部”成员维度。事錐数据集浏览蛊-TrainedCube-!x|錐度浏览誥-CustomerPatterns-|n|x|成员厘性(巳自定义成员公式出现定选择“Customer.Lname.YearlyIncome义该节点的MDX公式。=$150K+”成员。在“+|-HI/I(I)I自定义成员公式”窗格中,錐度浏览蛊-CustomerPatterns錐度成员二鼻全部fCustomer丄前mm,YearlyIncome=$10K-$30K+扌Customer丄门ame,YearlyIncome=$110K-$130K+Of匚ustomer丄门arriE,YearlyIncome=$130K-$150K+OfCustom
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北师大七年级下册认识三角形二课件
- 玉溪师范学院《体育游戏与拓展训练》2023-2024学年第一学期期末试卷
- 玉溪师范学院《数据库原理与应用》2022-2023学年期末试卷
- 冀教版英语六下《教案》教学设计
- 几种重要的金属教案
- 交管12123学法减分考试题目及答案-知识题库
- 中学生使用手机管理规定
- 大班美术教教案教育课件
- 2024年精细药液过滤器项目评价分析报告
- 2024年营养型输液项目评估分析报告
- 2024至2030年中国发光字边底数据监测研究报告
- 2024-2030年中国热泵热水器(空气源热泵)行业运营模式及发展策略分析报告版
- DB41T 1250-2016 小麦秸秆粉碎还田技术规程
- 2024-2030年中国楼宇自控系统行业发展动态规划分析报告
- 吊装起重作业安全培训课件
- 物业管理费收费技巧培训
- 羽毛球比赛活动
- 山东省临沂市兰山区2024-2025学年部编版七年级上学期期中历史试卷(含答案)
- 北师大版五年级上册数学期末测试卷及答案共5套
- 行政复议法-形考作业4-国开(ZJ)-参考资料
- 特种设备锅炉日管控、周排查、月调度主要项目及内容表
评论
0/150
提交评论