数据挖掘实验三讲解_第1页
数据挖掘实验三讲解_第2页
数据挖掘实验三讲解_第3页
数据挖掘实验三讲解_第4页
数据挖掘实验三讲解_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实验三设计并构造AdventureWorks数据仓库实例【实验要求】在SQL Server平台上,利用AdventureWorks数据库作为商业智能解决方案 的数据源,设计并构造数据仓库,建立OLAP口数据挖掘模型,并以输出报表的形 式满足决策支持的查询需求。【实验内容】步骤1:需求分析:以决策者的视角分析和设计数据仓库的需求;步骤2:根据所设计的需求,确定本数据仓库的主题和主题与边界;步骤3:设计并构造逻辑模型;步骤4:进行数据转换和抽取,建立数据仓库:创建数据源,建立OLAF和 挖掘模型,使用多维数据集进行分析,建立数据挖掘结构和数据挖掘模型, 创建 报表。【实验平台】Win7 操作系统,

2、SQL Server 2005【实验过程】一、创建 Analysis Services 项目1. 打开 Busin ess In tellige nee Developme nt Studio。2. 在“文件”菜单上,指向“新建”,然后选择“项目”。3. 确保已选中“模板”窗格中的“Analysis Services项目”。4. 在“名称”框中,将新项目命名为AdventureWorks。5. 单击“确定”。Q x-:AdventureWorksJ易卿漓集比堆sF- Q ftfi逊二、创建数据库和数据源1. 运行 AdventureWorks sql server 2005 示例数据库.msi

3、,然后用 SQL Server Management Studio 附加数据库 AdventureWorks_Data.mdf 。(1)运行 AdventureWorks sql server 2005 示例数据库.msi(2)田 SQL Server Management scdioms口wAdvencreworksIDafa.mdf酩鲁幣aSQL serve2005PBT!-.VWndhws Sow systemnJ-d WINNBFtE2LQBAA”wo (SQL smrv 吧ga田0 一 田 s 一 田 田一HIMSDKSZS5:汞BulijSI-3WWEsnsss.SM*IrTnu2

4、EITT:;HsnBcltasssKi?* WIH.HEREZSBKCWO -Ji- 3SS3-L5爵第一宁nLBBool.Lmd. 20 ktrfLoctL Fogr-ul F1.H蛊 L?oen J13.蛊 E66j + V Cum吕 Til.盅R .1 Lnr*蛊 el EKPlltr+ k L oro see ail.匚ps-lm+ I?d-owoffigI LFsroil。?SQL MtrvK & L 8&0 8-L m - flmI L IIEP 厂jjL?cr0?Yinl 竺 Eli.0 BL?*?区Fl.一 JldyIBIILWglhtfTS. D.FLIFId!fns2iRN

5、-NERE2LqE KCAV-.OGjrtRjAdventure Works 。2. 在解决方案资源管理器中,右键单击“数据源”文件夹,然后选择“新建数据源”。3. 在“欢迎使用数据源向导”页面中,单击“下一步”按钮。4. 在“选择如何定义连接”页上,单击“新建”向Adventure Works数据库中添加连接。5. 在“连接管理器”的“提供程序”列表中,选择“本机OLE DBSQL Native Client ”。6. 在“服务器名称”列表中,键入或选择承载AdventureWorks的服务器的名称。7. 在“登录到服务器”组中,选择身份验证方法,并输入凭据。8. 在“选择或输入一个数据库名

6、”列表中,选择AdventureWorks,然后测试连接。若连接成功,再单击“确定”按钮。蝗仪程序识):| 本忸 OL CBSQL Native Client_怪Windaws SWhE(W痺用SQL Server号崎验还Q 冃户容W): M 密码(叩洼接至据库“送擇竝入_个故握库名);AdvcrtturtWcrki附力0欽咼军文4毛H):119. 单击“下一步”按钮进入向导的下一页。10. 在“模拟信息”页中,选择“使用服务帐户”,再单击“下一步”11. 请注意,在“完成向导”页中,数据源名称默认为12.单击“完成”。新的数据源Adve nture Works翼决方宴资腔音理器-AdvenW

7、re. 4ri AdventureWorks+*t Advtrrturt Workt.ds.A去灌飙握叢J帚芭J观将显示在解决方案资源管理器的“数据源”文件夹中。三、创建数据源视图1.在解决方案资源管理器中,右键单击“数据源视图” 打开数据源视图向导。7曲聖理歸= |些口曲_* 欢迎便用敬据涯視图向导赠啊舸a!咖卯血.氓呼制和Jfi 那眄甫肆事證后阿攔疋贏可j便厢I彌iiffiy忻鼻円憾朝,选择“新建数据源视图”系统将2. 在“欢迎使用数据源视图向导”页上,单击“下一步”3. 在“选择数据源”页的“关系数据源”下,系统将默认选中您在上一个任务中创建的Adventure Works DW 数据源

8、。 单击“下一步”。若要创建新数据源,请单击“新建数据源”,启动数据源向导。E&tSFil:竝理油鬥RSA4. 在“选择表和视图”页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源 视图中:-J ProdiKtontTraniictianHisslQ1J dhOiAWBuildVtrsioti_3 Prcidii&o血Pr口dluclMo血I二 PraductQrk.vP*rgductAndDr$. _3 iales.SahM-Terrrtory 国 Per询 nAddrw5二 HumariRiFEauFces.vJ 口 b 呂 ndi. r Praduction-UnitMfSUi

9、rit_3 Piirbj5iingi.PKodkjctVendorJ HunnanResourcts.Dep.霰J HurnjnReourcKlfnpL日1 SateYJndhndualCu&to.iiJ SalH-vlndtvidualDefnM Pe-rQvi.vStiHtePngvinctgl HunmnRc&ufCfs.vJob.=芒日J PurchaipgivVendor|_J Productinn.vPn&ductM.昱示0 FitfRiI T II 脚沽5. 单击“下一步单击6. 在“完成向导”页上,默认情况下,系统将数据源视图命名为Adventure Works“完成”。系统将

10、打开数据源视图设计器,显示Adventure Works数据源视图。縄舫実匪胳理躍T -谥/_ j AdwenturtWorluF1-刼揚S*#* Adventure Works.ds4-乙 sssweAdventure Worksdsv-&妄淮躺集-三建i丄趣肃-二毎竺二j杂皿四、定义维度1. 在解决方案资源管理器中,右键单击“维度”,然后单击“新建维度”。2. 在3. 在“欢迎使用维度向导”页上,单击“下一步”。“选择生成方法”页上,验证是否选择了“使用数据源生成维度”选项,然后单击“下。4.在“选择数据源视图”页上,验证是否选择了Adve nture Works数据源视图。址华虞向导1

11、. . I-3-ILq选样碗津祕閔却捋九4LS1S曲JE的設85簿砸.I Adventure Worksa飄HumanRewurces.DepartJTient Hum*nRewurepfflrtmentH le.vlndrviid ualCuxkpmer SleSt.dodrvidualDemfrg raphies Person.wSteProviftc eCount ryRegkin HumanRetourcfrs.vJcit-andlidateEiTiployn Punchfifing.vVcndprProductidrl.vPraductMDdelfttFuctDr1!5.在“选择维度

12、类型”列表中,选择“标准维度”6. 在“选择主维度表”中,点击“下一步”iWM):HumanRescHjircei.DepartmentV DrpartmentJDNameGrgupNameE Modified Drte7. 在“选择维度属性”中,点击“下一步”ISV.務要匀H在匙契n茅国芝.進庫性创:*国怪容徐皿性M殆列:;Na meNoeuNbitic4 Group NameGroupNameGroupNam#0 Modified DarteModifiedDateModifiedDate8. 在“指定维度类型”中,点击“下一步”9. 在“定义父子关系”中,点击“下一步”10“检测层次结构

13、”中,点击“下一步”11.点击“下一步”,然后点击“完成”- Adventure.斗鲁活j AdvcnturcWoirlukJ-5體忍+* Adventure Works.di0 _/电 Adventurt Works.dsvO爭谨站克IdF I .(tz OtpartmcnLd inJ 前- Lj ftfe五、使用多维数据集进行分析1. 在解决方案资源管理器中,右键单击“多维数据集”并选择“新建多维数据集”启动多维 数据集向导。2. 在“欢迎使用多维数据集向导”页上,单击“下一步”。3. 在“选择生成方法”页上,确认已选中“使用数据源生成多维数据集”选项,然后单击“下4. 在“选择数据源视图

14、”页上,点击“下一步”。5. 在“检测事实数据表和维度表”页上,点击“下一步”6.在“时间维度表”页上,如下所示。点击“下一步”。7.在“查看共享维度”页上,点击“”,然后“下一步8.在“选择度量值”页上,选择可用度量值。RjfflSSfilAl:*亟g直题怕;7拉| Employee Department History| Employee Department History 计数HijmariResources:_Empl-ciyeeepartrriefit.7| 回 v Indrvidudil Customerf?EimJifl PrQinntiQnSales_vinidlrvidij

15、lal 匚 uHaEeF.EEnil Promorti.z| Vj| v ludFvidual Customeir ttSISalevIrldlivi-dualCLJlOmerLZ1 皿 v Individual DemographicsLZlTotal Purdhase VTDSale5_vindMdualDierwDgraphiSi.TotalPur.冈 aJ Tertal ChildrenSdlm_vindivvdu4lDimrtQgrnphicfiTQtalCliiLi/jNu mber Children At NameSaleE_vindiiduilDe-rTHgraphic-5.N

16、umber./| 亠 Number Cars OwndSdl#&avlndiidu-ailD-fi,bO|r3phic-&iNuiTib-fi._|y| J v Individual Demographies t+BSales .vlndividulDemographics7| 同 v Stat# Provirxe Country Region团 4 TcrniterylDP h n衍悴P riQfvi rc K Q U nij ryR=” i m T d/| 甘 w -tatc- Province Country Region 计数PeT5an_vtatePraMTnceCDuntryfte

17、giDnl/l LjL m Job Crdidte Emsl&virieril谢S庐膜他 Adventure Works.ds-1 甲客 AdvfrrttLjre, Worki.c-*滅匕 DepartnriBfiiLd i mr - 丄 v Individual Customer.dimtX v Individual Demographics-dirn- 匕 v State Province Country Region.- 丄 v Job Candidate Employment dir t/1 v Vendor.dimiL - tZ v Product Model Instiurtion

18、s.dini|一 &用色i- 1空顶13. 在多维数据集设计器的工具栏上,将“缩放”级别更改为50 %,以便更轻松地查看多维数据集内的维度和事实数据表。注意,事实数据表是黄色的,维度表是蓝色的。円EU5IMIWFJ 丁 hJ JlIDtriHapfliei ”-Sb fit 3 Tjta_AdwAMiirA WMkljeiJlM 1914*1flFtlAdwntirH Wtirk&ElEM 帳计 1 |底p X_|页野遢昭萼场忖-启金丨甘比u 吃聊*害事丨回丨口 2为san戟走祁祕0HwVith twin- N| 止內灯*百 dF*vttixLa-jT Ehdifl CQELfilFt Lnd

19、iri 4s.di Dir忖讷ii*=v 31414 hrmnc# CiEnlrj Aan血 CStttt Is mi Uk*4CiL-rri Fi1ce3. tjf 1V|W 也口上、1/ v Lwiiv! Jul! DuE.r-_ V UlMilTIDMhfTAphlUr吕 tif bp#?! Tl,T*,iltB C*fT 比知申 I J-f Jeb CujkiclhL-i-t Td 匝* “出码.I IPlFWfU hM14.在“文件”菜单上,单击“全部保存”Adn:,六、创建用于个人客户方案的挖掘结构1在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘 向

20、导。%逐图S冋寸 D I 回隸诬使用数据挖握向导直冃此吶可鬧菲祚蚊15到曲和帕握虚植虫 腔卿星一稗代塞已逊! 顽溟乳逛曲.巨基手对CXAP 逛3鼻星城的三折:肛鼻用手世at宓 運2卫竝riffle推,西行换y ”下TT捋生冏刃却闲艇挪.孽主-IKiW-再厦出冋5蛊巴不再斷锻JSFtHHH 2. 在“欢迎使用数据挖掘向导”页上,单击“下一步”。3在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”止”/步 。,再单击“下一4在“创建数据挖掘结构”页的“您要使用何种数据挖掘技术? ”下,选择 策树”。Microsoft 决5单击“下一步%昨誣向骨(7可用站刚觀囲:E吞Hurwa liR

21、bSOu 哺育乩 DRrtrn 亡 M HumanResources.Employ&eOepartmcntH Salr5.vIndlividualC4J5tomer Sales.vIndividiiialDemog raphics- Person.vStatePrDvi nu 比匚 QurrtsyReg ionHurna nReco-urceE.iuJob 匚 zntdi dateEmployn Purha sing.vVeridcir Producbon.vProductMQdclInliructioniS6在“选择数据源视图”页上,请注意已默认选中Adventure Works。在数据源视

22、图中,单击“浏览”查看各表,然后单击“关闭”返回该向导。7单击“下一步”。8在“指定表类型”页上,选中vlndividualCustomer表旁边“事例”列中的复选框,再单击“下一步”。A. ErtB擢耀问导I = 1回珏走芳杆町喪便豆曲吝茎型”DepartmentEmplfiyee&epdifVrtelHittaryEE罰 vCndlMdualCjUFtomerL里0vindivduailDefiicigraphics00vJg!bCandid4l?nnpla)f meritvPrQduCtMadellfistructi&nSnEvStatePifffviriceCo(0)17. 在“指定列

23、的内容和数据类型”页上,单击“检测”以运行对数值数据进行取样并确定数值列是否包含连续或离散值的算法。例如,某列可包含薪金信息,用以作为连续的实际薪金值,也可包含整数,用以表示离散的编码薪金范围(例如1 = $25,000 ; 2 =从$25,000到 $50,000)。18. 单击“检测”后,请查看“内容类型”和“数据类型”列中的各项;如有必要,请进行 更改,以确保设置与下表所示一致。您可能想要将数值作通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下, 为文本处理。列内容类型数据类型CountryRegionNaneDiscreteTextCustomerIDkeyLongFirs

24、tNameDiscreteTextLastNam日Di sereteTextMiddleNameDiscreteTestStateProvinceNamsDiscreteTexta卜回指走列的内畧和躺饕璽帀定扌注蹄列旳円客心i降SL列內苔負S3(J: Country Region Namie-;DiscreteText扫 8*5询mb IDKeyLo呦口 First N-ameDiscnrteTextH l4rt NjimeDipcnrtrTKti3 Middle* NaimrOicrTteTffifttate ProMnce NmeDiscreteTiMCtEtTi19. 单击“下一步”。I

25、n dividual Customer。20. 在“完成向导”页上的“挖掘结构名称”中,键入21. 在“挖掘模型名称”中,键入 TM_Decision_Tree。22. 选中“允许钻取”复选框。、KSSi=jQ再血8!希許呂称.汕而淮SI舷砂J导./ “Indlrvidual CustomerJ!SlSaiSfc(D):J预邮:日 Individual CutorTier 曰习列i5 Cfiurttry R%詁M Niitli SQmcimer IDFirst NameLast Name 也| Middle Name 匂 State Province iName23.单击“完成”。S鱼_ +

26、AdventureWorks ME澹+* Adventure Works-dsO却淳視圉痼 Adventure Works-dsvo參刪拒集” Adventure Works-cubet/* Departmentd !mt/* v Indivi-duall Customer.dimt/ v Indrvi-duall Dernographics.dim t/* v State Provin匚色 Cou nlry RegiiQn.c t/ v Job CandiditB Employmentdinr t/ v Vendor.dimtZ v Product Model Instructiors.d

27、im氏 Individual Ciistomer.dmmo用色二程序集七、挖掘模型和挖掘结构如下图。Individual Customer.dmm iSi+ Adventure Works.cube fittj Department.dim iSit Adventure Works.dsv ifiit i&35a冏眈构iXlamF|心jasttasss 占i溯准确性砾 冃iasasfft XaneLast 畑H:cdl NseStt Province W*.DNicrosoftJcisioft_TrasInvtK7FrUiclPr4ictInpvtIndividual Customer.dmm

28、 iStitj Adventure Works.cube 试计 Dcpartmcntdim tt 厶闵6%构|人滋锻型|心挖眩烟童頁器冏耽研性匪”囱E複咖刻Adventuie Works.dsv lTtj 尖C班丨切勺丨X回B列扌 Cvuulc/ Ihs.ivu HwicS Custottr ID冷 First hso玄 L&(冷 Vt ddl 卧 State Provincend viduU CuvtcmtrvIcvdivi4u*lCuitoCustcrID Till* FintNa 4dleKtfeSuffix PVno 4ilAi4xsskilProoin3kC*Ulw.Tr&国4互I

29、526 :Pr 匕 AdmturWott 亍g esslturff pg*QJ Adwvrtur* Wodd-QHS*JSAdrtur* Wodcvdtv0 Adwiur* Wocksxub匕 Dp*getrowK Courftry lUgiotvc 匕 V Job CaMidMe EEpkme*cd“ 匕 vVrdor4U V oduct Modc4【Mtr皿gd* Qitew人 2鈕*1 CuittxwximmMett 18484*疙I瞄曲|人 陀圖ta |疋建眩emiis吿| 宙iwra袒刊 h-y-ti!: .tkpm” Jtr*t| kh; ubupBtft nt 畑t q坐应 色

30、Q *r. it祚在丽中运审幕汗节虞以央出JEGJtfiElft关系晦锁 肠苦阳巳制輛齐点八、创建查询8.1创建预测查询的第一步是选择挖掘模型和输入表。1.在数据挖掘设计器“挖掘模型预测”选项卡的“挖掘模型”框中,单击“选择模型” 系统将打开“选择挖掘模型”对话框。2.在整个树中导航到 “个人客户”结构,展开该结构并选择 TM_Decision_Tree,再单击“确3. 在“选择输入表”框中,单击“选择事例表” 系统将打开“选择表”对话框。4.在“数据源”中,选择Adventure Works疟 Adventure WorksDepartmerit (HumanResou rcesEl Eim

31、plQyDepartmerrtHitQry HumeriReso-u rce$ 面 vjpdividu3ic5.tome r (&ale?0 vhdlividual Demog raph i (Sales因:vJobCa ndid siteEm ployment IH u manResource)因:vProd uctM-odeHnstructions (Production)因:vEtatePro-vinceCduritryRegicn Perse n)回 vVendor (Piurchasing5.在“表/视图名称”中,选择Department(HumanResources)表,再单击“确

32、定”。选择输入表之后,预测查询生成器便会根据各列的名称在挖掘模型和输入表之间创建默认映 射。iTl Gr oupN-ui eITI认国Ham电删踪克.选择事m.唸改联接8.2生成预测查询1. 在“挖掘模型预测”选项卡上的网格内的“源”列中,单击第一个空行中的单元格,然 后选择 Department。2. 在 Department 行的“字段”列中,选择DepartmentID。别容显示姐和域33在“源”列中,单击下一个空行,然后选择 TM_Decision_Tree。4. 在 TM_Decision_Tree 行的“字段”列中,选择First Name。这将会输出 Microsoft决策树模型

33、中作为预测目标的列。源-.01别容显示组和/或棗件/卷埶Depar t m 皂 ntD 皂part mwit tTD% TMDecisipn_TreeFir it Samewwirrwiiiiiiiinii 05. 在“源”列下,单击下一个空行,然后选择“预测函数” 。6. 在“预测函数”行的“字段”列中,选择 PredictProbability。预测函数提供有关模型如何进行预测的信息。PredictProbability函数提供有关正确预测的概率信息。您可以在“条件/参数”列中指定预测函数的参数。7. 在 PredictProbability 行的“条件 /参数”列中,键入TM_Decision_Tree.Bike Buyer。这将指定PredictProbability函数的目标列。有关函数的详细信息,请参阅数据挖掘扩展插件 (DMX)函数参考。显示组和d或衆件/錮 op or tn cut THJscini

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论