大数据仓库与大数据挖掘课程教学设计_第1页
大数据仓库与大数据挖掘课程教学设计_第2页
大数据仓库与大数据挖掘课程教学设计_第3页
大数据仓库与大数据挖掘课程教学设计_第4页
大数据仓库与大数据挖掘课程教学设计_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、目录TOC o 1-5 h z1.绪论2 HYPERLINK l bookmark2 1.1项目背景2 HYPERLINK l bookmark4 1.2提出问题22数据库仓库与数据集的概念介绍2 HYPERLINK l bookmark6 2.1数据仓库2 HYPERLINK l bookmark8 2.2数据集23数据仓库33.1数据仓库的设计33.1.1数据仓库的概念模型设计33.1.2数据仓库的逻辑模型设计3 HYPERLINK l bookmark10 3.2数据仓库的建立33.2.1数据仓库数据集3 HYPERLINK l bookmark12 3.2.2建立维表44.数据挖掘操作

2、4 HYPERLINK l bookmark14 4.1数据预处理44.1.1描述性数据汇总4 HYPERLINK l bookmark16 4.2决策树45、实验心得126、大总结131.绪论1.1项目背景在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集处理,尤其零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来的市场,制定出高效的决策,给企业带来经济收益。1.2提出问题对于超市的商品的购买时期和购买数量的如何决定,才可以使销售量最大,不积压商品,不缺货,对不同时期季节和不同人群制定不同方案,使企业收益最大,通过数据挖掘对数据进行决策树分析,关联分析,顺序分析与决

3、策分析等可以制定出最佳方案。2数据库仓库与数据集的概念介绍2.1数据仓库数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。数据仓库是决策系统支持(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。2.2数据集数据集是指一种由数据所组成的集合。Dataset(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员

4、的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。3数据仓库3.1数据仓库的设计3.1.1数据仓库的概念模型设计概念模型的设计是整个概念模型开发过程的三阶段。设计阶段依据概念模型分析以及分析过程中收集的任何数据,完成星型模型和雪花型模型的设计。如果仅依赖ERD,那只能对商品、销售、客户主题设计成如图所示的概念模型。这种模型适合于传统的数据库设计,但不适合于数据仓库的设计。3.1.2数据仓库的逻辑模型设计逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出各个业务的需求,同时对系统的物理实

5、施有着重要的指导作用,它的作用在于可以通过实体和关系勾勒出企业的数据蓝图,数据仓库的逻辑模型设计任务主要有:分析主题域,确定要装载到数据仓库的主题、确认粒度层次划分、确认数据分割策略、关系模式的定义和记录系统定义、确认数据抽取模型等。逻辑模型最终设计成果包括每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中、粒度划分、数据分割策略、表划分和数据来源等。3.2数据仓库的建立3.2.1数据仓库数据集一般说来,一个数据集市是按照某一特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。例如,财务部拥有自己的数据集市,用来进行财务方面的报表和分析,市场推广部、销售部等也拥有各自专用的数据集

6、市,用来为本部门的决策支持提供辅助手段。数据集市大都采用多维数据库技术,这种技术对数据的分析而言也许是最优的,但肯定不适合于大量数据的存储,因为多维数据库的数据冗余度很高。为了提高速度,对数据集市中的数据一般都建立大量的索引。换言之,数据集市中往往靠对数据的预处理来换取运行时的高速度,当业务部门提出新的问题时,如果不在原来设计的范围内,则需要数据库管理员对数据库作许多调整和优化处理。3.2.2建立维表维是分析问题的角度,度量是要分析的问题。多维视图:用包含度量和维的表的数据结构可以创建一个多维视图,用试题和维创建的多维模型称为星型模型,星型模型生成的主要表格被称为事实表。事实表的属性值几乎都有

7、连续值。事实表是规范化的。与维表不同不是随时间的推移变化,而是不断变大。维表:星型模型也具有非常小的表,用来装载描述信息。维表是逆规范化的。如果把维表置于第二范式中,这样的表称为雪花模型。维表包括主键,通常对应事实表的外部键。如果维表的主键不在实事表中,这个主键字便被称作退化的维。创建维表:有3种方法:星型模型、雪花模型和星暴模型。星暴模型含有两张以上的事实表。基本有些充当维事实表。星型模型:所有信息维都放在同一个维表中。维表信息包含一个唯一的标识符(ID)和通过这个维表建立的所有维所需的属性。星型模型由小的维表与大的事实表组成,多称为“小表和大表”。事实表一般是标准表。雪花模型:把信息分为3

8、种标准格式。产品表、类别表、子类别表。把这些信息放到一起需要一定数据的连接。雪花模型比星型模型效率低,占空间少。所有的事实表都有一个与之相关的时间维表。数据挖掘操作4.1数据预处理4.1.1描述性数据汇总对于许多数据预处理任务,希望知道关于数据的中心趋势和离中趋势特征。中心趋势度量包括均值(mean)、中位数(median)、众数(mode)和中列数(midrange),而数据离中趋势度量包括四分位数(quartiles)、四分位数极差(interquartilerange,IQR)和方差(variance)。这些描述性统计量有助于理解数据的分布。4.2决策树(1)读取文本数据使用变量文件节点

9、读取定界文本数据。可以从选项板中添加变量文件节点方法是单击源选项卡找到此节点,或者使用收藏夹选项卡(默认情况下,其中包含此节点)。然后,双击新添加的节点以打开相应的对话框。如图1所示。图1单击紧挨“导入文件”框右边以省略号“.”标记的按钮,浏览到系统中的Clementine安装目录。打开目标文件目录,然后选择名为sales.xls的文件。选择从文件读取字段名,并注意已载入此对话框中的字段和值。如图2所示。Excelc导入文性JE:-7:7.:.:.S匚|炊用命茗的冠+棘砧过住空型注闇幅恥肖应用垃图2单击过滤选项,可以把用不到的信息给过滤掉。如图3所示。sales.xls尙刷新画G数圖謝gZlE

10、Wd5宁氐让牛己输九目十已过逋,0牛已重命知帖牛已怖岀过虑討工盼inSa请筍姐小票号厅ULliS王二三二ii收戟员-一岳号1?-=Lu&tr叔码-童看当黠段童看未使用的拿段设誥应用数揖边殘取厲图3类型选项卡可帮助了解数据中的更多字段类型。还可以选择读取值来查看各个字段的实际值,具体取决于在值列中的选择。此过程称为实例化。如图4所示。ExcelHG黴据挖肿詢影血S也回上读取值肴余叵商悅所有值椅査芒向T.、输入才;、畝无、输入、沁跻|、甌.X入工车、和、由1卜、馭flL!*护声y护-%.话-%y护/期但称用尼匕“兰?z苦拿台羔售隹票E品品X艺计讷梢小库亠曲.曲靳回砂囚燼回IA1UI)査看当前丰段査

11、看未偿用的换设蛊勘拒过寇i药注無恥肖应用图4(2)添加表现在已载入数据文件,可以浏览一下某些记录的值。其中一个方法就是构建一个包含表节点的流。要将表节点添加到流中,可双击选项板中的表节点图标或将其拖放到工作区。如图5所示。图5双击选项板中的某个节点后,该节点将自动与流工作区中的选定节点相连接。此外,如果尚未连接节点,则可以使用鼠标中键将源节点与表节点相连接要模拟鼠标中键操作,请在使用鼠标时按下Alt键。如图6所示。图6要查看表,请单击工具栏上的绿色箭头按钮执行流,或者右键单击表节点然后选择执行。如图7所示。谊工具;甘电点而口MU:xlI0.4W1TZO.M42BiMilt*gE91U12N.Q

12、.W42B4U.40UKJ5J.4d4JBJflJ.44曲RJT.Q.収2BEJOLM42B何11516-3.0.4Q4JB.m.qjr4tN:施4WRia_.wwb.I-.皿R1E12ZF21E12ZT31E13ZF4iEd由生iiEd曾21E:|iSfli83I1t:IG:55fliEc帕舸TW闵:駅1.MMTWKrrS-95.=JMEOwmDQMEi中n-UDJDQD061“3UiHCriiirtiwma2.zumii._snWWIS殺申*MW?13D.MM5中q-qnj=wow1siq-WM2畫于.10d310002i3H.DGmj1a.a=1033?H3Kc3i“4Gl.(r3皆科甬

13、見顼116uarazv*WTraua1aa=WK!迪右冈呵13.Q.1B1?1S我HJRH4dd:雎117.ii2BJib.,mwb1B戟H2E”JU.44H】R312.4442GL4(H址23jJUlLiEdEMIJ.洞M12b?IkMKr3iiEdW空3.国阳Eg1战诩制sNfflg祗畏厨ffldSI乩WIM5書畏WOW1PrHIZO7IB21iEd0殳7.tiTiM*驚DTKnilfcl!3:aiKittH建左*补ffiiKriiIS:调2S2.KM2KKS1lbI?曲JWjOCR卿廿耳WjfJJ23HSj315.2H.a乩CLma.血C.D.3.H.LDMEMM5.1乳CuEtiiM艮

14、DMlH3.H.ElODU眩DOO1.河MO同thr-23.O.B.PWEEM5.5.3.D.B.DMB.DOQZD.3Uxinsi.0h3.D.3.PIK!3.Zl.i.a.s.n.161CBI.J.H.诂O.D.u1DU11S.U.B.D.13.0.M.0._B.D.GIHII.WHD.B.DOI2DOOHEl1SH.15U._10.&.!ZD.BCilMBMWDEitHSiP主闵世帜丄瓯袒冬a5*IKifit嘗国VL-ipfq.iiHnq还MEfcfifiw肇强图7创建分布图将分布节点添加到流,并将其与源节点相连接,然后双击该节点以编辑要显示的选项。选择商品名称作为要显示其分布的目标字段

15、。然后,在对话框中单击执行。如图8所示。商品窖称A1fll區字環:商品名称图:&选走宇段C所有标志值)字段.歹崗品容称韵靖宇段_|打前巨标牡化排序:找字毋顺序按计敎比例尺图外观输出注解I确定II执行III取消JI应用I重羞图8最终图表将有助于查看数据的“结构”结果表明,商品300g壶瓶枣和400g沁州黄卖的最多。如图9所示。图9此外,还可以在“输出”选项卡中找到数据审核节点。如图10所示图10添加并执行数据审核节点,同时快速浏览所有字段的分布图和直方图。如图11所示。(4)创建散点图现在我们来看一下有哪些因素会对商品出售(目标变量)产生影响。作为一名消费者,我们一定知道销售模式对销售数量有着重

16、要的影响。所以创建一个关于商品名称和销售模式的散点图。将散点图节点放在工作区中,并将其与源节点相连接,然后双击该节点对其进行编辑。如图12所示。图12在“散点图”选项卡中,选择商品名称作为X字段,选择销售模式作为Y字段,并选择销售金额作为交叠字段。然后单击执行。如图13所示。u圉重置扭行应用商詔呂称生凳哥愎弍艾議:爭鬲品名称議孑稍图a式cTaC画数谱项外观输出王第颜邑AX商EK1/销售金顒朝环世状:1碍动田:4谊明匸韵主薛胆挞旻无图13此散点图清楚地显示商品在零售和特价模式下销售金额的不同。商品在特价的销售模式下,销售金额明显高于零售模式下的销售金额。如图14所示。商品呂球生銷肓按弍的茄点圈#

17、2a1匚文件卿xl|d区祝也咼!r(J1扩P/CRs薛豆7.:帝展册瓦:1才的?:!:/.:二纸IIIIUU11山呈皐:!:1$駛卑:1丫穆摊-IIFn茶Jmis:!:1红皆山!:!1上夷来:!:!1-IHse*龛ffi1434弭4航枣illiM-HKM孔卅?!1一畢勺I氏图14(5)创建直方图因很多数据不能够直接显示,所以我们要建立直方图,直方图能够很清晰的显示数据。首先,将网络节点与您工作区中的源节点相连接。如图15所示。商品客称“档售模式库E图15在“直方图”选项卡中,选择商品序号作为X字段,选择销售数量作为交叠字段。然后单击执行。如图16所示。图16此直方图能够清楚地显示不同商品销售数

18、量的不同。由图可以看出序号为1的商品销售数量最多,序号为9的商品销售数量最少。如图17所示。3053*U-Lfljm特IjL.fiiiHf卞礼监-垃化底山力号的昌方圉m文件编掘力生咸扩豳閒囤冋图175、实验心得在本次实验中,从新建工作流一直到获得最终结果,整个流程让我对数据挖掘中数据分析处理的基本方法有了深入的了解,特别是决策树模型应用的理解,同时,也学会了如何使用决策树通过建模和直观化显示发现数据库中的关系(即链接)以及利用这些链接与数据中的案例组相对应关系可以通过建模可详细研究这些组并描绘其特征,增强了运用决策树模型和聚类分析模型的能力。通过这次学习让我意识到,对于数据我们不仅要能利用统计

19、来分析它的规律,也要能会通过数据挖掘软件来挖掘数据当中的潜在信息,并且利用数据挖掘所得到的有利信息更好的服务于数据使用者。6、大总结坚持好一段时间,终于把完成了任务,通过这几次实验报告的实践操作,我收获很大,不但学习相关数据挖掘的知识,关于SPSS了解更多,操作也比原来熟练多了。虽然过程中有点折磨过,但当你克服了,耐心去一步一步操作,那些烦躁的心情就会慢慢消失,还得要有耐心,认真的态度去操作,才能有结果。关联分析是一个很有用的数据挖掘模型,能够帮助企业做很多很有用的产品组合推荐、优惠促销组合,同时也能指导货架摆放是否合理,还能够找到更多的潜在客户,的确真正的把数据挖掘落到实处。关联分析具体能用

20、来做什么呢?可以一句话来概括:最大限度地从你口袋里面掏出更多的钱买我的产品。通过关联规则,推出相应的促销礼包或优惠组合套装,快速帮助提高销售额。如自行车针对不同人群,来制定有效的销售方案。零售超市或商场,可以通过产品关联程度大小,指导产品合理摆放,方便顾客最购买更多其所需要的产品。最常见的就是超市里面购买肉和购买蔬菜水果等货架会摆放得很近,目前就是很多人会同时购买肉与蔬菜,产品的合理摆放也是提高销售的一个关键。进行相关产品推荐或者挑选相应的关联产品进行精准营销。最常见的是你在亚马逊或京东购买产品的时候,旁边会出现购买该商品的人,有百分之多少还会购买如下的产品,快速帮助顾客找到其共同爱好的产品。

21、物以类聚,人以群分。例如,穷人一般和穷人在一起,富人也喜欢和富人在一起。还有数据挖掘的人喜欢和数据挖掘的人打交道,都离不开这些鸟道理。寻找更多潜在的目标客户。例如:100人里面,购买A的有60人,购买B的有40人,同时购买A和B的有30人,说明A里面有一半的顾客会购买B,反推而言。如果推出类似B的产品,除了向产品B的用户推荐(因为新产品与B的功能效果比较类似)之外,还可以向A的客户进行推荐,这样就能最大限度地寻找更多的目标客户。决策树分析法是常用的风险分析决策方法。该方法是一种用树形图来描述各方案在未来收益的计算。比较以及选择的方法,其决策是以期望值为标准的。人们对未来可能会遇到好几种不同的情况。每种情况均有出现的可能,人们目前无法确知,但是可以根据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论