数据仓库与数据挖掘课程设计报告书_第1页
数据仓库与数据挖掘课程设计报告书_第2页
数据仓库与数据挖掘课程设计报告书_第3页
数据仓库与数据挖掘课程设计报告书_第4页
数据仓库与数据挖掘课程设计报告书_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录TOC\o"1-5"\h\z\o"CurrentDocument"1.绪论 2\o"CurrentDocument"1.1项目背景 2\o"CurrentDocument"1.2提出问题 2\o"CurrentDocument"2数据库仓库与数据集的概念介绍 2\o"CurrentDocument"2.1数据仓库 2\o"CurrentDocument"2.2数据集 2\o"CurrentDocument"3数据仓库 33.1数据仓库的设计 33.1.1数据仓库的概念模型设计 33.1.2数据仓库的逻辑模型设计 3\o"CurrentDocument"3.2数据仓库的建立 33.2.1数据仓库数据集 3\o"CurrentDocument"3.2.2建立维表 4\o"CurrentDocument"4.数据挖掘操作 4\o"CurrentDocument"4.1数据预处理 44.1.1描述性数据汇总 4\o"CurrentDocument"4.2决策树 4\o"CurrentDocument"5、实验心得 12\o"CurrentDocument"6、大总结 121.绪论1.1项目背景在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集处理,尤其零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来的市场,制定出高效的决策,给企业带来经济收益。1.2提出问题对于超市的商品的购买时期和购买数量的如何决定,才可以使销售量最大,不积压商品,不缺货,对不同时期季节和不同人群制定不同方案,使企业收益最大,通过数据挖掘对数据进行决策树分析,关联分析,顺序分析与决策分析等可以制定出最佳方案。2数据库仓库与数据集的概念介绍2.1数据仓库数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。数据仓库是决策系统支持(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。2.2数据集数据集是指一种由数据所组成的集合。Dataset(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。3数据仓库3.1数据仓库的设计3.1.1数据仓库的概念模型设计概念模型的设计是整个概念模型开发过程的三阶段。设计阶段依据概念模型分析以及分析过程中收集的任何数据,完成星型模型和雪花型模型的设计。如果仅依赖ERD,那只能对商品、销售、客户主题设计成如图所示的概念模型。这种模型适合于传统的数据库设计,但不适合于数据仓库的设计。3.1.2数据仓库的逻辑模型设计逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出各个业务的需求,同时对系统的物理实施有着重要的指导作用,它的作用在于可以通过实体和关系勾勒出企业的数据蓝图,数据仓库的逻辑模型设计任务主要有:分析主题域,确定要装载到数据仓库的主题、确认粒度层次划分、确认数据分割策略、关系模式的定义和记录系统定义、确认数据抽取模型等。逻辑模型最终设计成果包括每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中、粒度划分、数据分割策略、表划分和数据来源等。3.2数据仓库的建立3.2.1数据仓库数据集一般说来,一个数据集市是按照某一特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。例如,财务部拥有自己的数据集市,用来进行财务方面的报表和分析,市场推广部、销售部等也拥有各自专用的数据集市,用来为本部门的决策支持提供辅助手段。数据集市大都采用多维数据库技术,这种技术对数据的分析而言也许是最优的,但肯定不适合于大量数据的存储,因为多维数据库的数据冗余度很高。为了提高速度,对数据集市中的数据一般都建立大量的索引。换言之,数据集市中往往靠对数据的预处理来换取运行时的高速度,当业务部门提出新的问题时,如果不在原来设计的范围内,则需要数据库管理员对数据库作许多调整和优化处理。3.2.2建立维表维是分析问题的角度,度量是要分析的问题。多维视图:用包含度量和维的表的数据结构可以创建一个多维视图,用试题和维创建的多维模型称为星型模型,星型模型生成的主要表格被称为事实表。事实表的属性值几乎都有连续值。事实表是规范化的。与维表不同不是随时间的推移变化,而是不断变大。维表:星型模型也具有非常小的表,用来装载描述信息。维表是逆规范化的。如果把维表置于第二范式中,这样的表称为雪花模型。维表包括主键,通常对应事实表的外部键。如果维表的主键不在实事表中,这个主键字便被称作退化的维。创建维表:有3种方法:星型模型、雪花模型和星暴模型。星暴模型含有两张以上的事实表。基本有些充当维事实表。星型模型:所有信息维都放在同一个维表中。维表信息包含一个唯一的标识符(ID)和通过这个维表建立的所有维所需的属性。星型模型由小的维表与大的事实表组成,多称为“小表和大表”。事实表一般是标准表。雪花模型:把信息分为3种标准格式。产品表、类别表、子类别表。把这些信息放到一起需要一定数据的连接。雪花模型比星型模型效率低,占空间少。所有的事实表都有一个与之相关的时间维表。数据挖掘操作4.1数据预处理4.1.1描述性数据汇总对于许多数据预处理任务,希望知道关于数据的中心趋势和离中趋势特征。中心趋势度量包括均值(mean)、中位数(median)、众数(mode)和中列数(midrange),而数据离中趋势度量包括四分位数(quartiles)、四分位数极差(interquartilerange,IQR)和方差(variance)。这些描述性统计量有助于理解数据的分布。4.2决策树

读取文本数据使用变量文件节点读取定界文本数据。可以从选项板中添加变量文件节点,方法是单击源选项卡找到此节点,或者使用收藏夹选项卡(默认情况下,其中包含此节点)。然后,双击新添加的节点以打开相应的对话框。如图1所示。BedIt■禺上■和1@@®⑪圖®®RBt*耳覚轉MqE.I:#-SPSS;XflhntrawtN1S宜轉St*图1单击紧挨“导入文件”框右边以省略号“…”标记的按钮,浏览到系统中的Clementine安装目录。打开目标文件目录,然后选择名为sales.xls的文件。选择从文件读取字段名,并注意已载入此对话框中的字段和值。如图2所示。图2单击过滤选项,可以把用不到的信息给过滤掉。如图3所示。

sales^xls过虑11 ril收戟员谓管曰Hfl■•瞬时闫小票号-X・「」岳号 ►用号商品冯一► 怕吕咼 ►^Lu&tr——► 辂.'■占宁氐让牛己输九・目十已过逋,0牛已重命知帖牛已怖岀▼童看当黠段 童看未使用的拿段设誥数揖边殘删连空G哦圖謝gZlE-■•类型选项卡可帮助了解数据中的更多字段类型。还可以选择读取值来查看各个字段的实际值,具体取决于在值列中的选择。此过程称为实例化。如图4所示。ExcelXG黴据挖肿詢影血ExcelXG黴据挖肿詢影血期但称用尼匕“兰?£■z苦拿台羔售隹票E品品期但称用尼匕“兰?£■z苦拿台羔售隹票E品品X「艺计讷梢小库亠曲.曲靳®⑥回砂®凶妙回IA1UI护声y护-%.话-%y护/椅査T.才~~S-跻||工车中上注無SI竺凹►读取值肴余叵商炼所有恒方向、输入X入\畝、WHA ■Q,査看当前丰段 査看未偿用的换设蛊应用垂羞图4(2)添加表现在已载入数据文件,可以浏览一下某些记录的值。其中一个方法就是构建一个包含表节点的流。要将表节点添加到流中,可双击选项板中的表节点图标或将其拖放到工作区。如图5所示。

图5双击选项板中的某个节点后,该节点将自动与流工作区中的选定节点相连接。此外,如果尚未连接节点,则可以使用鼠标中键将源节点与表节点相连接。要模拟鼠标中键操作,请在使用鼠标时按下Alt键。如图6所示。I Isales.kls i克图6要查看表,请单击工具栏上的绿色箭头按钮执行流,或者右键单击表节点,然后选择执行。如图7所示。Zip—@Sft谊工具;甘电点而口MUTEiaar£umii._snDGmj1„a.aH12IS龍鬥貝B1BD6DO21•记超盘映wmQ2-14斥商品日话品时蚣旧艸酗呢ElYiHE丈时FTTiUWUAfcHL10DQ2I m一曲知£1_MJU何週£•■洞DQi1..SAE9iuZip—@Sft谊工具;甘电点而口MUTEiaar£umii._snDGmj1„a.aH12IS龍鬥貝B1BD6DO21•记超盘映wmQ2-14斥商品日话品时蚣旧艸酗呢ElYiHE丈时FTTiUWUAfcHL10DQ2I m一曲知£1_MJU何週£•■洞DQi1..SAE9iu■2He.aan3.0..•i—11...3R3.QSj315..MMT WKrr忆=JMEOwmDQMEi中n-UDJDQD061“3UiHCriiirtiWWIS 殺申* MW? 1 3D.MM5 中q-qnj=> wow 1„ siq-WM2畫于=10£d3 [钛慢肌 10DQ2 i„=1033? 10CQ9 i“ 4Gl.MM2-ihjirir;-Himm?mwhbncrrii1WMS旺科甬見WOZ]i16U3D2ZV*WTD3DZ21WK!!鱼心・冈呵1洞音耳担祁洞I诃越生e^IRQ通财112.0.]3Ja..JT.Q.lQja.」皿葩 |I£.Hg14Ihs|15-17..'S1R-19边血£22Z.晤t*1K1S:12iZF2ie:i2zr3.4I1U&1GI2:7r44皿恥1b1fl±5L4帖2R1&1ASSj抑烦IRlBSfl3.d戟]*2EL1K15:05h44HJR1&1AS5£L44HM•iEd白舸74WREW«B.1.皿狛吃诣潮2.4皿恥悒伯殳13.40曲IRQ制3«UEl讣:闵:駅fl.讣:闵:駅霊iEd自潮T44HJR也伯卫L4442GL1K1929■L行iMIBNiMlltiI04U4jt:班畫■WK61WDQE-畫畏■WWK1=PrHIZ西(IDrIB21D7ti]4 D7LO4 1ffiiXii:ifS*i・hiBKrii北«E_.«BL._51..acuWno1QJ]..BIOL1W0¥fa.!.tomEooaaa.imnfc5.El.EbUEKd宝Cu1mom3.D..eDMfeKC21..1mdh30MOwor-21WOffl=g.D..EiDinEMM5.B..1WO^fl..3.D..B.DMB.DOQZD..I.MD^S汕an冲TLioaonwnmw=m1MDHie1SIJ:L祯k1fi..1fflOCT初WOPiKIL1’G.EU3.0W3.DWZ!lwo?t-i.el.1DMIDCO込1MDH5.El.EbUEKd11.1MOM161§.0._16.0.=eiu1.W0¥31«5mn.m.q.=Em1NDlF*”1.5..LT-W1.™0.E.=1WOffl-2.H.2.DMiMM1MonIS怕£L血心10ioaon3B.DMecu]zd.o1rtlnf:iM1(3)创建分布图将分布节点添加到流,并将其与源节点相连接,然后双击该节点以编辑要显示的选项。选择商品名称作为要显示其分布的目标字段。然后,在对话框中单击

执行。如图8所示。图8最终图表将有助于查看数据的“结构”结果表明,商品300g壶瓶枣和400g沁州黄卖的最多。如图9所示。图9此外,还可以在“输出”选项卡中找到数据审核节点。如图10所示。

图10添加并执行数据审核节点,同时快速浏览所有字段的分布图和直方图。如图11所示。图11创建散点图现在我们来看一下有哪些因素会对商品出售(目标变量)产生影响。作为一名消费者,我们一定知道销售模式对销售数量有着重要的影响。所以创建一个关于商品名称和销售模式的散点图。将散点图节点放在工作区中,并将其与源节点相连接,然后双击该节点对其进行编辑。如图12所示。表图12

在“散点图”选项卡中,选择商品名称作为X字段,选择销售模式作为Y字段,并选择销售金额作为交叠字段。然后单击执行。如图13所示。图13图13此散点图清楚地显示商品在零售和特价模式下销售金额的不同。商品在特价的销售模式下,销售金额明显高于零售模式下的销售金额。如图14所示。匸文件澜辑村生戍视囹职■上|d:区]隘也冉匕::::坍伟愛粮11*11adod:区]隘也冉匕::::坍伟愛粮11*11adoI11II2:lrm o卫主纸If山口T.1I虹・・-施屮聲r更崔摊宇肉礼盘B■无杲ft…SSI事畀is-H瓶…业童翌ffl要assiseI一犁匹毀阵…I一皐戏。天…图14创建直方图因很多数据不能够直接显示,所以我们要建立直方图,直方图能够很清晰的显示数据。首先,将网络节点与您工作区中的源节点相连接。如图15所示。

序号裔品茗粗2[肖售嘆式序号裔品茗粗2[肖售嘆式图15在“直方图”选项卡中,选择商品序号作为X字段,选择销售数量作为交叠字段。然后单击执行。如图16所示。图16图16此直方图能够清楚地显示不同商品销售数量的不同。由图可以看出序号为1的商品销售数量最多,序号为9的商品销售数量最少。如图17所示。

口文件 湄掘t?生咸x艇匡回x|@孑用临逼昌jT 1口文件 湄掘t?生咸x艇匡回x|@孑用临逼昌jT 1y>/■I:.-.rAA;丘言的昌方圏■■■□■2「s-丸02第is徐dEift05老46徐诅年乞年样佯门年应佯酿DD1D氏lonll1D盡1Q双盼岱馬2D申N-困..二紳

'C.£1•■--'E--uT-01-%flfr.-3J.-4XUn.-图175、 实验心得在本次实验中,从新建工作流一直到获得最终结果,整个流程让我对数据挖掘中数据分析处理的基本方法有了深入的了解,特别是决策树模型应用的理解,同时,也学会了如何使用决策树通过建模和直观化显示发现数据库中的关系(即链接)以及利用这些链接与数据中的案例组相对应关系可以通过建模可详细研究这些组并描绘其特征,增强了运用决策树模型和聚类分析模型的能力。通过这次学习让我意识到,对于数据我们不仅要能利用统计来分析它的规律,也要能会通过数据挖掘软件来挖掘数据当中的潜在信息,并且利用数据挖掘所得到的有利信息更好的服务于数据使用者。6、 大总结坚持好一段时间,终于把完成了任务,通过这几次实验报告的实践操作,我收获很大,不但学习相关数据挖掘的知识,关于SPSS了解更多,操作也比原来熟练多了。虽然过程中有点折磨过,但当你克服了,耐心去一步一步操作,那些烦躁的心情就会慢慢消失,还得要有耐心,认真的态度去操作,才能有结果。关联分析是一个很有用的数据挖掘模型,能够帮助企业做很多很有用的产品组合推荐、优惠促销组合,同时也能指导货架摆放是否合理,还能够找到更多的潜在客户,的确真正的把数据挖掘落到实处。关联分析具体能用来做什么呢?可以一句话来概括:最大限度地从你口袋里面掏出更多的钱买我的产品。通过关联规则,推出相应的促销礼包或优惠组合套装,快速帮助提高销售额。如自行车针对不同人群,来制定有效的销售方案。零售超市或商场,可以通过产品关联程度大小,指导产品合理摆放,方便顾客最购买更多其所需要的产品。最常见的就是超市里面购买肉和购买蔬菜水果等货架会摆放得很近,目前就是很多人会同时购买肉与蔬菜,产品的合理摆放也是提高销售的一个关键。进行相关产品推荐或者挑选相应的关联产品进行精准营销。最常见的是你在亚马逊或京东购买产品的时候,旁边会出现购买该商品的人,有百分之多少还会购买如下的产品,快速帮助顾客找到其共同爱好的产品。物以类聚,人以群分。例如,穷人一般和穷人在一起,富人也喜欢和富人在一起。还有数据挖掘的人喜欢和数据挖掘的人打交道,都离不开这些鸟道理。寻找更多潜在的目标客户。例如:100人里面,购买A的有60人,购买B的有40人,同时购买A和B的有30人,说明A里面有一半的顾客会购买B,反推而言。如果推出类似B的产品,除了向产品B的用户推荐(因为新产品与B的功能效果比较类似)之外,还可以向A的客户进行推荐,这样就能最大限度地寻找更多的目标客户。决策树分析法是常用的风险分析决策方法。该方法是一种用树形图来描述各方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论