数据挖掘试验报告超商品销售分析及数据挖掘_第1页
数据挖掘试验报告超商品销售分析及数据挖掘_第2页
数据挖掘试验报告超商品销售分析及数据挖掘_第3页
数据挖掘试验报告超商品销售分析及数据挖掘_第4页
数据挖掘试验报告超商品销售分析及数据挖掘_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

通信与信息工程学院课程设计说明书课程名题称目课程名题称目:专业/班级:组学/学长:号:号:〔理〕开始时间: 2023年12月29日完成时间: 2023年01月3日名目绪论 11.1工程背景.................... 11.2提出问题.................... 1数据仓库与数据集市的概念介绍 12.1数据仓库介绍.................. 12.2数据集市介绍.................. 23.数据仓库...................... 33.1数据仓库的设计................. 3数据仓库的概念模型设计.............................. 4数据仓库的规律模型设计.............................. 53.2数据仓库的建立................. 53.2.1 数据仓库数据集成53.2.2......................................................建立维表 84.OLAP操作....................... 105.数据预处理..................... 125.1描述性数据汇总................ 125.2数据清理与变换................ 136.数据挖掘操作..................... 136.1关联规章挖掘................. 136.2分类和推想................... 176.3决策树的建立................. 186.4聚类分析.................... 227.总结 258.任务安排....................... 26数据挖掘试验报告绪论工程背景在商业领域中使用计算机科学与技术是当今商业的进展方向,而数据挖掘是商业领域与计算机领域的乔梁。在超市的经营中,应用数据挖掘技术分析顾客的购置习惯和不同商品之间的关联,并借由陈设的手法,和适宜的促销手段将商品有魅力的呈现在顾客的眼前,可以起到便利购置、节约空间、美化购物环境、激发顾客的购置欲等各种重要作用。提出问题那么超市应当对哪些销售信息进展挖掘?怎样挖掘?具体说,超市如何运用OLAP操作和关联规章了解顾客购置习惯和商品之间的关联,正确的摆放商品位置以及如何运用促销手段对商品进展销售呢?如何推断一个顾客的销售水平并进展推举呢?本次试验为解决这一问题提出了解决方案。数据仓库与数据集市的概念介绍数据仓库介绍数据仓库,英文名称为DataWarehouse,可简写为DW或DW,H是在数据库已经大量存在的状况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据集市介绍数据集市,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体效劳的数据源中收集数据的仓库。数据仓库数据仓库的设计数据库的概念模型数据仓库的模型数据仓库的模型主要包括数据仓库的星型模型图,我们创立了四个维表和一个事实表。四个维表为:item维表,time维表,branch维表,location维表。事实表为:sales事实表。其中,数据仓库的建立数据仓库数据集成我们小组粗略的统计了超市一年的销售记录,并建立了数据库。其固然,这只是最初的表,后面还要进展数据清理与转换,对其进一步改进,以便于数据挖掘。建立维表item维表branch维表location 维表sales事实表OLAP操作按时间上卷:切块:按片查询:整个数据立方体:数据预处理描述性数据汇总【saleID】S*:销售号〔笔数〕【customerID】C*:顾客编号【productID】P*:购置的商品号【timeID】T*:时间号〔月〕数据清理与变换数据清理:〔1〕初始表格在前面已经给出,每笔交易中购置的商品不止一数据变换:对不同的数据类型做不同的变换。比方男女分别用1,0表示;高中档商品用1,0表示;收入统一除以100006.数据挖掘操作关联规章挖掘6.1.1频繁一项集筛选I1支持度的代码及结果为:输出结果为:24其他一项候选集同理、频繁二项集筛选频繁二项集候选集为〔I1,I18〕,〔I1,I2〕,〔I1,,I3〕,〔I1,I4〕,〔I1,I5〕,〔I1,I7〕,〔I18,I2〕,〔I18,I3〕,〔I18,I4〕,〔I18,I5〕,〔I18,I7〕,〔I2,I3〕,〔I2,I4〕,〔I2,I5〕,〔I2,I7〕,〔I3,I4〕,〔I3,I4〕,〔I3,I5〕,〔I3,I7〕,〔I4,I5〕,〔I4,I7〕,〔I5,I7〕〔I1,I18〕的支持度代码和结果为:输出结果为:15I3和I18支持度的代码和结果为:输出结果为:14I1和I3支持度的代码和结果为:输出结果为:18同理可得:、频繁三项集筛选频繁三项集候选集为:〔I1,I3,I18〕〔I1,I3,I18〕的支持度代码和结果为:输出结果为:13综上可得I1、I3I18的支持度和置信度为:xtranscation,buys(X,I1)buys(X,I3)xtranscation,buys(X,I1)buys(X,I18)

buys(X,I18)12%,93%buys(X,I3)12%,87%buys(X,I1)12%,72%xtranscation,buys(X,I3)buys(X,I18)由上可知:1.顾客习惯一起购置商品I1,I3,I18,即牛奶面包和电视机2.所以超市可以将牛奶面包电视机摆放在一起分类和推想OLAP的结果来说明。推想结果如下:依据OLAP从日到月上卷操作,1月为销售旺季,商店可以在此期间加大供给量,以获得更大利润。顾客对牛奶的需求很大,且为蒙牛牛奶顾客对面包的需求也很大,且为安琪面包对步步高电视机的需求也很大。决策树的建立:通过争论顾客的属性,分析这些属性对顾客购置商品档次的影响,建立决策树,推想顾客购置商品的档次。选择最正确分裂点:1〕源数据:〔局部呈现〕数据转换后数据:〔局部呈现〕选取过程具体操作:经比较gain〔〕的值得出,选取连续查找下一个分裂点:1〕源数据:〔局部呈现〕〔按sex分类〕F:〔49〕M:〔51条记录〕2〕选取过程具体操作:F:M:M中找到的分裂点为income分裂的数据结果局部如图:F:

sex。M的操作以此类推,得到的结果如下:由此可得出决策树为:Sex数据〔2〕数据〔3〕中 高数据〔5〕数据〔4〕高数据6聚类分析原始数据:数据转换:使用欧几里得距离,K=3,K均值:第一次聚类分析:其次次聚类分析:第三次聚类分析:〔4〔4〕三次聚类分析结果:第一次聚类结果为:new1:C1,C3,C5,C8,C9,C10,C11,C15,C16,C18,C20new2:C2,C4,C6,C9,C14,C19new3:C7,C12,C13,C17平方误差:8.82其次次聚类结果为:n1:C1,C7,C8,C10,C11,C15,C16,C20n2:C2,C3,C4,C5,C6,C9,C14,C18,C19n3:C1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论