数据挖掘实验报告-超市商品销售分析及数据挖掘1_第1页
数据挖掘实验报告-超市商品销售分析及数据挖掘1_第2页
数据挖掘实验报告-超市商品销售分析及数据挖掘1_第3页
数据挖掘实验报告-超市商品销售分析及数据挖掘1_第4页
数据挖掘实验报告-超市商品销售分析及数据挖掘1_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘实验报告-超市商品销售分析及数据挖掘1数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第1页。数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第1页。数据挖掘实验报告--超市商品销售分析及数据挖掘

数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第2页。数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第2页。

通信与信息工程学院

课程设计说明书

课程名称:数据仓库与数据挖掘课程设计题目:超市商品销售分析及数据挖掘专业/班级:电子商务(理)

组长:

学号:

组员/学号:

开始时间:2011年12月29日完成时间:2012年01月3日

目录Notableofcontentsentriesfound.

数据挖掘实验报告

1.绪论

1.1项目背景

在商业领域中使用计算机科学与技术是当今商业的发展方向,而数据挖掘是商业领域与计算机领域的乔梁。在超市的经营中,应用数据挖掘技术分析顾客的购买习惯和不同商品之间的关联,并借由陈列的手法,和合适的促销手段将商品有魅数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第3页。力的展现在顾客的眼前,可以起到方便购买、节约空间、美化购物环境、激发顾客的购买欲等各种重要作用。

1.2提出问题

那么超市应该对哪些销售信息进行挖掘?怎样挖掘?具体说,超市如何运用OLAP操作和关联规则了解顾客购买习惯和商品之间的关联,正确的摆放商品位置以及如何运用促销手段对商品进行销售呢?如何判断一个顾客的销售水平并进行推荐呢?本次实验为解决这一问题提出了解决方案。

2.数据仓库与数据集市的概念介绍

2.1数据仓库介绍

数据仓库,英文名称为DataWarehouse,可简写为DW或DWH,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。

2.2数据集市介绍

数据集市,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。

3.数据仓库

3.1数据仓库的设计

3.1.1数据库的概念模型

3.1.2数据仓库的模型

数据仓库的模型主要包括数据仓库的星型模型图,我们创建了四个

维表和一个事实表。四个维表为:item维表,time维表,branch维表,location维表。事实表为:sales事实表。其中,

3.2数据仓库的建立

3.2.1数据仓库数据集成

我们小组粗略的统计了超市一年的销售记录,并建立了数据库。其

当然,这只是最初的表,后面还要进行数据清理与转换,对其进一步改进,以便于数据挖掘。

数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第4页。3.2.2建立维表

item维表

branch维表

location维表

sales事实表

4.OLAP操作

按时间上卷:

切块:

按片查询:

整个数据立方体:

5.数据预处理

5.1描述性数据汇总

【saleID】S*:销售号(笔数)

【customerID】C*:顾客编号

【productID】P*:购买的商品号

【timeID】T*:时间号(月)

5.2数据清理与变换

数据清理:(1)初始表格在前面已经给出,每笔交易中购买的商品不止一

数据变换:对不同的数据类型做不同的变换。比如男女分别用1,0表示;高中档商品用1,0表示;收入统一除以10000。

数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第5页。6.数据挖掘操作

6.1关联规则挖掘

6.1.1频繁一项集筛选

I1支持度的代码及结果为:

输出结果为:24

其他一项候选集同理

6.1.2、频繁二项集筛选

频繁二项集候选集为(I1,I18),(I1,I2),(I1,,I3),(I1,I4),(I1,I5),(I1,I7),

(I18,I2),(I18,I3),(I18,I4),(I18,I5),(I18,I7),

(I2,I3),(I2,I4),(I2,I5),(I2,I7),

(I3,I4),(I3,I4),(I3,I5),(I3,I7),

(I4,I5),(I4,I7),

(I5,I7)

(I1,I18)的支持度代码和结果为:

输出结果为:15

I3和I18支持度的代码和结果为:

输出结果为:14

I1和I3支持度的代码和结果为:

输出结果为:18

同理可得:

6.1.3、频繁三项集筛选

频繁三项集候选集为:(I1,I3,I18)

(I1,I3,I18)的支持度代码和结果为:

输出结果为:13

综上可得I1、I3和I18的支持度和置信度为:

[]cs

数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第6页。(

)1

,

)2

(

,

(

?

,?

)3

,

X

buys

item

buys

X

item

item

X

transcatio

x,

buys

n

[]%

buys

I

X

数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第7页。buys

buys

I

X

?

X

x?

transcatio

n

%,

18

,

)

12

93

(

)3

,

(

)1

(

,

,I

[]%

I

X

buys

数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第8页。X

buys

I

buys

n

X

x?

transcatio

?

%,

,

(

)3

12

87

)

18

,

(

)1

(

,

,I

[]%

buys

I

X

数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第9页。I

X

buys

X

buys

x?

transcatio

n

?

,I

)1

,

12

%,

72

(

)

)3

,

(

,

18

(

由上可知:1.顾客习惯一起购买商品I1,I3,I18,即牛奶面包和电视机

2.所以超市可以将牛奶面包电视机摆放在一起

6.2分类和预测

预测的结果可以用关联规则的结果和OLAP的结果来说明。预测结果如下:1.根数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第10页。据OLAP从日到月上卷操作,1月为销售旺季,商店可以在此期间加大供应量,以获得更大利润。

2.顾客对牛奶的需求很大,且为蒙牛牛奶

3.顾客对面包的需求也很大,且为安琪面包

4.对步步高电视机的需求也很大。

6.3决策树的建立:

通过研究顾客的属性,分析这些属性对顾客购买商品档次的影响,建立决策树,预测顾客购买商品的档次。

6.3.1.选择最佳分裂点:

1)源数据:(部分展示)

数据转换后数据:(部分展示)

2)选取过程具体操作:

3)经比较gain()的值得出,选取sex。

6.3.2.继续寻找下一个分裂点:

1)源数据:(部分展示)(按sex分类)

F:(49条记录)

数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第11页。M:(51条记录)

2)选取过程具体操作:

F:

M:

M中找到的分裂点为income

6.3.3.分裂的数据结果部分如图:

F:

数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第3页。数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第4页。数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第5页。数据挖掘实验报告-超市商品销售分析及数据挖掘1全文共11页,当前为第6页。数据挖掘实验报告-超市商品销售分析及数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论