数据仓库与数据挖掘课程设计_第1页
数据仓库与数据挖掘课程设计_第2页
数据仓库与数据挖掘课程设计_第3页
数据仓库与数据挖掘课程设计_第4页
数据仓库与数据挖掘课程设计_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘课程设计

数据仓库与数据挖掘分析课程设计

班级:XXXX

姓名:XXX

学号:XXXXXX

指导教师:XXXXX

设计时间:XXXXX

成绩:

评语:

通信与信息工程学院

二。一X年

工作完成统计表:

组员完成任务说明自教师评定

2

XX1、聚类分析与关联分析建模

2、有关图表分析

3、撰写有关内容报告

4

XX1、决策分析与聚类分析挖掘建

2、有关图表分析

3、撰写有关内容报告

4

XXX1、顺序分析与聚类分析模型

与目标邮递方案

2、有关图表分析处理

3、撰写有关内容报告

XX1、聚类分析与决策分析模型

2、撰写有关内容报告

3、有关图表分析处理

教师签名:

目录

1.绪论............................................................1

1.1项目背景....................................................1

1.2提出问题....................................................1

2.数据仓库与数据集市的概念介绍...................................1

2.1数据仓库介绍.................................................1

2.2数据集市介绍................................................2

3.数据仓库........................................................3

3.1数据仓库的设计..............................................3

3.1.1数据仓库的概念模型设计...............................4

3.1.2数据仓库的逻辑模型设计...............................5

3.2数据仓库的建立.............................................5

3.2.1数据仓库数据集成......................................5

3.2.2建立维表..............................................8

4.OLAP操作.......................................................10

5.数据预处理.....................................................12

5.1描述性数据汇总.............................................12

5.2数据清理与变换.............................................13

6.数据挖掘操作..................................................13

6.1关联规则挖掘..............................................13

6.2分类与预测...............................................17

6.3决策树的建立..............................................18

6.4聚类分析..................................................22

7.总结..........................................................25

8.任务分配......................................................26

1、绪论

L1项目背景

在现在大数据时代,各行各业需要对商品及有关关节的数据进行收集处理,

特别零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来

的市场,制定出高效的决策,给企业带来经济收益。

1.2提出问题

关于超市的商品的购买时期与购买数量的如何决定,才能够使销售量最大,

不积压商品,不缺货,对不一致时期季节与不一致人群制定不一致方案,使企业

收益最大,通过数据挖掘对数据进行决策树分析,关联分析,顺序分析与决策分

析等能够制定出最佳方案。

2、数据库仓库与数据集的概念介绍

2.1数据仓库

数据仓库介绍:

数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战

略集合。它是单个数据存储,出于分析性报告与决策支持的目的而创建。为企

业提供需要业务智能来指导业务流程改进与监视时间、成本、质量与操纵。

数据仓库是决策系统支持(dss)与联机分析应用数据源的结构化数据环境。

数据仓库研究与解决从数据库中获取信息的问题。数据仓库的特征在于面向主

题、集成性、稳固性与时变性。

数据集介绍.

数据集是指一种由数据所构成的集合。Dataset(或者dataset)是一个数

据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某

一成员的数据集的问题。它列出的价值观为每一个变量,如身高与体重的一个物

体或者价值的随机数。每个数值被称之数据资料。对应于行数,该数据集的数据

可能包含一个或者多个成员。

3、数据仓库

3.1数据仓库的设计

3.1.1数据仓库的概念模型设计

概念模型的设计是整个概念模型开发过程的三阶段。设计阶段根据概念模型

分析与分析过程中收集的任何数据,完成星型模型与雪花型模型的设计。假如仅

依靠ERD,那只能对商品、销售、客户主题设计成如图所示的概念模型。这种模

型适合于传统的数据库设计,但不适合于数据仓库的设计。

3.1.2数据仓库的逻辑模型设计

逻辑建模是数据仓库实施中的重要一环,由于它能直接反映出各个业务的需

求,同时对系统的物理实施有着重要的指导作用,它的作用在于能够通过实体与

关系勾勒出企业的数据蓝图,数据仓库的逻辑模型设计任务要紧有:分析主题域,

确定要装载到数据仓库的主题

、确认粒度层次划分、确认数据分割策略、关系模式的定义与记录系统定义、确

认数据抽取模型等。

逻辑模型最终设计成果包含每个主题的逻辑定义,并将有关内容记录在数据仓库

的元数据中、粒度划分、数据分割策略、表划分与数据来源等。

3.2数据仓库的建立

3.2.1数据仓库数据集

通常说来,一个数据集市是按照某一特定部门的决策支持需求而组织起来

的、针对一组主题的应用系统。比如,财务部拥有自己的数据集市,用来进行财务

方面的报表与分析,市场推广部、销售部等也拥有各自专用的数据集市,用来为本

部门的决策支持提供辅助手段。数据集市大都使用多维数据库技术,这种技术对

数据的分析而言也许是最优的,但确信不适合于大量数据的存储,由于多维数据

库的数据冗余度很高。为了提高速度,对数据集市中的数据通常都建立大量的索

引。换言之,数据集市中往往靠对数据的预处理来换取运行时的高速度,当业务部

门提出新的问题时,假如不在原先设计的范围内,则需要数据库管理员对数据库

作许多调整与优化处理。

3.2.2建立维表

维是分析问题的角度,度量是要分析的问题。

多维视图:用包含度量与维的表的数据结构能够创建一个多维视图,用试题

与维创建的多维模型称之星型模型,星型模型生成的要紧表格被称之事实表。事

实表的属性值几乎都有连续值。事实表是规范化的。与维表不一致不是随时间的

推移变化,而是不断变大。

维表:星型模型也具有非常小的表,用来装载描述信息。维表是逆规范化的。

假如把维表置于第二范式中,这样的表称之雪花模型。

维表包含主键,通常对应事实表的外部键。假如维表的主键不在实事表中,

这个主键字便被称作退化的维。

维表的分类:(1)结构维:表示在层内构成中的信息量度。如客户地理位置维、

时间维、产品维等。结构维包含一组有关的成员,构成结构维的属性之间有一对

多的关系。加法度量:能够相加的属性值(2)信息维:计算字段如利润额、平均

值等(每个商品的利润)。(3)分区维:以同一结构生成两个或者多个维。如:

按时间分区,预测额度、实际额度等。(4)分类维:通过对一个维的属性值分组

而创建。假如工资收入500-2000;200-4000;5000-7000;等

创建维表:有3种方法:星型模型、雪花模型与星暴模型。星暴模型含有两

张以上的事实表。基本有些充当维事实表。

星型模型:所有信息维都放在同一个维表中。维表信息包含一个唯一的标识

符(ID)与通过这个维表建立的所有维所需的属性。星型模型由小的维表与大的

事实表构成,多称之“小表与大表”。事实表通常是标准表。

雪花模型:把信息分为3种标准格式。产品表、类别表、子类别表。把这些

信息放到一起需要一定数据的连接。雪花模型比星型模型效率低,占空间少。所

有的事实表都有一个与之有关的时间维表。

4.OLAP操作

联机分析处理(OLAP)系统是数据仓库系统最要紧的应用,专门设计用于支

持复杂的分析操作,侧重对决策人员与高层管理人员的决策支持,能够根据分析

人员的要求快速、灵活地进行大数据量的复杂查询处理,同时以一种直观而易懂

的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,

熟悉对象的需求,制定正确的方案。OLAP展现在用户面前的是一幅幅多维视图。

维(Dimension):是人们观察数据的特定角度,是考虑问题时的一类属性,

属性集合构成一个维(时间维、地理维等)。

维的层次(Level):人们观察数据的某个特定角度(即某个维)还能够存在细节

程度不一致的各个描述方面(时间维:日期、月份、季度、年)。

维的成员(Member):维的一个取值,是数据项在某维中位置的描述。(“某

年某月某日”是在时间维上位置的描述)。

度量(Measure):多维数组的取值。

OLAP的基本多维分析操作有钻取(Drill-up与Drill-down)、切片(Slice)与

切块(Dice)、与旋转(Pivot)等。

钻取:是改变维的层次,变换分析的粒度。它包含向下钻取(Drill-down)

与向上钻取(Drill-up)/上卷(Roll-up)。Drill-up是在某一维上将低层次的

细节数据概括到高层次的汇总数据,或者者减少维数;而Drill-down则相反,

它从汇总数据深入到细节数据进行观察或者增加新维。

切片与切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。

假如剩余的维只有两个,则是切片;假如有三个或者以上,则是切块。

旋转:是变换维的方向,即在表格中重新安排维的放置(比如行列互换)

5.数据预处理

5.1描述性数据汇总

关于许多数据预处理任务,希望明白关于数据的中心趋势与离中趋势特征。中心

趋势度量包含均值(mean)、中位数(median)、众数(mode)与中列数(midrange),

而数据离中趋势度量包含四分位数(quartiles)、四分位数极差(interquartile

range,IQR)与方差(variance)。这些描述性统计量有助于懂得数据的分布。

5.2数据清理与变换

数据清理例程通过填写缺失的值、光滑噪声数据、识别或者删除离群点并解

决不一致性来“清理”数据。要紧是达到如下目标:格式标准化,特殊数据清除,

错误纠正,重复数据的清除。

通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘

的形式。

6.数据挖掘操作

个人的两个作业:

6.1关联规则挖掘

1)需求分析

关联规则挖掘是数据挖掘与知识发现中的一个重要问题,自提出以来得到了广

泛的研究.目前关联规则挖掘算法能够分为广度优先算法与深度优先算法两大类,

每类都有经典高效的算法提出.但是,这些算法大都是从其自身的角度来描述的,

缺乏系统的分类与比较.文章从关联规则挖掘的形式化定义出发,给出频集挖掘的

解空间,对两大类算法中的几种经典算法进行了概述,并分析了它们的优缺点.

2)概要设计

关联规则挖掘过程要紧包含两个阶段:第一阶段务必先从资料集合中找出所

有的高频项目组(FrequentItemsets),第二阶段再由这些高频项目组中产生关联

规则(AssociationRules)□

3)全面设计

在准备用于关联规则模型的数据时,应懂得特定算法的要求,其中包含所需

要的数据量与使用数据的方式。关联规则模型的要求如下:

・单个key列每个模型都务必包含一个数值或者文本列,用于唯一标识每个

记录。不同意复合键。

・单个可预测列一个关联模型只能有一个可预测列。通常它是嵌套表的键

歹U,比如列出已购买的产品的字段。这些值务必是离散或者离散化值。

・输入列输入列务必为离散列。关联模型的输入数据通常包含在两个表中。

比如,一个表可能包含客户信息,而另一个表可能包含客户购物情况。您能

够使用嵌套表将该数据输入到模型中。有关嵌套表的全面信息,请参阅嵌套

表(AnalysisServices-数据挖掘)。

支持”(有的时候候将其称之“频率”)表示包含目标项目或者项目组合的事例

的数目。只有至少具有指定支持量的项目才可包含在模型中。

“常用项集”指满足下列条件的项目集合:该项目集合所具有的支持超过由

MINIMUM_SUPPORT参数定义的阈值。比如,假如项集为{A,B,C}而且每一个

MINIMUM_SUPPORT值为10,则每个单个项目A、B与C务必均可在要包含在模

型中的至少10个事例中找到,而且项目{A,B,C}的组合也务必可在至少10

个事例中找到。

注意通过指定项集的最大长度(这里长度指项目数目),还可操纵挖掘模型中项

集的数目。

默认情况下,对任何特定项目或者项集的支持均表示包含该项目或者项集的

事例的计数。只是,还能够将MINIMUM_SUPPORT表示为占数据集的总事例的百

分比,方法是键入数字作为小于1的小液值。比如,假如指定MINIMUM_SUPPORT

值为0.03,就意味着至少有3%的数据集总事例务必包含该项目或者演集以包

含在模型中。应当试用模型,以确定是使用计数还是百分比更有意义。

恰恰相反,规则的阈值不用计数或者百分比表示,而用概率(有的时候称之

“置信度”)表示。比如,假如项集{A,B,C}与项集{A,B,D}均出现在50

个事例中,而项集{A,B}出现在另外50个事例中,则很明显,{A,B}不是{C}

的强预测因子。因此,为了将某个特定结果对所有已知结果加权,Analysis

Services通过下列方法来计算单个规则(比如If{A,B}Then{C})的概率:

用对项集{A,B,C}的支持除以对所有有关项集的支持。

能够通过设置MINIMUM_PROBABILITY的值来限制模型生成的规则的数目。

AnalysisServices为创建M每个规则输出一个指示其“重要性”(也称之“提

升”)的分数。项集与规则的提升重要性的计算方法不一致。

项集重要性的计算方法为项集概率除以项集中各个项的合成概率。比如,假如项

集包含{A,B},AnalysisServices首先计算包含此A与B组合的所有事例的

数目,并用此事例数除以事例总数,然后将得到的概率规范化。

规则重要性的计算方法为:在已知规则左侧的情况下,求规则右侧的对数可

能性值。比如,假如规则为If{A}Then{B},则AnalysisServices计算具

有A与B的事例与具有B但不具有A的事例之比,然后使用对数刻度将该比

率规范化。

功能选择

Microsoft关联规则算法不执行任何一种自动功能选择,而是提供参数来操

纵其自身使用的数据。上述情况可能包含对每个项集大小的限制,或者对将项集

添加到模型中所需的最大与最小支持的设置。

・若要筛选出太常见因而不受关注的项目与事件,请减小MAXIMUM_SUPPORT

的值以将常见项集从模型中删除。

・若要筛选出罕见的项目与项集,请增大MINIMUM_SUPPORT的值。

•若要筛选出规则,请增大MINIMUM_PROBABILITY的值。

・要紧步骤:

在该任务中,将使用多维数据集向导来定义一个初始AnalysisServices多维数

据集。

一।AnalysisServices项目4

白…g会据源

Chaoshi.ds

B-口数据源视图

:•…♦白Chaoshi.dsv

□-2安淮软提集

…1丁Chaoshi.cube

5•■•二维度

U铝售流水表-1019.dim

1/商品分美表.dim

\7商品管.目表dm

巳商品信息表l.dim

ra--P=»i?毋结也

□殳生二大表...

▼点水号

二金□云安表

".号~T~^-

老三爱m3密专

支二宅云子与

**aiD

等皆+%

在该任务中,将使用维度向导来定义维度。定义维度层次结构,,

□史生三二.表■…

!1

闻以•«

时助

sgZ

a特皿

那ri

玳阐:'

w和

邮加甘

祥曲科岬

刊喟二0

孙「

1

在此任务中,为多维数据创建新的命名计算

Chaoshi.c-二.铝售京漾-1019dmChaoshi.cube:.^y商品信息表.dim[设计】据售五水表40192

[区维度结构|区属性关系|口翻修|吱浏览器

里国,xl园

属性层次结构数据源视图

•编码v

S3商品信息表

••规格

/i级别)

1层i

3箱瑁度量值国亶亘

用法(U):

海表⑴:

源列(Q:

0显示所有列(S)

定义操作,钻取

使用管理角色

具有此角色的用户和组成员将在与此角色美联的斫有AnQ»,,Serve”对象中拥有特权。i:『Chaoshi.cube

透摄用户或组1a1

选择此对象类则(5):

用户或内贸安全主体对象类2!(0).-]

透捶用户或组rvwi2E找位置但):

位贵也.]

选择此滤类型⑹:ML-20131023BGVH

用户或内置安全主体网——)・.•]一般性查询

直找位置09:「列©.I

名称⑴|起始为▼|i

HL-20131023DGVK(fc2(l)..]

Wio»侬为▼]匚立R喳找00

输入对象名称来选择氐创)电):前百厂]

|检宣名称■丁|口禁用的帐户出)

口不过脸900

自上次登录后的天数a)L_先

踊石」[取消」

褊定【取消】

搜索结果01):

名指州鲂所在文件夹

AnalysisServices项目2层LUI旦

活动(Development)▼平台(P):[小可用|筐亘|

配置(C):

瓦置,富生B目标

内部版本服务器localhost

蜘AnalysisServices项目2

部署E]选项

处理选项费人值

事务言萼False

部萼模式仅割萼更改

服务器

要捋项目言著至其u比AnalysisServices实电

透是取消之司向

结果分析

就chaoshi而言,使用关联规则挖掘技术,对交易资料库中的纪录进行资料

挖掘,首先务必要设定最小支持度与最小信赖度两个门槛值,在此假设最小支持

度min_support=5%且最小信赖度min_confidence=70%o因此符合此该超市

需求的亲联规则将务必同时满足以上两个条件。若通过挖掘过程所找到的关联规

则「购买数量,购买商品序号」,满足下列条件,将可同意「购买数量,购买商

品序号」的关联规则。

1.0000.004200307100228-001=现有,购买额里<2.828125->总额<6.85209726

1000200307100228-001=现有,购买商品序号1<2.8664094844->总额<6,85209726

1.000200307100226-001=现有->商品ID>=1020622.96525701

1.000200307100226-001=现有->总额<6.85209726

1000200307100226-001=现有,短日期X2003/7/51848:59->商品IDX1020622.9652S701

1.000200307100226-001=现有,短日期>=2003/7/518:48:59->总额<6.85209726

1.000200307100226-001=现有,购买数里<2.828125->商品ID>=1020622.96525701

1000200307100226-001=现育,购买商品序号I<2,8664094844->商品ID>=1020622.96525701

1.000200307100226-001=现有,购买数里<2.828125->总额<6.85209726

1.000200307100226-001=现有,购买商品序号1<2.8664094844->总额<6.85209726

1000200307100225-001=现有->总额=6.85209726-23.9498523296

1.000200307100225-001=现有->商品ID<1004176.40742257

1.000200307100225-001=现有,短日期>=2003/7/518:48:59->总额=6.85209726-23.9498523296

1000200307100225-001=双机短日期X2003/7/518:48:59->商品ID<1004176.40742257

1.000200307100225-001=购买数里<2.828125->总额=6.85209726-23.949852溶6

21251购买商品序旨1<2,8664094844

18821购买数里<2.828125

18762购买数里<2.828125,购买商品序号1<2....

14081总额<6.85209726

14032总额<6.85209726,购买商品序号1<2.86...

13442总额<6.85209726,购买数里<2,828125

13393总额<6.85209726,购买数里<2,828125,...

9911短日期=2003/6/1921:30:43-2003/6/27...

9882短日期=2003/6/1921:30:43-2003/6/27...

8632短日期=2003/6/1921:30:43-2003/6/27...

8603短日期=2003/6/1921:30:43-2003/6/27...

7521商品ID<1004176.40742257

7502商品ID<1004176.40742257,购买商品序号…

5)提交结论与执行结果

6.2分类与预测

6.2聚类分析

设计内容:根据超市现有数据,用决策树、依靠性等分析方法分析出什么条件对

顾客会员卡的办理起着决定性的影响,什么产品的销量最好,什么产

品应该摆放在一起提高销售量,什么产品应该适当促销提高收入。同

时还做了会员的丢失率与会员的奉献度,平均交易间隔时间与次数等

问题的分析,

设计思路:将数据导入sqlserver2008中后,能够利用analysisservers对数

据进行操作,进行多维数据集的创建及维度表等的有关操作,同时运

用MDX及sql语言来发掘数据的关联,得到有关问题的答案。

工作流程:1.将chaoshi.xlx表格中的数据导入sqlserver2008企业管理器中

的chaoshi数据库中;

迪薯骞二回区

E)口chaoshi

田口数据库关系图

日口表

田□系统表

@口北。,品牌表

挖掘结构的数据挖掘提升图:销鱼流水表T020门店2

*

番H

2.将chaoshi数据源在analysis里面更新;

更战务器名㈤:

localhost

登录到运务器

。,更用Windows舄份验证(W)

3.创建chaoshi多维数据集;

J旗多维数据集结构一倒维度用法|随计算咨好1度操作偿分区|1»聚合酉透视国翻径浏览器

£0I“I副皿T也•谭IX♦♦|四口|口0,甯,

度里值数据源视图

±1[ail]商品信息表

维度

3

ti匕商品信息表

4.我们使用星型结构创建维度,因此要创建事实表与维度表;

解美方案资源管理器

Jjchaoshil

由.D数据源

自…数据源视图

♦*]Chaoshi.dsv

自->箝隹次S案

L..修Chaoshi.cube

$••''目

|卜巳品牌表dm

土…2商品分类表dm

[/镇告沆水表-1020门店.dim

二(/商品信息表.dim

©••白您®结^

□,•,力角三

5.创建多维数据集成功后进行存储设计处理;

6.处理完成之后,在“处理进度”与“处理挖掘结构-顺序分析与聚类分析”

对话框中,单击“关闭”。

7.在,“顺序分析与聚类分析”模型已经生成,能够使用数据挖掘设计器的“挖

掘模型查看器”选项卡中的Microsoft顺序分析与聚类分析查看器浏览该模型

了。Microsoft顺序分析与聚类分析查看器包含五个选项卡:“分类关系图”、“分

类剖面图”、“分类特征”、“分类辨别”与“状态转换”。

8.“分类关系图”选项卡“分类关系图”选项卡以图形方式显示在数据库中发

现的算法的分类。关系图中的布局表示分类之间的关系,其中相似的分类分在一

起。默认情况下,节点颜色的明暗度表示分类中所有事例的密度,节点越暗,包

含的事例越多。能够更换节点明暗度代表的含义,使其表示属性与状态。比如,

在“明暗度变量”列表中选择“模型”,并在“状态”列表中选择“购买商品序

号”。

什臾2

所有就接

b

最强链接

9.“分类剖面图”选项卡“分类剖面图”选项卡显示每个分类中存在的序列。

分类列在“状态”列右边的单个列中。在查看器中,Model.samples行表示序列

数据,Model行说明了分类中各项的总体分布。Model.samples行的每个单元中

颜色序列的每个线条表示分类中随机选中的用户的行为。单个序列直方图中的每

个颜色代表一个模型。

10.分类特征”选项卡“分类特征”选项卡汇总了分类中各状态间的转换,其中

的各栏说明了所选分类属性值的重要性。比如,在分类4中,其中一个最重要

的特征是客户倾向于先在4月进行购物。

11.分类辨别”选项卡使用“分类辨别”选项卡,能够比较两个分类,确定模型

及其倾向的分类。该选项卡包含四个列:“变量”、“值”、“分类1”与“分类2”。

假如分类倾向于特定模型,则在“变量”列中相应模型行的“分类1”或者“分

类2”列中将出现一个蓝条。蓝条越长,模型越倾向于该分类。比如,在查看器

中使用“分类辨别”选项卡,能够通过在“分类1”中选择分类2与在“分类

2”中选择分类5,来比较分类2与分类5o

土类关系图圜旗隆■酚分类对比.状态转换

分类1:份类5分类2:医妇_____d

分类5和分类«的对比分数

变量值a晌于分类56页向于分类4

购买商品序号1,0-66

购买商品序号8.6-47.0

短日期2006/4/130:00:00-2006/4/1..

短日期2006/4/180:21:15-2006/4/2,,■

务蔡菰[旗剖面图整类特征分类对比[状飙换I

分类11百丽;,分类2:份类4

分类2和分类4的对比分数

要宣值倾向于分类2倾向于分类4

购买商品序号1.0-3.5

购买商品序号3.5-47.0

短日期2006/4/1723:20:50-2006/4/...

短日期2006/4/130:00:00-2006/4/1..■

短日期2006/4/2411:23:23-2006/4/...■

12.状态转换”选项卡在“状态转换”选项卡上,能够选择分类并浏览其状态转

换。每个节点都表示模型的一个状态。线条表示状态间的转换,每个节点都基于

转换的可能性。背景色表示分类中节点的频率。比如,从''分类”中选中“分类

3”,选中商品ID节点,然后将“所有链接”滑块降低几格。

6.3聚类分析

设计内容:根据超市现有数据,用决策树、聚类分析等分析方法分析出什么条件

对顾客购买商品的影响,什么产品的销量最好,什么产品应该摆放在一起提高销

售量,什么产品应该适当促销提高收入。平均交易间隔时间与次数等问题的分析,

设计思路:将数据导入sqlserver2008中后,能够利用数据挖掘教材对数据进行

操作,进行数据挖掘,数据模型设计等的有关操作,同时运用它对数

据的决策树设计,聚类分析等分析数据间的关系。

工作流程:1.将超市execel表格中的数据导入sqlserver2008企业管理器中的

sqlserver2008数据库中;

2.将超市数据源在analysis里面更新;

3.创建超市数据的挖掘模型。

4.首先是对两个表销售流水表与品牌表进行模型设计。

5.创建多维数据集成功后进行存储设计处理;

6.浏览创建好的数据挖掘模型的下钻;

7.创建决策树、聚类分析的数据挖掘模型,分析超市如何运用OLAP

与依靠性分析来熟悉顾客购买习惯与商品之间的关联,正确的摆放商品位置与如

何运用促销手段对商品进行销售。

1.销售流水表

(聚类分析)分类关系图

2i%\

所有梃接分类1

(分类7)

分类4

分类2

[,类9)

(分类10)

(分类6)

分类3

最强港接

从图中能够看出只有分类5与分类8只有最强的关联性,不管两个的关系如何变

化,只要有5商品则必定有8商品,所有链接的关系越大,则他们的关系越复杂。

各个商品的关系也越来越明确。

分类剖面图

从分类剖面图能够看出各个商品在总的商品中所占的比例,为我们分析数据提供

一定的方便。

分类特征

特征总体任部)

变里值概率

商品工D:1,034,631.4-1,044,496.4

........J

商品ID1,024,766.5-1,034,631.4

消售价格

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论