客户关系管理第6章课件_第1页
客户关系管理第6章课件_第2页
客户关系管理第6章课件_第3页
客户关系管理第6章课件_第4页
客户关系管理第6章课件_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章

CRM中的数据管理数据仓库(datawarehouse)与数据挖掘(datamining)第6章

16.1数据仓库的基本原理数据仓库的兴起1.“数据太多,信息不足”的现状2.异构环境的数据源据美国《幸福》杂志所列的全球2000家大公司中已有90%将Internet网络和数据仓库这两项技术列入企业计划。数据仓库是1995年开始盛行起来的。6.1数据仓库的基本原理数据仓库的兴起26.1.1数据仓库的概念(1)W.H.Inmon在《建立数据仓库》一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。6.1.1数据仓库的概念(1)W.H.Inmon在3(2)SAS软件研究所定义:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。(2)SAS软件研究所定义:4

传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,主要为企业特定的应用服务的。用户关心的是响应时间,数据的安全性和完整性。数据仓库用于决策支持,也称分析型处理,用于决策分析,它是建立决策支持系统(DSS)的基础。传统数据库用于事务处理,也叫操作型处理,是指对数据库5操作型数据(DB数据)与分析型数据(DW数据)之间的差别为:操作型数据(DB数据)与6数据仓库特点(1)数据仓库是面向主题的主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中分析客户数据,可决定是否继续给予贷款。数据仓库特点(1)数据仓库是面向主题的7传统的数据库是面向应用而进行数据组织的,其抽象程度不够高,没有完全实现数据与应用的分离。但这种方式能较好地将企业业务活动与数据库模式相对应,利于从手工处理向计算机处理过渡,因而具有较好的可操作性;数据仓库是面向主题而进行数据组织的。主题是一个在较高层次上对数据的抽象,在逻辑意义上,它是对企业中某一宏观领域所涉及的分析对象,即将数据组织成主题域。传统的数据库是面向应用而进行数据组织的,其抽象程度不够高,没8面向主题汽车人寿健康意外伤亡操作性环境应用顾客保险单保险费索赔数据仓库主题面向主题汽车操作性环境应用顾客数据仓库主题9(2)数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。(2)数据仓库是集成的10

数据库

应用Am,f应用B1,0应用Cx,y应用D男,女

数据仓库

m,f编码应用A管道cm应用B管道inches应用C管道mcf应用D管道yds管道cm属性度量数据库数据仓库编码应用A管道cm管道cm属性11应用A描述应用B描述应用C描述应用D描述应用Achar(10)应用Bdecfixed(9,2)应用Cpic‘9999999’应用Dchar(12)多重信息源?描述char(12)冲突的键码集成应用A描述多重信息源?描述冲突的键码集成12(3)数据仓库是稳定/非易失的操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。(3)数据仓库是稳定/非易失的13非易失性插入删除插入修改删除访问修改访问数据的逐个记录方式处理数据的批量载入/访问数据库数据仓库非易失性插入删除插入修改删除访问修改访问数据的逐个记录方式处14(4)数据仓库是反映时间变化的

操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作型系统的时间期限一般是60~90天,而数据仓库中数据的时间期限通常是5~10年。客户关系管理第6章课件15操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有效的,同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。而数据仓库的键码结构总是包含某时间元素。数据仓库的数据码键都包含时间项,用作标明数据的历史时期。数据仓库中的数据包含有大量综合数据,很多与时间有关,如按时间段进行综合或隔时间片进行抽样。随着时间变化,数据仓库需要不断增加新数据、删去旧数据。操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是16数据库数据仓库时间期限:当前到60—90天记录更新键码结构可能包括也可能不包括时间元素时间期限:5—10年数据的复杂快照键码结构包括时间元素数据库数据仓库时间期限:当前到60—90天时间期限:5—117

(5)DW中数据量大。大型DW是一个TB(1000GB)级数据库问题(一般为10GB级相当于一般数据库100MB的100倍)需要一个巨大的硬件平台需要一个并行的数据库系统最好的数据仓库是大的和昂贵的。(5)DW中数据量大。18

(6)是信息的概括和聚集。

(6)是信息的概括和聚集。19操作性数据仓库JJones女1945年7月20日。。。。。JJones去年有两张罚单一次大事故。。。。。JJonesMain大街123号已婚。。。。。JJones两个孩子高血压。。。。。人寿保险汽车保险房产保险健康保险JJones女1945年7月20日出生去年两张罚单一次大事故已婚两个孩子高血压。。。。。。顾客操作性数据仓库JJonesJJonesJJones206.1.2数据仓库中的数据组织1数据的粒度2数据仓库的数据组织结构3数据的分割4数据仓库的数据组织形式5数据仓库的数据组织模式6数据的追加6.1.2数据仓库中的数据组织1数据的粒度211粒度粒度——是指数据仓库的数据单位中保存数据的细化或总合程度的级别。细化程度越高,粒度级就越小;

细化程度越低,粒度级就越大。粒度——细节的级别粒度的划分决定了数据仓库中数据量的大小和查询的详细程度。多重粒度1粒度粒度——是指数据仓库的数据单位中保存数据的细化或总合22粒度的一个例子高细化低细化每月200个记录每月40,000个字节每月一个记录每月200个字节通过检索可以回答无细节无法回答询问某一电话的细节粒度的一个例子高细化低细化每月200个记录每月一个记录通过检23

近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。

历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。

轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。

高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。2数据仓库的数据组织结构近期基本数据:是最近时期的业务数据,是数据仓242数据仓库的数据组织结构元数据高度综合级轻度综合级(数据集市)销售细节级2000-2001操作型转换早期细节级每月销售1994-2001每周销售1994-2001当前细节级销售细节级1994-19992数据仓库的数据组织结构元数据高度综合级轻度综合级销售细节253分割分割——将当前细节数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。分片——数据分割后的独立单元。数据的分割提高了数据管理的灵活性

重构、索引、重组、恢复、监控分割的标准:日期、地域、业务领域。3分割分割——将当前细节数据分散到各自的物理单元中去以便能26分割的一个例子分片9分片8分片72001分片6分片5分片42000分片3分片2分片11999事故保险生命保险健康保险分割的一个例子分片9分片8分片72001分片6分片5分片42274数据仓库的数据组织形式简单堆积数据轮转综合数据简化直接数据连续数据4数据仓库的数据组织形式简单堆积数据28简单堆积文件1月1日1月2日1月3日……2月1日2月2日2月3日……3月1日3月2日3月3日……………………简单堆积文件1月1日29轮转综合文件星期一星期二……星期天第一周第二周……第五周一月二月……十二月

………………轮转综合文件星期一30简化直接文件数据库快照姓名顾客号地址张平C960100北京王珂C960101上海刘辉C960102天津李强C960103成都

...

一月份顾客表操作性数据生成简化直接文件简化直接文件数据库快照姓名顾客号地址一月31连续文件姓名顾客号地址张平C020100北京王珂C020101上海张顺C020102天津李强C020103成都姓名顾客号地址张平C020100北京王珂C020101上海张顺C020101广州李强C020103成都刘诚C020105杭州姓名顾客号日期地址张平C0201001-2月北京王珂C0201011-2月上海张顺C0201031月天津张顺C0201032月广州李强C0201031-2月成都刘诚C0201052月杭州1月份顾客表2月份顾客表1-2月份顾客表连续文件姓名顾客号地址姓名顾客32第6章

CRM中的数据管理数据仓库(datawarehouse)与数据挖掘(datamining)第6章

336.1数据仓库的基本原理数据仓库的兴起1.“数据太多,信息不足”的现状2.异构环境的数据源据美国《幸福》杂志所列的全球2000家大公司中已有90%将Internet网络和数据仓库这两项技术列入企业计划。数据仓库是1995年开始盛行起来的。6.1数据仓库的基本原理数据仓库的兴起346.1.1数据仓库的概念(1)W.H.Inmon在《建立数据仓库》一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。6.1.1数据仓库的概念(1)W.H.Inmon在35(2)SAS软件研究所定义:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。(2)SAS软件研究所定义:36

传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,主要为企业特定的应用服务的。用户关心的是响应时间,数据的安全性和完整性。数据仓库用于决策支持,也称分析型处理,用于决策分析,它是建立决策支持系统(DSS)的基础。传统数据库用于事务处理,也叫操作型处理,是指对数据库37操作型数据(DB数据)与分析型数据(DW数据)之间的差别为:操作型数据(DB数据)与38数据仓库特点(1)数据仓库是面向主题的主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中分析客户数据,可决定是否继续给予贷款。数据仓库特点(1)数据仓库是面向主题的39传统的数据库是面向应用而进行数据组织的,其抽象程度不够高,没有完全实现数据与应用的分离。但这种方式能较好地将企业业务活动与数据库模式相对应,利于从手工处理向计算机处理过渡,因而具有较好的可操作性;数据仓库是面向主题而进行数据组织的。主题是一个在较高层次上对数据的抽象,在逻辑意义上,它是对企业中某一宏观领域所涉及的分析对象,即将数据组织成主题域。传统的数据库是面向应用而进行数据组织的,其抽象程度不够高,没40面向主题汽车人寿健康意外伤亡操作性环境应用顾客保险单保险费索赔数据仓库主题面向主题汽车操作性环境应用顾客数据仓库主题41(2)数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。(2)数据仓库是集成的42

数据库

应用Am,f应用B1,0应用Cx,y应用D男,女

数据仓库

m,f编码应用A管道cm应用B管道inches应用C管道mcf应用D管道yds管道cm属性度量数据库数据仓库编码应用A管道cm管道cm属性43应用A描述应用B描述应用C描述应用D描述应用Achar(10)应用Bdecfixed(9,2)应用Cpic‘9999999’应用Dchar(12)多重信息源?描述char(12)冲突的键码集成应用A描述多重信息源?描述冲突的键码集成44(3)数据仓库是稳定/非易失的操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。(3)数据仓库是稳定/非易失的45非易失性插入删除插入修改删除访问修改访问数据的逐个记录方式处理数据的批量载入/访问数据库数据仓库非易失性插入删除插入修改删除访问修改访问数据的逐个记录方式处46(4)数据仓库是反映时间变化的

操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作型系统的时间期限一般是60~90天,而数据仓库中数据的时间期限通常是5~10年。客户关系管理第6章课件47操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有效的,同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。而数据仓库的键码结构总是包含某时间元素。数据仓库的数据码键都包含时间项,用作标明数据的历史时期。数据仓库中的数据包含有大量综合数据,很多与时间有关,如按时间段进行综合或隔时间片进行抽样。随着时间变化,数据仓库需要不断增加新数据、删去旧数据。操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是48数据库数据仓库时间期限:当前到60—90天记录更新键码结构可能包括也可能不包括时间元素时间期限:5—10年数据的复杂快照键码结构包括时间元素数据库数据仓库时间期限:当前到60—90天时间期限:5—149

(5)DW中数据量大。大型DW是一个TB(1000GB)级数据库问题(一般为10GB级相当于一般数据库100MB的100倍)需要一个巨大的硬件平台需要一个并行的数据库系统最好的数据仓库是大的和昂贵的。(5)DW中数据量大。50

(6)是信息的概括和聚集。

(6)是信息的概括和聚集。51操作性数据仓库JJones女1945年7月20日。。。。。JJones去年有两张罚单一次大事故。。。。。JJonesMain大街123号已婚。。。。。JJones两个孩子高血压。。。。。人寿保险汽车保险房产保险健康保险JJones女1945年7月20日出生去年两张罚单一次大事故已婚两个孩子高血压。。。。。。顾客操作性数据仓库JJonesJJonesJJones526.1.2数据仓库中的数据组织1数据的粒度2数据仓库的数据组织结构3数据的分割4数据仓库的数据组织形式5数据仓库的数据组织模式6数据的追加6.1.2数据仓库中的数据组织1数据的粒度531粒度粒度——是指数据仓库的数据单位中保存数据的细化或总合程度的级别。细化程度越高,粒度级就越小;

细化程度越低,粒度级就越大。粒度——细节的级别粒度的划分决定了数据仓库中数据量的大小和查询的详细程度。多重粒度1粒度粒度——是指数据仓库的数据单位中保存数据的细化或总合54粒度的一个例子高细化低细化每月200个记录每月40,000个字节每月一个记录每月200个字节通过检索可以回答无细节无法回答询问某一电话的细节粒度的一个例子高细化低细化每月200个记录每月一个记录通过检55

近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。

历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。

轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。

高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。2数据仓库的数据组织结构近期基本数据:是最近时期的业务数据,是数据仓562数据仓库的数据组织结构元数据高度综合级轻度综合级(数据集市)销售细节级2000-2001操作型转换早期细节级每月销售1994-2001每周销售1994-2001当前细节级销售细节级1994-19992数据仓库的数据组织结构元数据高度综合级轻度综合级销售细节573分割分割——将当前细节数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。分片——数据分割后的独立单元。数据的分割提高了数据管理的灵活性

重构、索引、重组、恢复、监控分割的标准:日期、地域、业务领域。3分割分割——将当前细节数据分散到各自的物理单元中去以便能58分割的一个例子分片9分片8分片72001分片6分片5分片42000分片3分片2分片11999事故保险生命保险健康保险分割的一个例子分片9分片8分片72001分片6分片5分片42594数据仓库的数据组织形式简单堆积数据轮转综合数据简化直接数据连续数据4数据仓库的数据组织形式简单堆积数据60简单堆积文件1月1日1月2日

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论