




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 第6章 CRM中的数据管理 数据仓库(data warehouse)与数据挖掘( data mining)6.1数据仓库库的基本本原理数据仓库库的兴起1.“数据太多多,信息息不足”的现状状2.异构环境境的数据据源据美国幸福杂志所列列的全球球2000家大公司司中已有有90%将Internet网络和数数据仓库库这两项项技术列列入企业业计划。数据仓库库是1995年开始盛盛行起来来的。6.1.1数据仓库库的概念念(1)W.H.Inmon在建立数据据仓库一书中,对数据据仓库的的定义为为:数据仓库库是面向向主题的的、集成成的、稳稳定的,不同时时间的数数据集合合,用于于支持经经营管理理中决策策制定过过程。
2、(2)SAS软件研究究所定义义:数据仓库库是一种种管理技技术,旨旨在通过过通畅、合理、全面的的信息管管理,达达到有效效的决策策支持。传统数据据库用于于事务处处理,也也叫操作作型处理理,是指指对数据据库联机机进行日日常操作作,即对对一个或或一组记记录的查查询和修修改,主主要为企企业特定定的应用用服务的的。用户户关心的的是响应应时间,数据的的安全性性和完整整性。数据仓库库用于决决策支持持,也称称分析型型处理,用于决决策分析析,它是是建立决决策支持持系统(DSS)的基础。操作型数数据(DB数据)与与分析型数数据(DW数据)之之间的差差别为:数据仓库库特点(1)数据仓仓库是面面向主题题的主题是数数据归
3、类类的标准准,每一一个主题题基本对对应一个个宏观的的分析领领域。例如,银银行的数数据仓库库的主题题:客户户DW的客户数数据来源源:从银行储蓄蓄DB、信用卡DB、贷款DB等三个DB中抽取同同一客户户的数据据整理而而成。在DW中分析客客户数据据,可决决定是否否继续给给予贷款款。传统的数数据库是是面向应应用而进进行数据据组织的的,其抽抽象程度度不够高高,没有有完全实实现数据据与应用用的分离离。但这这种方式式能较好好地将企企业业务务活动与与数据库库模式相相对应,利于从从手工处处理向计计算机处处理过渡渡,因而而具有较较好的可可操作性性;数据据仓库是是面向主主题而进进行数据据组织的的。主题是一一个在较较高
4、层次次上对数数据的抽抽象,在在逻辑意意义上,它是对对企业中中某一宏宏观领域域所涉及及的分析析对象,即将数数据组织织成主题题域。面向主题题汽车人寿健康意外伤亡亡操作性环环境应用用顾客保险单保险费索赔数据仓库库主题题(2)数据仓仓库是集集成的数据进入入数据仓仓库之前前,必须须经过加加工与集集成。对不同的的数据来来源进行行统一数数据结构构和编码码。统一一原始数数据中的的所有矛矛盾之处处,如字字段的同同名异义义,异名名同义,单位不不统一,字长不不一致等等。将原始数数据结构构做一个个从面向向应用到到面向主主题的大大转变。数据库应用A m,f应用B 1,0应用C x,y应用D男,女数据仓库库 m,f编码应
5、用A管道cm应用B管道inches应用C管道mcf应用D管道yds管道cm属性度量量应用A描述应用B描述应用C描述应用D描述应用A char(10)应用Bdecfixed(9,2)应用Cpic9999999应用D char(12)多重信息息源 ?描述char(12)冲突的键键码集成(3)数据仓仓库是稳稳定/非易失的的操作型数数据库中中的数据据通常实实时更新新,数据据根据需需要及时时发生变变化。数数据仓库库的数据据主要供供企业决决策分析析之用,所涉及及的数据据操作主主要是数数据查询询,一旦旦某个数数据进入入数据仓仓库以后后,一般般情况下下将被长长期保留留,也就就是数据据仓库中中一般有有大量的的查
6、询操操作,但但修改和和删除操操作很少少,通常常只需要要定期的的加载、刷新。非易失性性插入删除插入修改删除访问修改访问数据的逐逐个记录录方式处处理数据的批批量载入入/访问数据库数据仓库库(4)数据仓仓库是反反映时间间变化的的操作型数数据库主主要关心心当前某某一个时时间段内内的数据据,而数数据仓库库中的数数据通常常包含历历史信息息,系统统记录了了企业从从过去某某一时点点(如开始应应用数据据仓库的的时点)到目前的的各个阶阶段的信信息,通通过这些些信息,可以对对企业的的发展历历程和未未来趋势势做出定定量分析析和预测测。数据仓库库中的数数据时间间期限要要远远长长于操作作型系统统中的数数据时间间期限。操作
7、型型系统的的时间期期限一般般是6 09 0天,而数数据仓库库中数据据的时间间期限通通常是51 0年。操作型数数据库含含有“当当前值”的数据据,这些些数据的的准确性性在访问问时是有有效的,同样当当前值的的数据能能被更新新。而数数据仓库库中的数数据仅仅仅是一系系列某一一时刻生生成的复复杂的快快照。操作型数数据的键键码结构构可能包包含也可可能不包包含时间间元素,如年、月、日日等。而而数据仓仓库的键键码结构构总是包包含某时时间元素素。数据据仓库的的数据码码键都包包含时间间项,用用作标明明数据的的历史时时期。数数据仓库库中的数数据包含含有大量量综合数数据,很很多与时时间有关关,如按按时间段段进行综综合或
8、隔隔时间片片进行抽抽样。随随着时间间变化,数据仓仓库需要要不断增增加新数数据、删删去旧数数据。数据库数据仓库库时间期限限:当前前到6090天记录更新新键码结构构可能包包括也可可能不包括时间间元素时间期限限:510年数据的复复杂快照照键码结构构包括时时间元素素(5)DW中数据量量大。大型DW是一个TB(1000GB)级数据库库问题(一般为为10GB级相当于于一般数数据库100MB的100倍)需要一个个巨大的的硬件平平台需要一个个并行的的数据库库系统最好的数数据仓库库是大的的和昂贵贵的。(6)是信息息的概括括和聚集集。操作性数据仓库库J Jones女1945年7月20日。J Jones去年有两两张
9、罚单单一次大事事故。J JonesMain大街123号已婚。J Jones两个孩子子高血压。人寿保险险汽车保险险房产保险险健康保险险J Jones女1945年7月20日出生去年两张张罚单一次大事事故已婚两个孩子子高血压。顾客6.1.2数据仓库库中的数数据组织织1数数据的粒粒度2数数据仓库库的数据据组织结结构3数数据的分分割4数数据仓库库的数据据组织形形式5数数据仓库库的数据据组织模模式6数数据的追追加1 粒度度粒度是指数数据仓库库的数据据单位中中保存数数据的细细化或总总合程度度的级别别。细化程度度越高,粒度级级就越小小;细细化程度度越低,粒度级级就越大大。粒度细节的的级别粒度的划划分决定定了数
10、据据仓库中中数据量量的大小小和查询询的详细细程度。多重粒度度粒度的一一个例子子高细化低细化每月200个记录每月40,000个字节每月一个个记录每月200个字节通过检索索可以回答答无细节无法回答答询问某一电话的细节近期基本本数据:是最近时时期的业业务数据据,是数数据仓库库用户最最感兴趣趣的部分分,数据据量大。历史基本本数据:近期基本本数据随随时间的的推移,由数据据仓库的的时间控控制机制制转为历历史基本本数据。轻度综合合数据:是从近期期基本数数据中提提取出的的,这层层数据是是按时间间段选取取,或者者按数据据属性(attributes)和内容(contents)进行综合合。 高度综合合数据层层:这一
11、层的的数据是是在轻度度综合数数据基础础上的再再一次综综合,是是一种准准决策数数据。2 数据据仓库的的数据组组织结构构2 数据据仓库的的数据组组织结构构元数据高度综合合级轻度综合合级(数据集市市)销售细节节级2000-2001操作型转转换早期细节节级每月销售售1994-2001每周销售售1994-2001当前细节节级销售细节节级1994-19993 分割割分割将当前前细节数数据分散散到各自自的物理理单元中中去以便便能分别别独立处处理,以以提高数数据处理理效率。分片数据分分割后的的独立单单元。数据的分分割提高了数数据管理理的灵活活性重重构、索索引、重重组、恢恢复、监监控分割的标标准:日日期、地地域
12、、业业务领域域。分割的一一个例子子分片9分片8分片72001分片6分片5分片42000分片3分片2分片11999事故保险险生命保险险健康保险险4 数据据仓库的的数据组组织形式式简单堆积积数据轮转综合合数据简化直接接数据连续数据据简单堆积积文件1月1日1月2日1月3日2月1日2月2日2月3日3月1日3月2日3月3日轮转综合合文件星期一星星期二星期天第一周第第二二周第五周一月二二月十二月简化直接接文件数据库快快照姓名顾顾客号号地地址张平C960100北京王珂C960101上海刘辉C960102天津李强C960103成都.一月份顾顾客表操作性数数据生成简化化直接文文件连续文件件姓名顾顾客号号地地址张平C020100北京王珂C020101上海张顺C020102天津李强C020103成都姓名顾顾客
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 鹤壁烟草管理办法
- 陕西大米管理办法
- 监理转建设管理办法
- 疫情救护车管理办法
- ppp政府管理办法
- 淮南招投标管理办法
- 独角兽公司管理办法
- 甘肃省草原管理办法
- 深圳市会展管理办法
- 业务员客户管理办法
- 无人机项目化教程 课件 项目8 无人机多机编队
- GB/T 43933-2024金属矿土地复垦与生态修复技术规范
- HJ 905-2017 恶臭污染环境监测技术规范(正式版)
- 中国脲醛胶行业发展趋势及发展前景研究报告(2024-2030)
- 《呼吸机容量控制》课件
- 现代化手术室精细化管理详解
- 城市轨道交通机电工程施工工艺标准化操作手册
- 2024年的纳米材料
- 电子商务专业论证报告
- 2024移动互联网金融客户端技术要求
- 抗生素临床应用原则
评论
0/150
提交评论