版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库与数据挖掘(DATA WAREHOUSING AND DATA MINING)参考书1、数据仓库与数据挖掘, 作者:陈志泊主编,清华大学出版社2、数据挖掘概念与技术,JiaweiHan Micheline Kamber 著 范明 等译,机械工业出版社 数据仓库与数据挖掘在生产决策中的应用数据仓库与数据挖掘在生产决策中的应用数据爆炸问题 随着信息技术的不断推广和应用,许多企业都已经在使用管理信息系统处理管理事务和日常业务。这些管理信息系统为企业积累了大量的信息。从数据中获得知识 企业管理者开始考虑如何利用这些信息海洋对企业的管理决策提供支持。因此,产生了与传统数据库有很大差异的数据环境要
2、求和从这些海洋数据中获取特殊知识的工具需要。解决方法:数据仓库技术和数据挖掘技术数据仓库(Data Warehouse)和在线分析处理(OLAP)数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据处理技术的发展1960s和以前: 文件系统1970s: 层次数据库和网状数据库1980s早期: 关系数据模型, 关系数据库管理系统(RDBMS)。1980s晚期: 各种高级数据库系统(面向应用的数据库系统 、空间数据库 时序数据库、多媒体数据库等等)。1990s: 数据挖掘, 数据仓库。2000s: 基于各种应用的数据挖掘XML数据库和整合的信息系统 数据库与数据库技术1、数据库系
3、统 数据库是按一定组织方式存储在计算机中的相互关联的数据集合,数据库的建立独立于程序。数据库管理系统是一个管理数据库的软件系统,它为用户提供了描述数据库、操纵数据库和维护数据库的方法和命令,并且能自动控制数据库的安全以及数据完整。2、数据库系统的特点1. 数据的结构化2. 数据的共享性3. 数据的独立性4. 数据统一由DBMS管理和控制 (1)数据的安全性 (2)数据的完整性 (3)并发控制 (4)数据库恢复数据仓库的发展 从传统数据库到数据仓库 随着市场竞争的加剧,信息系统的用户已经不满足于仅仅用计算机去处理每天所发生的事务数据,而是需要信息能够支持决策的信息,去帮助管理决策。这就需要一种能
4、够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术,传统数据库系统无法承担这一责任。因为传统数据库的处理方式和决策分析中的数据需求不相称。这些不相称性主要表现在决策处理中的系统响应问题、决策数据需求的问题和决策数据操作的问题。数据库处理的两大应用1、联机事务处理(OLTP) 2、决策支持系统(DSS)联机事务处理(OLTP)操作型处理,为企业的特定应用服务是对数据库的联机的日常操作,通常是对一个或一组记录的查询和修改人们关心的是响应时间、数据的安全性和完整性处理的是当前的数据。数据仓库的发展 决策支持系统(DSS)分析型处理,用于管理人员的决策分析经常需要访问大量的历史数据数据操
5、作的特点:只查询,不更新。数据仓库 + 联机分析处理 + 数据挖掘( DW + OLAP + DM ) DSS数据仓库的发展 传统数据库在联机事物处理中取得了较大的成功,但在基于事物处理的数据库帮助决策分析时却产生了很大的困难。主要原因是传统数据库的处理方式和决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。这些不相称主要体现在如下几个方面: (1) 决策处理的系统响应问题 (2) 决策数据需求的问题 (3) 决策数据操作的问题数据仓库的发展对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序、重复处理面向主题域、管理决策分析应用数据特性
6、动态变化、按字段更新静态、不能直接更新、只定时添加数据结构高度结构化、复杂、适合操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对响应时间的要求以秒为单位计量以秒、分钟、甚至小时为计量单位数据仓库的发展联机分析处理技术(OLAP) 联机分析处理OLAP (On-Line Analytical Processing)应用是不同于与联机事务处理(OLTP)的一类应用。它专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持,可以应分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观易懂的形式将查询结果提供给决策制定人,
7、以便他们准确掌握企业(公司)的经营状况,了解市场需求,制定正确方案,增加效益。数据挖掘技术数据挖掘(Data Mining,简记为DM)是从关系数据库、数据仓库、WEB数据库以及其他文件系统中发现重要的数据模式、规律的过程,因此又称为数据库中的知识发现(Knowledge Discovery in Database, 简记为KDD),它是OLAP的高级阶段。自20世纪80年代起,开始了数据挖掘技术的研究。1989年在美国召开的国际学术会议上包含了“从数据库中知识发现”的主题;2019年在加拿大召开了第一届知识发现与数据挖掘国际学术会议。 从数据库到数据仓库 在线分析处理(OLAP) 在线事务处
8、理 决策支持(DSS) (OLTP) 数据挖掘(Data Mining)数据仓库的定义数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一的用户接口,完成数据查询和分析。数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。数据仓库的定义 数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用以支持企业或组织的决策分析处理。 数据仓库的定义数据仓库中数据的特点 面向主题 集成性 不可更新的随时间不断变化数据
9、仓库的定义1、面向主题: 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类。在逻辑上,它对应于企业中某一宏观分析领域所涉及的分析对象。主题是在较高层次上对数据抽象面向主题的数据组织分为两步骤抽取主题确定每个主题所包含的数据内容每个主题在数据仓库中都是由一组关系表实现的数据仓库的定义数据仓库的特点 面向主题2、集成的 数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。因此,数据仓库在提取数据时必须经过
10、数据集成,消除源数据中的矛盾,并进行数据综合和计算。经过数据集成后,数据仓库所提供的信息比数据库提供的信息更概括、更本质。 数据集成过程:数据提取:数据仓库的数据是从原有的分散数据库数据中抽取来的净化、转换:消除数据表述的不一致性(数据的清洗)装载数据的综合数据仓库的定义 数据仓库的特点 集成 3、不可更改的 数据仓库中的数据反映的是一段时间内历史数据的内容。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作,即数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。数据仓库的主要数据操作是查询、分析不
11、进行一般意义上的数据更新(过期数据可能被删除)数据仓库强化查询、淡化并发控制和完整性保护等技术数据仓库的定义数据仓库的特点数据不可更改4、随时间变化的 时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTP数据库中变化的数据。不断增加新的数据内容不断删除旧的数据内容定时综合数据仓库中数据表的键码都包含时间项,以标明数据的历史时期数据仓库的定义数据仓库的特点 随时间变化数据仓库的技术要求大量数据的组织和管理:包含了大量的历史数据,它是从数据库中提取得来的,不必关心数据的完整性。复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询
12、时经常会使用多表的联接、累计、分类、排序等操作。对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。对进行高层决策的最终用户的界面支持:提供各种分析应用工具。数据仓库的体系结构 数据仓库的概念结构 从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。 数据源业务系统数据源外部数据源数据准备区数据仓库数据库OLAP应用服务器管理工具数据集市 数据挖掘应用服务器数据集市数据挖掘的定义数据挖掘(Data
13、Mining,简记为DM):从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知、有潜在应用价值的模式或知识的处理过程。模式:即知识,它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。 数据挖掘是一门交叉性学科,它涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。可广泛地应用于信息管理、过程控制、科学研究、决策支持等许多方面。 数据挖掘的过程数据挖掘知识挖掘的核心Knowledge数据清理数据库模式评估、数据集成数据
14、仓库任务相关数据选择数据挖掘数据挖掘的步骤数据清理: (这个可能要占全过程60的工作量)数据集成数据选择数据变换数据挖掘(选择适当的算法来找到感兴趣的模式)模式评估知识表示数据挖掘的类型 数据挖掘的任务是从大量的数据中发现模式。根据数据挖掘的任务可分为多种类型,其中比较典型的有:概念描述预测模型关联分析分类分析聚类分析序列分析偏差检测模式相似性挖掘Web数据挖掘概念描述:为数据的特征化和比较产生描述特征化:提供给定数据集的简洁汇总。例:对公司的“大客户”(月消费额在5000以上)的特征化描述:4050岁,有固定职业,信誉良好,等等数据挖掘的类型预测模型 所谓预测即从数据库或数据仓库中已知的数据
15、推测未知的数据或对象集中某些属性的值分布。建立预测模型的常用方法:回归分析线性模型关联规则决策树预测遗传算法神经网络数据挖掘的类型关联分析 从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。 广泛的用于购物篮或事务数据分析。(1)关联发现算法:得到关联规则、找出关联组合,在关联组合中,如果出现某一项,则另一项也会出现。(2)序列模式发现算法:发现在时间序列上,一个项目集之后的项目集是什么,即找到时间上连续的事件。(3)类似的时序发现算法:先找到一个事件顺序,再推测出其他类似的事件顺序。 数据挖掘的类型分类分析 根据训练数据集和类标号属性,构建
16、模型来分类现有数据,并用来分类新数据(分类),用来预测类型标志未知的对象类(预测)。分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡分析等。可以用来预报某些未知的或丢失的数字值 数据挖掘的类型聚类分析 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。最大化类内的相似性和最小化类间的相似性 采用聚类分析,系统可以根据部分数据发现规律,找出对全体数据的描述。例:对WEB日志的数据进行聚类,以发现相同的用户访问模式数据挖掘的类型序列分析 序列分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。 例如,它可以导出类似“
17、若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%”的数据关系。序列模式可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。数据挖掘的类型孤立点分析孤立点:一些与数据的一般行为或模型不一致的孤立数据通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。应用信用卡欺诈检测移动电话欺诈检测客户划分医疗分析(异常)数据挖掘的类型Web数据挖掘Web使用模式挖掘:在Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。We
18、b结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。基于Web的研究:搜索引擎的设计、文件自动分类技术、关键词的自动提取、半结构化信息的提取及Web上新型应用的研究等。数据挖掘的类型数据挖掘应用金融业 1、对账户进行信用等级的评估。利用数据挖掘工具进行信用评估可以从已有的数据中分析得到信用评估的规则或标准,即得到“满足什么样条件的账户属于哪一类信用等级”,将得到的规则或评估标准应用到对新的账户的信用评估。 2、分析信用卡的使用模式。通过数据挖掘分析信用
19、卡的使用模式,可以得到这样的规则:“什么样的人使用信用卡属于什么样的模式”,一般一个人在相当长的一段时间内,其使用信用卡的习惯往往是较为固定的。因此,通过判别信用卡的使用模式,可以监测到信用卡的恶性透支行为,还可以根据信用卡的使用模式,识别“合法”用户。 3、进行股票分析。可以使用数据挖掘技术从股票交易的历史数据中得到股票交易的规则或规律。 4、探测金融政策与行情间的关系。使用数据挖掘技术可以从大量的历史记录中发现或挖掘出金融政策与金融业行情的相互影响的更深层次的关联关系。保险业 (1) 保险金的确定。对受险人员的分类有助于确定适当的保险金额度。通过数据挖掘可以有助于确定对不同行业、不同年龄段
20、、处于不同社会层次的人的险金额度。 (2) 险种关联分析。使用数据挖掘技术,通过险种关联分析,可以预测购买了某种保险的人是否会同时购买另一种保险。 (3) 其他预测。通过使用数据挖掘技术可以预测哪些行业、哪个年龄段、哪种社会层次的人会买哪种保险,或者预测哪类人容易买新的险种等。数据挖掘应用零售业 (1)分析顾客的购买行为和习惯。分析顾客的购买行为和习惯在零售业得到大量应用。如“美国男性顾客在购买尿布的同时购买啤酒”、“顾客一般购买了睡袋和背包后,过了一定的时间就会购买野营帐篷”、“顾客的品牌爱好”等看似很小、很微不足道的信息,却会非常有用。 (2)分析商场的销售商品的构成。将商品分成“畅销且单
21、位赢利高”、“畅销但单位赢利低”、“畅销但无赢利”、“不畅销但单位赢利高”、“不畅销且单位赢利低”、“滞销”等多个类别,然后看看属于同一类别的商品都有什么共同的特征,即“满足什么条件的商品属于哪一类情况”,这就是规则。这些规则将有助于商场的市场定位、商品定价等决策问题。而且在确定“要不要采购某一新商品”这样的决策问题时,这些规则将显得非常有意义。 (3)其他应用。数据挖掘工具在零售业还可以用于进行商品销售预测、商品价格分析、零售点的选择等。数据挖掘应用科学研究 (1)自然科学。数据挖掘技术对高科技的研究是必不可少的,主要的功能是对大批量数据的处理。高科技研究的特点就是探索人类未知的秘密,而这正
22、是数据挖掘的特长所在。不借助于数据挖掘技术要从大量的、漫无头绪而且真伪难辨的科学数据和资料中提炼出对人类有用的信息,是非常困难的。 (2)社会科学。数据挖掘在社会科学的研究领域的应用前景也越来越被人们所认识。社会科学的特点是从历史看未来,如从社会发展的历史进程中得出社会发展的规律,预测社会发展的趋势;或从人类发展的进程和人类的社会行为的变化中寻求对人类行为规律的答案,从而应用于对各种各样的社会问题的求解。数据挖掘在从历史数据中进行规律的发现方面,也有其独到的作用。 对于生物科学等其他科学研究领域应用数据挖掘技术的范畴也越来越多。数据挖掘应用5其他领域(1)医疗。数据挖掘可用于病例、病人行为特征
23、的分析,用于药方管理等,以安排治疗方案、判断药方的有效性等。 (2)司法。数据挖掘可用于案件调查、案例分析、犯罪监控等,还可用于犯罪行为特征的分析。 (3)工业部门。数据挖掘技术对于工业部门的应用可用于进行故障诊断、生产过程优化等。如制造业在质量控制、制造过程中找出影响产品品质的最大因素及提高作业流数据挖掘应用数据挖掘研究方向(1)专门用于知识发现的形式化和标准化的数据挖掘语言;(2)数据挖掘过程中的便于用户理解的及人机交互的可视化方法;(3)网络环境下的数据挖掘技术;(4)加强对各种非结构化数据的挖掘。 数据挖掘应用实例典型案例1竞技运动中的数据挖掘美国著名的国家篮球队NBA的教练,利用IB
24、M公司提供的数据挖掘工具临场决定替换队员。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件来优化他们的战术组合。例如魔术队就因为研究了队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。系统分析显示,魔术队先发阵容中的两个后卫安佛尼哈德卫和伯兰绍在前两场中被评为-17分,即他俩在场上时本队输掉的分数比得到的分数多17分。而当哈德卫与替补后卫达利尔阿姆斯创组合时,魔术队得分为+14分。在下一场中,魔术队增加了阿姆斯创的上场时间。结果阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜。 利用IBM的这个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心
25、的服务器上的数据。每一场比赛的事件都被按得分、助攻、失误等统计分类。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义。2超市中的数据挖掘 Safeway是英国的第三大连锁超市,年销售额超过100亿美元,提供的服务种类达34种。 首先根据客户的相关资料,将客户分为150类,再用关联相关技术来比较这些资料集合(包括交易资料以及产品资料),然后列出产品相关度的清单(例如,“在购买烤肉炭的客户中,75的人也会购买打火机燃料”)。然后,再对商品的利润进行细分。例如,发现某一种乳酪产品虽然销售额排名较靠后,在第209位,可是消费额最高的客户中有25都常常买这种乳酪,这些客户是S商家最不
26、想得罪的客户,因此,这种产品是相当重要的。同时发现,在28种品牌的橘子汁中,有8种特别受消费者欢迎,因此该公司重新安排货架的摆放,使橘子汁的销量能够大幅增加。 通过采用数据挖掘技术,Safeway知道客户每次采购时会买哪些产品以后,就可以找出长期的经常性购买行为;再将这些资料与主数据库的人口统计资料结合在一起,营销部门就可以根据每个家庭在哪个季节倾向于购买哪些产品的特性发出邮件。根据这些信息该超市在一年内曾发了1200万封有针对性的邮件,对超市销售量的增长起了很重要的作用。 3通过数据挖掘进行个性化服务某服装公司开发一个网站来补充它的商品目录。在第一次将网站投放市场时,并没有什么个性化的内容,
27、网站只是商品目录美观有效的在线翻版,但是却没有利用Web现存的销售机会。利用数据挖掘技术迅速提高了公司的网络销售。首先,使用聚类的方法来发现哪些商品自然地分在同一组中。有时一些聚类是十分明显的,如衬衫和短裤;一些聚类可能是令人惊奇的,如关于沙漠探险的书和医疗工具包。这些聚类用来当顾客购买其中的一种商品时向顾客提出购买另一种商品的建议。然后,又进行客户分析来识别那些会对经常添加在商品目录中的新商品感兴趣的客户。指引客户购买那些挑选出来的产品不仅仅带来销售的增加,而且巩固了客户关系。为了扩大影响,公司还利用一个应用程序向客户发送E-mail,通过E-mail向客户提供由数据挖掘模型预测的客户感兴趣
28、的新产品信息。4“体育精品”体育用品公司 “体育精品”公司,在7个国家设有分店。为了增加销售,负责销售的副总裁决定通过奖励来促销,奖励销售额最高的地区和产品销售最多的单位。因此,这位副总裁要求首席信息官写出2份报告。但销售数据存储在不同地区的不同类型的数据库中,数据的格式不同,不同地区营业额用所在国的货币单位。首席信息官先用数据仓库工具将这些数据集中,并进行处理,完成了副总裁要求的2份报告:按地区的销售额和按产品的销售额。首席信息官向副总裁建议,可以进一步挖掘其他信息。如购买山地车的顾客最可能再购买其他哪些产品,购买气瓶的顾客1年内回来充气多少次? 得到的答案如下。 (1)购买山地车的顾客再购
29、买头盔的可能性为92;再购买手套的可能性为62;再购买新款铃铛的可能性为23;再购买速度计的可能性为13。通过上述数据决定对购买山地车的顾客引导他们再购买上述产品。还可以对他们宣传骑车安全问题,可以提高购买反光罩、车灯和反视镜等产品的销售;也可以向顾客进行饮料瓶、个人音响等其他产品的捆绑销售。 (2)购买气瓶的顾客一年内回来充气1次的有12;回来充气2次的有8;回来充气2次以上的只有7。 针对上述数据,有两种决策:放弃充气业务或进行更大力度的促销策略。决定采取第二种决策,具体促销策略是:给回来2次充气的顾客优惠25折扣,或给新的刺激销售方法,即在春季给购买气瓶的顾客邮寄信函提醒他们回来充气,在停车场建立更多的便利充气站以及顾客每一次充气都发折扣优
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 八年级上册生物说课稿《生态系统的组成》
- 禁毒会议记录内容3篇
- 租屋合同范本英文
- 商品房防盗门承包合同范本
- 高管如何优化全年工作安排计划
- 广东省江门市(2024年-2025年小学五年级语文)人教版质量测试(下学期)试卷及答案
- 工程服务代理协议合同范本
- 课程置换合同范本
- 内蒙古乌兰察布市(2024年-2025年小学五年级语文)人教版课后作业(上学期)试卷及答案
- 邢台学院《网球》2021-2022学年第一学期期末试卷
- 鲁迅笔下的“看客”形象
- 消防管道支架工程量计算表
- 企业外包业务安全生产专项检查表(全面)1管理学资料
- 《咕咚来了》课件PPT
- 05-SMT-DOE实验结案报告
- 藏族中学生心理健康状况调查
- 输尿管结石护理查房课件
- 西学中试题答案在后(已排版)
- 皮肤牵引护理技术操作流程及评分标准
- 医患沟通特殊问题处理课件
- 小学数学说课课件
评论
0/150
提交评论