




已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库与数据挖掘技术,第1章 数据仓库与数据挖掘概述,1.1 数据仓库引论 1 1.1.1 为什么要建立数据仓库 1 1.1.2 什么是数据仓库 2 1.1.3 数据仓库的特点 7 1.1.4 数据进入数据仓库的基本过程与建立数据仓库的步骤 11 1.1.5 分析数据仓库的内容 12 1.2 数据挖掘引论 13 1.2.1 为什么要进行数据挖掘 13 1.2.2 什么是数据挖掘 18 1.2.3 数据挖掘的特点 21 1.2.4 数据挖掘的基本过程与步骤 22 1.2.5 分析数据挖掘的内容 26 1.3 数据挖掘与数据仓库的关系 28 1.4 数据仓库与数据挖掘的应用 31 1.4.1 数据挖掘在零售业的应用 31 1.4.2 数据挖掘技术在商业银行中的应用 36 1.4.3 数据挖掘在电信部门的应用 40 1.4.4 数据挖掘在贝斯出口公司的应用 42 1.4.5 数据挖掘如何预测信用卡欺诈 42 1.4.6 数据挖掘在证券行业的应用 43 思考练习题一 44,1.1.1 为什么要建立数据仓库,数据仓库的作用 建立数据仓库的好处,1.1.2 什么是数据仓库,1数据仓库的概念 W.H.Inmon在Building the Data Warehouse中定义数据仓库为:“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。” 即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。 “DW是作为DSS基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息。” “DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。即与企业定义的时间区段相关,面向主题且不可更新的数据集合。” 数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。 数据仓库是大量有关公司数据的数据存储。 仓库提供公司数据以及组织数据的访问功能,其中的数据是一致的(consistent),并且可以按每种可能的商业度量方式分解和组合;数据仓库也是一套查询、分析和呈现信息的工具;数据仓库是我们发布所用数据的场所,其中数据的质量是业务再工程的驱动器(driver of business reengineering)。 定义的共同特征:首先,数据仓库包含大量数据,其中一些数据来源于组织中的操作数据,也有一些数据可能来自于组织外部;其次,组织数据仓库是为了更加便利地使用数据进行决策;最后,数据仓库为最终用户提供了可用来存取数据的工具。,数据仓库的定义,综合对数据仓库的各种理解以及其特征,我们可以定义数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。,2与数据仓库相关的几个概念 数据(data)是一组表示数量、行动和目标的非随机的可以鉴别的符号,是对客观事物记录下来的,可以鉴别的符号。这些符号包括数字、字符、文字、图形、图像、声音。 操作数据 原子数据 汇总数据 特定查询响应,数据仓库环境,数据类型的分类 元数据是指用来描述数据仓库数据库内容的数据。以后将详细讨论元数据。 数据库是一组内部相关联的数据集合。其中关系数据库是表的集合,每个表都有惟一的名字,且每个表都由一组字段(属性)所存放的记录组成。 数据库管理系统(DBMS)是用来管理和存取数据库的一组软件。该软件具有如下机制:数据库结构定义,数据的存储、并发、共享或分布的数据访问,数据的一致性和安全性。 数据库系统是一个由硬件、软件、数据库和管理人员组成的复杂系统。随着信息技术不断的发展,对数据处理的技术和人们对数据的需求也在不断的进化,如图1.2所示的数据库系统及相关技术的演化。 数据集市(data marts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject data)。,数据库系统及相关技术的演化,1.1.3 数据仓库的特点,1主题与面向主题 2数据仓库数据的集成性 3数据仓库数据的不可更新性 4DW数据的时态性,1.1.4 数据进入数据仓库的基本过程与建立数据仓库的步骤,1数据进入数据仓库的基本过程 操作数据向数据仓库的移动包括以下五个过程:提取、变换、净化、加载和汇总。 2建立数据仓库的步骤 1)收集和分析业务需求; 2)建立数据模型和数据仓库的物理设计; 3)定义数据源; 4)选择数据仓库技术和平台; 5)从操作型数据库中提取、转换和净化数据到数据仓库; 6)选择访问和报表工具; 7)选择数据库连接软件; 8)选择数据分析和数据展示软件; 9)更新数据仓库;,1.1.5 分析数据仓库的内容,操作型数据和分析型数据的区别,1.2.1 为什么要进行数据挖掘,1数据挖掘的作用 数据挖掘解决诸如欺诈甄别(fraud detection)、保留客户(customer retention)、 消除摩擦(attrition)、数据库营销(database marketing)、市场细分(market segmentation)、风险分析(risk analysis)、亲和力分析(affinity analysis)、客户满意度(customer satisfaction)、破产预测(bankruptcy prediction)、职务分析(portfolio analysis)等业务问题提供了有效的方法。,2数据挖掘的背景 (1)数据挖掘的商业背景 (2)数据挖掘的技术背景 (3)数据挖掘的社会背景,3数据挖掘对企业的影响,1.2.2 什么是数据挖掘,1数据挖掘概念 定义1 G.Piatetsky Shapior,W.J.Frawley等定义数据挖掘为从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程。 定义2 有人简单认为,数据挖掘就是数据库中知识的发现。 定义3 有人认为,数据挖掘为发现数据中隐藏的模式和关系的过程。 定义4 有人认为,数据挖掘就是从大量数据中提取或挖掘知识。 定义5 Fayyad等在“知识发现96国际会议上”认为,知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程中一个特定的关键一步。这种观点将数据挖掘的对象局限于数据库。 定义6 数据挖掘广义的定义为在一些事实或观察数据的集合中寻找模式的决策支持的过程。 综上所述,我们定义数据挖掘为在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。,2数据挖掘的分类,3与数据挖掘相关的几个概念 1)直接数据挖掘 利用可用的数据建立一个模型,模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述,分类、估值、预言属于直接数据挖掘。 2)间接数据挖掘 不是选出某一具体的变量用模型进行描述;而是在所有的变量中建立起某种关系。相关性分组或关联规则、聚集、描述和可视化属于间接数据挖掘。 3)描述式数据挖掘 以简洁概要的方式描述数据,并提供数据的有意义的一般知识。 4)预测式数据挖掘 分析数据,建立一个或一组模型,并试图预测新数据集的行为。,3与数据挖掘相关的几个概念(续) 5)数据库查询工具和数据挖掘工具之间的差异 查询工具能帮助用户从数据库数据中找到新的、有意义的事实。这类问题是查询所要访问的是对象是否在某一特定的位置。这与目前数据库系统中大部分的查询操作是相似的。通过这类问题使你可以确定对象将到达的位置。 6)信息 7)知识(knowledge) 8)数据、信息与知识的转化关系,1.2.3 数据挖掘的特点,1)处理的数据规模十分庞大; 2)由于用户不能形成精确的查询要求,因此需要靠DM技术来寻找其可能感兴趣的东西; 3)DM对数据的迅速变化做出快速响应,以提供决策支持信息; 4)DM既要发现潜在规则,还要管理和维护规则,随着新数据的不断加入,规则需要随着新数据更新; 5)DM中规则的发现基于统计规律,发现的规则不必适合于所有数据,而且当达到某一阈值时,便认为有此规则。,1.2.4 数据挖掘的基本过程与步骤,1数据挖掘的基本过程 (1)数据准备 数据准备(data preparation):本阶段又可进一步细分成数据集成、数据选择和预分析。 (2) 挖掘 挖掘(mining):DM处理器(data mining processor)综合利用前面提到的多种DM方法分析数据。 (3) 表述 表述(presentation):与检验证型工具一样,DM将获取的信息以便于用户理解和观察的方式反映给用户,这时可以利用可视化工具。 (4) 评价 评价(assess):如果分析人员对分析结果不满意,可以递归地执行上述三个过程,直到满意为止。,2进行数据挖掘的步骤 (1) 问题定义 问题定义主要是指利用数据挖掘可以分析哪些问题。 (2)发现信息 通过数据挖掘分析从其客户那里发现更多的信息。 (3)制定计划 (4)采取行动 (5) 监测效果,1.2.5 分析数据挖掘的内容,1)直销 2)争取客户 3)保留客户 4)交叉销售 5)趋势分析 6)欺诈检测,1.3 数据挖掘与数据仓库的关系,用户包括偶然用户(casual user)、高级用户(power user)和专家(expert)。 查询协同管理包括一些访问工具和系统管理工具,为用户访问数据仓库和其他系统提供手段。 数据仓库管理包括安全和特权管理,跟踪数据的更新,数据质量检查,管理和更新元数据,审计和报告数据仓库的使用和状态,删除数据,复制、分割和分发数据,备份和恢复,存储管理。 信息发布系统即把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。,1.4.1 数据挖掘在零售业的应用,超市可以采用两种不同的方式从事信息中介,一种方式是针对匿名客户,另一种是针对注册或有忠诚卡的客户。 (1)重心从商品转换到客户 分析特定客户群的购买模式,厂商可以了解特定的客户的购买模型。 (2)数据分析 卖主(供应商)可以通过数据挖掘技术来增加商品的利润率,通过竞争成为“种类首领”。,1.4.2 数据挖掘技术在商业银行中的应用,在银行业,数据挖掘主要用于信用欺诈的建模和预测、风险评估、趋势分析、收益分析以及辅助直销活动。 在金融市场,已将神经网络用于股票价格预测、购买权交易、债券等级评定、资产组合管理、商品价格预测、合并和买进以及金融危机预测等方面。,1996年,银行系统和技术评论认为“数据挖掘技术将是本年度金融服务领域最重要的应用。” 在进行数据挖掘的银行包括美国第一银行、Headland抵押公司、FCC国家银行、联邦住房贷款抵押公司、Wells Fargo银行、NationsBanc服务公司、N.A.Mellon银行、Advata抵押公司、化学银行、Chevy Chase银行、美国银行公司和USAA联邦储蓄银行,1.4.3 数据挖掘在电信部门的应用,1998年,西部电信用SAS的企业挖掘数据产品作为数据挖掘平台,开发了一项企业营销战略系统。 1995年9月,DEC公司的Evan Davies和Hossein Pakraven提交的一份报告对客户跳槽造成的损失进行了量化,同时他们估计获得一个新客户的费用高达400美元。,1.4.4 数据挖掘在贝斯出口公司的应用,贝斯出口公司是英国最大的啤酒出口商。该公司选择了IBM的智能挖掘器作为其数据挖掘的商务解决方案。,1.4.5 数据挖掘如何预测信用卡欺诈,对于这一问题可以有下列3种解决的途径: 1)使用查询工具从关系数据库中以适当的格式抽取所需要的信息。采用Brio,Businee Obje
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 废弃PET醇解合成高附加值化学品工艺研究
- 餐饮服务卫生质量保障合同
- 钢构厂房买卖合同
- 电子商务物流运输服务协议内容
- 网络课程资源开发及销售合作合同
- 生态湿地绿化工程合同
- 餐饮经营承包合同
- 装修战略合作合同协议书范本5篇
- 英文技术合同5篇
- 房屋终止租赁合同书6篇
- 医疗设备维保服务项目总体实施方案
- 多动症行为治疗
- 湛江房屋租赁合同书范本
- 2025下半年江苏盐城响水县部分事业单位招聘77人高频重点提升(共500题)附带答案详解
- 2025年杭州市能源集团招聘笔试参考题库含答案解析
- 艾滋病知识培训课件
- 0-3岁婴幼儿常见疾病与伤害防护知到智慧树章节测试课后答案2024年秋杭州师范大学
- 专题07 等差数列与等比数列(考点清单+知识导图+ 13个考点清单-题型解读)(原卷版)-25学年高二数学上学期期末考点大串讲
- 博士科研计划书模板
- 《Origin的使用方法》课件
- 2024年WPS计算机二级考试题库350题(含答案)
评论
0/150
提交评论