数据仓库与数据挖掘技术教案PPT(1-5章).ppt_第1页
数据仓库与数据挖掘技术教案PPT(1-5章).ppt_第2页
数据仓库与数据挖掘技术教案PPT(1-5章).ppt_第3页
数据仓库与数据挖掘技术教案PPT(1-5章).ppt_第4页
数据仓库与数据挖掘技术教案PPT(1-5章).ppt_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘技术,Electronic Commerce 夏火松 E-MAIL:BXXHSSINA.COM,数据仓库与数据挖掘技术教案,第三部分 主要内容讲解 第一章 数据仓库与数据挖掘概述,1.1 数据仓库引论 1 1.1.1 为什么要建立数据仓库 1 1.1.2 什么是数据仓库 2 1.1.3 数据仓库的特点 7 1.1.4 数据进入数据仓库的基本过程与建立数据仓库的步骤 11 1.1.5 分析数据仓库的内容 12 1.2 数据挖掘引论 13 1.2.1 为什么要进行数据挖掘 13 1.2.2 什么是数据挖掘 18 1.2.3 数据挖掘的特点 21 1.2.4 数据挖掘的基本过程与步骤 22 1.2.5 分析数据挖掘的内容 26 1.3 数据挖掘与数据仓库的关系 28 1.4 数据仓库与数据挖掘的应用 31 1.4.1 数据挖掘在零售业的应用 31 1.4.2 数据挖掘技术在商业银行中的应用 36 1.4.3 数据挖掘在电信部门的应用 40 1.4.4 数据挖掘在贝斯出口公司的应用 42 1.4.5 数据挖掘如何预测信用卡欺诈 42 1.4.6 数据挖掘在证券行业的应用 43 思考练习题一 44,1.1.1 为什么要建立数据仓库,数据仓库的作用 建立数据仓库的好处,1.1.2 什么是数据仓库,1数据仓库的概念 W.H.Inmon在Building the Data Warehouse中定义数据仓库为:“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。” 即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。 “DW是作为DSS基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息。” “DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。即与企业定义的时间区段相关,面向主题且不可更新的数据集合。” 数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。 数据仓库是大量有关公司数据的数据存储。 仓库提供公司数据以及组织数据的访问功能,其中的数据是一致的(consistent),并且可以按每种可能的商业度量方式分解和组合;数据仓库也是一套查询、分析和呈现信息的工具;数据仓库是我们发布所用数据的场所,其中数据的质量是业务再工程的驱动器(driver of business reengineering)。 定义的共同特征:首先,数据仓库包含大量数据,其中一些数据来源于组织中的操作数据,也有一些数据可能来自于组织外部;其次,组织数据仓库是为了更加便利地使用数据进行决策;最后,数据仓库为最终用户提供了可用来存取数据的工具。,数据仓库的定义,综合对数据仓库的各种理解以及其特征,我们可以定义数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。,2与数据仓库相关的几个概念 数据(data)是一组表示数量、行动和目标的非随机的可以鉴别的符号,是对客观事物记录下来的,可以鉴别的符号。这些符号包括数字、字符、文字、图形、图像、声音。 操作数据 原子数据 汇总数据 特定查询响应,数据仓库环境,数据类型的分类 元数据是指用来描述数据仓库数据库内容的数据。以后将详细讨论元数据。 数据库是一组内部相关联的数据集合。其中关系数据库是表的集合,每个表都有惟一的名字,且每个表都由一组字段(属性)所存放的记录组成。 数据库管理系统(DBMS)是用来管理和存取数据库的一组软件。该软件具有如下机制:数据库结构定义,数据的存储、并发、共享或分布的数据访问,数据的一致性和安全性。 数据库系统是一个由硬件、软件、数据库和管理人员组成的复杂系统。随着信息技术不断的发展,对数据处理的技术和人们对数据的需求也在不断的进化,如图1.2所示的数据库系统及相关技术的演化。 数据集市(data marts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject data)。,数据库系统及相关技术的演化,1.1.3 数据仓库的特点,1主题与面向主题 2数据仓库数据的集成性 3数据仓库数据的不可更新性 4DW数据的时态性,1.1.4 数据进入数据仓库的基本过程与建立数据仓库的步骤,1数据进入数据仓库的基本过程 操作数据向数据仓库的移动包括以下五个过程:提取、变换、净化、加载和汇总。 2建立数据仓库的步骤 1)收集和分析业务需求; 2)建立数据模型和数据仓库的物理设计; 3)定义数据源; 4)选择数据仓库技术和平台; 5)从操作型数据库中提取、转换和净化数据到数据仓库; 6)选择访问和报表工具; 7)选择数据库连接软件; 8)选择数据分析和数据展示软件; 9)更新数据仓库;,1.1.5 分析数据仓库的内容,操作型数据和分析型数据的区别,1.2.1 为什么要进行数据挖掘,1数据挖掘的作用 数据挖掘解决诸如欺诈甄别(fraud detection)、保留客户(customer retention)、 消除摩擦(attrition)、数据库营销(database marketing)、市场细分(market segmentation)、风险分析(risk analysis)、亲和力分析(affinity analysis)、客户满意度(customer satisfaction)、破产预测(bankruptcy prediction)、职务分析(portfolio analysis)等业务问题提供了有效的方法。,2数据挖掘的背景 (1)数据挖掘的商业背景 (2)数据挖掘的技术背景 (3)数据挖掘的社会背景,3数据挖掘对企业的影响,1.2.2 什么是数据挖掘,1数据挖掘概念 定义1 G.Piatetsky Shapior,W.J.Frawley等定义数据挖掘为从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程。 定义2 有人简单认为,数据挖掘就是数据库中知识的发现。 定义3 有人认为,数据挖掘为发现数据中隐藏的模式和关系的过程。 定义4 有人认为,数据挖掘就是从大量数据中提取或挖掘知识。 定义5 Fayyad等在“知识发现96国际会议上”认为,知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程中一个特定的关键一步。这种观点将数据挖掘的对象局限于数据库。 定义6 数据挖掘广义的定义为在一些事实或观察数据的集合中寻找模式的决策支持的过程。 综上所述,我们定义数据挖掘为在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。,2数据挖掘的分类,3与数据挖掘相关的几个概念 1)直接数据挖掘 利用可用的数据建立一个模型,模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述,分类、估值、预言属于直接数据挖掘。 2)间接数据挖掘 不是选出某一具体的变量用模型进行描述;而是在所有的变量中建立起某种关系。相关性分组或关联规则、聚集、描述和可视化属于间接数据挖掘。 3)描述式数据挖掘 以简洁概要的方式描述数据,并提供数据的有意义的一般知识。 4)预测式数据挖掘 分析数据,建立一个或一组模型,并试图预测新数据集的行为。,3与数据挖掘相关的几个概念(续) 5)数据库查询工具和数据挖掘工具之间的差异 查询工具能帮助用户从数据库数据中找到新的、有意义的事实。这类问题是查询所要访问的是对象是否在某一特定的位置。这与目前数据库系统中大部分的查询操作是相似的。通过这类问题使你可以确定对象将到达的位置。 6)信息 7)知识(knowledge) 8)数据、信息与知识的转化关系,1.2.3 数据挖掘的特点,1)处理的数据规模十分庞大; 2)由于用户不能形成精确的查询要求,因此需要靠DM技术来寻找其可能感兴趣的东西; 3)DM对数据的迅速变化做出快速响应,以提供决策支持信息; 4)DM既要发现潜在规则,还要管理和维护规则,随着新数据的不断加入,规则需要随着新数据更新; 5)DM中规则的发现基于统计规律,发现的规则不必适合于所有数据,而且当达到某一阈值时,便认为有此规则。,1.2.4 数据挖掘的基本过程与步骤,1数据挖掘的基本过程 (1)数据准备 数据准备(data preparation):本阶段又可进一步细分成数据集成、数据选择和预分析。 (2) 挖掘 挖掘(mining):DM处理器(data mining processor)综合利用前面提到的多种DM方法分析数据。 (3) 表述 表述(presentation):与检验证型工具一样,DM将获取的信息以便于用户理解和观察的方式反映给用户,这时可以利用可视化工具。 (4) 评价 评价(assess):如果分析人员对分析结果不满意,可以递归地执行上述三个过程,直到满意为止。,2进行数据挖掘的步骤 (1) 问题定义 问题定义主要是指利用数据挖掘可以分析哪些问题。 (2)发现信息 通过数据挖掘分析从其客户那里发现更多的信息。 (3)制定计划 (4)采取行动 (5) 监测效果,1.2.5 分析数据挖掘的内容,1)直销 2)争取客户 3)保留客户 4)交叉销售 5)趋势分析 6)欺诈检测,1.3 数据挖掘与数据仓库的关系,用户包括偶然用户(casual user)、高级用户(power user)和专家(expert)。 查询协同管理包括一些访问工具和系统管理工具,为用户访问数据仓库和其他系统提供手段。 数据仓库管理包括安全和特权管理,跟踪数据的更新,数据质量检查,管理和更新元数据,审计和报告数据仓库的使用和状态,删除数据,复制、分割和分发数据,备份和恢复,存储管理。 信息发布系统即把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。,1.4.1 数据挖掘在零售业的应用,超市可以采用两种不同的方式从事信息中介,一种方式是针对匿名客户,另一种是针对注册或有忠诚卡的客户。 (1)重心从商品转换到客户 分析特定客户群的购买模式,厂商可以了解特定的客户的购买模型。 (2)数据分析 卖主(供应商)可以通过数据挖掘技术来增加商品的利润率,通过竞争成为“种类首领”。,1.4.2 数据挖掘技术在商业银行中的应用,在银行业,数据挖掘主要用于信用欺诈的建模和预测、风险评估、趋势分析、收益分析以及辅助直销活动。 在金融市场,已将神经网络用于股票价格预测、购买权交易、债券等级评定、资产组合管理、商品价格预测、合并和买进以及金融危机预测等方面。,1996年,银行系统和技术评论认为“数据挖掘技术将是本年度金融服务领域最重要的应用。” 在进行数据挖掘的银行包括美国第一银行、Headland抵押公司、FCC国家银行、联邦住房贷款抵押公司、Wells Fargo银行、NationsBanc服务公司、N.A.Mellon银行、Advata抵押公司、化学银行、Chevy Chase银行、美国银行公司和USAA联邦储蓄银行,1.4.3 数据挖掘在电信部门的应用,1998年,西部电信用SAS的企业挖掘数据产品作为数据挖掘平台,开发了一项企业营销战略系统。 1995年9月,DEC公司的Evan Davies和Hossein Pakraven提交的一份报告对客户跳槽造成的损失进行了量化,同时他们估计获得一个新客户的费用高达400美元。,1.4.4 数据挖掘在贝斯出口公司的应用,贝斯出口公司是英国最大的啤酒出口商。该公司选择了IBM的智能挖掘器作为其数据挖掘的商务解决方案。,1.4.5 数据挖掘如何预测信用卡欺诈,对于这一问题可以有下列3种解决的途径: 1)使用查询工具从关系数据库中以适当的格式抽取所需要的信息。采用Brio,Businee Objects及Congnos等公司开发的工具将很容易构造出模型。由于用这种方法需要将数据下载到客户端计算机中,所以能够从数据仓库中创建视图来表示将要挖掘的虚拟数据。 2)通过从关系数据仓库中抽取记录数据,这将会受到一定的限制。 3)通过构造SQL语句以适当格式得到所需的数据。,1.4.6 数据挖掘在证券行业的应用,关于股票预测,市场上有许多采用数据挖掘技术对股票进行预测的软件。如NETPROPHET是神经网络应用公司开发的一个股票预测应用软件,它采用了神经网络技术,将输出的结果用两条曲线分别表示实际股票值和预测股票值。,第二章 数据仓库的分析,2.1 影响数据仓库成功的因素 46 2.2 数据仓库的生命周期 47 2.2.1 数据仓库计划与准备阶段 48 2.2.2 数据仓库的其他阶段 54 2.3 数据仓库的基本体系结构 56 2.4 数据仓库的逻辑结构 60 2.4.1 数据仓库中的粒度 60 2.4.2 数据仓库中的数据分割 61 2.4.3 数据仓库中的数据组织 61 2.4.4 数据仓库中的快照 62 2.4.5 数据仓库中的元数据 62 思考练习题二 63,2.1 影响数据仓库成功的因素,决策支持系统与事务之间在数据库要求上的差异,影响数据仓库成功的因素,2.2.1 数据仓库计划与准备阶段,1用户需求分析 2可行性研究 3用户的认可 4建设数据仓库的协调与阻力分析 5开发项目计划制定 6创建数据仓库所使用的关键资源,数据仓库的生命周期,2.2.2 数据仓库的其他阶段,1)系统分析 2)系统设计(整体设计与详细设计) 3)系统测试,2.3 数据仓库的基本体系结构,客户应用,是供用户访问查询,并以直观方式展示分析结果; 数据仓库,是存储不同程度的数据和元数据; 集成器,是将从运作数据库中提取的数据经过转换、计算、综合等操作,集成到数据仓库中; 监视器,是负责感知数据源发生的变化,并按需求提取数据; 数据源,是为DW提供最底层的运作数据库系统及外部数据。,2.4.1 数据仓库中的粒度,2.4.2 数据仓库中的数据分割,数据分割的常用标准:按时间、商业行业、地理位置、组织单位等。这些标准都是由开发人员来选择,且还要选择是在应用层上进行分割,还是在系统层上进行分割。在系统层进行分割在一定程度上是DBMS和系统的一种功能。而在应用层分割需要应用程序代码来完成,每年的数据定义既可以相同,也可以不相同,同时从一个处理集转移到另一个处理集没有损失。,2.4.3 数据仓库中的数据组织,数据仓库中有这些数据组织:简单堆积结构、轮转综合数据存储、简单直接文件和连续组织。,2.4.4 数据仓库中的快照,快照是为一些事件的发生而产生的。 本组成形式由4个部分组成:键码(key)、时间单元、只和关键码相关联的初始数据、与初始数据或关键码无直接关系的二次数据。,2.4.5 数据仓库中的元数据,元数据(metadata)是关于数据的数据,对数据的结构、内容、键码、索引等的描述。元数据在操作型的环境中和分析型的环境中具有不同的作用。 元数据是描述数据仓库内数据的结构和建立方法的数据。可按其用途的不同分为两类:技术元数据和商业元数据。 技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。,第三章 数据仓库的设计与实施,3.1 从数据库到数据仓库 64 3.2 面向主题的数据仓库设计 64 3.2.1 数据建模 64 3.2.2 星型连接 65 3.3 开发数据仓库的物理设计 73 3.3.1 数据仓库设计工具的选择 73 3.3.2 物理数据模型设计 74 3.3.3 数据仓库中数据表的数量与规范化 74 3.4 数据仓库的实施 75 3.4.1 数据仓库的实施应注意的问题 75 3.4.2 在实施数据仓库过程中应避免的错误 76 3.4.3 数据仓库项目实施成功的要诀 79 思考练习题三 83,3.1 从数据库到数据仓库,3.2.1 数据建模,1)数据仓库的开发过程 2)基于开发过程的数据建模型的主要内容,3.2.2 星型连接,3.3.1数据仓库设计工具的选择,1数据获取工具的选择 2数据工具的选择,3.3.2 物理数据模型设计,硬件平台的选择:数据仓库的硬盘容量通常是操作数据库硬盘容量的23倍。选择硬件平台时要考虑的问题:是否提供并行的I/O?对多CPU的支持能力如何? 不同存储介质的特点比较表,3.3.3 数据仓库中数据表的数量与规范化,在数据模型处理过程中,如果程序在很多表中跳转,每次程序从一个表跳到另一个,就要进行I/O变换,既要存取数据,又要存取索引找到数据。如果许多程序需要大量的I/O时,性能就会受到影响,这就要进行小计。 当数据序列产生的数量是稳定的、按序列存取的,且数据的创建与修改在统计上是以很规律的方式进行的时候,可以采用数据数组。,3.4.1 数据仓库的实施应注意的问题,在数据仓库的实施过程中要考虑以下问题:投资回报率;在具体实施时应自顶向下还是自下到上;在人力资源的问题上要考虑培训还是雇用;在设计上要有前瞻性,把问题覆盖的范围思考大一些,但实施从小处开始。,3.4.2 在实施数据仓库过程中应避免的错误,1错误项目的发起 2制订了不可能完成的目标 3犯政治幼稚病 4把所有能找到的数据全都放到数据仓库中 5认为设计数据仓库就是设计事务数据库 6选择一个面向技术的而不是面向用户的人做数据仓库项目经理,7只专注内部关系型数据,而忽略外部数据、文本、图像甚至声音、视频数据 8用交叠的或冲突的数据定义交付数据 9 相信软硬件供应商对性能、能力和可扩展性的承诺 10相信一旦数据仓库建立起来并开始运行,你的任务就完成了 11专注于动态生成查询、数据挖掘和定期生成报表,3.4.3 数据仓库项目实施成功的要诀,许多数据仓库项目的指导方针都是成功的。Anahory和Murray提供了足有145组指导方针,所有这些都是为了那些负责数据仓库项目的人而设计的,目的是帮助他们得到成功的结论。 数据仓库专家Larry Greenfield已经出版了他关于一个成功数据仓库项目的建议,下面是给仓库建造者的一些建议(/larryg/index.html),第四章 信息分析的基本技术,4.1 自动信息分析的基本技术 84 4.1.1 智能代理 84 4.1.2 群体智能 87 4.1.3 小波分析 90 4.1.4 分形技术分析 92 4.2 联机分析 93 4.2.1 联机分析OLAP的基本术语 95 4.2.2 OLAP体系结构和处理的特性 96 4.2.3 OLAP多维数据结构与OLAP的分类 97 4.2.4 OLAP的多维数据分析方法 98 4.2.5 OLAP评价准则 100 4.2.6 OLAP的发展与流行的OLAP工具选择 103 4.3 Rough的信息分析技术 104 4.3.1 粗糙集理论的基本概念和理论基础 105 4.3.2 粗糙集在信息分析中的特征表示 106 思考练习题四 109,信息分析技术的不同方面与层次分类,4.1.1智能代理,智能代理(Agent)是一种在计算机网络上无疲劳工作执行重复性、可预料任务的,为人们建立知识的软件包。 智能代理具有长期性、半自动化、参与活动,且具有适应性。,1智能代理定义 Agent的设计是用来完成某类任务的,能在一定环境中自主发挥作用、有生命周期的计算实体。Agent 是一种抽象实体,它能作用于自身和环境,并能对环境做出反映,具有知识、目标和能力。 2多Agent与移动Agent 多Agent是由多个可执行网络计算的Agent组成的集合,能对问题求解,能随环境改变而自动修改自己的行为,并能通过网络与其他Agent进行通信、交换、合作,协同完成求解同一问题的分布式智能系统。 移动Agent是Agent 与Internet技术相结合的产物,它可以自主地在网络上从一台主机移动到另一台主机,根据用户指定的任务进行自动检索、收据和过滤信息,代表用户进行商务活动。 3建造Agent的方法,4.1.2 群体智能,1蚁群算法 2多Agent分布式的市场营销知识获取结构,多Agent分布式市场营销知识获取结构,4.1.3 小波分析,小波变换是一种信号处理技术,它将一个信号分解为不同频率的子波段。在实际工程中,有用信号通常表现为低频信号或是一些比较平稳的信号,而噪声(离群)则通常表现为高频信号。,4.1.4 分形技术分析,分形理论(fractal theory)的创始人Mandelbrot在20世纪60年代就应用自相似性和标度不变性,对棉花价格进行了研究。 称集F是分形的,是具备如下典型的性质: 1)F具有精细的结构,即有任意小比例的不规则的细节; 2)F是如此的不规则以至于无论它的整体和局部都不能用微积分或传统的几何语言来描述; 3)F通常有某种自相似或自仿射的性质,可能是近似的,也可能是统计近似意义上的; 4)一般地F有“分形维数”(以某种定义),通常严格大于它的拓扑维数; 5)在大多令人感兴趣情形下,F以非常简单的方法,可能由迭代给出定义; 6)F通常有“自然”的外貌。,4.2.1联机分析OLAP的基本术语,定义1 OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。 定义2 OLAP(联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的,并对真实反映企业数据特性的信息进行快速、一致、交互地存取,从而获得对数据更深入了解的一类软件技术 (OLAP委员会的定义)。 OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。,4.2.2 OLAP体系结构和处理的特性,4.2.3 OLAP多维数据结构与OLAP的分类,1OLAP多维数据结构 2OLAP的分类,4.2.4 OLAP的多维数据分析方法,1切片(slice) 2切块(Dice) 3旋转(turning)/转轴(pivot) 4钻取(drill),4.2.5 OLAP评价准则,准则1 OLAP模型必须提供多维概念视图。 准则2 透明性准则。 准则3 存取能力准则。 准则4 稳定的报表性能。 准则5 客户/服务器体系结构。 准则6 维的等同性准则。 准则7 动态的稀疏矩阵处理准则。 准则8 多用户支持能力准则。 准则9 非受限的跨维操作。 准则10 直观的数据操纵。 准则11 灵活的报表生成。 准则12 非受限维与聚集层次。,4.2.6 OLAP的发展与流行的OLAP工具选择,1OLAP的发展 2流行的OLAP工具选择 1)Hyperion Essbase: 2)Oracle Express 3)IBM DB2 OLAP Server 4)Sybase Power dimension 5)Informix Metacube,4.3.1 粗糙集理论的基本概念和理论基础,知识、划分与等价关系 信息表、不可分辨关系和基本集 粗糙集的下、上近似及边界区,4.3.2 粗糙集在信息分析中的特征表示,定义4 设U是论域,=1, 2,m是对象集, ,中任何对象所具有的特征所组成的集合,称为特征集(property set):T=t1,t2,tn。这些特征可由如下的“属性-值”表示:t=(a,v), , 。由特征集构成的表,称之为特征表,第五章 数据挖掘过程,5.1 数据挖掘的方法与基本流程 110 5.1.1 SEMMA方法 110 5.1.2 数据挖掘的基本流程 111 5.2 确定主题和定义数据挖掘任务 112 5.2.1 确定主题 113 5.2.2 定义数据挖掘任务 115 5.3 数据预处理 115 5.3.1 数据的收集和准备 116 5.3.2 数据清理(data cleaning), 116 5.3.3 数据集成(data integration) 118 5.3.4 数据变换(data transformation) 119 5.3.5 数据归约(data reduction) 119 5.3.6 微软数据转换服务(DTS) 120 5.4 数据挖掘的模型建立与理解 120 5.4.1 关于模型的准确性 123 5.4.2 关于模型的可理解性 123 5.4.3 关于模型的性能 124 5.4.4 描述和可视化 124 5.4.5 验证与评估 125 5.5 数据挖掘中常见的一些问题 127 5.5.1 商业用户提出的问题 127 5.5.2 技术问题 127 5.5.3 数据挖掘应用问题 127 5.5.4 实施数据挖掘项目考虑的问题 128 5.5.5 数据挖掘对社会的影响有关隐私问题 128 5.6 事先无法预测的有价值知识 129 思考练习题五 130,5.1.1 SEMMA方法,SAS的Enterprise Miner中包含了一个可以影射为SEMMA方法的分析流图 SAS的SEMMA方法即抽样(sample)、探索(explore)、修改(modify)、模型(model)和评价(assess)等英文头的缩写,它是由一个过程流图驱动的,5.1.2 数据挖掘的基本流程,5.2 确定主题和定义数据挖掘任务,首先确定与任务相关的数据,即我想挖掘什么数据集 确定数据挖掘研究的范围,即想挖掘什么类型的知识,什么背景知识在这里可能有用,哪些度量可以用来评估模式的兴趣度,5.2.1 确定主题,保持力控制、风险预测、收益率分析、数据趋势分析、雇员分析、区域分析、分类、聚类和可视化研究都可作为主题的类型。,5.2.2 定义数据挖掘任务,1)首先定义与任务相关的数据,即要确定数据选择的条件、数据分组条件、相关属性或维等。要使得挖掘效率高,可建立视图进行挖掘,数据仓库可满足这些条件。 2)确定与数据挖掘任务相关的知识类型,即从特征化和判别式、关联、分类、预测、聚类和演变分析等中找出一种或几种类型。模式模板,包括元模式(元规则或元查询)可以指导知识的发现过程。 3)获取一定的背景知识,背景知识是正确的作出概念分层和用户对数据保持联系。概念分层包括模式分层、集合分组分层、操作导出的分层和基于规则的分层。 4)度量与数据挖掘任务相关的模式兴趣度:兴趣度度量包括评估模式的简洁性(如规则长度)、确定性(置信度)、实用性(支持度)和新颖性。,5.3.1数据的收集和准备,数据的收集和准备是开展数据挖掘的最大障碍。 数据准备一般包含两方面: 从多种数据源中去综合数据挖掘所需要的数据,保证数据质量的综合性、易用性和时效性,这有可能要用到数据仓库的思想和技术; 如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。,5.3.2 数据清理(data cleaning),数据清理要解决如下的一些问题: (1)数据质量 (2)冗余数据 (3)过时数据 (4)术语定义的变化 数据清洗将会使数据集产生哪些问题 1)一致性问题 2)失效数据的清洗问题 3)印刷错误的清洗问题 4)数值缺失 5)数据导出,5.3.3 数据集成(data integration),数据集成的关键是获取数据,如访问数据仓库。通过如下几种方法访问数据: 1)通过基于事务的关系数据库或基于PC的数据库访问数据 2)通过数据转换工具访问数据 3)用查询工具访问数据 4)从平面文件中访问数据,5.3.4 数据变换(data transformation),数据变换就是将数据进行规范化和聚集。 规范化可以改进涉及距离度量的挖掘算法的精度和有效性。常用的方法有平滑(包括分箱、聚类和回归)来去掉噪声数据; 聚集来对数据进行汇总;数据概化使用高层次概念替换低层次“原始”数据来进行概念分层;规范化将属性数据按比例缩放,使之落入一个小的特定区间;属性构造(特征构造)来帮助提高精度和对高维数据结构的理解。,5.3.5 数据归约(data reduction),数据归约通过聚集、删除冗余特性或聚类等方法来压缩数据。 常用的方法: 数据立方体聚集 维归约 数据压缩 数值归约 离散化 概念分层产生,5.3.6 微软数据转换服务(DTS),微软数据转换服务(microsoft data transformaton serverics,DTS)是一个从不同的数据源收集数据的重要工具。 DTS是一个面向批处理的程序。包( package)是基本的DTS单元,DTS对象包含在包中。包的4种对象类型包括:数据连接、DTS任务、数据转换和工作流。 DTS的内容包括:COM对象集合,其中每一个对象完成一项特定的任务;OLE DB数据连接的中心;工作流程开发平台和应用开发环境。,5.4 数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论