数据挖掘教案_第1页
数据挖掘教案_第2页
数据挖掘教案_第3页
数据挖掘教案_第4页
数据挖掘教案_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、上课时间第一周上课节次3节课型理论课题绪论教学目的使学生初步认识数据挖掘与数据仓库教学方法讲授重点、难点数据挖掘与数据仓库的定义及其应用价值时间分配教学内容板书或课件版面设计1.1初识数据挖掘1.1.1数据挖掘的产生数据挖掘产生的前提是需要从多年积累的 大量数据中找出隐藏在其中的、有用的信息 和规律。计算机技术和信息技术的发展使其有能力处理这样大量的数据。1.1.2数据挖掘的应用价值应用数据挖掘从大量数据中发现规律是面 向某一应用的规律,具有具体的指导意义。 早期数据挖掘主要应用于商业领域,随着人 们对数据挖掘了解的逐步深入,其应用领域 逐步扩大到科学研究、市场营销、金融分析 和体育比赛等领域

2、。1.1.3数据挖掘的发展过程数据挖掘是20世纪80年代人工智能研究项目失败后,人工智能转入实际应用时提出 的,是一个新兴的、面向商业应用的人工智 能研究。1.1.4数据挖掘的定义数据挖掘就是从大量的、不完全的、有噪声 的、模糊的、随机的数据中,提取隐含在其 中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程。1.2初识数据仓库1.2.1数据仓库的产生20世纪80年代出现了数据仓库的思想,数 据仓库是面向主题的、集成的、包含历史的、 不可更新的、面向决策支持的、面向全企业 的、最明细的数据存储、数据快照式的数据 获取。1.2.2数据仓库的应用价值传统数据库的处理方式和决策分析中的数 据

3、需求在决策处理的系统吸纳供应问题、 决 策数据需求的问题以及决策数据操作的问 题方面不相称,导致企业无法使用现有的业 务处理来满足决策分析的需要,因此决策分析需要一个能够不受传统事务处理的约束、 高效率处理决策分析数据的支持环境,这就 是数据仓库存在的价值。123数据仓库的发展过程数据仓库是一种新的数据处理体系结构,是 企业内部各部门业务数据和各种外部数据 进行统一和综合的中央数据仓库,为企业决 策支持系统提供所需的信息,是一种信息管 理技术。目前世界上最大数据仓库是NRC公司建立的基于其Tera data数据库拥有24TB数据量 的Wal-Mart数据仓库系统。1.2.4数据仓库的定义数据仓

4、库是面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,用以支持 经营管理中的决策制定过程。1.2.5数据仓库与数据挖掘的关系(1)数据仓库系统的数据可以作为数据挖 掘的数据源(2)数据挖掘的数据源不一定必须是数据仓库系统1.3进一步理解的数据挖掘1.3.1数据挖掘的功能数据挖掘的目标是从数据中发现隐含的、 有 意义的知识,包括概念描述、关联分析、分 类与预测、聚类分析、趋势分析、孤立点分 析以及偏差分析7个方面的功能。(1) 概念描述对某类对象的内涵进行描述,并概括这类对 象的有关特征。其中,特征性描述用于描述 某类对象的共同特征,区别性描述用于描述 不同类对象之间的区别。(2) 关

5、联分析关联分析的目的在于找出数据中隐臧的关 联网。(3) 分类与预测所谓分类就是依照分析对象的属性分门别 类、加以疋义、建立类组,其关键是确疋对 数据按照什么标准或什么规则进行分类。 所谓预测就是利用历史数据就爱能力模型, 再运用最新数据作为输入值,获得未来变化 的趋势或者评估给定样本可能具有的属性 值或值的范围。(4) 聚类分析又称为无指导的学习,其目的在于客观地按 照被处理对象的特征分类,将有相冋特征的 对象归为一类。(5) 趋势分析又称为时间序列分析,是从相当长的时间的 发展中发现规律和趋势,是时序数据挖掘最 基本的内容。(6) 孤立点分析又称为孤立点挖掘,是指数据库中包含的一 些与数据

6、的 般行为或模型不 致的数据。(7) 偏差分析又称为比较分析,是对差异和极端特例的描 述,用于揭示事物偏离常规的异常现象。132数据挖掘常用技术数据挖掘算法是数据挖掘技术的部分,数 据挖掘技术用于执行数据挖掘功能,一个特 定的数据挖掘功能只适用于给定的领域。(1)聚类检测方法是最早的数据挖掘技术之一,在聚类检测技 术中,不是搜寻预先分类的数据,也没有自 变量和因变量之分,因此也称为无指导的知 识发现或无监督学习。聚类生成的组叫簇,是数据对象的集合。聚类检测的过程就是使同一个簇内的任意 两个对象之间具有较高的相似性,不同簇的 两个对象之间具有较咼的向异性。用于数据挖掘的聚类检测方法有:划分的方

7、法、层次的方法、基于密度的方法、基于网 络的方法和基于模型的方法等。(2) 决策树方法主要应用于分类和预测,提供了一种展示类 似在什么条件下会得到什么值这类规则的 方法。 个决策树表示 系列的问题,每个 问题决定了继续下去的问题会是什么。决策树方法适合于处理费数值型数据。(3) 人工神经网络方法人工神经网络方法主要用于分类、聚类、特 征挖掘、预测等方面。它通过向一个训练数 据集学习和应用所学知识,生成分类和预测 的模式。对于数据是不定性的和没有任何明 显模式的情况,应用人工神经网络比较有 效。人工神经网络方法主要有:前馈式网络、反 馈式网络和自组织网络。(4)遗传算法该算法模仿人工选择培育良种

8、的思路,从一 个初始规则集合开始,迭代地通过交换对象 成员产生群体,评估并择优复制,优胜劣汰 逐代积累计算,最终得到最有价值的知识 集。繁殖:从一个旧种群选择出生命力强的个体 产生新种群的过程。交叉:选择两个不同个体的部分进行交换, 形成新个体的过程。变异:对某些个体的某些基因进行变异。(5)关联分析方法包含关联发现(能够系统地、有效地得到关 联规则,找出关联组合,在关联组合中,如 果出现某一项,另一项也会出现)、序列模 式发现(找到时间上连续的事件)和类似的 时序发现模式(先找到一个事件顺序,再推 测出其它类似的事件顺序)。(6)基于记忆的推理算法即使用一个模型的已知实例来预测未知的 实例。

9、133数据挖掘的过程討脚据/嬴疋讐AiT严呼轴 导丿噴迄业务对獻.政舉准舖.进崔捏犯.廿析改骊识咼世1.4数据挖掘应用实例某些具有特定的应用问题和应用背景的领域是最能体现数据挖掘作用的应用领域。1.5数据挖掘的发展趋势1.5.1数据挖掘研究方向(1)专门用于知识发现的形式化和标准化 的数据挖掘语言。(2)数据挖掘过程中的便于用户理解的及人机交互的可视化方法。(3)网络环境下的数据挖掘技术。(4)加强对各种非结构化数据的挖掘。1.5.2数据挖掘应用的热点(1)网站的数据挖掘(2)生物信息或基因的数据挖掘(3)文本的数据挖掘教学后记本章节的重点是数据挖掘与数据仓库的定 义,难点是它们的应用价值,学

10、生对它们的 应用领域及案例相对较为感兴趣。上课时间第二周上课节次3节课型理论课题数据仓库的定义、结构、说明及其清理教学目的使学生初步了解数据仓库教学方法讲授重点、难点数据仓库的定义及其结构时间分配教学内容板书或课件版面设计2.1数据仓库的定义数据仓库是一个环境,而不是一件产品,提 供用户用于决策支持的当前和历史的数据, 这些数据时在传统的操作型数据库中很难 或不能得到的。数据仓库的4个基本特征:(1)数据仓库的数据是面向主题的。(2)数据仓库的数据是集成的。(3)数据仓库的数据是不可更新的。(4)数据仓库的数据时随时间不断变化的。 2.1.1数据仓库的数据是面向主题的 面向主题性表示数据仓库中

11、数据组织的基 本原则,数据仓库中的所有数据都是围绕着 某一主题组织和展开的。(1) 主题的概念主题是 个抽象的概念,是在较咼层次上将 企业信息系统中的数据综合、归类并进行分 析利用的抽象,在逻辑意义上,它是对应企 业中某一宏观分析领域所涉及的分析对象。 面向主题的数据组织方式,就是在较咼上分析对象的数据的 个完整、 致的描述, 能完整、统地刻画各个分析对象所涉及的 企业的各项数据,以及数据之间的联系。(2) 主题的划分原则在划分主题是,必须保证每个主题的独立性 和完备性。主题确定后需要确定主题应该包含的数据。 在主题的数据组织中应该注意,不冋的主题 之间可能出现相互重叠的信息,这种主题间 的重

12、叠是逻辑的,而不是同一数据内容的物 理存储重复。2.1.2数据仓库的数据是集成的在数据进入数据仓库之前,必然要经过转 换、统 与综合,这疋数据仓库建设中最关 键也疋最复杂的步。2.1.3数据仓库的数据是不可更新的数据仓库的数据主要供企业决策分析之用, 不是用来进行日常操作的, 般只保存过去 的数据,而不随源数据的变化而实时更新, 数据仓库中的数据 般不再修改。由于数据仓库的数据是不可更新的,因此也 称其具有非易失性。这种不可更新性可以支 持不同的用户在不同的时间查询相同的问 题时获得相同的结果。2.1.4数据仓库的数据是随时间不断变化的 数据仓库的数据随时间的不断变化主要体 现在数据仓库随时间

13、变化不断增加新的数 据内容。数据仓库的数据初装完成后,再向数据仓库 输入数据的过程称为数据追加。数据追加的内容仅限于上次向数据仓库输 入后元数据库中变化了的数据。2.2数据仓库的结构数据仓库中的数据可分为多个级别,不同综 合级别称之为“粒度”。221元数据元数据是“关于数据的数据”,可对数据仓 库中的各种数据进行详细的描述与说明,说明每个数据的上下文关系,使每个数据具有 符合现实的真实含义,使最终用户了解这些 数据之间的关系。(1) 元数据在数据仓库中的作用 为决策支持系统分析员和咼层决策人员 服务提供便利。 解决面向应用的操作型环境和数据仓库 的复杂关系。(2) 元数据的使用 元数据在数据仓

14、库开发期间的使用。 元数据在数据源抽取中的作用。 元数据在数据清理与综合中的使用。(3) 元数据的分类按元数据的类型可分为关于基本数据的元 数据、用于数据处理的元数据和关于企业组 织结构的元数据。按抽象级别可分为概念级、逻辑级和物理级 的元数据。按元数据承担的任务可分为静态元数据和 动态元数据。从用户的角度对元数据分类没有 个统的标准,往往与元数据的使用目的有关,一般可分为技术兀数据和业务兀数据两类。(4)元数据的内容 数据源的元数据 数据模型的元数据 数据准备区元数据 数据库管理系统元数据 前台元数据222粒度的概念粒度是指数据仓库的数据单位中保存数据 细化或综合程度的级别,它影响存放在数据

15、 仓库中的数据量得大小,同时影响数据仓库 所能回答查询问题的细节程度。粒度可分为按时间段综合数据的粒度和按 米样率咼低划分的样本数据库两种形式。(1)按时间段综合数据的粒度按时间段综合数据的粒度是对数据仓库中 的数据的综合程度高低的一个度量,一般是 按照不同的时间段来综合数据。它及影响数 据仓库中的数据量的多少,也影响数据仓库 所能回答询问的种类。为了适应不同查询的需要,数据仓库中经常 建立多重粒度。(2)样本数据库样本数据库的粒度级别不是根据综合程度 的不同来划分的,而是根据米样率的咼低来 划分的。米样粒度不冋的样本数据库可以具 有相同的综合级别。样本数据库的抽取可以按照数据的重要程 度不同

16、来进行,样本数据库是建立在不同时 点上的粒度。2.2.3分割问题分割也是数据仓库中的一个重要概念,它是 指将数据分散到各自的物理单元中去,以便 能分别独立处理,以提高数据处理效率。数据分割后俄数据单兀称为分片。(1) 分割的优越性 谷易重构 容易重组 自由索引 顺序扫描 容易恢复 容易监控(2) 数据分割的标准数据分割的标准石油开发人员选择的(有时间、商业领域、地理位置、组织单位等), 在数据仓库中,按时间总是必需的。(3)分割的层次一般分为系统层(由数据库管理系统和操作 系统完成分割)和应用层(由应用程序完成 分割)两层。224数据仓库中的数据组织形式(1)简单堆积结构这是数据仓库中最常用、

17、最简单的数据组织 形式,它从面向应用的数据库中每天的数据 中提取出来,然后按照相应的主题集成为数 据仓库中的记录。(2)轮转综合结构该结构将数据存储单位分为日、周、月、年 几个级别,结构简捷,数据量比简单堆积结 构大大减少,但损失了数据细节。(3)简单直接结构类似于简单堆积文件,但不是每天集成后放 入数据仓库,而是间隔一定时间间隔。简单直接结构也可以认为是按一定的时间间隔对数据库的采样。(4)连续结构通过两个或更多的连续的简单直接结构数 据组织形式的文件,可以生成连续结构数据 组织形式的文件。对于各种文件结构的最终实现,关系数据库 中仍然要依靠“表”的结构。2.3数据仓库的说明数据仓库通过标准

18、手册进行说明,标准手册 中包含:描述什么是数据仓库描述对数据仓库输送数据的源系统如何使用数据仓库有了问题如何获得帮助谁负责什么数据仓库的迁入计划数据仓库数据如何与面向应用的数据相 关联如何为决策分析系统使用数据仓库什么时候不向数据仓库中加数据数据仓库中没有什么类型的数据可利用的元数据的说明 数据仓库的记录系统是什么2.4数据仓库的清理数据从数据仓库中“清除”有以下几种形式:(1) 数据加入到失去原有细节的 个轮转 综合结构数据组织形式的文件中。(2) 数据从咼性能的介质转移到大谷量介 质上。(3) 数据从数据仓库系统中真正清除。(4) 数据从偶给你体系结构的一个层次转 移到另一个层次。教学后记

19、本早节的重点是数据仓库的疋义,难点是数 据仓库的结构,学生掌握情况一般,还需课 后多查看相关资料。上课时间第三周上课节次3节课型理论课题数据仓库系统的设计、数据的访问及应用教学目的使学生学会设计数据仓库系统,并访问其数据教学方法讲授重点、难点数据仓库系统的设计与素具仓库数据的访问时间分配教学内容板书或课件版面设计2.5数据仓库系统的设计2.5.1数据仓库系统设计方案数据仓库是一个面向数据分析处理的数据 环境,数据仓库的数据是面向主体的、集成 的、不可更新的、随时间不断变化的。(1)数据仓库系统设计与数据库系统设计 的不同主要表现在面向的处理类型步步、面向的需 求不同、系统设计的目标不同、两者的

20、数据 来源或系统的输入不同以及设计的方法和 步骤不同等几个方面。(2)声明周期发SDLCSDLC有独立的手机需求和分析需求的阶 段,一旦进入到构建数据库阶段,系统的需求就基本不变了。(3) 螺旋式卡法方法CLDSCLDS方法没有独立的收集需求和分析需 求的阶段,而是将对需求的过程贯穿整个设 计的过程。(4) 数据驱动创建数据仓库的工作实在原有的数据库的 数据基础上进行的,这种从已有数据出发的 数据仓库设计方法被称为“数据驱动”的系 统设计方案。具基本思路是: 利用以前所取得的工作成果 不再是面向应用 利用数据模型数据仓库的系统设计是一个动态的返回和 循环的过程。2.5.2数据仓库设计的三级数据

21、模型数据模型是对现实世界进行抽象的工具,抽 象的程度不冋,性阿城的抽象级别层次就不 同。数据仓库的数据模型中不包含纯操作型的数据。 数据仓库的数据模型扩充了码结构,增加 了时间属性作为码的一部分。 数据仓库的数据模型中增加了一些导出 数据。在数据仓库设计中存在着概念级数据模型、逻辑数据模型和物理数据模型三级。(1)概念数据模型是主观与客观之间的桥梁,最常用的表示方 法是实体联系(E-R)法。(2)逻辑数据模型数据仓库中采用的路基数据模型就是关系 模型,无论主题还是主题之间的联系都用关 系来表示。数据仓库的逻辑数据模型描述了数据仓库 的主题的逻辑实现,即每个主题所对应的关 系表的关系模式的定义。

22、(3)物理数据模型数据仓库的物理数据模型就是逻辑数据模 型在数据仓库中的实现。(4)高层数据模型、中间层数据模型和低 层数据模型高层数据模型对数据抽象程度最大,使用的主要表达工具是E-R图。高层数据模型建好后,对高层数据模型中标 识的每个主要的主题域或实体,都要建一个 中间层数据模型,中间层数据模型有联接数 据组(主要用于标识本主题域与其它主题域 之间的联系)、基本数据组(基本不会发生 变化的数据项)、二次数据组(基本不变化, 但又有变化的可能的数据项)和类型数据组(经常变化的数据项)四种基本构造。 底层数据模型就是物理数据模型。2.5.3提高数据仓库的性能建立数据仓库过程中一个重要的问题就是

23、 如何提高系统的性能,提高系统性能主要就 是提高系统的物理I/O性能。(1)粒度划分一般要将数据划分为:详细数据、轻度综合、 高度综合三级或更多级粒度,不同粒度级别 的数据用于不同类型的分析处理。划分粒度步骤: 估算数据仓库中数据的行数和所需占用 的空间大小。 根据估算出的数据行数和所需占用的空间大小,决定是否要划分粒度及如何划分粒 度。(2) 分割 数据仓库中的库中的数据分割与数据库 中的数据分片概念相近。 按时间进行数据分割是最普遍的。 分割的标准一般要考虑数据量、数据分析 处理的实际情况、简单易行以及粒度划分侧 率等几方面因素。(3) 其它设计问题 合并表 建立时间序列将数据严格按处理顺

24、序存放到一个或几个 连续的物理块中,即所谓的建立数据序列。建立时间序列可以在冋一次调页中处理更 多的记录,将物理I/O的次数降到最低。 引入冗余引入冗余的目的是减少连接操作,从而减少 访问的代价,但引入冗余后需要注意维护数 据各个副本间的致性。 表的物理分割 生成导出数据建立广义索引2.5.4数据仓库设计步骤数据仓库系统开发时一个经过不断循环、反 馈而使系统不断增长与完善的过程,其设计 大体上可分为以下几个步骤:(1)概念模型设计(2)技术准备工作(3)逻辑模型设计(4)物理模型设计(5)数据仓库生成(6)数据仓库运行与维护暫盘幅型谡计15*紬折匸作2.6数据仓库数据的访问在一些特殊情况下,有

25、可能会出现数据从仓 库流向操作性环境的这种数据“回流”现象, 当出现“回流”情况时,对数据仓库数据的 访问有数据仓库数据的直接访问和间接访 问两种方式。2.6.1数据仓库数据的直接访问所谓直接访问即操作环境下的一个传统应用向属于数据仓库的数据提出访问请求,在 数据仓库环境中查询到所需的数据,再传输 到操作型环境中。262数据仓库数据的接按揭访问所谓间接访问即利用程序对数据仓库的数 据进行疋期的分析,将分析的结果产生新的 文件,用来满足操作型应用的需要。数据仓库数据的访问大多采用间接访问方式。2.7数据仓库的应用主要应用领域:(1) 全局应用主要用于企业在发展过程中形成的多种独立应用的系统,或者

26、用于一些大公司地理位 置上分布的多个子公司或部门。(2) 复杂应用需要将数据分为操作环境数据和分析环境数据量大部分。教学后记本早节重点是数据仓库系统的设计和数据 仓库数据的访问,难点是数据仓库的应用。 学生并未真正建立和使用过数据仓库,对其 设计和使用都还只是停留在理论阶段。上课时间第四周上课节次3节课型理论课题数据预处理的目的以及数据的清理、集成和变换教学目的使学生掌握数据的基本处理方法教学方法讲授重点、难点数据的清理、集成和变换时间分配教学内容板书或课件版面设计3.1数据预处理的目的3.1.1原始数据中存在的问题原始数据主要存在以下几个方面问题: 不致 重复 不完整 含噪声噪声是指 个测量

27、变量中的随机错误或偏离期望的孤立点值。 维度咼一个完整的数据挖掘系统应该提供数据预 处理模块,此模块的功能是形成供数据挖掘 算法使用的目标数据知识基。3.1.2数据预处理的方法和功能数据预处理包含数据清洗、数据集成、数据 变换和数据归约击中方法。(1)数据清洗过程即填充空缺值,识别孤 立点,去掉原始数据中的噪声和无关数据。(2)数据集成是将多个数据源中的数据结 合起来存放在 个 致的数据存储中。数据集成涉及多个数据源的数据匹配、数值 冲突和数据冗余的问题。(3)数据变换是把原始数据转换成为适合 数据挖掘的形式,包括对数据的汇总和聚 集、概化、规范化,还可能需要进行属性的 构造。(4)数据归约技

28、术用于产生数据的规约表 示,是的数据的范围减小,但更适合于数据 挖掘算法的需要,并能够得到和原始数据相 同的分析结果。3.2数据清理从数据中选取合适的属性作为数据挖掘属性的过程有以下几个参考原则 尽可能赋予属性名和属性值明确的含义。 统一多数据源的属性值编码。 去除唯属性。 去除重复属性。 去除可忽略字段。 合理选择关联字段321处理空缺值处理空缺值有以下几种方法: 忽略该记录 去掉属性 手工填写空缺值 使用默认值 使用属性平均值 使用同类样本平均值 预测最可能的值322噪声数据的处理在测量一个变量时可能产生一些误差或者 错误,是的测量值相对于真实值有一定的偏 差,这种偏差成为噪声。去除噪声的

29、方法有:(1)分箱分箱方法是一种简单常用的预处理方法,通 过考察相邻数据来确定最终值。所谓“箱子”,实际上就是按照属性值划分 的子区间。在米用分箱技术时,需要确定的两个主要问 题就是:如何分箱以及如何对每个箱子中的 数据进行平滑处理。注意:分箱之前血药对记录按照目标属性值 的大小进行排序。分相方法有统 权重(等深分相法)、统 区间(等宽分箱法)、最小熵和用户自定义 区间等。分箱的目的是对各个箱子中的数据进行处 理,所以完成分箱之后,要考虑的就是选择 一种方法对数据进行平滑,使得数据尽可能 接近。常使用的数据平滑方法有按平均值怕你规 戈U、按边界值平滑和按中值平滑三种。(2)聚类聚类是将物理的或

30、抽象对象的集合分组为由类似的对象组成的多个类的过程。聚类的结果是生成一组由数据对象组成的 集合,称为族。冋 簇中的所有对象具有相似性,并且 个 对象与同簇中任何一个对象之间的相似性 一定强于它于其它簇中任何一个对象之间的相似性。冋 簇中的对象用相冋的特征来标识,落在 簇之外的值称为孤立点,这些孤立点被视为 噪声。聚类的质心即聚类中的平均点。(3)回归回归试图发现两个相关的变量之间的变化 模式,通过使数据适合一个函数来平滑数 据,即通过建立数学模型来预测下一个数 值,包括线性回归和非线性回归。线性回归也称为简单回归,是最简单的回归 形式,用直线建模,将一个变量看作另一个 变量的线性函数。多元回归

31、是线性回归的扩展,也成为复回归,有两个火两个以上自变量。3.3数据集成和变换数据挖掘所使用的数据通常来自于多个数 据存储,所以经常需要把多个数据存储合并 起来,这个过程称为数据集成。而为了是数 据符合算法和数据挖掘目标的需要,还学需 要对数据进行变换。3.3.1数据集成数据集成是将多文件或者多数据库中的异 构数据进行合并,然后存放在个致的数 据存储中,解决语义模型问题,主要工作涉 及到数据的冲突问题和不 致数据的处理 问题。在数据集成过程中,通常需要考虑模式匹配、数据冗余和数据值冲突问题。332数据变换(1)平滑平滑即去除噪声,还可以将连续的数据离散 化,增加粒度。数据平滑的方法包括分箱、聚类

32、、回归等。(2)聚集聚集即对数据进行汇总。聚集常用来构造数据立方体。(3)数据概化从原始数据集得到的数据包含一些低层概 念的描述,而在数据挖掘中有时并不需要细 化到这些概念,可以用它的高层概念替换, 所以需要对数据进行概化。(4)规范化将数据按比例缩放,使之落入一个特定的区域,称为规范化。常用的规范化方法有最小一最大规范化、零 均值规范化和小叔定标规范化等。(5)属性构造为了提高数据挖掘的精度或者使数据结构 更谷易理解,有时会根据已有的属性构造新 的属性添加到数据挖掘集中,这种方法对分 类算法有帮助。教学后记本早节重点是数据的基本处理方法,难点是 处理方法的应用。学生对处理方法的理论尚 能掌握

33、,但实际应用方面没有经验。上课时间第五周上课节次3节课型理论课题数据归约教学目的是学生掌握各种数据归约的方法教学方法讲授重点、难点各种数据归约的算法及其实现时间分配教学内容板书或课件版面设计3.4数据归约数据归约用于从源数据集中得到数据集的 归约表示。数据归约的目的是为了获得比原始数据小 得多的,但不破坏数据完整性的挖掘数据 集,该数据集可以得到与原始数据相冋的挖 掘结果。341数据归约的方法(1) 数据立方体聚集即把聚集的方法用于数据立方体。(2) 维归约即检测并删除不相关、弱相关或冗余属性。(3) 数据压缩即选择正确的编码压缩数据集。(4) 数值压缩即用较少的数据表示数据或采用较短的数 据

34、单位、数据模型代表数据。(5) 离散化和概念分层使连续的数据离散化,就是用确定的有限个 区段值代替原始值;概念分层是指用较高层 次的概念替换低层次的概念,以此来减少取 值个数。342数据立方体聚集数据立方体是数据的多维建模和表示,由维 和事实组成。维就是涉及到的属性,而事实是一个具体的 数据。3.4.3维归约在数据立方体的概念基础上,把属性称为 维,维归约即去掉不相关的属性,减少数据 挖掘处理的数据量。属性子集选择的基本方法: 逐步向前选择 逐步向后删除 向前选择和向后删除结合 判定树归纳基于统计分析的归约344数据压缩数据压缩就是用数据编码或者变换,得到原 始数据压缩表示。数据压缩可以减少数

35、据存储而不影响数据挖掘的结果。数据压缩的方法分为无损压缩和有损压缩两种。3.4.5数值归约数值归约就是通过某种方法,选择较少的数 据来替代原数据,减少数据量。(1)直方图直方图技术是一种常用的归约技术,它使用 分箱方法对数据进行近似。每个箱代表一个区域范围内的值,箱的宽度 代表值域范围,箱的高度代表这个范围内的 值的个数,即频率。每个箱可以代表个属性的值和频率,称为 一维直方图,也可以代表两个以上属性的值 和频率,称为多维直方图。若每个箱只表示 个属性值,则成为单桶。(2)聚类用数据的聚类来代表实际数据,当数据中存 在聚类特征时,即数据可以形成有限个聚类 时,此方法可以很好的归约数据。(3)抽

36、样抽样是对记录进行选取,用较小的数据样本 集表示大的数据集。几种常用的抽样方法: 不放回简单随机抽样 放回简单随机抽样 聚类抽样 分层抽样(4)线性回归和非线性回归线性回归和非线性回归方法用数据模型近 似数据,它们并不保存实际数据,而是产生 一个数据模型,只保存数据模型的参数,所 以也称为参数方法。此类方法只对数值型数据有效。3.4.6离散化与概念分层离散化就是为了适应算法或者存储的需要, 用有限数量的离散数据替代连续数据。 在数据集上递归的使用某种离散化技术就 形成了数据集俄概念分层。(1) 数值数据的离散化与概念分层数值数据的概念分层可以通过数据分析自 动产生,它们能够无干预的完成对属性的

37、概 念分层,但是这些方法划分出来的层并不考 虑边界值是否直观或自然。(2) 分类数据的概念分层分类数据是指分类属性值所包含的数据。 所谓分类属性,就是那先具有有限个取值的 属性。典型的用于分类数据概念分层的方法有: 由用户或者专家在模式级显式地说明数 据的包含关系。 通过显式数据分组说明分层结构的 部 分。 根据属性值的个数自动产生分层。 根据数据语义产生分层。教学后记本章节重点是各种数据归约算法的掌握,难 点是各种算法的实现。学生对算法的掌握尚 可,但对算法的实现还学要多加练习。上课时间第六周上课节次3节课型理论课题数据挖掘发现知识的类型(一)教学目的使学生掌握各种知识的概念及发现方法教学方

38、法讲授重点、难点广义知识、关联知识和分类知识时间分配教学内容板书或课件版面设计4.1广义知识4.1.1广义知识的概念广义知识是指类别特征的概括性描述知识, 即对大量数据的归纳、概括,提炼出带有普 遍性的、概括性的描述统计知识。4.1.2广义知识的发现方法(1)数据立方体也称为“多维数据库”、“实现视图”等,实 质上就是一个多维数组,是维和变量的组合 表示。数据立方体的基本思想是实现某些常用的 代价较高的聚集函数的计算,并将这些实现 视图储存在多维数据库中。(2)面向属性的归约也称为维规约。规约即经过相互协议规定下来的共同遵守的条款。面向属性的规约即关于属性的经过相互协 议规定下来的共同遵守的条

39、款。规定这些条款的目的是减少属性个数,从而 减少数据量。减少数据量的方法可以从以下几方面考虑: 将无用的、冗余的、错误的或影响小的属 性直接删除,减少属性个数。 增大数据统计的粒度,提升概念树。 对属性设置控制阈值,过滤 部分数据量。 使用聚集函数。4.2关联知识421关联知识的概念关联知识是反映 个事件和其它事件之间 以来或相互关联的知识。4.2.2关联知识的发现方法(1)Apriori 算法关联规则的发现可分为两步:迭代识别所有的频繁项目集,要求频繁项目集的支持度不低于用户设定的最低值。从频繁项目集中构造可惜度不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发 现算法的核心

40、,也是计算量最大的部分。(2)关联及关联规则数据关联是数据库中存在的一类重要的可被发现的知识。关联分析的目的是找出数据库中隐藏的关 联网。关联可分为简单关联、时序关联、因果关联。 关联规则从本质上讲是条件概率。在关联规则的挖掘中要注意: 充分理解数据 目标明确 数据准备工作要做好 选取恰当的最小支持度和最小可信度 很好地理解关联规则如何合理地运用得出的关联关系,完全靠决 策者的正确理解和决策。4.3分类知识431分类知识的概念分类知识是反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。432分类知识的发现方法所谓分类,就是把给定的数据划分到一定的 类别中。分类的关键是对数据按照什

41、么标准或什么规定进行分类。分类的过程: 在已知训练集上,根据属性特征,为每一 种类别找到一个合理的描述或模型,及分类 规则。 根据规则对新数据进行分类。对于分类规则的挖掘通常有决策树方法、贝 叶斯方法、人工神经网络方法、粗糙集方法 和遗传算法等。教学后记本早节重点是各种知识的概念,难点是各种 知识的发现方法。学生能够掌握概念和各知 识理论上的发现方法,但实际应用方面的经 验比较匮乏。上课时间第七周上课节次3节课型理论课题数据挖掘发现知识的类型(一)教学目的使学生掌握各种知识的概念及发现方法教学方法讲授重点、难点预测型知识和偏差型知识时间分配教学内容板书或课件版面设计4.4预测型知识441预测型

42、知识的概念预测型知识是根据时间序列型数据,由历史 的和当前的数据去推测未来的数据,也可以 认为疋以时间为关键属性的关联知识。4.4.2预测型知识的发现方法目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等对于连续型数值的预测可以用称为回归的 统计技术进行建模,回归分析的目的是找到 一个联系输入变量和输出变量的最优模型。回归方法包括:线性回归、多元回归、非线 性回归等。4.5偏差型知识4.5.1偏差型知识的概念偏差型知识是对差异和极端特例的描述,解 释事物偏离常规的异常现象。偏差即异常,在数据挖掘中也称其为“孤立 点”孤立点探测和分析是数据挖掘中的一个很 特殊的任务,被称为孤立点挖掘。

43、4.5.2偏差型知识的发现方法偏差检测的基本方法是,寻找观测结果与参 照值之间有意义的差别。最常用的偏差型知识的发现方法是异常探 测法,异常探测法对异常的定义是:异常是 既不属于聚类也不属于背景噪声的点。具体的异常探测算法有: 基于统计的方法 基于距离的方法 基于偏离的方法教学后记本早节重点是各种知识的概念,难点是各种 知识的发现方法。学生能够掌握概念和各知 识理论上的发现方法,但实际应用方面的经 验比较匮乏。上课时间第八周上课节次3节课型理论课题神经网络算法教学目的使学生了解并掌握神经网络算法教学方法讲授重点、难点神经网络的概念与基于神经网络的算法时间分配教学内容板书或课件版面设计5.1神经

44、网络算法神经网络的研究的历史阶段: 19431969年的初创期 1970-1986年的过渡期 1987今的发展期5.1.1神经网络的概念(1)人工神经兀原理神经元由细胞体、树突和轴突三部分组成, 是一种根须状的蔓延物,是组成人脑的最基 本单元。传递神经元冲动的地方称为突触。从信息处理功能看,神经元具有如下性质: 多输入,单输出 突触兼有兴奋和抑制两种性能 可时间加权和空间加权 可产生脉冲 脉冲进行传递 非线性(2) 人工神经网络人工神经网络是一个并行和分布式的信息 处理网络结构,严格来说,神经网络就是一 个具有如下性质的有向图: 对于每个节点有一个状态变量 Vj 节点j到节点i有一个连接权系数

45、Tj 对于每个节点有一个阈值6j 对于每个节点定义一个变换函数 f(x) 人工神经网络是生物神经网络的一种模拟和近似,它主要从两个方面进行模拟:一种 是从结构和实现机理方面进行模拟;另一种 是从功能上加以模拟,即尽量使得人工神经 网络具有生物神经网络的某些功能特性。(3) MP模型与Hebb规则MP模型每个神经元的状态 Si( i=1,2, ,n)只取0 或1,分别代表抑制与兴奋,每个神经元的 状态由MP方程决定:Si = f(三 COjSj Ej)jHebb规则若i与j两种神经元之间同时处于兴奋状 态,则它们之间的连接应加强:也叫=o(Si Sja 0)5.1.2神经网络的计算机模型(1)反向传播模型(BP模型)BP模型是1985年由Rumelhart等人于提出 的,该模型具有分层结构,最下层是输入层, 中间是隐含层,最上面一层是输出层。 信息从输入层一次向上传递,直至输出层。BP网络的主要优点有: 只要有足够多的隐含层和隐节点,BP网络可以逼近任意的非线性映射关系。 BP网络的学习算法术语全局逼近的方 法,因而具有良好的泛化能力。BP网络的主要缺点有: 收敛速度慢 局部极值 难以确定隐含层和隐节

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论