第五章-概念描述:特征化与比较_第1页
第五章-概念描述:特征化与比较_第2页
第五章-概念描述:特征化与比较_第3页
第五章-概念描述:特征化与比较_第4页
第五章-概念描述:特征化与比较_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘数据挖掘2u概念描述:特征化和比较概念描述:特征化和比较;u 关联规则;u 分类/预测;u 聚类分析;u其他的数据挖掘任务。3 从数据分析角度,DM可分为两类:v描述式描述式数据挖掘:以简洁、概要的方式描述数据,并提供数据的有趣的一般性质;v预测式预测式数据挖掘:分析数据,建立一个或一组模型,并试图预测新数据集的行为。4概念描述概念描述:v 描述性数据挖掘的最简单类型;v 概念:指一类数据的集合,如研究生、大客户等。v 概念描述用以产生数据的特征化和比较描述: 特征化:特征化:提供给定数据集的简洁汇总; 比较(区分):比较(区分):提供两个或多个数据集的比较描述。5.1 什么是概念描述

2、?5.2 数据概化与基于汇总的特征化5.3 属性相关分析5.4 挖掘类比较:区分不同的类5.5 常见的统计度量指标6u 掌握属性归纳的一般方法。u 掌握属性相关分析的一般方法;u 掌握大型数据库中统计度量的常见指标。5.1 5.1 什么是概念描述什么是概念描述概念描述概念描述(Concept description):u 描述性数据挖掘的最简单类型;u 对于大量的细节数据,希望以简洁的描述形式(不同的粒度、不同的角度等)观察汇总的数据集。需要对该数据进行描述以概括出固有的特性概括出固有的特性,这种描述性数据挖掘称为概念描述。 特征化特征化(characterization):提供给定数据汇集的

3、简洁汇总。 比较比较(comparision):也称区分(discrimination),提供两个或多个数据汇集(或不同类别数据)的对比概念描述。数据概化数据概化数据概化:数据概化: u 概念描述与数据概化(data generalization)密切相关。给定存放在数据库中的大量数据,如果能以简洁的形式在更一般的(而不是较低的)抽象层描述数据,这非常有利于用户考察数据的一般行为。u 如,一个商场数据库中,销售主管不用对每个顾客的购买记录进行检查,而只需要对更高抽象层次的数据进行研究即可。例如:对按地理位置进行划分的顾客购买总额、每组顾客的购买频率以及顾客收入情况进行更高层次的研究分析。5.2

4、 5.2 数据概化与基于汇总的特征化数据概化与基于汇总的特征化为什么进行数据概化为什么进行数据概化:q数据库中数据及对象在基本概念层次包含了许多细节性的数据信息,如:在商场销售数据库的商品信息数据中,就包含着诸如:item_ID, name, brand, supplier等低层次信息,对这类大量的数据进行更高层次抽象以提供一个概要性描述是十分重要的。q数据概化可以数据概化可以将大量的相关数据从一个较低的概念层次转化将大量的相关数据从一个较低的概念层次转化到一个比较高的层次。到一个比较高的层次。如从南京转换到江苏,江苏转换到华东地区等。10方法一方法一 数据立方体(或数据立方体(或OLAP)方

5、法)方法v在数据立方体上进行计算和存储结果在数据立方体上进行计算和存储结果v优优点:点: 数据概化的一种有效实现; 效率高,能够计算多种不同的度量值,如:count, average, sum, min, max; 概化和特征分析通过一系列的数据立方体操作完成,如roll-down和roll-up操作。12等价于第三章的数据立方体聚集13数据立方体聚集方法一方法一 数据立方体(或数据立方体(或OLAP)方法)方法 限制限制维和度量的数据类型有限,数据立方体和OLAP只能处理非数值类型(离散类型)的维和简单聚集数值类型的度量值;大部分现有商业系统中,只能为非数值类型非数值类型的维产生概念分层;缺

6、乏智能分析缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次。15面向属性归纳(面向属性归纳(Attribute-Oriented Induction, AOI):):基本思想:基本思想:(1)首先使用关系数据库查询收集任务相关的数据;(2)然后,通过考察任务相关数据中每个属性的不同值的个数,进行概化(属性删除;属性概化属性删除;属性概化);(3)通过合并相等的、概化的广义元组,并累计它们对应的计数值进行聚集操作。(4)通过与用户交互,将广义关系以图表或规则等形式,提交给用户。方法二方法二 面向属性的归纳面向属性的归纳16属性删除基本原则:属性删除基本原则: 若一个属性(在初始数

7、据集中)有许多不同数值,且:a) 该属性上没有定义概化操作符(如:没有定义相应的概念层次);b) 它的较高层概念可用其他属性表示; 则,该属性从数据集中删除。 17解释:解释: a) 没有定义概化操作符:一个属性拥有许多不同的数值但却没有定义对它的泛化操作,该属性应被删除;因为如果保留,则会产生过多的规则; b) 较高层概念可用其他属性表示:如街道属性street,它的更高层次概念是利用(city, province, country)三个属性表示的,此时删除street相当于应用于了概化操作。18属性概化基本原则:属性概化基本原则: 若一个属性(在初始数据集中)有许多不同数值,且:在该属性上

8、存在概化操作符,则应当选择该概化操作符。解释:解释: 在一个数据集中对一个属性进行概化操作,将会使得所产生的规则覆盖更多的数据行,实现了对其所表示的概念的概化。 19 属性删除和属性概化都表明:如果某属性有大量的不属性删除和属性概化都表明:如果某属性有大量的不同值,应进一步进行概化同值,应进一步进行概化。问题是:多大才算多大才算“属性具有大量不同值?属性具有大量不同值?”两种方法:两种方法:1 1)属性概化阈值控制;)属性概化阈值控制;2 2)概化关系阈值控制。)概化关系阈值控制。20基本原理:基本原理:如果属性的不同值的个数大于属性概化阈值,则应当进一步进行属性删除或概化。如果用户感到一个属

9、性概化达到的层次太高,可以加大阈值(属性下钻);反之,可减小阈值(属性上卷)。 21基本原理:基本原理:为概化关系设置一个阈值,如果概化关系中不同元组的个数超过该阈值,则应进一步概化;否则,不再概化。阈值可在数据挖掘系统中预先设定(通常为1030),或由用户或专家设置、调整。如果用户感到概化的关系太少,可以加大阈值(属性下钻);反之,可减小阈值(属性上卷)。 22示例示例1: 从一个大学数据库的学生数据中挖掘出研究生的概念描述,所涉及的属性包括:姓名、性别、专业、出生地、出生日期、居住地、电话和gpa。 AOI方法的第一步是:首先利用数据库查询语言从大学数据库中将与本挖掘任务相关的学生数据抽取

10、出来;然后指定一组与挖掘任务相关的属性集。 最终得到如下关系表。 23表1 与任务相关的初始数据集合要求对以上数据集进行面向属性归纳的操作。241)name:由于name属性拥有许多不同的取值,且对它没定义合适的概化操作符,因此该属性被删除;2)gender:由于gender属性仅包括两个不同取值,该属性被保留且无需进行概化;3)major:假设对major属性已定义一个概念层次science, management, engineering, ,从而可对major进行概化。又假设属性概化阈值设定为5,大于major较高层概化的属性值个数,则major可以沿概念分层向上攀升并被概化。254)birth_place:该属性拥有大量不同取值,需进行概化。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论