第五章概念描述:特征化与比较_第1页
第五章概念描述:特征化与比较_第2页
第五章概念描述:特征化与比较_第3页
第五章概念描述:特征化与比较_第4页
第五章概念描述:特征化与比较_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《数据挖掘》主讲:王名扬信息与计算机工程学院2引言—要挖掘知识的类型概念描述:特征化和比较;关联规则;分类/预测;聚类分析;其他的数据挖掘任务。3引言从数据分析角度,DM可分为两类:描述式数据挖掘:以简洁、概要的方式描述数据,并提供数据的有趣的一般性质;预测式数据挖掘:分析数据,建立一个或一组模型,并试图预测新数据集的行为。4引言概念描述:描述性数据挖掘的最简单类型;概念:指一类数据的集合,如研究生、大客户等。概念描述用以产生数据的特征化和比较描述:特征化:提供给定数据集的简洁汇总;比较(区分):提供两个或多个数据集的比较描述。

第5章5.1什么是概念描述?5.2数据概化与基于汇总的特征化5.3属性相关分析5.4挖掘类比较:区分不同的类5.5常见的统计度量指标6学习目的掌握属性归纳的一般方法。

掌握属性相关分析的一般方法;

掌握大型数据库中统计度量的常见指标。5.1什么是概念描述概念描述(Conceptdescription):描述性数据挖掘的最简单类型;对于大量的细节数据,希望以简洁的描述形式(不同的粒度、不同的角度等)观察汇总的数据集。需要对该数据进行描述以概括出固有的特性,这种描述性数据挖掘称为概念描述。特征化(characterization):提供给定数据汇集的简洁汇总。比较(comparision):也称区分(discrimination),提供两个或多个数据汇集(或不同类别数据)的对比概念描述。数据概化数据概化:概念描述与数据概化(datageneralization)密切相关。给定存放在数据库中的大量数据,如果能以简洁的形式在更一般的(而不是较低的)抽象层描述数据,这非常有利于用户考察数据的一般行为。如,一个商场数据库中,销售主管不用对每个顾客的购买记录进行检查,而只需要对更高抽象层次的数据进行研究即可。例如:对按地理位置进行划分的顾客购买总额、每组顾客的购买频率以及顾客收入情况进行更高层次的研究分析。5.2数据概化与基于汇总的特征化为什么进行数据概化:数据库中数据及对象在基本概念层次包含了许多细节性的数据信息,如:在商场销售数据库的商品信息数据中,就包含着诸如:item_ID,name,brand,supplier等低层次信息,对这类大量的数据进行更高层次抽象以提供一个概要性描述是十分重要的。数据概化可以将大量的相关数据从一个较低的概念层次转化到一个比较高的层次。如从南京转换到江苏,江苏转换到华东地区等。10数据概化和基于汇总的特征化方法一数据立方体(或OLAP)方法在数据立方体上进行计算和存储结果优点:数据概化的一种有效实现;效率高,能够计算多种不同的度量值,如:count,average,sum,min,max;概化和特征分析通过一系列的数据立方体操作完成,如roll-down和roll-up操作。12等价于第三章的数据立方体聚集13数据立方体聚集方法一数据立方体(或OLAP)方法限制维和度量的数据类型有限,数据立方体和OLAP只能处理非数值类型(离散类型)的维和简单聚集数值类型的度量值;大部分现有商业系统中,只能为非数值类型的维产生概念分层;缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次。15面向属性归纳(Attribute-OrientedInduction,AOI):基本思想:(1)首先使用关系数据库查询收集任务相关的数据;(2)然后,通过考察任务相关数据中每个属性的不同值的个数,进行概化(属性删除;属性概化);(3)通过合并相等的、概化的广义元组,并累计它们对应的计数值进行聚集操作。(4)通过与用户交互,将广义关系以图表或规则等形式,提交给用户。方法二面向属性的归纳16属性删除属性删除基本原则:

若一个属性(在初始数据集中)有许多不同数值,且:a)该属性上没有定义概化操作符(如:没有定义相应的概念层次);b)它的较高层概念可用其他属性表示;

则,该属性从数据集中删除。

17属性删除解释:

a)没有定义概化操作符:一个属性拥有许多不同的数值但却没有定义对它的泛化操作,该属性应被删除;因为如果保留,则会产生过多的规则;b)较高层概念可用其他属性表示:如街道属性street,它的更高层次概念是利用(city,province,country)三个属性表示的,此时删除street相当于应用于了概化操作。18属性概化属性概化基本原则:

若一个属性(在初始数据集中)有许多不同数值,且:在该属性上存在概化操作符,则应当选择该概化操作符。解释:

在一个数据集中对一个属性进行概化操作,将会使得所产生的规则覆盖更多的数据行,实现了对其所表示的概念的概化。

19特征化:面向属性归纳

属性删除和属性概化都表明:如果某属性有大量的不同值,应进一步进行概化。问题是:多大才算“属性具有大量不同值?”两种方法:1)属性概化阈值控制;2)概化关系阈值控制。20特征化:面向属性归纳基本原理:如果属性的不同值的个数大于属性概化阈值,则应当进一步进行属性删除或概化。如果用户感到一个属性概化达到的层次太高,可以加大阈值(属性下钻);反之,可减小阈值(属性上卷)。21特征化:面向属性归纳基本原理:为概化关系设置一个阈值,如果概化关系中不同元组的个数超过该阈值,则应进一步概化;否则,不再概化。阈值可在数据挖掘系统中预先设定(通常为10~30),或由用户或专家设置、调整。如果用户感到概化的关系太少,可以加大阈值(属性下钻);反之,可减小阈值(属性上卷)。22示例:面向属性归纳示例1:

从一个大学数据库的学生数据中挖掘出研究生的概念描述,所涉及的属性包括:姓名、性别、专业、出生地、出生日期、居住地、电话和gpa。

AOI方法的第一步是:首先利用数据库查询语言从大学数据库中将与本挖掘任务相关的学生数据抽取出来;然后指定一组与挖掘任务相关的属性集。

最终得到如下关系表。23示例:面向属性归纳表1与任务相关的初始数据集合要求对以上数据集进行面向属性归纳的操作。24示例:面向属性归纳1)name:由于name属性拥有许多不同的取值,且对它没定义合适的概化操作符,因此该属性被删除;2)gender:由于gender属性仅包括两个不同取值,该属性被保留且无需进行概化;3)major:假设对major属性已定义一个概念层次{science,management,engineering,},从而可对major进行概化。又假设属性概化阈值设定为5,大于major较高层概化的属性值个数,则major可以沿概念分层向上攀升并被概化。25示例:面向属性归纳4)birth_place:该属性拥有大量不同取值,需进行概化。假设其上存在一个概念层次:city<province<country。如果初始数据集中country的不同值个数大于属性概化阈值,则birth_place应当被删除,因为即使存在概化操作符,概化阈值也不会满足;如果country的不同值个数小于属性概化阈值,则该属性应被概化到country。5)birth_data:假定存在概念分层,可将birth_data概化到age,而age可进一步概化到age_range;如果age_range的不同值个数小于对应的属性概化阈值,将birth_data概化到age_range。26示例:面向属性归纳6)residence:假设residence被属性number,street,residence_city,residence_province和residence_country属性定义。Number和street的不同值多半很多,删除;将residence概化到residence_city,假定仅包含4个不同取值。7)phone#:与属性name类似,也包含过多不同取值,删除。8)gpa:假定存在概念分层,将平均成绩划分为若干间隔,如:{excellent,verygood,…}等,对其进行概化。27示例:面向属性归纳

概化过程会产生一系列内容相同的数据行,如表1所示的头两行数据记录就被上述的概化操作转变成具有相同内容的数据行。这里,继续对具有相同内容的数据行进行合并,同时累计其个数(count),最终获得的结果如表2所示。表2表1示例2在下面的初始工作表上做属性归纳姓名性别专业籍贯出身日期信用情况电话学历张明男计算机南京79。01良4316111本李枚女生物苏州76。02优4315111研李山男高分子化学盐城80。02中4315808本.................…...王民男通信工程镇江80。04一般4315807本对于每个属性,概化讨论如下:1)姓名、电话:该属性的值有许多,并且无概化操作符,属性删除2)性别:属性可取的值2个,属性保留不概化3)专业:假定我们事先已定义了一个概念分层,可以将专业概化到{艺术、化学、机械、通信、信息、…..},所以可被概化4)籍贯:此表以城市为单位,已无法概化,值不算太多,保留5)出生日期:假定存在概念分层,首先概化到年龄,再到年龄段6)信用:假定有{优、良、中、一般、差}的分层,可以概化7)学历:可以按{博士生、硕士生、本科生}概化概化过程将产生相等的元组,相等的元组归为一类并给出计数性别专业籍贯年龄段信用情况计数男信息南京19-22良10女信息南京19-22优9男化学盐城19-22中4................男通信镇江22-25一般1学历本研本..本2.面向属性归纳结果的表示?31面向属性归纳结果的表示方法

AOI方法的挖掘结果可以通过多种形式来输出表示:表格;组合表;图表等。32示例—表格表示假设面向属性的归纳操作是在一个商场数据库(2000年的销售额)中进行的,最终获得如表3所示的概化结果。表3AOI挖掘结果表格表示示意图33示例—组合表表示

AOI的结果也可用组合表(交叉表)表示。其中每一行代表属性的一个值;每一列代表其他属性的一个值。在一个n维组合表中,列可能代表多个属性的值并分栏显示各属性的累计值。表4对应表3的组合表表示示意图34示例—图表表示

AOI的结果也可用图表的形式表示。如:棒图、饼图、曲线,以实现结果的可视化。图1对应表3的棒图示意图图2对应表3(部分数据)的饼图示意图35定量描述规则

概化关系用逻辑规则的形式表示。通常,每个概化后的数据行代表规则中的一个合取项。由于一个大型数据库中的数据通常具有多种不同的分布,因此一个概化后的数据行不可能覆盖或表达所有(100%)的初始数据集中的数据行。36定量描述规则

因此需要为每条规则带上量化的信息。如,满足规则条件前件和后件的数据行数目与初始数据集中总行数之比,作为度量规则客观价值的参量。

将这种带参量的规则称为:定量描述规则。37定量描述规则t-weight(t-权):规则兴趣度度量指标表示规则中一个析取项具有的代表性。

将需要进行归纳描述的对象集合称为目标集合,设qa是描述目标集合的一个概化数据行,则qa的t-weight是该数据行所涵盖的数据行数与初始数据集中数据行数之比,定义如下:其中,N是概化后目标集合中的数据行个数;q1,q2,…,qN是概化后目标集合中的数据行。显然,qa是其中的一行,且t_weight的值在[0,1]区间中。38定量描述规则定量描述规则:一个定量描述规则可表示为:其中,wi是conditioni的t_weight。给出了目标集合X中,各个条件出现的兴趣度。

如设定目标集合为{电脑},查看电脑在各个地域的销售情况。39示例1将表3所示的概化结果,转换为定量规则的形式。表340示例1设目标集合为一组电脑产品,相应的定量规则为:其中,第一个t-weight值0.25,是通过将(computer,Asia)的count累计值1000除以(computer,all_region)的count累计值4000(代表总体电脑销售额)而得到的;其余的权值通过类似方法获得。例:有部分学生在图书馆借阅了《大趋势》这本书,想通过数据挖掘技术发现这部分学生具有什么样的特征。其基本关系表是:学号姓名系别书名借阅日期9932007颜立经济大趋势2000.3.169833090王家卫金融大趋势2000.3.169813105王向东医学院大趋势2000.5.89822041刘伟历史大趋势2000.6.309928073朱小明企管大趋势2000.5.209932056陈立业经济大趋势2000.9.199923143刘英新闻大趋势2000.12.3示例2学号姓名系别书名借阅日期9932007颜立经济大趋势2000.3.169833090王家卫金融大趋势2000.3.169813105王向东医学院大趋势2000.5.89822041刘伟历史大趋势2000.6.309928073朱小明企管大趋势2000.5.209932056陈立业经济大趋势2000.9.199923143刘英新闻大趋势2000.12.3概化层次:系别文科–

商学院--经济,金融,企管,会计,国贸文科–

文学院--中文,新闻,信管,历史,哲学理科–

医学院理科–

理学院--数学,天文,物理(文,商学院)(文,商学院)(理,医学院)(文,商学院)(文,文学院)(文,商学院)(文,文学院)概化关系表二(按学科)系别书名借阅次数商学院大趋势4文学院大趋势2医学院大趋势1系别书名借阅次数文科大趋势6理科大趋势1概化关系表一(按学院)学号姓名系别书名借阅日期9932007颜立经济大趋势2000.3.169833090王家卫金融大趋势2000.3.169813105王向东医学院大趋势2000.5.89822041刘伟历史大趋势2000.6.309928073朱小明企管大趋势2000.5.209932056陈立业经济大趋势2000.9.199923143刘英新闻大趋势2000.12.3如果定义噪声数据的阈值是1(记录数为1),则:根据‘基本关系表一’发现的特征规则是:借阅《大趋势》一书的是‘经济系’的学生如果定义噪声数据的阈值是1(记录数为1),则:根据‘概括关系表一’发现的特征规则是:借阅《大趋势》一书的是‘商学院’的学生借阅《大趋势》一书的是‘文学院’的学生系别书名借阅次数商学院大趋势4文学院大趋势2医学院大趋势1如果定义噪声数据的阈值是1(记录数为1),则:根据‘基本关系表一’发现的特征规则是:借阅《大趋势》一书的是‘经济系’的学生根据‘概括关系表一’发现的特征规则是:借阅《大趋势》一书的是‘商学院’的学生借阅《大趋势》一书的是‘文学院’的学生根据‘概括关系表二’发现的特征规则是:借阅《大趋势》一书的是‘文科’的学生系别书名借阅次数文科大趋势6理科大趋势1学号姓名系别书名借阅日期9932007颜立经济大趋势2000.3.169833090王家卫金融大趋势2000.3.169813105王向东医学院大趋势2000.5.89822041刘伟历史大趋势2000.6.309928073朱小明企管大趋势2000.5.209932056陈立业经济大趋势2000.9.199923143刘英新闻大趋势2000.12.3如果定义噪声数据的阈值是2(记录数为2),则:根据‘基本关系表一’发现的特征规则是:发现不到特征规则如果定义噪声数据的阀值是2(记录数为2),则:根据‘基本关系表一’发现的特征规则是:发现不到特征规则根据‘概括关系表一’发现的特征规则是:借阅《大趋势》一书的是‘商学院’的学生系别书名借阅次数商学院大趋势4文学院大趋势2医学院大趋势1如果定义噪声数据的阈值是2(记录数为2),则:根据‘基本关系表一’发现的特征规则是:发现不到特征规则根据‘概括关系表一’发现的特征规则是:借阅《大趋势》一书的是‘商学院’的学生根据‘概括关系表二’发现的特征规则是:借阅《大趋势》一书的是‘文科’的学生系别书名借阅次数文科大趋势6理科大趋势1学号姓名系别书名借阅日期9932007颜立经济大趋势2000.3.169833090王家卫金融大趋势2000.3.169813105王向东医学院大趋势2000.5.89822041刘伟历史大趋势2000.6.309928073朱小明企管大趋势2000.5.209932056陈立业经济大趋势2000.9.199923143刘英新闻大趋势2000.12.3如果定义噪声数据的阈值是5(记录数为5),则:根据‘基本关系表一’发现的特征规则是:发现不到特征规则如果定义噪声数据的阈值是5(记录数为5),则:根据‘基本关系表一’发现的特征规则是:发现不到特征规则根据‘概括关系表一’发现的特征规则是:发现不到特征规则系别书名借阅次数商学院大趋势4文学院大趋势2医学院大趋势1如果定义噪声数据的阈值是5(记录数为5),则:根据‘基本关系表一’发现的特征规则是:发现不到特征规则根据‘概括关系表一’发现的特征规则是:发现不到特征规则根据‘概括关系表二’发现的特征规则是:借阅《大趋势》一书的是‘文科’的学生系别书名借阅次数文科大趋势6理科大趋势1应该说,此时的规则是有意义的,该书基本上是文科学生借阅,t_权=6/75.3属性相关分析

在进行数据挖掘时,原始数据集中可能包含50-100个,甚至更多的属性;在这些属性中,很有可能存在着与挖掘任务不相关或弱相关的属性。

如将所有属性考虑在内,将大大增加数据挖掘的复杂度,同时降低数据挖掘的结果的质量。5.3属性相关分析尤其对于分类数据挖掘,对给定的类,如果某属性或维的值可用于区分该类与其他类,则该属性被认为是任务高度相关的。如,汽车的颜色多半不能区分汽车价格的高低,但型号、制造商、款式和汽缸数可能是更相关的属性。此外,在同一维内,不同层的概念也可能具有不相同的分类能力。如,在birth_data维,birth_day和birth_month看上去与雇员的salary不相关,然而,birth_decade(即年龄区间)则可能与雇员的salary是高度相关的。属性相关分析因此,必须引入一些方法进行属性或维上的相关性分析,以过滤掉统计上不相关或弱相关的属性,而仅保留对手头挖掘任务最相关的属性:

属性相关分析的方法;属性相关分析的步骤。

1.属性相关分析的方法?属性相关分析方法在机器学习、统计学、模糊逻辑和粗糙集领域都提出了许多属性相关分析的方法。

基本思想:对给定的数据集,计算某种度量,用于量化属性与给定的类或概念间的相关性。

常用的度量包括信息增益、GINI索引、不确定性和相关系数等。基于信息增益的属性选择过程信息增益法:

决策树归纳学习算法(如ID3,C4.5)中普遍采用的一种方法,该方法可以删除信息量较少的属性,而保留信息含量较大的属性,以帮助进行概念描述分析。以ID3算法为例介绍基于信息熵进行属性相关分析的基本内容。ID3算法ID3算法是一个众所周之的决策树算法,该算法是澳大利亚悉尼大学的RossQuinlan于1986年提出,也是国际上最早、最有影响力的决策树算法,其他的许多算法如C4.5、CART算法等都是在ID3算法基础上的改进。ID3算法在ID3算法中,决策节点属性的选择运用了信息论中的熵概念作为启发式函数。在这种属性选择方法中,选择具有最大信息增益(informationgain)的属性作为当前划分节点。通过这种方式选择的节点属性可以保证决策树具有最小的分枝数量,使得到的决策树冗余最小。ID3算法的基本原理ID3算法根据一组类别已知的训练数据集来构造一棵决策树;然后利用构造的决策树对类别未知的数据对象进行分类。在归纳学习过程中,利用一个称为信息增益的参量对属性的重要性进行评估。认为:具有最大信息增益的属性为当前数据集中具有最大分辨能力的属性。利用该属性构造决策树的一个节点,并根据该属性取值的个数确定该节点的各个分支,这些分支将原有数据集分为若干子数据集。若一个节点所包含的数据行均为同一类别,则将该节点标记为决策树的叶节点,并标记为所有数据行对应的类别。不断重复这一过程,直至所有节点都无需继续分支为止。示例

假如你是一个网球爱好者,天气状况(天气、温度、湿度、风力)是你决定是否去打球的重要因素,利用ID3算法构筑决策树。条件属性:天气、温度、湿度、风力决策(结果)属性:yes(打球);no(不打球)训练集天

气湿度风晴雨多云高正常有风无风YNNYYID3算法致力于建立这样形式的决策树决策树是类似流程图的倒立的树型结构。最顶层节点为根节点,是整个决策树的开始;树的每个内部节点表示在一个属性上的测试,其每个分支代表一个测试输出;树的每个叶节点代表一个类别。天

气湿度风晴雨多云高正常有风无风YNNYY利用决策树(判定树)进行属性选择在决策树的每个节点,算法选择“最好”的属性,将数据划分成类。当决策树归纳用于属性子集选择时,不出现在树中的所有属性假定是不相关的;出现在决策树中的属性形成相关的属性子集。Problem:如何构造决策树?基于信息增益的属性选择过程对本例,结果属性打球有两个取值(即{Yes,No}),因此有两个不同的类,即m=2,设C1类对应“Yes”,C2类对应”No”。C1有9个元组,C2有5个元组。我们根据上式可以计算S中元组分类所需要的期望信息:I(S)=初始不确定性:基于信息增益的属性选择过程如果根据天气属性划分,有三个取值“晴朗”、“多云”、“雨天”S晴=[2+,3-]//天气属性取值”晴朗”的样例共5个,2正,3反S多云=[4+,0-]//天气属性取值“多云”的样例共4个,4正,0反S雨=[3+,2-]//天气属性取值“雨天”的样例共5个,3正,2反故:E(天气)=I(S晴)知道天气之后的不确定性:基于信息增益的属性选择过程则,根据天气进行划分的信息增益为:Gain(天气)=I(S)-E(天气)=0.940-0.694=0.246位根据相似的思路,可以继续计算用其他属性进行划分的信息增益。显然,根据属性“天气”进行划分带来的信息增益最大,所以选择天气作为决策树的根节点。基于信息增益的属性选择过程70天

气湿度风晴雨多云高正常有风无风YNNYY最终生成的决策树根据生成的决策树,出现在树中的属性形成归约的属性子集{天气、湿度、风力}。2.属性相关分析的步骤?属性相关分析步骤(1)数据收集:通过查询处理,建立目标数据集,以及对比数据集(如需要进行比较概念描述的话),对比数据集与目标数据集互不相交。(2)利用保守的AOI方法进行属性相关分析:利用AOI方法进行初步的属性相关分析工作,删除数据集中取不同值个数过多的属性或对可概化数据进行概化。保险起见,这里属性概化控制阈值都设置的较大,以便留下较多属性供稍后属性相关分析用。

利用AOI方法所获得的数据集被称为数据挖掘任务的候选数据集。概念描述的属性相关分析步骤(3)使用选定的相关分析度量删除不相关和弱相关的属性:使用选定的相关分析度量(如上面介绍的信息增益度量),评估候选关系中的每个属性。可以设置一个阈值来定义“弱相关”。(4)使用AOI产生概念描述:利用更严格的属性概化控制阈值来进行基于属性的归纳操作。若描述性挖掘任务是概念描述,仅涉及初始目标数据集;若描述挖掘任务是比较概念描述,则需包括初始目标数据集,及相应的对比数据集。示例背景:假定我们想得到Big-university的研究生的一般特征描述。给定的属性是name,gender,birth_place,birth_date,phone#和gpa。示例具体步骤:(1)收集目标数据,建立研究生目标数据集合和本科生对比数据集。(2)利用保守的属性概化阈值进行面向属性的归纳,通过属性删除和属性概化进行预相关分析。与前面的例子类似,属性name和phone#因含有过多取值而被删除;使用概念分层将birth_place概化到birth_country属性,将birth_date属性概化到age_range。同样将属性major和gpa概化到更高的概念分层,从而获得如下表所示的候选数据集。示例表5目标候选数据集(研究生)示例表6对比数据集(本科生)示例(3)用属性相关分析方法,如:利用信息增益法从候选数据集中选择有关的属性。假设C1对应研究生数据集(其中包含120个数据行),C2对应本科生数据集(其中包含130个数据行)。为计算每个属性的信息增益,需要首先利用信息量的计算公式来计算该属性对当前数据进行分类所需要的信息熵:示例示例(4)假设属性阈值设为0.1,以此来帮助判断弱相关属性,因此由于属性gender(0.0003)和birth_country(0.0407)都小于这一阈值,因此被认为是弱相关的,而同时从目标数据集和对比数据集中删除,并获得初始工作数据集。表7初始工作数据集(研究生)表8初始工作数据集(本科生)示例(5)利用面向属性的归纳算法,最终获得研究生目标数据集的概念描述。(定量描述规则)81回顾:定量描述规则:一个定量描述规则可表示为:其中,wi是conditioni的t_weight。给出了目标集合X中,各个条件出现的兴趣度。示例82表7初始工作数据集(研究生)表8初始工作数据集(本科生)5.4挖掘类比较:区分不同的类在许多实际应用中,用户可能需要对多个不同的数据集进行对比归纳,以获得比较概念描述。即,基于对比数据集挖掘出目标数据集的概念描述。注意:

目标数据集与对比数据集应包含相同的属性(维),以确保它们是可比的。如:雇员、地址和商品这三个数据集就是不可比的,而过去3年的销售额数据是可以比较的。不同系别的学生数据也是可比的。5.4挖掘类比较:区分不同的类在比较概念描述中,属性概化仍是一个重要的处理操作。注意:

属性概化在所有比较类上同步进行,以确保数据集中属性均被概化到同一抽象层次。如:要对一个商场1999年和2000年的数据集进行比较归纳,这两年的销售数据中location属性均需要同时进行city属性、province属性和country属性抽象层次的概化,并要概化到同一层次。即,同时概化到city层次、province层次和country层次。5.4挖掘类比较:区分不同的类比较概念描述的步骤;比较概念描述结果的表示。1.比较概念描述的步骤?87比较方法的实现步骤(1)数据收集:通过查询处理收集数据库中与挖掘任务相关的数据集,并将它们分为目标数据集和对比数据集。(2)属性相关分析:如果数据集中包含的属性个数过多,需要进行属性相关分析,以保留强相关的属性,供稍后分析;(3)同步概化:依据用户或专家所设置的阈值,同步概化目标数据集和对比数据集,得到主目标数据集以及主对比数据集。88比较方法的实现步骤(4)挖掘结果表示:根据用户的要求,对主目标数据集以及主对比数据集进行某个或某些属性(维)上的比较,将结果用表格、图形、或规则等的形式表示。如需要,用户还可以在目标数据集和对比数据集上进行上钻、下钻或其他的OLAP操作。示例背景:假定我们想对Big-university的研究生和本科生的一般特征进行对比。给定的属性是姓名,性别,专业,籍贯,出生日期,居住地,电话号和信用情况。示例具体步骤:(1)收集数据,建立研究生目标数据集和本科生对比数据集(2)对两个数据集进行属性相关分析,删除无关或弱相关的属性,如:name、gender、birth_place和phone#,只留下与挖掘任务密切相关的属性。(3)进行同步概化:根据用户指定或预先设置的控制阈值,对目标数据集和对比数据集中的属性进行同步概化,得到如表5和6所示的主目标数据集和主对比数据集。示例表5目标候选数据集(研究生)表6对比数据集(本科生)示例具体步骤:(4)对挖掘结果进行可视化:需注意的是,在显示挖掘结果时,还包括一个对比度量(如表中的count)以对目标数据集和对比数据集进行比较。

例如:得到如下的结论:研究生一般年龄更大一些,且gpa更高一些;仅有2.32%的年龄在25-30之间且gpa为良的研究生来自科学专业;而相比之下,满足同样条件的本科生的比例占到5.02%。2.比较概念描述结果的表示?94比较结果的表示

与特征化概念描述类似,比较概念描述也可采用多种形式,如:关系表、组合表、棒图、曲线和规则的形式加以表示。

在上述表示方式中,除规则表示外,其他表示方法与特征化中的表示方法相同。因此,这里着重介绍基于规则的表示方法。95基于规则的表示方法设qa是一个概化后的数据行,Cj为目标数据集,qa可能包含Cj中的一部分数据行,当然也可能包含对比数据集中的数据行。则,qa的d_weight值定义为:qa所包含的Cj中数据行数与qa所涵盖的所有数据行数(包括目标数据集及所有对比数据集)之比:96基于规则的表示方法目标数据集中一个较大的d_weight值意味着相应的概念(概化后某一数据行)涵盖较多的目标数据集中的初始数据行;反之,则意味着该概念涵盖较多的非目标(对比)数据集中的初始数据行。示例背景:设在前面所进行的比较概念描述中,所获得的一个概化后的数据行为“major=“科学”andage_range=“25-30”andgpa=“良””的有关内容如表9所示。表9研究生与本科生的其中一个比较结果示例从表9得到:major=“科学”andage_range=“25-30”andgpa=“良”该数据行相对目标数据集的d_weight为:90/(210+90)=30%而相对对比数据集的d_weight为:210/(210+90)=70%即:若一个学生专业为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论