数据挖掘作业_第1页
数据挖掘作业_第2页
数据挖掘作业_第3页
数据挖掘作业_第4页
数据挖掘作业_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1、 给出KDD的定义和处理过程。KDD的定义是:从大量数据中提取出可信的、新颖的、有用的且可以被人理解的模式的高级处理过程。因此,KDD是一个高级的处理过程,它从数据集中识别出以模式形式表示的知识。这里的“模式”可以看成知识的雏形,经过验证、完善后形成知识:“高级的处理过程”是指一个多步骤的处理过程,多步骤之间相互影响反复调整,形成一种螺旋式上升的过程。KDD的全过程有五个步骤:1、数据选择:确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据;2、数据预处理:一般可能包括消除噪声、推到技术却只数据、消除重复记录、完成数据类型转换等;3、数据转换:其主要目的是消

2、减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数;4、数据挖掘:这一阶段包括确定挖掘任务/目的、选择挖掘方法、实施数据挖掘;5、模式解释/评价:数据挖掘阶段发现出来的模式,经过用户或机器的评价,可能存在冗余或无关的模式,需要剔除;也有可能模式不满足用户的要求,需要退回到整个发现阶段之前,重新进行KDD过程。2、 阐述数据挖掘产生的背景和意义。 数据挖掘产生的背景:随着信息科技的进步以及电子化时代的到来,人们以更快捷、更容易、更廉价的方式获取和存储数据,使得数据及信息量以指数方式增长。据粗略估计,一个中等规模企业每天要产生100MB以上的商业数据

3、。而电信、银行、大型零售业每天产生的数据量以TB来计算。人们搜集的数据越来越多,剧增的数据背后隐藏着许多重要的信息,人们希望对其进行更高层次的分析,以便更好的利用这些数据。先前的数据库系统可以高效的实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系与规则,无法根据现有的数据来预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段。导致了“数据爆炸但知识贫乏”的现象。于是人们开始提出“要学会选择、提取、抛弃信息”,并且开始考虑:如何才能不被信息淹没?如何从中及时发现有用的知识、提高信息利用率?如何从浩瀚如烟海的资料中选择性的搜集他们认为有用的信息?这给我们带来了另一些头头疼的问题:第一是

4、信息过量,难以消化;第二是信息真假难以辨别;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理 面对这一挑战,面对数量很大而有意义的信息很难得到的状况面对大量繁杂而分散的数据资源,随着计算机数据仓库技术的不断成熟,从数据中发现知识(Knowledge Discovery in Database)及其核心技术数据挖掘(Data Mining)便应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。数据挖掘的意义:数据挖掘之所以被称为未来信息处理的骨干技术之一,主要在于它正以一种全新的概念改变着人类利用数据的方式。在20世纪,数据库技术取得

5、了重大的成果并且得到了广泛的应用。但是,数据库技术作为一种基本的信息储存和管理方式,仍然是以联机事务处理为核心应用,缺少对决策、分析、预测等高级功能的支持机制。众所周知,随着硬盘存储容量及的激增以及磁盘阵列的普及,数据库容量增长迅速,数据仓库以及Web等新型数据源出现,联机分析处理、决策支持以及分类、聚类等复杂应用成为必然。面对这样的挑战,数据挖掘和知识发现技术应运而生,并显现出强大的生命力。数据挖掘和知识发现使数据处理技术进入了一个更加高级的阶段。它不仅能对过去的数据进行查询,而且能够找出过去数据之间的潜在联系,进行更高层次的分析,以便更好地作出决策、预测未来的发展趋势等等。通过数据挖掘,有

6、价值的知识、规则或更高层次的信息就能够从数据库的相关数据集合中抽取出来,从而使大型数据库作为一个丰富、可靠的资源为知识的提取服务。3、 给出一种关联规则的算法描述,并举例说明。Apriori算法描述:Apriori算法由Agrawal等人于1993年提出,是最有影响的挖掘布尔关联规则频繁项集的算法,它通过使用递推的方法生成所有频繁项目集。基本思想是将关联规则挖掘算法的设计分解为两步:(1)找到所有频繁项集,含有 k 个项的频繁项集称为 k-项集。Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,出频繁 1-项集的集合。

7、该集合记作L1。L1用于找频繁 2-项集的集合L2,而L2用于找L3,如下去,直到不能找到频繁k-项集。找出每个Lk都需要一次数据库扫描。为提高频繁项集层产生的效率,算法使用Apriori性质用于压缩搜索空间。(2)使用第一步中找到的频繁项集产生关联规则。从算法的基本思想可知,Apriori算法的核心和关键在第一步。而第一步的关键是如何将Apriori性质用于算法,利用Lk - 1找Lk。这也是一个由连接和剪枝组成的两步过程:(1)连接步:为找Lk,通过Lk -1与自己连接产生候选k-项集的集合。该候选项集的集合记作Ck。设l1和l2是Lk -

8、 1中的项集。记号lij表示li的第j项(例如,l1k-2表示l1的倒数第3项)。为方便计,假定事务或项集中的项按字典次序排序。执行连接Lk -  1 Lk -  1;其中,Lk - 1的元素是可连接的,如果它们前(k-2)项相同;即Lk - 1的元素l1和l2是可连接的,如果(l11 = l21)  (l12 = l22)  .  (l1 k-2 =

9、60;l2 k-2)  (l1 k-1 < l2 k-1)。条件(l1k-1 < l2k-1)是简单地保证不产生重复。连接l1和l2产生的结果项集是l11 l12. l1 k-1 l2k-1。(2)剪枝步:Ck是Lk的超集;即,它的成员可以是,也可以不是频繁的,但所有的频繁k-项集都包含在Ck中。扫描数据库,确定Ck中每个候选的计数,从而确定Lk(即,根据定义,计数值不小于最小支持度计数的所有候选是频繁的,从而属于Lk)。然而,Ck可能很大,这样所涉及的

10、计算量就很大。为压缩Ck,可以用以下办法使用Apriori性质:任何非频繁的(k-1)-项集都不可能是频繁k-项集的子集。因此,如果一个候选k-项集的(k-1)-子集不在Lk - 1中,则该候选也不可能是频繁的,从而可以由Ck中删除。Apriori算法举例:如有如下数据TIDList of item_IDsT100I1,I2,I5T200I2,I4T300I2,I3T400I1,I2,I4T500I1,I3T600I2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3每一行表示一条交易,共有9行,既9笔交易,左边表示交易ID,右边表示商品名称。最

11、小支持度是22%,那么每件商品至少要出现9*22%=2次才算频繁。第一次扫描数据库,使得在每条交易中,按商品名称递增排序。第二次扫描数据,找频繁项集为1的元素有:项集支持度计数I16I27I36I42I52左边表示商品名称,右边表示出现的次数,都大于阈值2。在此基础上找频繁项集是2的元素,方法是两两任意组合,第三次扫描数据得到它们出现的次数: 项集支持度计数I1,I24I1,I34I1,I41I1,I52I2,I34I2,I42I2,I52I3,I40I3,I51I4,I50此时就有规律性了,在频繁项集为K的元素上找频繁项集为K+1的元素的方法是:在频繁项集为K的项目(每行记录)中,假如共有N

12、行,两两组合,满足两两中前K-1个元素相同,只后一个元素要求前一条记录的商品名称小于后一条记录的商品名称,这样是为了避免重复组合,求它们的并集得到长度为K+1的准频繁项集,那么最多共有Apriori算法种可能的组合,有: 项集I1,I2,I3I1,I2,I5I1,I2,I4I1,I3,I5I2,I3,I4I2,I3,I5I2,I4,I5想想如果N很大的话,Apriori算法是一个多么庞大的数字,这时就要用到Apriori的核心了:如果K+1个元素构成频繁项集,那么它的任意K个元素的子集也是频繁项集。然后将每组K+1个元素的所有长度为K的子集,有Apriori算法中组合,在频繁项集为K的项集中匹

13、配,没有找到则删除,用第一条记录I1,I2,I3它的长度为2的频繁项集有:Apriori算法分别是:I1,I2,I1,I3,I2,I3种情况,幸好这三种情况在频繁项集为2的项集中都找到了。通过这步过滤,得到的依旧是准频繁项集,它们是:项集I1,I2,I3I1,I2,I5I1,I2,I4此时第四次扫描数据库,得到真正长度为3的频繁项集是:项集支持度计数I1,I2,I32I1,I2,I52因为I1,I2,I4只出现了1次,小于最小支持度2,删除。就这个例子而言,它的最大频繁项集只有3,就是I1,I2,I3和I1,I2,I5。4、 给出一种聚类算法描述,并举例说明。k-means 算法是一种属于划分

14、方法的聚类算法,通常采用欧氏距离作为 2 个样本相似程度的评价指标,其基本思想是:随机选取数据集中的 k 个点作为初始聚类中心,根据数据集中的各个样本到k 个中心的距离将其归到距离最小的类中,然后计算所有归到各个类中的样本的平均值,更新每个类中心,直到平方误差准则函数稳定在最小值。算法步骤:1.为每个聚类确定一个初始聚类中心,这样就有K 个初始聚类中心。  2.将样本集中的样本按照最小距离原则分配到最邻近聚类   3.使用每个聚类中的样本均值作为新的聚类中心。 4.重复步骤2.3步直到聚类中心不再变化。k-means算法举例

15、:数据对象集合S见下表,作为一个聚类分析的二维样本,要求的簇的数量k=2。oxy10220031.50450552(1)选择 , 为初始的簇中心,即 ,(2)对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。 对 :显然 ,故将 分配给对于 : 因为 ,所以将 分配给对于 :因为 ,所以将 分配给 更新,得到新簇 和 计算平方误差准则,单个方差为 总体平均方差是:(3)计算新的簇的中心。 重复(2)和(3),得到O1分配给C1;O2分配给C2,O3分配给C2 ,O4分配给C2,O5分配给C1。更新,得到新簇 和 。 中心为 , 。 单个方差分别为总体平均误差是:由上可以看出,第一次

16、迭代后,总体平均误差值52.2525.65,显著减小。由于在两次迭代中,簇中心不变,所以停止迭代过程,算法停止。5、 给出一种分类的算法描述,并举例说明。决策树算法是数据挖掘领域的核心分类算法之一,其中ID3算法是最为经典的决策树算法。ID3算法理论清晰、使用简单、学习能力较强,且构造的决策树平均深度较小,分类速度较快,特别适合处理大规模的学习问题,目前已得到广泛应用。在ID3决策树归纳方法中,通常是使用信息增益方法来帮助确定生成每个节点时所应采用的合适属性。这样就可以选择具有最高信息增益(熵减少的程度最大)的属性最为当前节点的测试属性,以便对之后划分的训练样本子集进行分类所需要的信息最小,也

17、就是说,利用该属性进行当前(节点所含)样本集合划分,将会使得所产生的样本子集中的“不同类别的混合程度”降为最低。因此,采用这样一种信息论方法将有效减少对象分来所需要的次数,从而确保所产生的决策树最为简单。设E = F1 ×F2 ××Fn 是n 维有穷向量空间,其中是有穷离散符号集, E中的元素e = <,>叫做例子,其中, j = 1 ,2 , , n。设PE 和NE 是E 的F 两个例子集,分别叫正例集和反例集。假设向量空间E中的正例集PE和反例集NE 的大小分别为p和n ,ID3基于下列两个假设: (1)在向量空间E 上的一棵正确决策树,对任意例子

18、的分类概率同E 中的正、反例的概率一致;(2)一棵决策树能对一例子做出正确类别判断所需的信息量为:I(p,n)=如果以属性A作为决策树的根, A具有v个值(,) ,它将E分为v个子集(, ) ,假设中含有Pi个正例和个反例,子集的信息熵为I(Pi,) ,以属性A为根分类后的信息熵为:因此,以A 为根的信息增益是Gain (A) = I (p,n) - E(A) 。ID3 选择使Gain (A) 最大(即E(A) 最小)的属性作为根结点。对的不同的取值对应的E 的v个子集递归调用上述过程,生成的子结点,, 。ID3 的基本原理是基于两类分类问题,但很容易扩展到多类。设样本集S 共有C类样本,每类

19、样本数为pi ,( i = 1 ,2 ,3 , c) 。若以属性A 作为决策树的根, A 具有V 个值, ,它将E 分成V 个子集, ,假设中含有j类样本的个数为,j = 1,2,c那么,子集的信息量是I()。以A 为根分类的信息熵为:选择属性使E( A) 最小,信息增益也将增大。理想的决策树分成3种: (1)叶节点数最小, (2)叶节点深度最小; (3)叶节点数量最少且叶子结点深度最小。决策树的好坏,不仅影响分类的效率,而且还影响分类的准确率。人们为了寻求较优的解,不得不寻求各种启发式的方法。有的采用基于属性相关性的启发式函数;有的对生成的决策树进行剪枝处理;有的则扩充决策树,形成决策图。如

20、今普遍采用的是优化算法,基本思想:首先用ID3选择属性F1,建立树T1,左、右子树的属性分别为F2,F3,再以F2,F3为根,重建树T2,T3;较T1,T2,T3的结点个数,选择结点最少的树。对于选择定树的儿子结点采用同样的方法递归建树。尽管作者用一个实验证明能建立理想的决策树,但算法有较大的弱点:时间开销太大,因为每选择一个新的属性,算法都需要建立3 棵决策树,从中选优。ID3算法举例:性格父母教育程度性别类别内向外向外向内向外向内向外向外向外向内向内向内向良良中差中良差差良中中差女生男生女生女生男生男生女生男生女生女生男生男生好好差差好好好差好差差差此例假定要按某校学生学习成绩好坏这个概念

21、对一个集合进行分类,该集合中用来描述学生的属性有性格、父母教育程度和性别。性格的取值为外向、内向。父母教育程度取值为良好、中等和差。性别的取值为男生、女生。例子集中共有12 名学生,如表所示。在类别一栏,将正例即“学习成绩好”的学生用“好”标出,反例即“学生成绩差”的学生用“差”标出。这些例子一开始全部包含在根结点中,为了找出当前的最佳划分属性,先须根据信息论中的公式计算训练实例集Es的熵值。则根节点的熵值为: = 1下面分别计算例子集中各个属性的信息赢取值。对属性“性格”来说,分外向和内向两个分支。当v =“外向”时,有4 名“外向”小学生是“学习成绩好”的,有2 名“外向”小学生是“学习成绩差”的。因此, 当v =“内向”时,有2 名“内向”小学生是“学习成绩好”的,有4 名“内向”小学生是“学习成绩差”的。因此,所以根据“性格”属性来进行例子集分类的信息赢取值为:Gain(Es)=Entropy(Es)-Entropy(Esv)=同理,对“父母教育程度”来说:Gain(Es, 父母教育程度)=0.4591 ;对“性别”来说:Gain( Es,性别) =

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论