大数据挖掘期末复习资料_第1页
大数据挖掘期末复习资料_第2页
大数据挖掘期末复习资料_第3页
大数据挖掘期末复习资料_第4页
大数据挖掘期末复习资料_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、标准文档数据挖掘期末复习资料2009-02-21 20:38:37| 分类: 读书笔记 | 标签: | 字号大中小 订阅 题型:填空( 20 空)、判断( 20 分)、简答( 5个:预处理方法、决策树、朴素贝叶斯过程、 其他一些知识内容) 、大题(算法:关联分析、分类、决策树、 ID3 算法、贝叶斯方法、 A 神经网络、聚类回归占得比较小) 概述一、数据挖掘是一个多学科领域,具体涉及到哪些相关学科?数据库及相关领域知识。二、什么是数据挖掘,产生的背景,典型的数据挖掘系统的主要成分? 数据挖掘定义: 数据挖掘是从存放在数据库, 数据仓库或其他信息库中的大量数据中挖掘有 趣知识的过程。典型的数据挖

2、掘系统的主要成分: 1.数据库, 数据仓库或其他信息库; 2.数据库或数据仓库 服务器: 3.知识库; 4. 数据挖掘引擎; 5.模式评估模块; 6.图形用户界面。三、数据挖掘的功能有哪些? 数据挖掘功能 - 可以挖掘什么类型的模式。数据挖掘任务:描述和预测。 描述性挖掘任务刻划数据库中数据的一般特性;预测性挖掘任务在当前数据上进行推断。 数据挖掘的功能用于指定数据挖掘任务中要找的模式类型。其模式类型介绍如下:(1)、概念 / 类描述:特征化和区分。用汇总的、简洁的、精确的方式描述每个类和概念, 称这种描述为类 / 概念描述,通过三种方式得到: 1)数据特征化2 )数据区分 3 )数据特征化和

3、比较。(2)关联分析:发现规则,这些规则展示属性- 值频繁地在给定数据集中一起出现的条件。关联规则的含义为:满足X中条件的数据库元组多半也满足Y中条件。包括多维关联规则和单维关联规则。(3)分类和预测:分类与预测是两种数据分析形式,它们可用于抽取能够描述重要数据集合 或预测未来数据趋势的模型。 分类是找出描述并区分数据类或概念的模型或函数, 以便能用 模型预测类标记未知的对象类。 如:可以构造一个分类模型来对银行贷款进行风险评估 (安 全或危险);也可建立一个预测模型以利用顾客收入与职业(参数)预测其可能用于购买计 算机设备的支出大小。(4)聚类分析:它考虑的是数据对象,将数据对象根据一定的规

4、则比如,最大化类内的相似 性,最小化类间的相似性进行分组或聚类。同类相聚,异类相离(5)孤立点分析:有些对象与数据的一般行为或模式不一致,称这些数据对象是孤立点。(6)演变分析 (时序分析 ):描述行为随时间变化的数据对象的规律或趋势,并对其建模,比 如,股票的演变规律。四、数据挖掘的性能问题包括哪3 个方面?五、知识发现包括哪些过程?知识发现的过程: 1)数据清理(消除噪声或不一致数据) 2)数据集成(多种数据源可以组 合在一起) 3)数据选择(从数据库中检索与分析任务相关的数据)4)数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)5)数据挖掘(基本步骤,使用智能方法提取数据

5、模式) 6)模式评估 (根据某种兴趣度度量, 识别表示知识的真正有趣的模式) 7) 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)六、数据、信息、知识之间的区别和联系 数据:就是能够被计算机处理的任何事物(事实、数字、文本等) 数据 =事实的记录操作和交易数据:如销售、价格、库存、薪水册等非操作的数据:如工业销售、预测数据、宏观经济数据元数据( Meta data :描述数据自身的数据,如逻辑数据库设计或数据字典定义 信息 :数据提供的模式、关联、联系等信息。信息是对数据的提炼;信息 =数据 +意义 如:对于零售终端的分析能够获得什么产品在什么时候卖出的信息。知识: 从信息中提取出

6、有关历史模式、一般规律、和未来趋势的知识 知识是让从定量到定性的过程得以实现的、 抽象的、 逻辑的东西。 知识是需要通过信息使用 归纳、 演绎得方法得到。 知识只有在经过广泛深入地实践检验,被人消化吸收,并成为了个 人的信念和判断取向之后才能成为知识,这一点使得知识和信息往往混杂在一起。如:通过分析超市的销售汇总信息, 来提供用户购买行为的知识, 从而可以知道哪种促销方 式是最有效的。数据仓库一、数据仓库是一个 面向主题的、集成的、非易失的、时变的有组织的数据集合。二、OLAP勺典型操作有哪些?切片切块、上卷下钻、旋转转轴三、多维数据模型通常采用哪三种模式?星型模式、雪花模式、事实星座四、冰山

7、立方体勺相关概念仅计算满足最小支持度阈值勺单元,这种部分物化勺单元称为冰山立方体。HAVINGCOUNT(*) = minsup 为冰山条件Motivation :v由于立方体单元在多维空间中勺分布常常是稀疏勺, 因此大量勺立方体空间可能被大量具有很低度量值得单元占据。v仅需物化数据立方体单元勺一小部分那些满足阈值勺单元v减轻计算数据立方体中不重要勺聚集单元勺负担。五、数据仓库和数据库有什么区别和联系?1、数据仓库中勺数据时间期限要远远长于操作型系统中勺数据时间期限操作型系统含有 “当前值”数据,时间期限一般是 60-90 天;数据仓库从历史勺角度提供信 息,其中勺数据仅仅是一系列某一时刻生成

8、勺复杂勺快照,时间期限通常是5-10 年2、数据仓库中勺键码结构 数据仓库中勺关键结构,隐式或显式地包含时间元素 操作型系统勺键码结构可能不包括时间元素3、反应时间变化勺4、数据仓库是非易失勺 数据仓库总是物理地分别存放数据 数据仓库中不进行操作型环境中勺数据更新 数据仓库不需要事务处理、恢复和并发控制机制 数据仓库通常只需要两种数据访问:数据勺初始化装入和数据访问4、相对稳定勺数据预处理一、数据预处理包括哪些过程数据清理、数据集成、数据变换和数据规约二、对于每种预处理过程都有哪些方法, 处理勺思想是怎么样勺, 比如针对缺失值有哪些方 法?针对数据规范化有哪些方法?数据清理中如何处理噪声数据等

9、。数据清理:就是用其例程通过填写空缺的值,平滑噪声数据,识别,删除孤立点,并解决不 一致来清理数据。其基本方法为:(1)空缺值1) 忽略元组 , 2)人工填写空缺值 3 )使用一个全局常量填充空缺值,比如用一个常数(Unknown)来替换所有空缺的值。 4)使用属性的平均值填充空缺值5 )使用与给定元组属同类的所有样本的平均值6 )使用最可能的值填充空缺值, 可以使用回归, 或判定树确定推理获得(2)噪声数据:一个测量变量中的随机错误或偏差。可以用以下方法1) 分箱包括按箱平均值平滑,即就是将属性值根据等深, 例如每箱 3 个进行分箱, 然后 用这三个值的平均值代替箱中的值。类似有按箱均值平滑

10、,按箱边界平滑;Price 的排序后数据 (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34* 划分为等频箱:- 箱 1: 4, 8, 9, 15- 箱 2: 21, 21, 24, 25- 箱 3: 26, 28, 29, 34* 用箱均值光滑:-箱1: 9, 9, 9, 9 -箱2: 23, 23, 23, 23 - 箱3: 29, 29, 29, 29* 用箱边界光滑:- Bin 1: 4, 4, 4, 15- Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26,342) 回归,让数据适合一个

11、函数(如回归函数)来平滑数据。3) 聚类聚类将相似的值组织成群或类, 落在群或类外的值就是孤立点, 也就是噪声数据; 不一致数据:许多情况下,所记录的数据可能不一致,这是多方面的因素,比如,由于编码 或表示不同,在数据集成的时候,就有可能造成不一致。规范化的方法:1) 最小最大规范化 :对原始数据进行变换。假定 A 的属性最大值和最小值分别是MAX,MIX ,设A中的任一值是 V,则V的值经过规范化后则为:V = (V-MIN) /( MAX-MIX *(NEW_max-NEW_mi n)+NEW_m其中规范化后的区间是NEW_min, NEW_max例如:in come的最大,最小值分别为9

12、000,2000,则将它的值映射到0,1时,若in come的值 6800 规范后为:(6800-2000 )/ (9000-2000 )*(1-0)+0=0.6862) z-score规范化(或零一均值规范化):就是属性A的值基于A的平均值和标准差规范。 假设A的值V规范后为 V,则公式为:V =(V-AVG (A)/A的标准差假设属性 income 的平均值和方差分别为: 5400, 1600,则值 7360 的规范后的值为:( 7360-5400 ) /1600=1 。 2253) 小数定标化:就是科学表示法的形式,将属性的值映射到0, 1之间。将小数点的位置规范化,小数点的移动根据属性

13、的最大绝对值。如将A属性的值35规范后为:35/100=0.35属性构造: 是由给定的属性构造和添加新的属性,以有利于挖掘。 比如, 我们根据属性 heigh 和 width 可以构造 area 属性。 通过这种组合属性, 属性构造可以发现关于数据属性 间联系的丢失信息,这对知识发现有用的。数值归约( 1) 直方图:数值归约:通过用替代的,较小的数据表示形式来减少数据量。 直方图:使用分箱技术近似数据分布,数值归约( 2) 聚类 数据挖掘的各种算法 掌握每种算法的基本思想,优缺点,是否是有监督的挖掘方法等? 一、 Apriori 算法的基本思想,如何采用 Apriori 来挖掘频繁模式 需要了

14、解的基础知识:关联规则判断标准1、支持度 sup(.) :表示在购物篮分析中同时包含关联规则左右两边物品的交易次数百分比, 即支持这个规则的交易的次数百分比。规则X?Y在交易数据集 D中的支持度是对关联规则重要性的衡量,反映关联是否是 普遍存在的规律,说明这条规则在所有交易中有多大的代表性。即在所有交易中X与Y同时出现的频率记为: support(X?Y)= P (XY)2、置信度 confidence(.) :是指购物篮分析中有了左边商品,同时又有右边商品的交易次 数百分比,也就是说在所有的购买了左边商品的交易中, 同时又购买了右边商品的交易概率。? 连接 : 用 Lk-1 自连接得到 Ck

15、?修剪 : 一个 k- 项集,如果他的一个 k-1 项集(他的子集 )不是频繁的,那他本身也不可能是频繁的。Apriori 算法:使用候选产生频繁项集例 1:假设最小支持度为 30%,最小置信度为 60%。第一步:产生频繁 1- 项集(即满足最小支持度要求) ;第二步:再次扫描数据库,产生后候 选 2- 项集:第三步:产生频繁 3-项集;第四集:从满足条件的频繁2-项集中构造关联规则:第五步:重复第二步,产生候选3-项集;例2:数据库面向 5 个事物,min-sup=60%,min-conf=80%.TID购买商品T100M,O,N,K,E,YT200D,O,N,K,E,YT300M,A,K,

16、E T400M,U,C,K,YT500C,O,O,K,I,E(1)分别用Apriori算法找出所有频繁项集(2)列举所有与下面的元规则匹配的强关联规则(给出支持度S和置信度C),其中,X代表顾客的变量,item代表项的变量(如“ A” “ B”等)对于? x transaction,buys(X,item1)Abuys(X,item2)=buys(X,item3) S,C解:(1)、用Apriori算法找出所有频繁项集。原数据库D如下:TIDItemsT100M O N K E YT200D O N K E YT300M A K ET400M U C K YT500C O O K I E扫描D

17、后,得到候选1-项集C1,如下所示:Items etMONKEYDAUCISup33254311121从而得到频繁一项集L1:itemsetsupM3O3K5E4Y3再次扫描D后,得到候选2-项集C2:Items etM , OM,KM,EM,YO,KO,EO,YK,EK,YE,YSup1322332432根据上面候选2-项集,产生频繁2-项集L2:ItemsetM,KO,KO.EK,EK,YSup33343再次扫描D后,得到候选3-项集C3:ItemsetM,O,KM ,K,EM,K,YO,K,EO,K,YK,E,YO,E,YSup1223222根据上面候选3-项集,产生频繁3-项集L3:I

18、temsetSupO,K,E3综上所述,得到所有的频繁项集如下所示:频繁 1-项集:M;O;K;E;Y.频繁 2-项集:M,K;O,K;O,E;K,E;K,Y.频繁3-项集:O,E,K.(2 )、从上面得出的频繁 3-项集中,构造如下关联规则:buys(X,O)Abuys(X,E)=buys(X,K)support=3/5=60%,co nfide nce=100%buys(X,O)Abuys(X,K)=buys(X,E)support=3/5=60%,co nfide nce=100%buys(X,E)Abuys(X,K)=buys(X,O)得到符合条件的强关联规则,即support=3/5

19、=60%,co nfide nce=75%sup=60%,conf=80%,如下所示:buys(X,O)Abuys(X,E)=buys(X,K)buys(X,O)Abuys(X,K)=buys(X,E)二、决策树算法的基本思想,米用support=3/5=60%,co nfide nce=100%support=3/5=60%,co nfide nce=100%ID3算法进行分类。决策树(Decision Tree)监督式(supervised learning)的机器学习法非监督式(unsupervised learning)的机器学习法集群分析法(Cluster Analysis)基础知识

20、:信息论:若一事件有k种结果,对应的机率为Pi。则此事件发生后所得到的信息量 1(视为 Entropy)为:l=-(p1*log2(p1)+ p2*log2(p2)+ pk*log2(pk)如:设 k=4 d p1=0.25,p2=0.25,p3=0.25,p4=0.25l=-(0.25*log2(0.25)*4)=2信息获利(Information Gain):若分类标记(Y)分为(成功、失败)两种,X为预测变量(类别属性;k类),n为总样本数(n1为总样本数中具成功标记的个数),经由X变量将样本分类后mi为X=i类中的总样本个数(mil为X=i类中具成功标记的个数)。根据变量X将n个样本分

21、为 m1,m2,mk 的信息获禾U为:Gain(X)=l(n,n 1)-E(X),其中l( n,n 1)=-( n1/n)log2( n1/ n)+(1- n1/n)log2(1- n1/n)E(X)=(m1/n)*I(m1,m11)+(m2/n)*I( m2,m21)+(mk/n )*l(mk,mk1)ID3算法(C4.5,C5.0)的一个例子:|(16,4)=-(4/16)*log2(4/16)+(12/16)*log2(12/16)=0.8113E(年龄)=(6/16)*1(6,1)+(10/16)*1(10,3)=0.7946Gain(年龄)=I(16,4)-E( 年龄)=0.0167

22、Decision Tree的建立过程(前面是重点,这部分看下就行了)(一)决策树的分割(二)决策树的剪枝(pru ning)三、贝叶斯方法的基本思想,采用朴素贝叶斯方法进行分类朴素贝叶斯分类法:采用监督式的学习方式,分类前必须事先知道分类形态,透过训练样本的训练学习,有效地处理未来欲分类的数据。贝叶斯定理:P ( A i AB )P ( A i) xp ( B|A i)P ( A i | B )=SP ( A i) xp (B|A i)i=1P ( A i)表事前机率(Prior probability) 。P ( A i | B )表事后机率(Posteriori probability),

23、事件A i是一原因,B是一结果。Bayes rule是一由已知结果求原因的机率。例:旅客搭乘飞机必须经电子仪器检查是否身上携带金属物品,携带金属仪器会发出声音的机会是97%但身上无金属物品仪器会发出声音的机会是5%若已知一般乘客身上带有金属物品的机会是30%若某旅客经过仪器检查时发出声音,请问他身上有金属物品的机会是多 少?解:设A=有金属物,B=仪器会发声则朴素贝叶斯分类法算法:1.计算各属性的条件机率P(C=cj | A仁a1,?,An=an)例一:办信用卡意愿:项目性别年龄学生身分收入办卡1男45否高会2女3145否高会3女2030是低会n4男20是低不会5女2030是中不会6女2030

24、否中会7女3145否高会18男3145是中不会9男3145否中会10女20是低会判断(女性,年龄介于3145之间,不具学生身份,收入中等)者会不会办理信用卡。首先根据训练样本计算各属性相对于不同分类结果的条件机率:P(性别=女|办卡=会)=5/7P(性别=女|办卡=不会)=1/3 P(年龄=3145|办卡=会)=3/7P(年龄=3145|办卡=不会)=1/3P(学生=否|办卡=会)=5/7P(学生=否|办卡=不会)=0/3P(收入=中|办卡=会)=2/7P(收入=中|办卡=不会)=2/3再应用朴素贝叶斯分类法进行类别预测:P(办卡=会)=7/10P(女 | 会)P(31-45| 会)P(否 | 会)P(中 |会)=15/343 二 0.044P(办卡=不会)=3/10P(会)P(不会)P(女|不会)P(31-45|不会)P(否|不会)P(中|不会)=0训练样本中对于(女性,年龄介于3145之间,不具学生身份,收入中等)的个人,朴素贝叶 斯分类法会将其分类到会办理信用卡的类别。办理的机率是(0.044)/(0.044+0)=1(正规化分类的结果P(会)/(P(会)+P(不会)。故使用朴素贝叶斯分类法,会将 (女性,年龄介于 31-45

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论