数据挖掘算法_第1页
数据挖掘算法_第2页
数据挖掘算法_第3页
数据挖掘算法_第4页
数据挖掘算法_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、全国高校标准教材云计算姊妹篇,剖析大数据关键技术和实战应用大数据刘鹏主编张燕张重生张志立 副主编BIG DATA1/40刘 鹏 教授,清华大学博士。现任南京大数据研究院院长、中国信息协会大数据分会副会长、中国大数据技术与应用联盟副理事长。 主持完成科研项目25项,发表论文80余篇,出版专业书籍15本。获部级科技进步二等奖4项、三等奖4项。主编云计算被全国高校普遍采取,被引用量在国内计算机图书类排名居前。创办了著名中国云计算()和中国大数据()网站。 曾率队夺得 PennySort国际计算机排序比赛冠军,两次夺得全国高校科技比赛最高奖,并三次夺得清华大学科技比赛最高奖。 荣获“全军十大学习成才标

2、兵”(排名第一)、南京“十大出色青年”、江苏省中青年科学技术带头人、清华大学“学术新秀”等称号。2/40全国高校标准教材云计算姊妹篇,剖析大数据关键技术和实战应用第三章数据挖掘算法3.1数据挖掘概述3.2分类3.3聚类3.4关联规则3.5预测规模习题3.6数据挖掘算法综合应用of3933/403.1数据挖掘概述第三章 数据挖掘算法20世纪80年代末,数据挖掘(Data Mining,DM)提出。1989年,KDD 这个名词正式开始出现。1995年,“数据挖掘” 流传。从科学定义分析,数据挖掘是从大量、有噪声、不完全、含糊和随机数据中,提取出隐含在其中、人们事先不知道、含有潜在利用价值信息和知识

3、过程。从技术角度分析,数据挖掘就是利用一系列相关算法和技术,从大数据中提取出行业或企业所需要、有实际应用价值知识过程。知识表示形式能够是概念、规律、规则与模式等。准确地说,数据挖掘是整个知识发觉流程中一个详细步骤,也是知识发觉过程中最主要关键步骤。特征处理大数据能力更强,且无须太专业统计背景就能够使用数据挖掘工具数据挖掘最终目标是方便企业终端用户使用,而并非给统计学家检测用从使用与需求角度上看,数据挖掘工具更符合企业界需求of3943.1.1 数据挖掘概念4/403.1数据挖掘概述第三章 数据挖掘算法使用广义角度分类聚类估值预测关联规则数理基础角度机器学习方法统计方法神经网络方法决议树基于范例

4、学习规则归纳遗传算法回归分析时间序列分析关联分析聚类分析粗糙集探索性分析支持向量机最近邻分析含糊集前向神经网络自组织神经网络多层神经网络深度学习感知机可视化of3953.1.2 数据挖掘惯用算法5/403.1数据挖掘概述第三章 数据挖掘算法1分类数据挖掘方法中一个主要方法就是分类,在给定数据基础上构建分类函数或分类模型,该函数或模型能够把数据归类为给定类别中某一个类别,这就是分类概念。2聚类3关联规则4时间序列预测聚类也就是将抽象对象集合分为相同对象组成多个类过程,聚类过程生成簇称为一组数据对象集合。关联规则属于数据挖掘算法中一类主要方法,关联规则就是支持度与信任度分别满足用户给定阈值规则。时

5、间序列预测法是一个历史引申预测法,也即将时间数列所反应事件发展过程进行引申外推,预测发展趋势一个方法。of3963.1.2 数据挖掘惯用算法6/403.1数据挖掘概述第三章 数据挖掘算法按照数据挖掘应用场景分类,数据挖掘应用主要包括通信、股票、金融、银行、交通、商品零售、生物医学、准确营销、地震预测、工业产品设计等领域,在这些领域众多数据挖掘方法均被广泛采取且衍生出各自独特算法。1数据挖掘在电信行业应用2数据挖掘在商业银行中应用数据挖掘广泛应用在电信行业,能够帮助企业制订合理服务与资费标准、预防欺诈、优惠政策,为企业决议者提供可靠决议依据,为市场营销、客户服务、全网业务、经营决议等提供有效数据

6、支撑,深入完善了国内电信企业对省、市电信运行指导,在业务运行中发挥主要作用,从而为精细化运行提供技术与数据基础。在美国银行业与金融服务领域数据挖掘技术应用十分广泛,因为金融业务分析与评定往往需要大数据支撑,从中能够发觉客户信用评级与潜在客户等有价值信息,可成功地预测客户需求。of3973.1.3 数据挖掘应用场景7/403.1数据挖掘概述第三章 数据挖掘算法3数据挖掘在信息安全中应用4数据挖掘在科学探索中应用利用机器学习与数据挖掘等前沿技术与处理方法对入侵检测数据进行自动分析,提取出尽可能多隐藏安全信息,从中抽象出与安全相关数据特征,从而能够发觉未知入侵行为。数据挖掘技术能够建立一个具备自适应

7、性、自动、系统与良好扩展性入侵检测系统,能够处理传统入侵检测系统适应性与扩展性较差弱点,大幅度提升入侵检测系统检测与响应效能。近年来,数据挖掘技术已经开始逐步应用到科学探索研究中。例如,在生物学领域数据挖掘主要应用在分子生物学与基因工程研究。 使用概率论模型对蛋白质序列进行多序列联配建模; 特定数据挖掘技术研究基因数据库搜索技术; 在被认为是人类征服顽疾最有前途攻关课题“DNA序列分析”过程中,因为DNA序列构 成多种多样,数据挖掘技术应用可认为发现疾病蕴藏基因排列信息提供新方法。of3983.1.3 数据挖掘应用场景8/403.1数据挖掘概述第三章 数据挖掘算法依据适用范围,数据挖掘工具分为

8、两类:专用挖掘工具和通用挖掘工具。专用数据挖掘工具针对某个特定领域问题提供处理方案,在包括算法时候充分考虑数据、需求特殊性。对任何应用领域,专业统计研发人员都能够开发特定数据挖掘工具。Weka软件SPSS软件Clementine软件RapidMiner软件其它数据挖掘软件SPSS采取类似Excel表格方式输入与管理数据,数据接口较为通用,能方便地从其它数据库中读入数据。突出特点是操作界面友好,且输出结果美观。Clementine提供出众、广泛数据挖掘技术,确保用恰当分析技术来处理对应商业问题,得到最优结果以应对随时出现问题。RapidMiner并不支持分析流程图方式,当包含运算符比较多时就不轻

9、易查看;含有丰富数据挖掘分析和算法功效,惯用于处理各种商业关键问题。公开数据挖掘工作平台,集成大量能负担数据挖掘任务机器学习算法,包含对数据进行预处理、分类、回归、聚类、关联规则,以及交互式界面上可视化。流行数据挖掘软件还包含Orange、Knime、Keel与Tanagra等of3993.1.4 数据挖掘工具9/403.2分类3.1数据挖掘概述全国高校标准教材云计算姊妹篇,剖析大数据关键技术和实战应用第三章数据挖掘算法3.3聚类3.4关联规则3.5预测规模习题3.6数据挖掘算法综合应用of391010/403.2 分类分类是一个主要数据分析形式,依据主要数据类特征向量值及其它约束条件,结构分

10、类函数或分类模型(分类器),目标是依据数据集特点把未知类别样本映射到给定类别中。数据分类过程主要包含两个步骤,即学习和分类。图3-1 建立一个模型第一步,建立一个模型第三章 数据挖掘算法of391111/40图3-2 使用模型进行分类3.2 分类第二步,使用模型进行分类第三章 数据挖掘算法of391212/403.2 分类分类分析在数据挖掘中是一项比较主要任务,当前在商业上应用最多。分类目标是从历史数据统计中自动推导出对给定数据推广描述,从而学会一个分类函数或分类模型(也经常称作分类器),该模型能把数据库中数据项映射到给定类别中某一个类中。为建立模型而被分析数据元组形成训练数据集,由一组数据库

11、统计或元组组成,每个元组是一个由相关字段(又称属性或特征)值组成特征向量,另外,每一个训练样本都有一个预先定义类别标识,由一个被称为类标签属性确定。一个详细样本形式可表示为 ,其中 表示字段值,C 表示类别分类又称为有监督学习第三章 数据挖掘算法of391313/403.2 分类1条件概率数学基础知识事件A 在另外一个事件B 已经发生条件下发生概率,称为在B 条件下A 概率。表示为2联合概率联合概率表示两个事件共同发生概率。 A 与B 联合概率表示为 、 或者3贝叶斯定理贝叶斯定理用来描述两个条件概率之间关系,比如, 与 。依据乘法法则 能够推导出贝叶斯公式:第三章 数据挖掘算法of39143

12、.2.1 贝叶斯决议与分类器14/403.2 分类4全概率公式全概率公式为概率论中主要公式,它将对复杂事件A 概率求解问题转化为在不一样情况下发生简单事件概率求和问题。设 组成一个完备事件组,即它们两两互不相容,其和为全集,且 ,则事件A概率为:贝叶斯分类工作过程以下:(1)每个数据样本均是由一个n 维特征向量 表示,分别描述其n 个属性详细取值。第三章 数据挖掘算法of39153.2.1 贝叶斯决议与分类器15/403.2 分类4全概率公式(2)假设共有m 个不一样类别, 。给定一个未知类别数据样本X(没有类别号),分类器预测属于X 后验概率最大那个类别。也就是说,朴素贝叶斯分类器将未知类别

13、样本X 归属到类别 ,当且仅当 。也就是 最大。其中类别 就称为最大后验概率假设。依据贝叶斯公式可得:(3)因为 对于全部类别均是相同,所以,只需要 取最大即可。因为类别先验概率是未知,则通常假定类别出现概率相同,即 。这么对于式(3-4)取最大转换成只需要求 最大。而类别先验概率普通能够经过 公式进行估算,其中, 为训练样本集合中类别 个数,s 为整个训练样本集合大小。(3-4)第三章 数据挖掘算法of39163.2.1 贝叶斯决议与分类器16/403.2 分类4全概率公式(4)依据所给定包含多个属性数据集,直接计算 运算量非常大。为实现对有效估算,朴素贝叶斯分类器通常都假设各类别是相互独立

14、,即各属性间不存在依赖关系,其取值是相互独立。能够依据训练数据样本估算 值。假如 是分类属性,则 ;其中 是在属性 上含有值 类 训练样本数,而 是 中训练样本数。假如 是连续值属性,则通常假定该属性服从高斯分布。因而 (3-6)给定类 训练样本属性 值, 是属性 高斯密度函数, , 分别为均值和方差。(5)为预测一个未知样本X 类别,可对每个类别 估算对应 。样本X 归属类别 当且仅当 ,即X 属于 为最大类 。第三章 数据挖掘算法of39173.2.1 贝叶斯决议与分类器17/403.2 分类第三章 数据挖掘算法支持向量机(Support Vector Machine)是建立在统计学习理论

15、VC 维理论和结构风险最小原理基础上,依据有限样本信息在模型复杂性(对特定训练样本学习精度,Accuracy)和学习能力(无错误地识别任意样本能力)之间寻求最正确折中,以期取得最好推广能力(或称泛化能力)。图3-3 超平面SVM最基本任务就是找到一个能够让两类数据都离超平面很远超平面,在分开数据超平面两边建有两个相互平行超平面。分隔超平面使两个平行超平面距离最大化,平行超平面间距离或差距越大,分类器总误差越小。通常希望分类过程是一个机器学习过程。设样本属于两个类,用该样本训练SVM得到最大间隔超平面。在超平面上样本点也称为支持向量。of39183.2.2 SVM算法18/403.2 分类第三章

16、 数据挖掘算法线性可分情形SVM非线性可分情形SVM支持向量机(SVM)核函数of39193.2.2 SVM算法19/403.2 分类第三章 数据挖掘算法互联网出现和普及,带来网上信息量大幅增加,出现信息超载问题。为了处理信息过载问题,提出了很多处理方案,其中最含有代表性处理方案是分类目录和搜索引擎。不过伴随互联网规模不停扩大,分类目录和搜索引擎,不能处理用户需求。推荐系统就是处理这一矛盾主要工具。推荐系统含有用户需求驱动、主动服务和信息个性化程度高等优点,可有效处理信息过载问题。推荐系统是一个智能个性化信息服务系统,可借助用户建模技术对用户长久信息需求进行描述,并依据用户模型经过一定智能推荐

17、策略实现有针对性个性化信息定制,能够依据用户历史兴趣偏好,主动为用户提供符合其需求和兴趣信息资源。图3-6 推荐系统工作原理of39203.2.3 案例:在线广告推荐中分类20/403.2 分类第三章 数据挖掘算法推荐系统利用推荐算法将用户和物品联络起来,能够在信息过载环境中帮助用户发觉令他们感兴趣信息,也能将信息推送给对他们感兴趣用户。依据已经有用户注册信息和购置信息,使用朴素贝叶斯分类预测一个新注册用户购置计算机可能性,从而向该用户推荐计算机类广告。训练样本如表3-1所表示。序号ID年纪Age(岁)收入等级Income_level是否学生student信用等级Credit rate类别:是

18、否购置计算机Class:buy computer130以下高否良否230以下高否优否331到40高否良是440以上中否良是540以上低是良是640以上低是优否731到40低是优是830以下中否良否930以下低是良是1040以上中是良是1130以下中是优是1231到40中否优是1331到40高是良是1440以上中否优否表3-1 训练书本of39213.2.3 案例:在线广告推荐中分类21/403.1数据挖掘概述全国高校标准教材云计算姊妹篇,剖析大数据关键技术和实战应用第三章数据挖掘算法3.2分类3.3聚类3.4关联规则3.5预测规模习题3.6数据挖掘算法综合应用3.3聚类of392222/403

19、.3 聚类聚类(clustering)就是将详细或抽象对象集合分组成由相同对象组成为多个类或簇过程。由聚类生成簇是一组数据对象集合,簇必须同时满足以下两个条件:每个簇最少包含一个数据对象;每个数据对象必须属于且唯一地属于一个簇。聚类分析是指用数学方法来研究与处理给定对象分类,主要是从数据集中寻找数据间相同性,并以此对数据进行分类,使得同一个簇中数据对象尽可能相同,不一样簇中数据对象尽可能相异,从而发觉数据中隐含、有用信息。数据准备特征选择、提出特征提取聚类(或分组)聚类过程聚类算法要求可扩展性处理不一样类型属性能力发觉任意形状聚类需要(由用户)决定输入参数最少处理噪声数据能力对输入统计次序不敏

20、感高维问题基于约束聚类可解释性和可用性第三章 数据挖掘算法of39233.3.1 非监督机器学习方法与聚类23/403.3 聚类1层次聚类算法层次聚类算法指导思想是对给定待聚类数据集合进行层次化分解。此算法又称为数据类算法,此算法依据一定链接规则将数据以层次架构分裂或聚合,最终形成聚类结果。从算法选择上看,层次聚类分为自顶而下分裂聚类和自下而上聚合聚类。分裂聚类初始将全部待聚类项看成同一类,然后找出其中与该类中其它项最不相同类分裂出去形成两类。如此重复执行,直到全部项自成一类。聚合聚类初始将全部待聚类项都视为独立一类,经过连接规则,包含单连接、全连接、类间平均连接,以及采取欧氏距离作为相同度计

21、算算法,将相同度最高两个类合并成一个类。如此重复执行,直到全部项并入同一个类。经典代表算法,BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies,利用层次方法平衡迭代规约和聚类)第三章 数据挖掘算法of39243.3.2 惯用聚类算法24/403.3 聚类2划分聚类算法划分法属于硬聚类,指导思想是将给定数据集初始分裂为K个簇,每个簇最少包含一条数据统计,然后经过重复迭代至每个簇不再改变即得出聚类结果。 K-Means算法也称作K-平均值算法或者K均值算法,是一个得到广泛使用聚类分析算法。1)欧氏距离2)曼哈顿距离3

22、)闵可夫斯基距离4)切比雪夫距离惯用距离算法第三章 数据挖掘算法of39253.3.2 惯用聚类算法25/403.3 聚类2划分聚类算法K-Means算法是处理聚类问题一个经典算法,简单快速,对于处理大数据集,该算法是相对可伸缩和高效图3-8 K-Means算法流程第三章 数据挖掘算法of39263.3.2 惯用聚类算法26/403.3 聚类3基于密度聚类算法基于密度聚类经典算法DBSCAN(Density-Based Spatial Clustering of Application with Noise,含有噪声基于密度空间聚类应用)是一个基于高密度连接区域密度聚类算法。DBSCAN基本算

23、法流程以下:从任意对象P 开始依据阈值和参数经过广度优先搜索提取从P 密度可达全部对象,得到一个聚类。若P 是关键对象,则能够一次标识对应对象为当前类并以此为基础进行扩展。得到一个完整聚类后,再选择一个新对象重复上述过程。若P 是边界对象,则将其标识为噪声并舍弃缺点如聚类的结果与参数关系较大阈值过大容易将同一聚类分割阈值过小容易将不同聚类合并固定的阈值参数对于稀疏程度不同的数据不具适应性密度小的区域同一聚类易被分割密度大的区域不同聚类易被合并第三章 数据挖掘算法of39273.3.2 惯用聚类算法27/403.3 聚类4基于网格聚类算法基于网格聚类算法是采取一个多分辨率网格数据结构,即将空间量

24、化为有限数目标单元,这些单元形成了网格结构,全部聚类操作都在网格上进行。STING(STatistical INformation Grid,统计信息网格)算法将空间区域划分为矩形单元针对不一样级别分辨率,通常存在多个级别矩形单元,这些单元形成了一个层次结构高层每个单元被划分为多个低一层单元WaveCluster(Clustering using wavelet transformation,采取小波变换聚类)是一个多分辨率聚类算法先经过在数据空间上加一个多维网格结构来汇总数据,然后采取一个小波变换来变换原特征空间,在变换后空间中找到密集区域第三章 数据挖掘算法of39283.3.2 惯用聚类

25、算法28/403.3 聚类5基于模型聚类算法基于模型聚类算法是为每一个聚类假定了一个模型,寻找数据对给定模型最正确拟合。统计学方法(EM和COBWEB算法)神经网络方法(SOM算法)概念聚类是机器学习中一个聚类方法,给出一组未标识数据对象,它产生一个分类模式。概念聚类除了确定相同对象分组外,还为每组对象发觉了特征描述,即每组对象代表了一个概念或类。概念聚类过程主要有两个步骤:首先,完成聚类;其次,进行特征描述。神经网络方法将每个簇描述成一个模型。模型作为聚类一个“原型”,不一定对应一个特定数据实例或对象。神经网络聚类两种方法:竞争学习方法与自组织特征图映射方法。神经网络聚类方法存在较优点理时间和复杂数据中复杂关系问题,还不适合处理大数据库。第三章 数据挖掘算法of39293.3.2 惯用聚类算法29/403.3 聚类图像分割是图像处理到图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论