




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘概论参考书1.数据挖掘导论,Pang-NingTan,MichaelSteinbach等著,人民邮电出版社.20212.数据挖掘:概念与技术(原书第2版),韩加炜等著,机械工业出版社.20073.数据挖掘原理与应用(第2版)--SQLServer2021数据库,(美)JamieMacLennan,ZhaoHuiTang等著,清华大学出版社.20211.1数据挖掘开展简述1.2对何种数据进行数据挖掘1.3数据挖掘的功能1.4数据挖掘结果的评估1.5数据挖掘系统分类1.6数据挖掘的研究重点1.1.1数据挖掘的开展动力
---需要是创造之母数据爆炸问题自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库或其他信息库中以待分析。数据丰富,而知识匮乏解决方法:数据仓库技术和数据挖掘技术〔1〕数据仓库(DataWarehouse)和在线分析处理(OLAP)〔2〕数据挖掘:在大量的数据中挖掘感兴趣的知识〔规那么,规律,模式,约束〕1.1.3KDD阶梯处理过程模型数据挖掘——知识挖掘的核心数据清洗与集成数据库数据仓库Knowledge任务相关数据选择与转换数据挖掘模式评估与表示KDD的主要步骤从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识数据清理:去除数据噪声和与挖掘主题明显无关的数据数据集成:将来自多数据源中的相关数据组合在一起数据选择:从DB中提取与分析任务相关的数据数据变换:将数据转换为易于进行挖掘的存储形式数据挖掘:选择适当的算法来找到感兴趣的模式或规律知识模式评估:根据一定的评估标准从挖掘结果筛选出有意义的模式知识表示:利用可视化和知识表达技术,向用户展示所挖掘出的相关知识典型数据挖掘系统的体系结构其它信息库数据库或数据仓库效劳器数据挖掘引擎模式评估图形用户界面知识库数据清理、集成和选择万维网数据仓库数据库一个典型的数据挖掘系统主要包含以下部件:数据库、数据仓库或其它信息库数据库或数据仓库效劳器:根据用户的相关请求读取相关数据;知识库:存放数据挖掘所需的领域知识,用于指导数据挖掘的搜索过程或用于帮助对挖掘结果的评估;数据挖掘引擎:完成特征化、关联和相关分析、分类、预测、聚类分析、离群点分析等任务模式评估模块:根据兴趣度度量,协助数据挖掘模块聚集挖掘更有意义的模式知识;可视化用户界面:帮助用户与数据挖掘系统本身进行沟通交流。并非所有的东西都是数据挖掘基于数据仓库的OLAP系统
OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。机器学习系统,数据统计分析系统这些系统所处理的数据容量往往很有限。信息系统专注于数据的查询处理。相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合1.2在何种数据上进行数据挖掘关系数据库数据仓库事务数据库高级数据库系统和信息库空间数据库时间数据库和时间序列数据库流数据多媒体数据库面向对象数据库和对象-关系数据库异种数据库和历史(legacy)数据库文本数据库和万维网(WWW)空间数据库空间数据库是指在关系型数据库〔DBMS〕内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。常见的空间数据库数据类型地理信息系统(GIS)遥感图像数据医学图像数据数据挖掘技术的应用:通过空间分类和空间趋势分析,引入机器学习算法,对有用模式进行智能检索时间数据库和时序数据库时间数据库和时序数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的数据。时序数据库存放随时间变化的值序列。对时间数据库和时序数据库的数据挖掘,可以通过研究事物发生开展的过程,有助于揭示事物开展的本质规律,可以发现数据对象的演变特征或对象变化趋势。流数据与传统的数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。主要应用场合网络监控网页点击流股票市场流媒体…等等与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。多媒体数据库多媒体数据库实现用计算机管理庞大复杂的多媒体数据,主要包括包括图形、图象、声音、视频等等,现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。面向对象数据库和对象-关系数据库面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个根底上实现了传统数据库的功能,包括持久性、并发控制、可恢复性、一致性和查询数据库的能力等。对象-关系数据库基于对象-关系模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。面向对象数据库和对象-关系数据库中的数据挖掘会涉及一些新的技术,比方处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。异构数据库和历史(legacy)数据库历史数据库是一系列的异构数据库系统的集合,包括不同种类的数据库系统,像关系数据库、网络数据库、文件系统等等。有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。对于异构数据库系统,实现数据共享应当到达两点:一是实现数据库转换;二是实现数据的透明访问。WEBSERVICE技术的出现有利于历史数据库数据的重新利用。文本数据库和万维网(WWW)文本数据库存储的是对对象的文字性描述。文本数据库的分类无结构类型〔大局部的文本资料和网页〕半结构类型〔XML数据〕结构类型〔图书馆的目录数据库〕万维网(WWW)可以被看成最大的文本数据库数据挖掘内容内容检索WEB访问模式检索1.3数据挖掘任务通常,数据挖掘任务分为下面两大类:预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一般称目标变量或因变量,而用来预测的属性称呼明变量或自变量。描述任务。目标是导出概括数据中潜在联系的模式〔相关、趋势、聚类、轨迹和异常〕。我们将论述以下四种主要数据挖掘任务:预测建模〔predictivemodeling〕涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类:用于预测离散的目标变量。例:预测某一个web用户是否会在网上购书是分类任务,因为该目标变量是二值的。回归:用于预测连续的目标变量。例:预测某股票的未来价格是回归任务。两项任务目标都是训练一个模型,使目标变量预测值与实际值之间的误差到达最小。例:预测花的类型考虑如下任务:根据是否属于Setosa、Versicolour、Virginica这三类之一对鸢尾花〔Iris〕进行分类。给出150种花的花瓣宽度与花瓣长度的比照图。花瓣宽度分成low、medium、high三类,分别对应于区间[0,0.75)、[0.75,1.75〕、[1.75,∞〕。花瓣的长度分成low、medium、high三类,分别对应于区间[0,2.5)、[2.5,5)、[5,∞〕。例:预测花的类型花瓣长度〔cm〕花瓣宽度(cm)花瓣宽度和花瓣长度为low蕴涵Setosa;花瓣宽度和花瓣长度为medium蕴涵Versicolour;花瓣宽度和花瓣长度为high蕴涵Virginica.尽管这些规那么不能对所有的花进行分类,但是它们对大多数花都能很好地进行分类。注意:根据花瓣宽度和花瓣长度,Setosa种类的花完全可以与Versicolour和Virginica种类的花分开;但是后两类花在这些属性上有一些重叠。关联分析〔associationanalysis〕用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规那么或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有趣的模式。关联分析的应用包括找出具有相关功能的基因组、识别一起访问的Web页面、市场营销、理解地球气候系统不用元素之间的联系等。例:购物篮分析以下给出的事务是一家超市的销售数据。事务ID商品12345678910{面包,黄油,尿布,啤酒}{咖啡,糖,小甜饼,鲑鱼}{面包,黄油,咖啡,尿布,啤酒,鸡蛋}{面包,黄油,鲑鱼,鸡}{鸡蛋,面包,黄油}{鲑鱼,尿布,啤酒}{面包,茶,糖,鸡蛋}{咖啡,糖,鸡,鸡蛋}{面包,尿布,啤酒,盐}{茶,鸡蛋,小甜饼,尿布,啤酒}关联分析可以用来发现大量顾客频繁地同时购置的商品。例如,我们可能发现规那么{尿布}->{啤酒}。该规那么暗示购置尿布的顾客多半会购置啤酒。这种类型的规那么可以用来发现相关商品中可能的交叉销售的时机。聚类分析〔clusteranalysis〕聚类分析旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关顾客分组、找出显著影响地球气候的海洋区域以及压缩数据等。例:文档聚类以下给出的新闻文章可以根据它们各自的主题分组。文章词12345678Dollar:1,industry:4,country:2,loan:3,deal:2,government:2Machinery:2,labor:3,market:4,industry:2,work:3,country:1Job:5,inflation:3,rise:2,jobless:2,market:3,country:2,index:3Domestic:3,forecast:2,gain:1,market:2,sale:3,price2Patient:4,symptom:2,drug:3,health:2,clinic:2,doctor:2Pharmaceutical:2,company:3,drug:2,vaccine:1,flu:3Death:2,cancer:4,drug:3,public:4,health:3,director:2Medical:2,cost:3,increase:2,patient:2,health:3,care:1每篇文章表示为词-频率对(w,c)的集合,其中w是词,而c是该词在文章中出现的次数。在该数据集中,有两个自然簇。第一个簇由前四篇文章组成,对应于经济新闻,而第二个簇包含后面四篇文章,对应于卫生保健新闻。一个好的聚类算法应当能够根据文章中出现的词的相似性,识别这两个簇。异常检测〔anomalydetection〕异常检测的目标是发现与大局部其他对象不同的对象。通常,异常对象被称作离群点〔outlier〕,因为在数据的散布图中,它们远离其他数据点。异常检测也称偏差检测,因为异常对象的属性值显著地偏离期望的或常见的属性值。异常检测也称为例外挖掘,因为异常对象在某种意义上是例外的。异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式、生态系统扰动等。1.4数据挖掘结果的评估一个数据挖掘系统在完成一个〔组〕挖掘算法之后,常常会获得成千上万的模式或规那么,其中只会有一小局部是有实际应用价值的。如何对挖掘结果进行有效地评估以便最终能够获得有价值的模式〔或规那么〕知识?这就给数据挖掘提出了许多需要解决的问题:问题1:使一个模式有价值的因素是什么?问题2:一个数据挖掘算法能否产生所有有价值的模式?问题3:一个数据挖掘算法能否只产生有价值的模式?问题1:兴趣测度〔InterestingnessMeasures〕评估一个模式兴趣度的标准它易于被人理解;对于新数据或测试数据能够确定有效程度;具有潜在价值;新颖的模式兴趣度的客观和主观度量客观度量:基于所发现模式的结构和关于它们的统计,比方:支持度、置信度等等。主观度量:基于用户对数据的判断。比方:出乎意料的、新颖的、可行的等等。问题2:数据挖掘算法的完全性期望数据挖掘算法能够产生所有有价值的模式〔知识〕是不现实的。实际上一个搜索方法可以利用兴趣测度来帮助缩小模式的探索范围。因此通常只需要保证挖掘算法的完全性就可以了。关联规那么的挖掘算法就是这样的一个例子。问题3:数据挖掘算法的优化问题问题3涉及数据挖掘算法的最优化问题。一般当然希望数据挖掘算法仅挖掘有价值的模式〔知识〕,但这题一个较为棘手的最优化高效搜索问题,至今尚没有好的解决方法。例:支持度-置信度客观度量的局限性假定希望分析爱喝咖啡的爱喝茶的人之间的关系。收集一组人关于饮料偏爱的信息,并汇总在下表中:可以使用表中给出的信息来评估关联规那么{茶}->{咖啡}。猛一看,似乎喜欢喝茶的人也喜欢喝咖啡,因为该规那么的支持度〔15%〕和置信度〔75%〕都相当的高。这个推论也许是可以接受的,但是所有的人中,不管他是否喝茶,喝咖啡的人的比例80%,而喝咖啡的饮茶都却只占75%。这意味着,一个人如果喝茶,那么他喝咖啡的可能性由80%减至75%。因此,尽管规那么{茶}->{咖啡}有很高的置信度,但是它却是一个误导。1.5数据挖掘系统的分类
数据挖掘技术的多样性,导致数据挖掘系统的多样性。根据所挖掘的对象进行分类:
关系型数据库挖掘;面向对象数据库挖掘;空间数据库挖掘;时态数据库挖掘;文本数据库挖掘;多媒体数据库挖掘;异质数据库挖掘;web数据挖掘等根据所挖掘的知识类型分类:挖掘关联型知识;挖掘预测型知识;挖掘偏离型知识;挖掘广义型知识;挖掘差异型知识;挖掘不确定性知识等根据所用的技术类型分类:机器学习方法;统计方法;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三农产品品牌培育方案手册
- 医疗卫生行业医疗信息化与智能诊断方案
- 医疗设备行业质量控制与监管体系方案
- 高效率日常行政事务文书指南
- 物联网行业智能家居设备互联互通方案
- 能源储存技术手册
- 餐饮企业运营管理与服务指南
- 辽宁2025年辽宁石化职业技术学院赴高校现场招聘3人笔试历年参考题库附带答案详解
- 自贡2025年第一批四川自贡市消防救援支队招录聘用制消防员25人笔试历年参考题库附带答案详解
- 绍兴浙江绍兴市急救中心招聘编外工作人员笔试历年参考题库附带答案详解
- CB/T 3155-1994带缆辅助索
- 鸟类教学讲解课件
- 斐波那契数列与黄金分割 课件
- 乙类互补推挽功率放大电路课件
- 2-管道仪表流程图PID
- 高中班会课:趣味知识竞赛课件
- 特种设备吨叉车设计计算书
- (精选word)洪恩识字-生字卡片1-200
- XX市三级公立综合医院绩效考核指标评分细则
- 监理平行检查记录表(最新全套)电子版本
- 押金收据条(通用版)
评论
0/150
提交评论