版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据发掘算法引见数据发掘算法引见 综述综述改动未来世界的十大新兴技术改动未来世界的十大新兴技术n麻省理工学院麻省理工学院2019年年1月出刊月出刊n机器与人脑的接口机器与人脑的接口n塑胶晶体管塑胶晶体管n数据发掘数据发掘Data Miningn数字权益管理数字权益管理n生物测定学生物测定学Biometricsn言语识别处置言语识别处置n微光学技术微光学技术Microphotonicsn解开程序代码解开程序代码Untangling Coden机器人设计机器人设计n微运用流体学微运用流体学Microfluidics什么是数据发掘?什么是数据发掘?DataInformationKnowledgeWi
2、sdomn存在太多数据发掘的定义,但根本上有这样一种描画存在太多数据发掘的定义,但根本上有这样一种描画构造构造nTo find / discover / extract / dredge / harvest 、nInteresting / novel / useful / implicit / actable / meaningful 、nInformation / knowledge / patterns / trends / rules / anomalies 、nIn massive data / large data set / large database / data wareho
3、use 、Data + contextInformation + rulesKnowledge + experience为什么会出现数据发掘?为什么会出现数据发掘?n数据爆炸性增长是数据发掘技术应运而生的根本缘由。数据爆炸性增长是数据发掘技术应运而生的根本缘由。n只见树木,不见森林只见树木,不见森林Drowning in data but starving for informationn计算复杂度计算复杂度n数据管理问题数据管理问题n数据类型的多样性数据类型的多样性处置大容量数据是数据发掘技术区别于其他数据分析方法的独一标志吗?其他数据分析方法:统计学其他数据分析方法:统计学n从处置数据的角
4、度看、从处置数据的角度看、n数据规模不同数据规模不同n数据来源不同:观测数据数据来源不同:观测数据Secondary Analysis VS 实验数据实验数据Primary Analysisn数据类型不同构造化数据、半构造化数据、非构造化数据类型不同构造化数据、半构造化数据、非构造化数据数据n从分析思想的角度看从分析思想的角度看n更关注实证性分析更关注实证性分析Empirical Analysis而非探求性而非探求性分析分析Exploratory Analysisn更关注模型更关注模型Model而非算法而非算法Algorithmn但二者具有相当亲密的联络但二者具有相当亲密的联络n从数据分析的角
5、度,统计学如今是且仍将是数据发掘最从数据分析的角度,统计学如今是且仍将是数据发掘最重要的技术支撑和思想源泉重要的技术支撑和思想源泉n更加深化的浸透和交叉如探求性数据分析,更加深化的浸透和交叉如探求性数据分析,EDA数据发掘是数据驱动的探求性分析 !其他数据分析方法:商业智能其他数据分析方法:商业智能nE.F.Codd的数据分析模型的数据分析模型n绝对模型绝对模型Categorical Model:根据预定义途径:根据预定义途径寻觅缘由,如查询寻觅缘由,如查询n解释模型解释模型Exegetical Model:根据多层次途径寻:根据多层次途径寻觅缘由,如多维分析觅缘由,如多维分析n思索模型思索模
6、型Contemplative Model:参数化途径,:参数化途径,如场景分析如场景分析n公式模型公式模型Formulaic Model:模型化途径,如数:模型化途径,如数据发掘据发掘ReportingAd Hoc QueriesPredictive ModelingWhat happened ?Why did it happen ?What will happen ?ROI运用复杂性运用复杂性Stage 3Stage 2Stage 1Human DiscoveryMachine-assisted Discovery景象 模型 误差数据发掘寻觅的是模型 !数据发掘数据发掘KDDKDD:know
7、ledge discovery in database数据数据建模建模验证验证运用运用DMDM:datamingKDD的一个阶段KDD与DM等同DM is like setting up a restaurant kitchen.Starting a restaurantkitchenData MiningFood/InfoCooks/TeamKitchen/DWHData Mining数据发掘与其他学科的关系数据发掘与其他学科的关系Data MiningDatabase TechnologyStatisticsOtherDisciplinesInformationScienceMachine
8、Learning (AI)Visualization数据发掘与数据发掘与OLAPlOLAPon-line analytical processing:l只能限制于少量的维度和数据类型只能限制于少量的维度和数据类型l用户控制的流程用户控制的流程l假设假设验证验证结论结论lDM:l没有明确假设的前提下去发掘信息、发现知识没有明确假设的前提下去发掘信息、发现知识具具l 有未知、有效、可适用三个特征有未知、有效、可适用三个特征 l能自动的发现隐藏在数据中的规律能自动的发现隐藏在数据中的规律l可以发现比可以发现比OLAP更复杂而细致的信息更复杂而细致的信息l未知未知归纳归纳结论结论l联络:联络:lOLA
9、PDMlOLAM数据发掘与统计学数据发掘与统计学l数据发掘:数据发掘:l数据发掘利用了统计、人工智能、数据库等技数据发掘利用了统计、人工智能、数据库等技术,把这些高深复杂的技术封装起来,使人们术,把这些高深复杂的技术封装起来,使人们不用本人掌握这些技术也能完成同样的功能,不用本人掌握这些技术也能完成同样的功能,并且更专注于本人所要处理的问题并且更专注于本人所要处理的问题 ;l不仅仅是统计分析;不仅仅是统计分析;l统计分析:统计分析:l统计分析技术都基于完善的数学实际和高超的统计分析技术都基于完善的数学实际和高超的技巧,预测的准确度还是令人称心的,但对运技巧,预测的准确度还是令人称心的,但对运用
10、者的要求很高用者的要求很高 l联络联络l统计分析方法学的延伸和扩展统计分析方法学的延伸和扩展 l很多的发掘算法来源于统计学很多的发掘算法来源于统计学前景前景l预言:预言:l著名的咨询公司著名的咨询公司 Gartner Group在在2000年一次高级技年一次高级技术调查将数据发掘和人工智能列为术调查将数据发掘和人工智能列为“未来三到五年内将对工未来三到五年内将对工业产生深远影响的五大关键技术之首,并且还将并行处业产生深远影响的五大关键技术之首,并且还将并行处置体系和数据发掘列为未来五年内投资焦点的十大新兴技置体系和数据发掘列为未来五年内投资焦点的十大新兴技术前两位术前两位l国外现状:国外现状:
11、l成熟、成熟、l产品:产品:SAS、CLEMENTINE、UNICA、各大数据库、各大数据库l国内现状:国内现状:l起步起步l产品:大部分是实验室产品产品:大部分是实验室产品数据发掘分类数据发掘分类l发掘对象发掘对象l基于数据库的发掘基于数据库的发掘l基于基于web的发掘的发掘l基于文本的发掘基于文本的发掘l其他:音频、视频等多媒体数据库其他:音频、视频等多媒体数据库数据发掘分类数据发掘分类l运用运用l呼应模型呼应模型l交叉销售交叉销售l价值评价价值评价l客户分群客户分群数据发掘分类数据发掘分类l发掘方式发掘方式l预测型预测型(Predictive)(Predictive)l描画型描画型(De
12、scriptive)(Descriptive)l实践作用可分为以下几种方式:实践作用可分为以下几种方式:l分类:对没有分类的数据进展分类;分类:对没有分类的数据进展分类;l预测:用历史来预测未来;预测:用历史来预测未来;l关联分析:关联规那么;关联分析:关联规那么;l聚类:物以类聚;聚类:物以类聚;l序列方式:在多个数据序列中发现共同的行为序列方式:在多个数据序列中发现共同的行为方式方式; ;l描画和可视化:数据发掘的结果的表示方式描画和可视化:数据发掘的结果的表示方式; ;l偏向分析:从数据分析中发现异常情况。偏向分析:从数据分析中发现异常情况。数据发掘分类数据发掘分类l我的了解发掘的算法分
13、为三个层次:我的了解发掘的算法分为三个层次:l方式:比如分类、聚类方式:比如分类、聚类l模型:决策树、神经网络模型:决策树、神经网络l算法:算法:ID3、CHAID、BPl举例:举例:l分类决策树分类决策树ID3、CHAID等;等;l聚类聚类分析聚类聚类分析k-means、EM等。等。数据发掘分类数据发掘分类l发掘模型发掘模型l决策树决策树(decision tree)l关联规那么关联规那么(association rules)l聚类聚类(clustering)l神经网络神经网络(Artificial Neural Networks,简记作,简记作ANN)l粗糙集粗糙集(rough set)l
14、概念格概念格(concept lattice)l遗传算法遗传算法(genetic algorithms)l序列方式序列方式(sequence pattern)l贝叶斯贝叶斯(Bayes)l支持向量机支持向量机(support vector machine,简记作,简记作SVM)l模糊集模糊集(fuzzy set)l基于案例的推理基于案例的推理(case-based reasoning,简记作,简记作CBR)决策树决策树l决策树学习是以实例为根底的归纳学习算法决策树学习是以实例为根底的归纳学习算法, ,着着眼于从一组无次序眼于从一组无次序/ /无规那么的事例中推理出决无规那么的事例中推理出决策树
15、表示方式的分类规那么;策树表示方式的分类规那么;l决策树根本算法是决策树根本算法是: :贪婪算法贪婪算法, ,它以自顶向下递它以自顶向下递归、各个击破方式构造决策树归、各个击破方式构造决策树. .关联规那么关联规那么l关联规那么是方式如下的一种规那么,关联规那么是方式如下的一种规那么,“在购买在购买面包和黄油的顾客中,有面包和黄油的顾客中,有9090的人同时也买了的人同时也买了牛奶面包黄油牛奶面包黄油 牛奶;牛奶; l关联规那么的关联规那么的“三度:支持度、可信度、兴趣三度:支持度、可信度、兴趣度。度。聚类聚类l聚类是根据数据的不同特征聚类是根据数据的不同特征, ,将其划分为不同的将其划分为不
16、同的簇簇clustercluster, ,目的是使得属于同一个簇中的目的是使得属于同一个簇中的对象之间具有较高的类似度,而不同簇中的对对象之间具有较高的类似度,而不同簇中的对象差别相异度较大;象差别相异度较大;l聚类技术大致分为五种:聚类技术大致分为五种:l划分方法划分方法partitioning methodpartitioning methodl层次方法层次方法hierarchical methodhierarchical methodl基于密度的方法基于密度的方法density-based methoddensity-based methodl基于网格的方法基于网格的方法grid-bas
17、ed methodgrid-based methodl基于模型的方法基于模型的方法model-based methodmodel-based method神经网络神经网络l人工神经网络,是对人类大脑系统的中模拟;人工神经网络,是对人类大脑系统的中模拟;l神经网络是一组衔接的输入神经网络是一组衔接的输入/ /输出单元输出单元, ,其中每其中每个衔接都与一个权相关联个衔接都与一个权相关联, ,在学习阶段在学习阶段, ,经过调经过调整神经网络的权整神经网络的权, ,使得可以预测输入样本的正确使得可以预测输入样本的正确类标号来学习。类标号来学习。l鼓励函数的选择和权值的调整鼓励函数的选择和权值的调整粗
18、糙集粗糙集l粗糙集实际是一种研讨不准确、不确定性知识的数学工具;粗糙集实际是一种研讨不准确、不确定性知识的数学工具;l粗糙集对不准确概念的描画方法是:经过上近似概念和下粗糙集对不准确概念的描画方法是:经过上近似概念和下近似概念这两个准确概念来表示;一个概念或集合的近似概念这两个准确概念来表示;一个概念或集合的下近似指的是其中的元素一定属于该概念;一个概念或下近似指的是其中的元素一定属于该概念;一个概念或集合的上近似指的是其中的元素能够属于该概念。集合的上近似指的是其中的元素能够属于该概念。 l粗糙集方法那么有几个优点:不需求预先知道的额外信息,粗糙集方法那么有几个优点:不需求预先知道的额外信息
19、,如统计中要求的先验概率和模糊集中要求的隶属度;算法如统计中要求的先验概率和模糊集中要求的隶属度;算法简单,易于操作。简单,易于操作。 l粗糙集实际在知识发现研讨中有着许多详细运用,特别适粗糙集实际在知识发现研讨中有着许多详细运用,特别适宜于数据之间准确的或近似的依赖关系发现、评价某宜于数据之间准确的或近似的依赖关系发现、评价某一分类属性的重要性、数据类似或差别发现、数据方一分类属性的重要性、数据类似或差别发现、数据方式发现、从数据中产生普通决策规那么、削减冗余对象与式发现、从数据中产生普通决策规那么、削减冗余对象与属性、寻求属性的最小子集以确保产生称心的近似分类等属性、寻求属性的最小子集以确
20、保产生称心的近似分类等等等 粗糙集粗糙集l举例概念格概念格l概念格描画的是对象和属性之间的联络和一致,概念格描画的是对象和属性之间的联络和一致,阐明概念之间的泛化和例化关系,相应的阐明概念之间的泛化和例化关系,相应的HasseHasse图实现数据的可视化图实现数据的可视化 。遗传算法遗传算法l遗传算法遗传算法Genetic Algoritms,简称,简称GA是是以自然选择和遗传实际为根底,将生物进化过以自然选择和遗传实际为根底,将生物进化过程中程中“适者生存规那么与群体内部染色体的随适者生存规那么与群体内部染色体的随机信息交换机制相结合的搜索算法机信息交换机制相结合的搜索算法 ;l遗传算法主要
21、组成部分包括编码方案、顺应度遗传算法主要组成部分包括编码方案、顺应度计算、父代选择、交换算子和变异算子。计算、父代选择、交换算子和变异算子。序列方式序列方式l是指在多个数据序列中发现共同的行为方式。是指在多个数据序列中发现共同的行为方式。l经过时间序列搜索出反复发生概率较高的方式。经过时间序列搜索出反复发生概率较高的方式。这里强调时间序列的影响。这里强调时间序列的影响。l例如,在一切购买了激光打印机的人中,半年例如,在一切购买了激光打印机的人中,半年后后80%80%的人再购买新硒鼓,的人再购买新硒鼓,20%20%的人用旧硒鼓装的人用旧硒鼓装碳粉;碳粉;l在一切购买了彩色电视机的人中,有在一切购
22、买了彩色电视机的人中,有60%60%的人再的人再购买购买VCDVCD产品产品 ;l在时序方式中,需求找出在某个最短时间内出在时序方式中,需求找出在某个最短时间内出现比率不断高于某一最小百分比阈值的规现比率不断高于某一最小百分比阈值的规那么。那么。贝叶斯贝叶斯l贝叶斯分类是统计学的分类方法,其分析方法贝叶斯分类是统计学的分类方法,其分析方法的特点是运用概率来表示一切方式的不确定性,的特点是运用概率来表示一切方式的不确定性,学习或推理都用概率规那么来实现;学习或推理都用概率规那么来实现;l朴素贝叶斯分类:假定一个属性值对给定类的朴素贝叶斯分类:假定一个属性值对给定类的影响独立于其他属性的值;影响独
23、立于其他属性的值;l贝叶斯网络:是用来表示变量间衔接概率的图贝叶斯网络:是用来表示变量间衔接概率的图形方式形方式,它提供了一种自然的表示因果信息的方它提供了一种自然的表示因果信息的方法法,用来发现数据间的潜在关系。用来发现数据间的潜在关系。支持向量机支持向量机l支持向量机支持向量机Support Vector Machine, SVM建立在计算学习实际的构造风险最小化建立在计算学习实际的构造风险最小化(SRM)原那么之上。其中心问题是寻觅一种归纳原那原那么之上。其中心问题是寻觅一种归纳原那么,以实现最小化风险,从而实现最正确的推么,以实现最小化风险,从而实现最正确的推行才干。而且行才干。而且SVM一个重要的优点是可以处置一个重要的优点是可以处置线性不可分的情况线性不可分的情况 。l以往的机器学习实际的中心是阅历风险最小化以往的机器学习实际的中心是阅历风险最小化原那么原那么ERM模糊集模糊集l模糊集:不同于经典集合,没有准确边境的集模糊集:不同于经典集合,没有准确边境的集合;合;l定义:设定义:设X是对象是对象x的集合,的集合,x是是X的任一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 职业学院船舶动力工程技术(船舶管系专业)人才培养方案
- 唇色调和剂产业运行及前景预测报告
- 升降作业平台市场发展预测和趋势分析
- 扫雪机产业规划专项研究报告
- 婴儿摇铃产品供应链分析
- 冲浪皮划艇产业规划专项研究报告
- 医用诊断试剂产业深度调研及未来发展现状趋势
- 抗疲劳地垫市场发展预测和趋势分析
- 内存扩展模块产业规划专项研究报告
- 催乳剂产业规划专项研究报告
- 常见皮肤病讲稿
- 高中化学选修4《化学反应原理》全册教案
- 创建学习型医院实施方案
- 大学《通用英语1》 期中测试卷试题
- 新人教选择性必修一 Unit 4:Discover Useful Structures
- 公共政策导论完整版课件全套ppt教学教程(最新)
- 《乡土中国》整本书阅读 高中语文 必修上册
- Arduino编程控制技术考试复习题库500题(含答案)
- 2022年反洗钱考试题库及答案
- 2021年电力设备预防性试验规程
- 创意大自然动物世界保护野生动物动物介绍PPT模板
评论
0/150
提交评论