刘鹏-《大数据、云计算与移动应用》(第5讲)_第1页
刘鹏-《大数据、云计算与移动应用》(第5讲)_第2页
刘鹏-《大数据、云计算与移动应用》(第5讲)_第3页
刘鹏-《大数据、云计算与移动应用》(第5讲)_第4页
刘鹏-《大数据、云计算与移动应用》(第5讲)_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据、云计算与移动应用刘鹏gloud@126.com@专注云计算中国云计算中国大数据

教授、博导、学科带头人,清华大学博士。现任中国云计算专家咨询委员会秘书长、中国信息协会大数据分会副会长、工业与信息化部云计算研究中心专家。主持完成科研项目25项,发表论文80余篇,出版专业书籍15本。获部级科技进步二等奖4项、三等奖4项。主编了国内第一本云计算教材《云计算》和第一本云计算编程书籍《实战Hadoop》。创办了知名的中国云计算()和中国大数据()网站。刘鹏微信关注“刘鹏看未来”,回复“课件01”“课件02”等,可以下载本系列的PPT。

曾率队夺得2002PennySort国际计算机排序比赛冠军,两次夺得全国高校科技比赛最高奖,并三次夺得清华大学科技比赛最高奖。荣获“全军十大学习成才标兵”(排名第一)、南京“十大杰出青年”、江苏省“333高层次人才培养工程”中青年科学技术带头人、清华大学“学术新秀”等称号。微信扫描二维码第5讲

数据挖掘技术概述BigData&CloudComputing3PPT内容引用自复旦大学沙朝锋《数据挖掘:技术及其应用》PPT由云创大数据美化什么是数据挖掘?KDD数据库中的知识发现(KnowledgeDiscoveryinDatabases)从数据中识别有效的、新奇的、有用的以及可理解的模式的过程.“We’redrowningininformation,butstarvingforknowledge.”-JohnNaisbett机器学习(Machinelearning)数据库(Databases)统计学(Statistics)信息检索(Informationretrieval)可视化(Visualization)高性能计算(High-performancecomputing)...相关领域数据挖掘:KDD过程的核心knowledge数据清洗选取数据挖掘模式评估数据库数据仓库任务相关数据数据集成数据清洗&集成过滤数据库或数据仓库服务器数据挖掘引擎模式评估图形用户接口框架:典型的数据挖掘系统数据库数据仓库知识库数据挖掘:数据源关系数据库数据仓库事务数据库高级数据库和信息库面向对象数据库空间和时态数据库时序数据流数据多媒体数据库异种数据库文本数据库&WWW数据挖掘任务I分类

(Classification)构造模型(函数)来描述和区分各种类别或概念用于未来的预测表示:决策树,分类规则,神经网络回归分析(Regression)确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。用满意度=0.645×质量+0.221×价格概率估计

(Probabilityestimation)数据挖掘任务II聚类(Clustering)类的标签未知:对数据分组来形成新的类

如:对房子聚类来发现分布模式把类内的相似性最大化&类间的相似性最小化奇异点检测关联发现(Associationdetection)尿布à

啤酒[0.5%,75%]总结(Summarization)趋势和偏差检测(Trendanddeviationdetection)...给定一个记录(样本)集合(训练集

)每条记录有一些属性组成,其中一个属性为类别.(x1,x2,…,xn,c)找到一个将类别属性表示为其他属性的函数的模型.(如c=f(x))目标:未见过的记录尽可能准确地被分类.一个测试集用来确定模型的精度.通常,给定的数据集被分成训练集和测试集,训练集用于建立模型,而测试集用于检验该模型.分类:定义分类任务演示TIDAttrib1Attrib2Attrib3class1YesLarge125KNo2NoMedium100KNo3NoSmall70KNo4YesMedium120KNo5NoLarge95KYes6NoMedium60KNo7YesLarge220KNo8NoSmall85KYes9NoMedium75KNo10NoSmall90KYesTIDAttrib1Attrib2Attrib3class11NoSmall55K?12YesMedium80K?13YesLarge110K?14NoSmall95K?15NoLarge67K?LearnModelApplyModelModelLearningalgorithmInductionDeduction预测肿瘤细胞是良性还是恶性将信用卡交易分为正常或是欺诈对蛋白质的二级结构进行分类手写体的识别:0,1,…,9Email过滤:识别垃圾邮件分类任务例子常用的方法决策树

(Decisiontrees)规则归纳

(Ruleinduction)贝叶斯学习(Bayesianlearning)神经网络(Neuralnetworks)支持向量机(SupportVectorMachine)Ensemble方法(AdaBoost,Bagging...)……决策树例子TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes训练数据categoricalcategoricalcontinuousclassRefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K划分属性MarStRefundTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K可能有多棵决策树拟合同一个数据集!另一个决策树例子TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes训练数据categoricalcategoricalcontinuousclass17RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K测试数据从树的根节点开始对测试数据应用模型RefundMaritalStatusTaxableIncomeCheatNoMarried80K?18RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K测试数据从树的根节点开始对测试数据应用模型RefundMaritalStatusTaxableIncomeCheatNoMarried80K?19RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K测试数据从树的根节点开始对测试数据应用模型RefundMaritalStatusTaxableIncomeCheatNoMarried80K?20RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K测试数据从树的根节点开始对测试数据应用模型RefundMaritalStatusTaxableIncomeCheatNoMarried80K?21RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K测试数据从树的根节点开始对测试数据应用模型RefundMaritalStatusTaxableIncomeCheatNoMarried80K?22RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K测试数据从树的根节点开始对测试数据应用模型RefundMaritalStatusTaxableIncomeCheatNoMarried80K?AssignCheatto“No”23支持向量机一个可能解B124支持向量机B2另一个可能解25支持向量机B2其他可能解26支持向量机哪一个更好?B1还是B2?如何定义“更好”?B2B127支持向量机找到最大化“边际”的超平面=>B1比B2好B2b22b21b11b12marginB128支持向量机B1b11b12应用例子独立的工具:发现数据分布作为其他算法的预处理步骤模式识别,空间数据分析,图像处理,市场研究,WWW,…文档聚类对web日志数据聚类来发现不同组的相同访问模式簇1聚类2奇异点什么是聚类?把数据聚类成多个簇同一个簇中的数据相似不同簇中数据不相似非监督学习:没有预先定义的类31多少个簇?4个簇2个簇6个簇聚类的概念是模糊的划分方法:K-Means012345678910012345

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论