Lecture1_Intro数据挖掘_第1页
Lecture1_Intro数据挖掘_第2页
Lecture1_Intro数据挖掘_第3页
Lecture1_Intro数据挖掘_第4页
Lecture1_Intro数据挖掘_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘数据挖掘( (Data Mining)主讲教师:邵俊明Email: TelData Mining Lab, Big Data Research CenterSchool of Computer Science and Engineering, UESTC Http:/ 217711495助教:张众、李培炎参考资料参考资料教科书 数据挖掘:概念与技术,Jiawei Han, Micheline Kamber和 Jian Pei 著,机械工业出版社(2012)参考书 1)数据挖掘实用机器学习技术(weka) 2)统计学习方法(李航) 3)集体智慧编程公开课 (Co

2、uresa) 1)机器学习基石(台湾大学) 2)机器学习(Andrew Ng) 3)海量数据挖掘(斯坦福大学)课堂教学:32学时上机实验:16学时总成绩 = 期中考试(15) 平时作业+上机实习(20%) 期末考试(65%)课程安排及考核方式课程安排及考核方式内容纲要内容纲要章节章节内容内容第一章第一章 概论概论 第二章第二章 认识数据与数据预处理认识数据与数据预处理第三章第三章 数据仓库和数据仓库和OLAP 技术技术第四章第四章关联规则关联规则第五章第五章 分类和预测分类和预测第六章第六章 聚类分析与离群点检测聚类分析与离群点检测第一章第一章 概论概论1.1 为什么要数据挖掘?数据大爆炸fM

3、RI/ DTIStock DataBIG BIG DATADATAMedia/Entertainmet Wall Mart: 2.5 PB/hourIndustryHealthcareDNA*Note: some pictures derived from internetE-commerceGene SequenceMessenger WatchSensorManufacture 9FEATURESThe FOUR Vs of BIG DATA10知识发现知识发现 我们浸没在数据的海洋,却渴望知识的淡水!我们浸没在数据的海洋,却渴望知识的淡水! 解决方法解决方法:数据挖掘(DATA MINI

4、NG)数据矿山数据矿山数据挖据数据挖据有用信息有用信息数据挖掘到底能带给我们什么?Example流感预测 2009年,H1N1病毒流行的时候,几位Google 工程师在著名的自然科学期刊中发表了一篇论文。他们透过美国最常使用的前5000万个搜寻关键字,再与疾管局2003-2008年间的流感传播资料加以比对,用高达4.5亿种不同的数学模型,找出这些字出现的频率、时间及地点,有没有统计上的相关性(correlation)。最后被他们挖到宝了,这套软件找出了45个流感关键字眼,放进数学模型之后,预测结果与官方公布的真实资料吻合,并且和疾控中心一样,他们也能判断出流感是从哪里传播出来的,而且判断非常及

5、时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。使直邮的回应率提高了100。Example电信GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。通过数据挖掘的方法使库存成本比原来减少了3.8%。零售商店零售商店美国国内税务局需要提高对纳税人的服务水平。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务。税务局税务局汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。营销费用减少了30。银行银行数据改变我们的思维和工作方式数据改变我们的思维和工作方式什么比让数据说话更令人信服呢?什么

6、比让数据说话更令人信服呢?设计1设计2Does underlining increase or decrease clickthrough-rate?OEC: Clickthrough-Rate on 1st search engine results page (SERP) per queryABAB想想数据挖掘能为你带来什么呢?- 信息推荐:书籍信息推荐:书籍/衣服衣服/?- 找到一个合适的工作?找到一个合适的工作?-男男/女朋友女朋友 : )1.2 什么是数据挖掘?什么是数据挖掘?什么是数据挖掘? 数据挖掘定义 从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模

7、式或知识 。 注意:并非所有数据分析都是“数据挖掘” 查询处理 专家系统或是小型的数学计算/统计程序Data mining consists of applying data analysis and discovery algorithms that, under acceptable computational efficiency limitations, produce a particular enumeration of patterns over the data Fayyad et al.,1996. 知识发现过程知识发现过程数据挖掘数据挖掘知识发现的核心知识发现的核心数据清理

8、数据清理数据集成数据集成数据库数据库数据仓库数据仓库任务相关数据任务相关数据选择选择数据挖掘数据挖掘模式评估模式评估可视化可视化数据清理数据清理:消除噪声和删除不一致数据数据集成数据集成:多种数据源可以组合在一起数据选择数据选择:从数据库中提取与分析任务相关的数据数据变换数据变换:把数据变换和统一成适合挖掘的形式数据挖掘:核心步骤,使用智能方法提取数据模式数据挖掘:核心步骤,使用智能方法提取数据模式模式评估模式评估:根据兴趣度度量,识别代表知识的真正有趣的模式知识表示知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识知识发现过程知识发现过程可以挖掘什么类型的数据可以挖掘什么类型的数据?

9、关系数据库 数据仓库 事务数据库 高级数据库系统和信息库 空间数据库 时间数据库和时间序列数据库 流数据流数据 (数据流,(数据流,Data Streams) 多媒体数据库 面向对象数据库和对象-关系数据库 异种数据库和遗产(legacy)数据库 文本数据库和万维网(WWW)流数据流数据 与传统的数据库技术中的静态数据不同,流数据是快速快速的,可能无限量的,动态演化的数据输入的数据的,可能无限量的,动态演化的数据输入的数据。 主要应用场合 网络监控 网页点击流 股票市场 流媒体 与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。 与传统挖掘算法相比,流数据对算法在

10、时间,空间,以及处理方式上提出更高的要求。DATA DATA STREAMSTREAMInternet IndustrySurveillance*Note: some pictures derived from internetSensor29Network IntrusionSmart PhoneSpam FilteringMobile1.3 数据挖掘主要任务数据挖掘的主要任务数据挖掘的主要任务(1)关联分析 (关联规则挖掘/亚组发现)发现数据之间的关联规则,这些规则展示属性/值频繁的在给定的数据中所一起出现的条件。广泛的用于购物篮数据分析。例如: 每当季节性风暴来临之前,美国沃尔玛的飓风用

11、品和蛋挞的销量都会增高。所以,公司把两者放在靠近的位置,以便促进销量。顾客购买顾客购买尿布尿布顾客购顾客购买二者买二者顾客购买顾客购买啤酒啤酒(2)分类/预测 找出描述和区分数据类找出描述和区分数据类/概念的模型,用以使模概念的模型,用以使模型能预测未知的对象类标签型能预测未知的对象类标签。(如决策树、人工神经网路)数据挖掘的主要任务数据挖掘的主要任务决策树人工神经网络(3)聚类分析 将类似的数据归类到一起,形成一个新的类别进行分析。 最大化类内的相似性和最小化类间的相似性数据挖掘的主要任务数据挖掘的主要任务(4)孤立点(离群点)分析 孤立点:一些与数据的一般行为或模型不一致的孤立数据 通常孤

12、立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。数据挖掘的主要任务数据挖掘的主要任务Top-10 Algorithms (ICDM06) #1: C4.5 (61 votes) #2: K-Means (60 votes) #3: SVM (58 votes) #4: Apriori (52 votes) #5: EM (48 votes) #6: PageRank (46 votes) #7: AdaBoost (45 votes) #7: kNN (45 votes) #7: Naive Bayes (45 votes) #10: CART (3

13、4 votes)所有模式都是有趣的吗? 数据挖掘可能产生数以千计的模式或规则,但我们需要的才是最好的。所以我们必须有对产生模型的评价指标。 模式兴趣度的客观和主观度量 客观度量客观度量: 基于所发现模式的结构和关于它们的统计, 比如: 支持度、置信度,准确率等等 主观度量主观度量: 基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等1.4 数据挖掘-多学科领域融合数据挖掘数据挖掘:多个学科的融合多个学科的融合数据挖掘数据库系统统计学其他学科信息检索机器学习物理学数据挖掘和商业智能数据挖掘和商业智能支持商业决策的支持商业决策的潜能不断增长潜能不断增长最终用户最终用户商业分析家商业分析家

14、 数据分析家数据分析家数据库数据库管理员管理员 决策支持决策支持数据表示数据表示可视化技术可视化技术数据挖掘数据挖掘信息发现信息发现数据探索数据探索在线分析处理(在线分析处理(OLAP)统计分析,查询和报告统计分析,查询和报告数据仓库数据仓库/数据市场数据市场数据源数据源论文论文, 文件文件, 信息提供商信息提供商, 数据库系统数据库系统, 联机事务处理系统联机事务处理系统(OLTP)典型数据挖掘系统典型数据挖掘系统数据仓库数据仓库数据清洗数据清洗过滤过滤数据库数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成数据集成数据挖掘系统的分类数据挖掘系统的分类 从功能分析从功

15、能分析 描述性的数据挖掘 预测性的数据挖掘 不同的视角不同的视角, 不同的分类不同的分类 根据所挖掘的数据库类型分类 根据挖掘的知识类型分类 根据挖掘所用的技术分类 根据数据挖掘的应用分类数据挖掘的面临的挑战 大数据问题: Scalability 高维问题: Curse of Dimensionality 数据类型问题: Mixed-type data 参数问题:Sensitivity of parameters 数据演化性:Concept drift/ Evolving 数据隐私/安全性: Privacy/Security数据挖掘的面临的挑战 大数据问题: Scalability 高维问题:

16、 Curse of Dimensionality 数据类型问题: Mixed-type data 参数问题:Sensitivity of parameters 数据演化性:Concept drift/ Evolving 数据隐私/安全性: Privacy/Security1.5 数据挖掘常用工具及常识WEKAhttp:/www.cs.waikato.ac.nz/ml/weka/RapidMinerhttps:/ IBM公司的 Intelligent Miner 数据挖掘算法种类多 挖掘算法可伸缩性好 工具箱有:神经网络算法,统计方法数据预处理和数据的可视化工具 与DB2关系数据库系统紧耦合 S

17、AS公司的 Enterprise Miner 多种统计分析工具 数据仓库工具和多重数据挖掘算法 Mirosoft公司的 SQLServer 2000 集成数据库和在线分析 支持OLE数据数据挖掘系统实例 SGI公司的 MineSet 多重数据挖掘算法和高级统计 高级可视化工具 SPSS 公司的Clementine 为终端用户和开发者提供集成的数据挖掘开发环境 多种数据挖掘算法可视化工具 DBMiner Technology公司的DBMiner 多种数据挖掘模型:发现驱动的OLAP分析,关联,分类、聚类 有效的关联和序列模式挖掘功能和可视化分类工具 适用于关系数据库和数据仓库相关资料Data M

18、ining Groups:Prof. Han UIUC (/hanj/)Prof. Leskovec (/)Prof. Faloutsos (/christos/)Prof. Karypis (/gkhome/)LMU DBS (http:/www.dbs.ifi.lmu.de/cms/Research)Prof. Pei (http:/www.cs.sfu.ca/jpei/)Big data in Biomedicine: /Data sets:SNAP Stanford (/data/)UCI (/ml/)Softwares and Codes:WEKA : http:/www.cs.waikato.ac.nz/ml/weka/ELKI: http:/elki.dbs.ifi.lmu.de/Scikit: /stable/index.htmlLibSVM: http:/www.csie.ntu.ed

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论