版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘与商务智能范勤勤物流研究中心目录第一章联系方式办公地点:科研楼429BEmail:forever123fan@163.com考核方式闭卷考试(70%)+考勤(30%)课时安排总学时36,起止1-9周目录第一章内容安排第一章绪论第二章挖掘频繁模式、关联和相关性第三章分类:基本概念第四章分类:高级方法第五章聚类分析:基本概念和方法第六章离群点检测第七章认识数据第八章数据预处理目录第一章参考书JiaweiHan,MichelineKamber,JianPei(著).范明,孟小峰.(译)
数据挖掘:概念与技术,机械工业出版社,2012.MargaretH.Dunham.数据挖掘教程.清华大学出版社.2003(英文)U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy.AdvancesinKnowledgeDiscoveryandDataMining.AAAI/MITPress,1996.史忠植.知识发现.清华大学出版社,2002.陈文伟,黄金才.数据仓库与数据挖掘.人民邮电出版社,20041234567第一章绪论为什么进行数据挖掘?什么是数据挖掘?可以挖掘什么类型的数据?可以挖掘什么类型的模式?使用什么技术?面向什么类型的应用?数据挖掘的主要问题?目录第一章为什么进行数据挖掘?数据挖掘的发展动力数据爆炸问题自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析Business:Web,e-commerce,transactions,stocks,…Science:Remotesensing,bioinformatics,scientificsimulation,…Societyandeveryone:News,YouKu,wechat,QQ,….7数据挖掘的发展动力8巨量数据的例子Europe‘sVeryLongBaselineInterferometry(VLBI,特长基线干涉仪):16个天文望远镜,每个望远镜每秒产生1个G的天文观测数据。电信公司数据:每天有几十亿的电话。银行数据:交易记录。百度:每天处理的数据量将近100个PB,1PB=100万个G,相当于5000个国家图书馆的信息量总和。航运:一艘营运中的船舶,24小时内通常会生成高达2GB的数据信息,这包括天气、发动机、航行位置、速度、燃油消耗等。数据挖掘的发展动力-社会需求9我们拥有丰富的数据,但却缺乏知识人们渴望通过对这些庞大的数据分析得到更多的有助于决策的信息。虽然,目前的数据库系统可以高效率地实现数据的录入、查询、统计等功能,但由于数据量庞大以及数据库系统中分析方法的严重缺乏,使得它无法发现数据中隐藏的相互联系,更无法根据当前的数据去预测未来的发展趋势。因此,出现了所谓“数据多,知识少”的现象,造成了严重的资源浪费。数据挖掘的发展动力数据挖掘从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合解决方法数据仓库技术和数据挖掘技术数据仓库(DataWarehouse)和在线分析处理(OLAP)10社会信息化后,社会的运转是软件的运转社会信息化后,社会的历史是数据的历史
数据管理系统
数据收集和数据库创建数据库技术的演化文件系统1960s和以前层次数据库和网状数据库1970s关系数据模型,关系数据库管理系统(RDBMS)的实现1980s早期各种高级数据库系统(扩展的关系数据库、面向对象数据库等等)面向应用的数据库系统(空间数据库、时序数据库、多媒体数据库等等)1980s晚期数据挖掘、数据仓库、多媒体数据库和网络数据库1990s流数据管理和挖掘基于各种应用的数据挖掘XML数据库和整合的信息系统2000s11什么是数据挖掘?概述数据挖掘(从数据中发现知识)从大量的数据中挖掘哪些令人感兴趣的(易被理解、新颖的、潜在有用的、非平凡的)模式或知识挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型数据挖掘的替换词数据库中的知识挖掘(KDD)知识提炼数据/模式分析数据考古数据捕捞、信息收获等等13数据挖掘:数据库中的知识挖掘(KDD)数据挖掘——知识挖掘的核心数据清理数据集成数据库数据仓库Knowledge任务相关数据选择数据挖掘模式评估14KDD的步骤KDD过程数据清理:(消除噪声和删除不一致的数据。占全过程60%的工作量)数据集成(多种数据源可以组合在一起)数据选择(从数据库中提取与分析任务相关的数据)数据变换(数据变换或统一成适合挖掘的形式)数据挖掘(核心步骤,使用智能方法提取数据模式)模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)15典型数据挖掘系统的体系结构数据仓库数据清洗过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成16数据挖掘系统的特征17数据的特征算法的特征知识系统的特征数据挖掘系统的特征——数据特征18大容量POS数据(某个超市每天要处理高达2000万笔交易)卫星图像(NASA的地球观测卫星以每小时50GB的速度发回数据)互联网数据含噪音(不完全、不正确)异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子)数据挖掘系统的特征——算法特征19构成数据挖掘算法的三要素模式记述语言:反映了算法可以发现什么样的知识模式评价:反映了什么样的模式可以称为知识模式探索:包括针对某一特定模式对参数空间的探索和对模式空间的探索主要方法分类聚类相关规则回归其他数据挖掘系统的特征——知识系统特征20知识发现系统需要一个前处理过程知识发现系统是一个自动/半自动过程知识发现系统只能发现特定模式的知识规则分类关联并非所有的东西都是数据挖掘基于数据仓库的OLAP系统OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理信息系统专注于数据的查询处理机器学习系统,数据统计分析系统这些系统所处理的数据容量往往很有限相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合21可以挖掘什么类型的数据?数据类型数据库数据事务数据数据仓库其他类型的数据空间数据库时间数据库和时间序列数据库流数据多媒体数据库面向对象数据库和对象-关系数据库异种数据库和历史(legacy)数据库文本数据库和万维网(WWW)23数据库数据数据库数据24数据库系统:由一组内部相关的数据和一组管理和存取数据的软件程序组成关系数据库是表的汇集,每个表都被赋予一个唯一的名字。例子:商店、学校当数据挖掘用于关系数据库时,可以进一步搜索趋势或数据模式。分析顾客数据:新顾客的信用风险检测偏差:哪些商品的销售出人预料数据仓库数据仓库25数据仓库(数据立方体):是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。例子:沃尔玛,银行事务数据事务数据26事务数据库的每个记录代表一个事务:如顾客的一个购物,一个航班订票事务标识号(trans_ID)商品ID的列表T0011,5,8,9,12T0021,8,14……数据挖掘技术的应用通过频繁项集来挖掘促销策略:如一起销售商品的集合空间数据库空间数据库空间数据库是指在关系型数据库(DBMS)内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化数据挖掘技术的应用通过空间分类和空间趋势分析,引入机器学习算法,对有用模式进行智能检索常见的空间数据库数据类型地理信息系统(GIS)遥感图像数据医学图像数据27时间数据库和时序数据库时间数据库和时序数据库时间数据库和时序数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的数据。时序数据库存放随时间变化的值序列例子:股票市场的价格、环境温度、银行交易等对时间数据库和时序数据库的数据挖掘对时间数据库和时序数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势28流数据特点与传统的数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别主要应用场合网络监控传感器网络航空航天流媒体…等等29多媒体数据库多媒体数据库多媒体数据库实现用计算机管理庞大复杂的多媒体数据,主要包括图形(graphics)、图象(image)、声音(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储对于多媒体数据库的数据挖掘对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配30面向对象数据库和对象-关系数据库面向对象数据库面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现了传统数据库的功能,包括持久性、并发控制、可恢复性、一致性和查询数据库的能力等数据挖掘面向对象数据库和对象-关系数据库中的数据挖掘会涉及一些新的技术,比如处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。对象-关系数据库对象-关系数据库基于对象-关系模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型31异构数据库和历史(legacy)数据库历史数据库是一系列的异构数据库系统的集合,包括不同种类的数据库系统,像关系数据库、网络数据库、文件系统等等对于异构数据库系统,实现数据共享应当达到两点一是实现数据库转换;二是实现数据的透明访问。有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享WEBSERVICE技术的出现有利于历史数据库数据的重新利用32文本数据库和万维网(WWW)文本数据库存储的是对对象的文字性描述万维网(WWW)可以被看成最大的文本数据库文本数据库的分类无结构类型(大部分的文本资料和网页)半结构类型(XML数据)结构类型(图书馆数据)数据挖掘内容内容检索WEB访问模式检索33数据挖掘应用——市场分析和管理数据从那里来?信用卡交易、会员卡、商家的优惠卷、消费者投诉电话、公众生活方式研究交叉市场分析货物销售之间的相互联系和相关性,以及基于这种联系上的预测目标市场构建一系列的“客户群模型”,这些顾客具有相同特征:兴趣爱好、收入水平、消费习惯,等等确定顾客的购买模式34数据挖掘应用——市场分析和管理顾客分析哪类顾客购买哪种商品(聚类分析或分类预测)提供概要信息多维度的综合报告统计概要信息(数据的集中趋势和变化)客户需求分析确定适合不同顾客的最佳商品预测何种因素能够吸引新顾客35数据挖掘应用——公司分析和风险管理财务计划现金流转分析和预测交叉区域分析和时间序列分析(财务资金比率,趋势分析等等)竞争对竞争者和市场趋势的监控将顾客按等级分组和基于等级的定价过程将定价策略应用于竞争更激烈的市场中资源计划总结和比较资源和花费36数据挖掘应用——欺诈行为检测和异常模式的发现方法对欺骗行为进行聚类和建模,并进行孤立点分析应用(卫生保健、零售业、信用卡服务、电信等)汽车保险:检测交通事故获取保险赔偿的人群洗钱:发现可疑的货币交易行为医疗保险:职业病人,医生以及相关数据分析;不必要的或相关的测试电信:电话呼叫欺骗行为;电话呼叫模型(呼叫目的地、持续时间、日或周呼叫次数。分析该模型发现与期待标准的偏差)零售产业:分析师估计有38%的零售额下降是由于雇员的不诚实行为造成的反恐怖主义37数据挖掘应用领域举例38例子1:信贷决策(inthe1980s,AmericanExpress)已知:申请人金融和个人信息调查表问题:是否批准贷款简单的统计方法可以决定90%的案例“临界线案例”要由信贷员做出决定50%准予贷款的“临界线案例”未按期还款.解决方案:拒绝所有“临界线案例”?No!临界线案例是最活跃的,重要的客户数据挖掘应用领域举例39例子1:信贷决策(inthe1980s,AmericanExpress)1000“临界线案例”的训练集20个属性:年龄为当前老板工作的年限在当前居住地居住的年限拥有银行帐户的年限所持有的其他信用卡,…学习到的规则:正确率为70%信贷员决策的正确率为50%规则可以用来向客户解释决策背后的原因数据挖掘应用领域举例40例子2:购物篮分析关联分析技术被用来发现在交易倾向同时被购买的商品(用来分析收银数据)啤酒+尿布摆在一起促销数据挖掘应用领域举例41例子3:超市预知高中生怀孕一家门店被客户投诉将婴儿产品优惠券寄给他的女儿客户道歉数据挖掘应用领域举例42例子4:图像处理学习到的规则:正确率为70%已知:沿海水域的雷达卫星图像问题:检测出是否有浮油Noteasy:看上去的深色区域可能是由天气因素造成的。(如大风)需要接受过培训的人员到图片所示区域实地考察:昂贵的过程数据挖掘应用领域举例43例子4:图像处理从标准化图像提取黑色区域属性:区域规模形状、面积亮度边角的锐利度和锯齿形状附近的其他区域背景信息解决问题受到如下限制:训练数据很少:原油泄漏事件是很少发生的不均衡数据:绝大多数的深色区域不是浮油造成的数据挖掘应用领域举例44例子5:预测奥斯卡关2013年,微软纽约研究院的经济学家DAVID利用大数据成功预测24个奥斯卡奖项中的19个。2014年,DAVID成功预测24个奖项中的21个。
可以挖掘什么类型的模式?概述一般功能描述性的数据挖掘-描述数据的一般性质,了解数据中潜在的规律预测性的数据挖掘-对数据进行推断,做预测常用的数据挖掘功能通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括:类/概念描述:特性化和区分挖掘频繁模式、关联和相关性用于预测分析的分类与回归聚类分析离群点分析46类/概念描述:特性化和区分StatusBirth_countryAge_rangeGpaCountGraduateCanada25-30Good90UndergraduateCanada25-30Good210概念描述为数据的特征化和比较产生描述(当所描述的概念所指的是一类对象时,也称为类描述)数据区分:提供两个或多个数据集的比较描述。例:数据特征化:提供给定数据集的简洁汇总。例:对AllElectronic公司的“大客户”(年消费额$1000以上)的特征化描述:40-50岁,有固定职业,信誉良好,等等47挖掘频繁模式、关联和相关性频繁模式在数据中频繁出现的模式,包括频繁项集、频繁子序列和频繁子结构示例关联规则挖掘从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性广泛的用于购物篮或事务数据分析48用于预测分析的分类与回归概念描述根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据(分类),用来预测类型标志未知的对象类(预测)分类规则。IFage=“<=30”ANDstudent=“no”THENbuys_computer=“no”IFage=“<=30”ANDstudent=“yes”THENbuys_computer=“yes”IFage=“31…40”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“fair”THENbuys_computer=“no”其他比如:按气候将国家分类,按汽油消耗定额将汽车分类导出模型的表示:决策树、分类规则、神经网络可以用来预报某些未知的或丢失的数字值49聚类分析聚类分析将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程最大化类内的相似性和最小化类间的相似性应用对WEB日志的数据进行聚类,以发现相同的用户访问模式50离群点分析离群点分析离群点:一些与数据的一般行为或模型不一致的数据通常离群点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行离群点分析而得到结论应用信用卡欺诈检测移动电话欺诈检测客户划分医疗分析(异常)51所有模式都是有趣的吗?结论数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的模式兴趣度的客观和主观度量客观度量:基于所发现模式的结构和关于它们的统计,比如:支持度、置信度等等主观度量:基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等模式兴趣度的度量一个模式是有趣的,如果(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设52使用什么技术?数据挖掘:多个学科的融合统计学数据库系统数据仓库信息检索机器学习数据挖掘应用模式识别可视化算法高性能计算54统计学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 标准石材采购合同格式
- 员工服务保证信
- 环保管家服务合同范本
- 防火墙设备技术评测
- 诚信学习誓言
- 工程机械设备采购合同
- 餐厅厨房设备招标书
- 精简版个人借款协议模板
- 量身定制的项目咨询服务合同
- 2023年思南县社会福利院招聘护理员笔试真题
- GB/T 44800-2024太阳能光热发电站储热/传热用工作介质技术要求熔融盐
- 2024年全国教育大会精神全文课件
- 创新设计前沿智慧树知到期末考试答案章节答案2024年浙江大学
- 危大工程动态判定表
- 苏教版高中通用技术必修1:一-技术的价值课件
- 文件袋、档案袋密封条模板
- 配电设备的日常管理及维护保养(PPT41页)
- 网络教研——开辟校本教研新模式
- 教材自编传统节日校本课程
- 楼宇自控系统调试方案
- 排水管道施工方案(完整版)
评论
0/150
提交评论