![数据挖掘基础知识_第1页](http://file4.renrendoc.com/view/c3f81864a7251c191917a5731d02463f/c3f81864a7251c191917a5731d02463f1.gif)
![数据挖掘基础知识_第2页](http://file4.renrendoc.com/view/c3f81864a7251c191917a5731d02463f/c3f81864a7251c191917a5731d02463f2.gif)
![数据挖掘基础知识_第3页](http://file4.renrendoc.com/view/c3f81864a7251c191917a5731d02463f/c3f81864a7251c191917a5731d02463f3.gif)
![数据挖掘基础知识_第4页](http://file4.renrendoc.com/view/c3f81864a7251c191917a5731d02463f/c3f81864a7251c191917a5731d02463f4.gif)
![数据挖掘基础知识_第5页](http://file4.renrendoc.com/view/c3f81864a7251c191917a5731d02463f/c3f81864a7251c191917a5731d02463f5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘原理与SPSSClementine应用宝典元昌安主编邓松李文敬刘海涛编著电子工业出版社第1页,共32页。1.1数据挖掘的社会需求
现实情况:人类积累的数据量以每月高于15%的速度增加,如果不借助强有力的挖掘工具,仅依靠人的能力来理解这些数据是不可能的。现在人们已经评估出世界上信息的数量每二十个月翻一番,并且数据库的数量与大小正在以更快的速度增长。第2页,共32页。1.1数据挖掘的社会需求
著名的“啤酒尿布”案例:美国加州某个超级卖场通过数据挖掘发现,下班后前来购买婴儿尿布的男顾客大都购买啤酒。于是经理当机立断,重新布置货架,把啤酒类商品布置在婴儿尿布货架附近,并在二者之间放置佐酒食品,同时还把男士日常用品就近布置。这样,上述几种商品的销量大增。第3页,共32页。1.2数据挖掘的定义—技术定义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。第4页,共32页。1.2数据挖掘的定义—技术定义数据挖掘和信息检索:信息检索和数据挖掘的相同点是从档案文件或数据库中抽取感兴趣的数据和信息。区别在于数据检索对信息的抽取规则是事先定义好的,抽取的是外在信息。据挖掘于挖掘寻找现象之间事先未知的关系和关联。第5页,共32页。1.2数据挖掘的定义—商业定义按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程。它可以帮助企业对数据进行微观、中观乃至宏观的统计、分析、综合和推理,从而利用已有数据预测未来,帮助企业赢得竞争优势。第6页,共32页。1.2数据挖掘的定义—商业定义应用实例:某经营公司对多年来的客户资料进行挖掘后发现,大多数购买电脑的客户具有下面的特点:1、年轻(20—45岁之间);2、收入高;3、居住地:城市;4、学历高;基于此,此经营公司可以根据这些客户的特点有目的的做一些广告或者促销。第7页,共32页。1.3数据挖掘的发展历史—历史发展1989IJCAI会议:数据库中的知识发现讨论专题KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD讨论专题AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD国际会议(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002会议,以及SIGKDDExplorations数据挖掘方面更多的国际会议PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.第8页,共32页。1.3数据挖掘的发展历史—国内现状大部分处于科研阶段各大学和科研机构从事数据挖掘算法的研究国内著作的数据挖掘方面的书较少(翻译的有)数据挖掘讨论组()有一些公司在国外产品基础上开发的特定的应用IBMIntelligentMinerSASEnterpriseMiner自主知识产权的数据挖掘软件复旦德门()等第9页,共32页。1.3数据挖掘的发展历史—未来发展数据库人工智能统计学
上述学科的发展决定着数据挖掘的发展未来和方向第10页,共32页。1.4数据挖掘的系统分类数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习、可视化和信息科学。图1-2数据挖掘受多门学科影响的示意图第11页,共32页。1.4数据挖掘的系统分类技术分类预言(Predication):用历史预测未来描述(Description):了解数据中潜在的规律数据挖掘技术关联分析序列发现分类(预言)聚集异常检测汇总回归时间序列分析第12页,共32页。1.5数据挖掘的应用领域金融领域营销领域电子政务电信领域工业生产生物和医学第13页,共32页。1.5数据挖掘的应用领域—应用调查第14页,共32页。1.5数据挖掘的应用领域—金融信用卡分析业务模型客户信用等级评估客户透支分析客户利润分析客户消费行为分析客户消费异常行为分析第15页,共32页。1.5数据挖掘的应用领域—金融数据挖掘在反洗钱系统中的应用第16页,共32页。1.5数据挖掘的应用领域—营销关联分析--市场篮子分析,用于了解顾客的购买习惯和偏好,有助于决定市场商品的摆放和产品的捆绑销售策略;序列模式与市场篮子分析相似,不过是用某时间点发现的产品购买或其他行为模式来预测将来购买产品或服务类别的概率;聚类用于市场细分,将顾客按其行为或特征模式的相似性划分为若干细分市场,以采取有针对性的营销策略;分类用于预测哪些人会对邮寄广告和产品目录、赠券等促销手段有反应,还可用于顾客定级、破产预测等。第17页,共32页。1.5数据挖掘的应用领域—营销数据挖掘在营销中的应用流程第18页,共32页。1.5数据挖掘的应用领域—营销应用实例1:美国运通公司(AmericanExpress)有一个用于记录信用卡业务的数据库,通过对这些数据进行挖掘,制定了“关联结算(RelationshipBilling)优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大的折扣,既增加了商店的销售量,也可以增加运通卡在该商店的使用率。第19页,共32页。1.5数据挖掘的应用领域—营销应用实例2:美国的读者文摘(Reader'sDigest)出版公司运行着一个积累了40年的业务数据库,其中容纳有遍布全球的一亿多个订户的资料,并保证数据不断得到实时的更新,基于对客户资料数据库进行数据挖掘的优势,使读者文摘出版公司能够从通俗杂志扩展到专业杂志、书刊和声像制品的出版和发行业务,极大地扩展了自己的业务范围。第20页,共32页。1.5数据挖掘的应用领域—电子政务电子政务数据挖掘是把数据挖掘及时折射到政府部门,使政府部门的内部信息与外部信息进行有效地整合,以便政府部门可以更好、更有效地将信息发布给最希望得到它们的公众,从而使政府部分更好地服务与公众。另外,由于政府各部门自动化的实现,产生了大量的数据,对这些数据进行收集和分析,可以获得影响政府部门工作的关键因素,从而为政府部门决策提供依据,帮助政府部门提高政府信息化水平,促进整个社会的信息化。第21页,共32页。1.5数据挖掘的应用领域—电信目前,数据挖掘技术在电信CRM系中的应用有以下几个方面:客户获得交叉销售(Cross_selling)客户保持一对一营销第22页,共32页。1.5数据挖掘的应用领域—工业生产在生产工业领域,大部分工厂都积累了大量的实际生产数据,这些数据大多以数据库、数据文件、生产记录等形式存在,它们蕴涵了与生产设备、生产过程相关的许多规律性知识和生产决策、操作人员的操作决策和控制经验。应用方法:(1)建立过程输入输出模型,以此模型为指导寻求最优的操作和控制条件;(2)构造数据样本后,根据某种评估分类方法选出优选样本,根据优选样本的分布确定可探最优区,确定优化方向。第23页,共32页。1.5数据挖掘的应用领域—工业生产数据挖掘在工业生产中的应用示意图第24页,共32页。1.5数据挖掘的应用领域—生物医学海量的生物信息学信息,如基因;远程数据库的出现;万维网上涌现出大量的生物学数据库;美国国立生物技术信息中心网站(NCBI)第25页,共32页。1.6数据挖掘规范和标准产生的模式种类的多少解决复杂问题的能力多种模式多种算法数据选择可视化扩展性
易操作性数据存取能力与其他产品的接口第26页,共32页。1.7数据挖掘面临的挑战和局限性处理不同种类的数据数据挖掘算法的效率及扩展性数据挖掘结果的可用性、确定性及可表达性各种数据挖掘结果的表达多抽象层交互挖掘知识从不同的数据源中挖掘信息隐私保护及数据安全
第27页,共32页。1.8数据挖掘的发展趋势—WEB挖掘Web数据的收集,结构转换等预处理技术的研究;现有的数据挖掘方法在适应性和时效性方面的研究基于Web挖掘和信息检索的智能搜索引擎及相关技术的研究;Web挖掘在特定领域如电子商务领域的应用研究;半结构化文档挖掘。第28页,共32页。1.8数据挖掘发展趋势数据源十分丰富,数据量非常庞大,数据类型多,存取方法复杂;应用领域十分广泛,只要与空间位置相关的数据,都可对其进行挖掘;挖掘方法和算法非常,而且大多数算法比较复杂,难度大;知识的表达方式多样,对知识的理解和评价依赖于对人对客观世界的认知程度。---空间数据挖掘(SDM)的特点第29页,共32页。1.8数据挖掘发展趋势数据清理DNA序列相似搜索和比对基因组特征及基因序列的分析路径分析生物数据可视化和数据挖掘生物文献的挖掘基于隐私保护的数据挖掘---生物信息或基因的挖掘第30页,共32页。谢谢大家第31页,共32页。内容梗概数据挖掘原理与SPSSClementine应用宝典。现实情况:人类积累的数据量以每月高于15%的速度增加,如果不借助强有力的挖掘工具,仅依靠人的能力来理解这些数据是不可能的。于是经理当机立断,重新布置货架,把啤酒类商品布置在婴儿尿布货架附近,并在二者之间放置佐酒食品,同时还把男士日常用品就近布置。数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。信息检索和数据挖掘的相同点是从档案文件或数据库中抽取感兴趣的数据和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 会博通 文件档案知识一体化管理的引领者(单用户版)
- 广东省佛山市普通高中高三教学质量检测(一)语文试题(含答案)
- 专题06《最动听的声音》《把奋斗写进明天》《成功的钥匙》《青年之担当》
- 购书买卖合同
- 产品代销合同范本
- 幼儿园重阳节主题活动策划方案五篇
- 包装材料购销合同范本
- 2024年世界旅游产业发展投资合同
- 海参海鲜采购合同
- 西安二手车买卖合同
- 电力沟施工组织设计-电缆沟
- 《法律援助》课件
- 《高处作业安全》课件
- 春节后收心安全培训
- 小学教师法制培训课件
- 2024年山东铁投集团招聘笔试参考题库含答案解析
- 儿童10岁生日-百日宴-满月酒生日会成长相册展示(共二篇)
- 《绘本阅读与指导》课程教学大纲
- 员工离职登记表(范本模板)
- 2023人教版(PEP)小学英语(三、四、五、六年级)词汇及常用表达法(课本同步)
- GA/T 718-2007枪支致伤力的法庭科学鉴定判据
评论
0/150
提交评论