数据挖掘基础培训讲义-数据挖掘概述课件_第1页
数据挖掘基础培训讲义-数据挖掘概述课件_第2页
数据挖掘基础培训讲义-数据挖掘概述课件_第3页
数据挖掘基础培训讲义-数据挖掘概述课件_第4页
数据挖掘基础培训讲义-数据挖掘概述课件_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DM基础-1

数据挖掘概述

教材内容来源于《数据挖掘:概念与技术》第1章引言(JiaweiHanandMichelineKamber)2023/12/51课程大纲什么激发了数据挖掘?什么是数据挖掘?在何种数据上进行数据挖掘?数据挖掘功能所有模式都是有意义的吗?数据挖掘系统的分类数据挖掘中的主要问题2023/12/52动机:“需要是发明之母”数据爆炸问题

自动化的数据收集工具和成熟的数据库技术导致了数据库、数据仓库和其它信息仓库中储存了海量数据数据丰富,但信息贫乏!

解决方案:数据仓库和数据挖掘数据仓库和联机分析处理从海量数据中抽取出有意义的知识(规则、规律、模式、约束)2023/12/53数据库技术的演化

(参见图1.1)1960s:数据集合,数据库创建,IMS和网络数据库1970s:关系数据模型,关系数据库系统实现1980s:RDBMS,高级数据模型(扩展关系模型,面向对象模型,演绎模型等)和面向应用的数据库管理系统(空间,科学,工程等)1990s—2000s:数据挖掘和数据仓库,多媒体数据库和Web数据库2023/12/54什么是数据挖掘?数据挖掘(数据库中的知识发现):从大型数据库中抽取有意义的(非平凡的,隐含的,以前未知的并且是有潜在价值的)信息或模式其它类似术语:数据挖掘:是否用词不当?数据库中的知识发现(KDD),知识抽取,数据/模式分析,数据考古,数据捕捞,商业智能等什么不属于数据挖掘?(演绎)查询处理专家系统或小型的机器学习/统计分析程序2023/12/55为何进行数据挖掘?—潜在应用数据库分析和决策支持市场分析和管理目标营销,客户关系管理,购物篮分析,交叉销售,市场分段风险分析和管理预测,客户保持,降低风险,质量控制,竞争力分析欺诈检测与管理其它应用文本挖掘(新闻组,电子邮件,文档)和Web分析智能询问解答(QA)系统2023/12/56市场分析和管理(1)分析的数据源在哪里?信用卡交易,积分卡,折扣优惠券,客户抱怨电话,以及(公众)生活方式研究目标营销发现具有相同特征的客户群模型:兴趣,收入水平,消费习惯等判别客户的序列购买模式从单身账户到共有账户的转变:结婚交叉销售分析产品销售之间的关联基于关联信息而进行的预测2023/12/57市场分析和管理(2)构造客户特征数据挖掘可以告诉您哪种客户会购买哪种产品(通过聚类或分类)识别出客户需求识别出适合不同客户的最佳产品通过预测来发现吸引新客户的因素提供综合信息各种各样的多维综合报表统计上的综合信息(数据的集中趋势和变化)2023/12/58集团分析和风险管理财政计划和资产评估现金周转分析和预测资产评估中的相机要求分析交叉组合分析和时间序列分析(财务比率,趋势分析等)资源规划资源和开销的总结和比较竞争力监视竞争对手和市场导向对客户分组并基于分类制定价格在激烈的竞争市场中制定价格策略2023/12/59欺诈检测和管理(1)应用广泛用于健康卫生,零售,信用卡服务,电信(电话卡欺诈)等行业方法使用历史数据来构造欺诈行为模型,同时利用数据挖掘来辅助识别出类似案例示例汽车保险:检测出那些伪造事故来骗取保险金的人群洗钱:检测可疑的金钱交易(美国财政部的金融犯罪执行网络)医疗保险:检测出职业病人2023/12/510欺诈检测和管理(2)检测出不必要的医疗处理澳大利亚医疗保险委员会查出在许多案例中病人都要求blanketscreeningtests(每年节省一百万澳元)检测电话欺诈通话模型:对端号码,通话时长,每天(周)通话次数。分析那些偏离预期的通话模式英国电信检测出频繁进行集团内部通话(特别是用手机通话)的一些犯罪集团,成功避免了数百万美元的欺诈零售分析家估计大约38%的零售额减少是由于不诚实的员工造成的2023/12/511其它应用体育IBMAdvancedScout分析了NBA比赛的统计数据(阻攻,助攻,犯规等),帮助纽约尼克斯队和迈阿密热队提高竞争优势天文学JPL和Palomar天文台借助数据挖掘技术发现了22颗类星体因特网冲浪辅助IBMSurf-Aid利用数据挖掘算法来分析与销售有关的Web访问日志,发现用户的偏好和行为,分析电子商务的有效性,改善网站的结构等2023/12/512数据挖掘:一个KDD过程数据挖掘:知识发现过程的核心数据清洗数据集成数据库数据仓库任务相关的数据选取数据挖掘模式评价2023/12/513KDD过程的步骤对应用领域的研究:相关的预备知识和应用的目标建立目标数据集:数据选取数据清洗和预处理:(可能占据多达60%的工作量!)数据归约和转换:找出有用的特征,维度/变量归约,不变式转换选择数据挖掘功能综合,分类,回归,关联,聚类.选择挖掘算法数据挖掘:找出有意义的模式模式评价和知识表达可视化,转换,消除冗余模式等等利用发现的知识2023/12/514数据挖掘和商业智能

增加支持商业决策的潜能最终用户业务分析师数据分析师DBA制定决策数据表达可视化技术数据挖掘信息发现数据探索OLAP,MDA统计分析,查询和报表数据仓库/数据集市数据源纸媒介,文件,信息来源,数据库,OLTP2023/12/515典型数据挖掘系统的架构数据仓库数据清洗&数据集成过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评价图形用户界面知识库2023/12/516数据挖掘:在何种数据上进行?关系数据库数据仓库交易数据库高级数据库和信息仓库面向对象和对象关系数据库空间数据库时间序列数据和时态数据文本数据库和多媒体数据库异构数据库和遗留数据库因特网2023/12/517数据挖掘功能(1)概念描述:特征化和区分泛化,综合,以及数据特征对比,例如,干旱和潮湿的地区关联(相关性和因果关系)多维关联和单维关联age(X,“20..29”)^income(X,“20..29K”)àbuys(X,“PC”)[support=2%,confidence=60%]contains(T,“computer”)àcontains(x,“software”)[1%,75%]2023/12/518数据挖掘功能(2)分类和预测找出能描述和区分分类或概念的模型(函数),用于以后的预测例如,按气候来对国家进行分类,或者按每公里耗油量来对汽车分类表达:决策树,分类规则,神经网络预测:预测未知或缺失的数值聚类分析类标记是未知的:对数据进行分组以形成新类,例如,对房屋聚类以找出分布模式聚类的原则:最大化类内相似性,并且最小化类间相似性2023/12/519数据挖掘功能(3)孤立点分析孤立点:与数据的一般行为不一致的数据对象常常被视为噪声或异常而丢弃,但对于欺诈检测和稀有事件分析来说很有用趋势和演变分析趋势和偏差:回归分析序列模式挖掘,周期分析基于相似度的分析其它模式分析或统计分析2023/12/520所有“挖掘”的模式都是有意义的吗?数据挖掘系统/查询可能产生成千上万个模式,但并非都有意义建议的方法:以人为中心,基于查询,有目的的挖掘兴趣度度量:一个模式是有意义的,如果它易于被人理解,在某种程度上,对于新数据或测试数据有效,潜在有用,新颖,或者验证了用户渴望确认的某些假设客观兴趣度和主观兴趣度度量:客观兴趣度:基于统计和模式的结构,例如,支持度,置信度,等等主观兴趣度:基于用户对数据的确信程度,例如,意外程度,新奇程度,可行动性,等等2023/12/521能否只找出有意义的模式,能否找全?找出全部有意义的模式:完备性数据挖掘系统能否找出全部有意义的模式?关联vs.分类vs.聚类只找出有意义的模式:优化数据挖掘系统能否只找出有意义的模式?方法首先生成全部模式,然后过滤无意义的模式只生成有意义的模式—挖掘的查询优化

2023/12/522数据挖掘:多学科的汇合

数据挖掘数据库技术统计学其它学科信息科学机器学习可视化2023/12/523数据挖掘:分类方案一般功能描述型数据挖掘预测型数据挖掘不同角度,不同分类挖掘的数据库类型挖掘的知识类型所用的技术应用的领域2023/12/524数据挖掘分类的多维视图挖掘的数据库类型关系的、事务的、面向对象的、对象-关系的、空间的、时间序列的、文本的、多媒体的,WWW,等等挖掘的知识类型特征、区分、关联、分类、聚类、趋势和演化分析、孤立点、偏差分析、类似性分析等多重抽象层次的知识发现所用的技术面向数据库,数据仓库(OLAP),机器学习,统计学,可视化,神经网络,等等应用领域零售,电信,银行,欺诈分析,DNA挖掘,股票证券,Web挖掘,Web日志分析,等等2023/12/525OLAP挖掘:数据挖掘和数据仓库的集成数据挖掘系统,数据库管理系统,数据仓库系统的耦合不耦合,松散耦合,半紧密耦合,紧密耦合联机分析型数据挖掘数据挖掘和OLAP技术的集成多层次知识的交互挖掘有必要通过上卷/下钻,旋转,切片/切块来挖掘不同抽象层次的知识和模式多种挖掘功能的集成基于特征化的分类,先聚类后关联分析2023/12/526OLAM的架构数据仓库元数据MDDBOLAM引擎OLAP引擎图形用户界面API数据立方体API数据库API数据清洗数据集成第3层OLAP/OLAM第2层多维数据库第1层数据存储第4层用户界面过滤&集成过滤数据库挖掘查询挖掘结果2023/12/527数据挖掘中的主要问题(1)挖掘方法论和用户交互在数据库中挖掘不同类型的知识多层次知识的交互挖掘结合背景知识数据挖掘查询语言和特定数据挖掘数据挖掘结果的表达和可视化处理噪声和不完备的数据模式评价:兴趣度问题性能和缩放性数据挖掘算法的效率和缩放性并行的,分布式的和增量的挖掘算法2023/12/528数据挖掘中的主要问题(2)数据类型的多样性关系型数据和复杂类型数据的处理异构数据库和因特网(WWW)的挖掘应用领域和社会影响知识发现的应用领域领域相关的数据挖掘工具智能询问解答(QA)系统过程控制和决策制定挖掘的知识和现有知识的集成:知识融合问题数据的安全性,完整性,和隐私保护

2023/12/529总结数据挖掘:从大量数据中发现有意义的模式数据库技术的自然演变,巨大的需求,广泛的应用KDD过程包括数据清洗,数据集成,数据选取,转换,数据挖掘,模式评价,和知识表达数据挖掘可以在多种数据存储上进行数据挖掘功能:特征化,区分,关联,分类,聚类,孤立点和趋势分析等等数据挖掘系统的分类数据挖掘中的主要问题

2023/12/530NCR数据挖掘总体介绍Why?Which?Where?How?What?数据挖掘FAQ数据

=储藏室数据

+工具

=网吧数据

+工具

+

方法

=信息数据

+工具

+方法

+目标

=知识数据

+工具+方法

+目标

+行动

=价值(Why)为何要数据挖掘?DataMiningisforpoweruserstofollowaprovenmethodologytodiscoveraction-orientedinsightsfrom

detailoperationsdata

toimprovebusiness.数据挖掘是分析专家用已验证的方法在业务细节数据中发掘出可采取行动的洞察力,从而改善企业运营。(What)什么是数据挖掘?客户面向客户客户管理CRM

客户关系管理

数据仓库WalletShareAcquisitionRetentionFraudProductAffinityPriceSensitivityValue&RisksPsycho-demographicsDMMethod’yTools&TechniquesArchitect&OAMAdHocQueryWAR/F(Which)在哪些方面进行挖掘?NCRDMinTelecommunication业务目标 模型------------------------------------------- ----------------------钱包份额/争取新客户(WalletShare/Acquisition)预测客户购买新产品的倾向

Cross-SellResponseModel预测客户扩展服务用量的倾向

Up-sellResponseModel预测客户升级服务的倾向

UpscaleResponseModel客户挽留及保育(Retention)预测哪些客户会终止服务的使用

ChurnsentrySolution改善挽留行动的效率

ResponseModel欺诈/拖欠侦测(Fraud/Delinquency)预测客户拖欠账单支付的倾向

PropensitytoDelinquent预测拖欠客户对催缴的响应

PropensitytoCollect欺诈侦测及管理

FraudsentrySolution基础/知识(Infrastructure/Knowledge)了解客户购买不同产品的情况

ProductAffinity评估客户对运营商的利润贡献度 ValueScore评估客户的价格敏感度 PriceSensitivityProfiling预测客户称为高价值客户的倾向 PropensitytobeVIP客户信用度评估 CreditScoring/CreditModel客户分群 Psycho-demographicProfiling预测营收变化趋势

RevenueForecast预测客户的服务使用量变化趋势

UsageForecast分析专题示例分析型应用业务问题业务价值客户分群客户如何分群以及各群组的特征?客户关系的个性化定制,以便提高客户满意度,降低流失率购买倾向哪些客户最可能响应我的促销活动?有的放矢,锁定有需求的客户,提高客户忠诚度,提高营销活动的效率利润贡献度什么是客户的生命周期价值?基于客户的综合利润贡献度来有效决策欺诈侦测如何鉴别哪些交易可能会是欺诈行为?快速鉴别出欺诈行为,立即反应以避免损失客户流失哪些客户可能会弃我而去?避免高价值客户的流失,低价值客户随他去客户获取哪些人可能成为我的客户?哪些人可能带来最高的收益?最小化新客户的招揽成本渠道优化到达每个客户分群的最佳渠道是什么?基于客户偏好和企业需要与客户交互,从而控制成本采用抽样技术避免压力需要频繁耗时的数据迁移数据冗余/元数据管理问题ModelersBuildModelsBusinessDeploysModels高性能、易扩展基本无需数据迁移避免过时数据避免抽样误差元数据共享,易于使用降低成本,节省投资!ModelersBuildModelsBusinessDeploysModels传统的数据挖掘场内(In-DBS)挖掘(Where)在哪里挖掘?确定业务问题范围

(度量数称胜)TeradataDataWarehouse选择抽样

(必也正名乎)数据清洗(谨防假做真时真亦假,无为有处有还无)数据探索

(月有阴晴圆缺)建模

(奇正之变,不可胜数也)发布(工欲成其事,必先利其器)(How)NCR数据挖掘方法论数据挖掘行动指南做什么?该项工作任务的内容是什么,要达到什么目标工作内容和工作目标目标:数据挖掘是分析专家用已验证的方法在业务细节数据中发掘出可采取行动的洞察力,从而改善企业运营任务:遵循NCR数据挖掘方法论,实施数据挖掘专题(确定业务问题,数据准备,数据探索,建模,模型发布)向客户提供业务咨询,帮助客户完善挽留,产品梳理和营销流程跟踪实施效果,并改进挖掘模型,体现数据挖掘对ROI的提升向客户提供数据挖掘培训课程,提高挖掘人员的综合能力工作内容和工作目标

数据挖掘可以应用在哪些方面客户面向客户客户管理CRM

客户关系管理

数据仓库WalletShareAcquisitionRetentionFraudProductAffinityPriceSensitivityValue&RisksPsycho-demographicsDMMethod’yTools&TechniquesArchitect&OAMAdHocQueryWAR/FNCRDMinTelecommunication业务目标 模型------------------------------------------- ----------------------钱包份额/争取新客户(WalletShare/Acquisition)预测客户购买新产品的倾向

Cross-SellResponseModel预测客户扩展服务用量的倾向

Up-sellResponseModel预测客户升级服务的倾向

UpscaleResponseModel客户挽留及保育(Retention)预测哪些客户会终止服务的使用

ChurnsentrySolution改善挽留行动的效率

ResponseModel欺诈/拖欠侦测(Fraud/Delinquency)预测客户拖欠账单支付的倾向

PropensitytoDelinquent预测拖欠客户对催缴的响应

PropensitytoCollect欺诈侦测及管理

FraudsentrySolution基础/知识(Infrastructure/Knowledge)了解客户购买不同产品的情况

ProductAffinity评估客户对运营商的利润贡献度 ValueScore评估客户的价格敏感度 PriceSensitivityProfiling预测客户称为高价值客户的倾向 PropensitytobeVIP客户信用度评估 CreditScoring/CreditModel客户分群 Psycho-demographicProfiling预测营收变化趋势

RevenueForecast预测客户的服务使用量变化趋势

UsageForecastFrequentlyusedtechniques业务目标 分析方法/技术------------------------------------------- ----------------------钱包份额/争取新客户(WalletShare/Acquisition)预测客户购买新产品的倾向

决策树/对数回归预测客户扩展服务用量的倾向

决策树/对数回归预测客户升级服务的倾向

决策树/对数回归客户挽留及保育(Retention)预测哪些客户会终止服务的使用

决策树/对数回归改善挽留行动的效率

描述型分析/响应模型欺诈/拖欠侦测(Fraud/Delinquency)预测客户拖欠账单支付的倾向

对数回归预测拖欠客户对催缴的响应

决策树欺诈侦测及管理

规则归纳基础/知识(Infrastructure/Knowledge)了解客户购买不同产品的情况

关联规则评估客户对运营商的利润贡献度

ABC成本核算评估客户的价格敏感度

描述型分析/聚类预测客户称为高价值客户的倾向

对数回归客户信用度评估

描述型分析客户分群

聚类预测营收变化趋势

线性回归预测客户的服务使用量变化趋势

线性回归由谁来做由谁来负责执行该项工作任务,应具备什么资质和技能实施人员数据挖掘项目的时间计划要根据多个关键因素而定:挖掘专题的复杂程度客户对挖掘结果性能评定的期望可用的数据完备性及数据质量项目人力资源是否充足以及人员能力等等以移动通信行业的客户流失预测分析为例,一般需要2~4个月不等(在数据已经准备就绪的情况下)数据挖掘项目需要如下的成员或角色来参与完成:数据挖掘专家PDM建模人员ETL开发人员AP开发人员(客户方)熟悉业务的人员以及熟悉数据仓库PDM的人员予以支持实施人员

数据挖掘专家能力要求(基本要求)专业技能硕士以上学历,数据挖掘、统计学、数据库相关专业熟练掌握关系数据库技术,具有数据库系统开发经验熟练掌握常用的数据挖掘算法具备数理统计理论基础,并熟悉常用的统计工具软件行业知识具有相关的行业知识,或者能够很快熟悉相关的行业知识合作精神具有良好的团队合作精神,能够主动和项目中其他成员紧密合作客户关系能力具有良好的客户沟通能力,能够明确阐述数据挖掘项目的重点和难点,善于调整客户对数据挖掘的误解和过高期望具有良好的知识转移能力,能够尽快地让模型维护人员了解并掌握数据挖掘方法论及建模实施能力实施人员

数据挖掘专家能力要求(进阶要求)具有数据仓库项目实施经验,熟悉Teradata数据仓库技术及方法论熟练掌握SQL语言,包括复杂查询、性能调优熟练掌握ETL开发工具和技术熟练掌握MicrosoftOffice软件,包括Excel和PowerPoint中的各种统计图形技术善于将挖掘结果和客户的业务管理相结合,根据数据挖掘的成果向客户提供有价值的可行性操作方案怎么做?执行该项工作任务的方式、方法、工作流程和工作模板等工作流程和方法按照NCR的数据挖掘方法论,数据挖掘项目包含五个阶段:定义业务问题范围、选取和抽样、数据探索、建模和实施(评估和发布)工作流程和方法

阶段1:定义业务问题范围在这个数据挖掘的初始阶段,需明确阐述项目目标和客户业务需求,目的是明确包括客户响应的数据挖掘问题。基于客户响应(如客户流失或产品购买趋势)特性,可以从概念上定义响应变量,与待选的预测变量没有直接的派生关系〈直接的派生关系意指响应变量可由一或多个预测变量直接计算出来〉。最终,为了这些目标可以必要地调整项目计划进程。阶段1的任务包括:明确业务目标定义响应变量项目计划必要的调整工作流程和方法

阶段2:选取和抽样在这一阶段,建模小组要搜寻并检查客户数据,做为未来的分析定义属性的简略一览表。在数据挖掘的子过程中,创建一个数据映射概念图以对应客户数据与建模相关的各个数据属性名。数据能被整合到一个适当的程度,省略不适当的记录(如商务客户,非居民客户,如果分析仅针对居民客户)、不完整的数据记录、训练数据、试验数据,等等。阶段2的任务包括:数据来源数据映射准备数据评估数据的必要聚合数据抽样工作流程和方法

阶段3:数据探索在这个阶段中,建模小组核查目前的数据源并且努力去发现在每个待选的预测变量和响应变量之间是否有任何关系。数据转换通常在更进一步的范围中探察数据关系。数据的派生方法被用来捕获和表现已发现的关系。通常,数值分析是为了全面理解数据的第一步,跟着进行的统计分析是为了得到有关数据分配的更好知识。如频率图、柱状图、条线图,散点图、框图和许多其他方式是典型的且很好的数据的图形化呈现工具,使为下一步建立模型准备数据来源变得容易很多。在数据挖掘过程中这是一个关键的阶段,通常随伴着由正式的数据探索报告来记录和呈现发现。阶段3的任务包括:数据质量检查数据的必要整理通过图形化呈现工具和其他的统计方法理解数据分析待选预测变量和响应变量之间的关系数据转换以辅助数据的分析数据派生为建立模型做准备整理和呈现数据探索的发现工作流程和方法

阶段4:建模在这一阶段,建模小组建立并确认分析模型。建模小组通常尝试不同的建模技术或结合不同数据集,并衡量模型性能的不同,选出最好的。来自最终用户的业务领域知识在这个阶段是非常关键的,因为他们可以评价和确认模型的结果、理解发现并付诸实际行动,即证明这些模型并在实际环境中实施。阶段4的任务包括:为模型的训练和验证准备数据集在模型的建立中使用适当的建模技术针对不同的建模技术测试模型性能必要地精炼分析模型和主题专家一起的检验分析模型记录分析模型和结果工作流程和方法

阶段5:实施(评估和发布)在这一阶段,需要用模型的结果来帮助作出业务决定、战略设计和战术实施。收集实施结果反馈,为模型的退化进行侦测,更进一步改善模型性能。虽然能利用模型的结果,复杂的展示层界面通常是不必的,如果大量努力为了实施前端应用,或自动化的数据挖掘过程,这个阶段会变得非常IT导向。数据挖掘过程的自动化是CRM(客户关系管理)的解决方案中不可或缺的一部分,因此,是与典型的数据挖掘分开实施的项目。模型的现场测试也通常是一个单独的项目,它会花费时间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论