数据挖掘技术应用简介_第1页
数据挖掘技术应用简介_第2页
数据挖掘技术应用简介_第3页
数据挖掘技术应用简介_第4页
数据挖掘技术应用简介_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大 纲 什么是数据挖掘 数据挖掘的标准流程:CRISPDM 数据挖掘工具SPSS Clementine简介第一局部:什么是数据挖掘?数据挖掘都干了些什么?英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。使直邮的回应率提高了100数据挖掘都干了些什么?GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存本钱。通过数据挖掘的方法使库存本钱比原来减少了3.8%数据挖掘都干了些什么?汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。营销费用减少了30数据挖掘都干了些什么?美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。发现可能存在欺诈

2、的交易,进行深入调查,节约了大量的调查本钱数据挖掘都干了些什么?美国国内税务局需要提高对纳税人的效劳水平。合理安排税务官的工作,为纳税人提供更迅捷、更准确的效劳通过数据挖掘您可以发现最有价值的客户通过数据挖掘您可以使组合销售更有效率通过数据挖掘您可以留住那些最有价值的客户通过数据挖掘您可以用更小的本钱发现欺诈现象通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规那么的探测和分析活动。数据挖掘能够帮助你选择正确瞄准潜在目标,向现有的客户提供额外的产品,识别那些准备离开的好客户。什么是数据挖掘电信 :流失银行:聚类细分, 交叉销售百货公司/超市:购物篮分析 关联规那么保险:细分,交叉销售

3、,流失原因分析信用卡: 欺诈探测,细分电子商务: 网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学: 医疗保健数据挖掘应用领域数据挖掘效益分析(直邮(Big Bank & Credit Card Company)目的:发现新客户数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的毛利$125$125$0总毛利$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用

4、040,000$40,000最终的利润$250,000$335,000$85,000第二局部:数据挖掘标准流程 CRISP-DMCRISPDM简介 CRISPDM是CRoss-Industry Standard ProcessData Mining的缩写 由SPSS、NCR、Daimler-Benz在1996年制定 CRISP是当今数据挖掘业界通用流行的标准之一 它强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在研究领域CRISPDM 商业理解 数据理解 数据准备 建立模型 模型评估 模型发布商业理解Business Understanding) 找问题确定商业目标 对

5、现有资源的评估 确定问题是否能够通过数据挖掘来解决 确定数据挖掘的目标 制定数据挖掘方案数据理解(Data Understanding) 确定数据挖掘所需要的数据 对数据进行描述 数据的初步探索 检查数据的质量数据准备(Data Preparation) 选择数据 清理数据 对数据进行重建 调整数据格式使之适合建模建立模型Modeling) 对各个模型进行评价 选择数据挖掘模型 建立模型模型评估(Evaluation) 评估数据挖掘的结果 对整个数据挖掘过程的前面步骤进行评估 确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型模型发布Deployment 把数据挖掘

6、模型的结果送到相应的管理人员手中 对模型进行日常的监测和维护 定期更新数据挖掘模型第三局部:数据挖掘工具SPSS Clementine简介Make a difference with the predictive power of data mining应用Clementine到达你数据挖掘的目标 图形化的界面、数据流的形式建立模型,保证了应用Clementine进行数据挖掘关注商业更甚于关注技术本身 开放式的技术是更好的保护您的投资的保障 高度的扩展性保证对数据库中大量的数据进行挖掘 业界领先的发布技术使数据挖掘结果更好的传递到相应管理人员手中把你的商业经验溶入数据挖掘过程是数据挖掘成功的关

7、键Better data mining results!InsightBusiness problem?What you know丰富的数据挖掘算法PredictionNeural net, C5.0ClassificationNeural net, C5.0SegmentationKohonen, Kmeans, C5.0AssociationApriori, GRI, Web graphSequenceCaprI, Neural Net, Regression与SPSS及AnswerTree无缝集成提供更多的算法Logistic RegressionDiscriminant Analysi

8、sFactor AnalysisMany more.C&RTCHAIDExhaustive CHAIDQUEST使你在数据仓库上的投资得到最大的回报SybaseDB2InformixOpenIngressOracleSQL Server+ ODBC drivers for others+ ODBC socket for native drivers开放的建模性能在Clementine中通过CEMI参加新的算法Clementine的系统结构 1. Perform many operations in the database.2. Perform the rest on a powerful s

9、erver.3. Use the client processor for viewing results.Clementine Server delivers huge performance gainsGenerating a distribution graph995 seconds when processed on the desktop69 seconds when processed on the server19 seconds when pushed back into the database In-database processing delivers better p

10、erformance as data sets get largerSelecting casesseconds required for millions of records when processed on the server v. in the databaseClementine Server cuts model building time up to 90%Model buildingtime needed for building models on the server as a percentage of the time needed for building the model on the

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论