版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大 纲 什么是数据挖掘 数据挖掘的标准流程:CRISPDM 数据挖掘工具SPSS Clementine简介第一局部:什么是数据挖掘?数据挖掘都干了些什么?英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。使直邮的回应率提高了100数据挖掘都干了些什么?GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存本钱。通过数据挖掘的方法使库存本钱比原来减少了3.8%数据挖掘都干了些什么?汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。营销费用减少了30数据挖掘都干了些什么?美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。发现可能存在欺诈
2、的交易,进行深入调查,节约了大量的调查本钱数据挖掘都干了些什么?美国国内税务局需要提高对纳税人的效劳水平。合理安排税务官的工作,为纳税人提供更迅捷、更准确的效劳通过数据挖掘您可以发现最有价值的客户通过数据挖掘您可以使组合销售更有效率通过数据挖掘您可以留住那些最有价值的客户通过数据挖掘您可以用更小的本钱发现欺诈现象通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规那么的探测和分析活动。数据挖掘能够帮助你选择正确瞄准潜在目标,向现有的客户提供额外的产品,识别那些准备离开的好客户。什么是数据挖掘电信 :流失银行:聚类细分, 交叉销售百货公司/超市:购物篮分析 关联规那么保险:细分,交叉销售
3、,流失原因分析信用卡: 欺诈探测,细分电子商务: 网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学: 医疗保健数据挖掘应用领域数据挖掘效益分析(直邮(Big Bank & Credit Card Company)目的:发现新客户数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的毛利$125$125$0总毛利$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用
4、040,000$40,000最终的利润$250,000$335,000$85,000第二局部:数据挖掘标准流程 CRISP-DMCRISPDM简介 CRISPDM是CRoss-Industry Standard ProcessData Mining的缩写 由SPSS、NCR、Daimler-Benz在1996年制定 CRISP是当今数据挖掘业界通用流行的标准之一 它强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在研究领域CRISPDM 商业理解 数据理解 数据准备 建立模型 模型评估 模型发布商业理解Business Understanding) 找问题确定商业目标 对
5、现有资源的评估 确定问题是否能够通过数据挖掘来解决 确定数据挖掘的目标 制定数据挖掘方案数据理解(Data Understanding) 确定数据挖掘所需要的数据 对数据进行描述 数据的初步探索 检查数据的质量数据准备(Data Preparation) 选择数据 清理数据 对数据进行重建 调整数据格式使之适合建模建立模型Modeling) 对各个模型进行评价 选择数据挖掘模型 建立模型模型评估(Evaluation) 评估数据挖掘的结果 对整个数据挖掘过程的前面步骤进行评估 确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型模型发布Deployment 把数据挖掘
6、模型的结果送到相应的管理人员手中 对模型进行日常的监测和维护 定期更新数据挖掘模型第三局部:数据挖掘工具SPSS Clementine简介Make a difference with the predictive power of data mining应用Clementine到达你数据挖掘的目标 图形化的界面、数据流的形式建立模型,保证了应用Clementine进行数据挖掘关注商业更甚于关注技术本身 开放式的技术是更好的保护您的投资的保障 高度的扩展性保证对数据库中大量的数据进行挖掘 业界领先的发布技术使数据挖掘结果更好的传递到相应管理人员手中把你的商业经验溶入数据挖掘过程是数据挖掘成功的关
7、键Better data mining results!InsightBusiness problem?What you know丰富的数据挖掘算法PredictionNeural net, C5.0ClassificationNeural net, C5.0SegmentationKohonen, Kmeans, C5.0AssociationApriori, GRI, Web graphSequenceCaprI, Neural Net, Regression与SPSS及AnswerTree无缝集成提供更多的算法Logistic RegressionDiscriminant Analysi
8、sFactor AnalysisMany more.C&RTCHAIDExhaustive CHAIDQUEST使你在数据仓库上的投资得到最大的回报SybaseDB2InformixOpenIngressOracleSQL Server+ ODBC drivers for others+ ODBC socket for native drivers开放的建模性能在Clementine中通过CEMI参加新的算法Clementine的系统结构 1. Perform many operations in the database.2. Perform the rest on a powerful s
9、erver.3. Use the client processor for viewing results.Clementine Server delivers huge performance gainsGenerating a distribution graph995 seconds when processed on the desktop69 seconds when processed on the server19 seconds when pushed back into the database In-database processing delivers better p
10、erformance as data sets get largerSelecting casesseconds required for millions of records when processed on the server v. in the databaseClementine Server cuts model building time up to 90%Model buildingtime needed for building models on the server as a percentage of the time needed for building the model on the
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酒店赠品礼品赠送管理
- 体育休闲行业工程师的工作总结
- 班级文化建设与维系计划
- 广东省佛山市禅城区2023-2024学年六年级上学期英语期末试卷
- 第24章 圆-单元测评卷(1)-2024-2025学年数学人教版九年级上册(含答案解析)
- 2023-2024学年四川省成都市青羊区树德中学高一(下)期中地理试卷
- 《地球公转必修》课件
- 《能言善辩的名人》课件
- 2024年陕西省榆林市公开招聘警务辅助人员辅警笔试自考题1卷含答案
- 2021年江苏省淮安市公开招聘警务辅助人员辅警笔试自考题1卷含答案
- 吉首大学《高等数学》2023-2024学年第一学期期末试卷
- 打印和复印服务协议
- 针灸习题库(附参考答案)
- 前置胎盘手术配合
- 期末试卷(试题)-2024-2025学年五年级上册数学北师大版
- 采购经理年终述职报告
- 2024年中国电信服务合同标准文本
- 四川省成都市2023-2024学年高一上学期语文期末考试试卷(含答案)
- 2024-2025学年人教版八年级上册数学期末必刷压轴60题(原卷版)
- 浙江省嘉兴市(2024年-2025年小学五年级语文)部编版专题练习(上学期)试卷及答案
- 投标述标演讲稿
评论
0/150
提交评论