




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DataMining:
Concept,technicalandmethodNCRDataMiningTeam2005/06议程数据挖掘概述数据挖掘业务案例数据挖掘概念与常用技术数据挖掘软件与架构数据挖掘常见软件TeredataWarehouseMiner架构特点数据挖掘实施与应用挖掘过程:有效的实施方法论应用过程:筹划和执行系统支撑:有效的IT系统成功的关键议程数据挖掘概述数据挖掘业务案例数据挖掘概念与常用技术数据挖掘软件与架构数据挖掘常见软件TeredataWarehouseMiner架构特点数据挖掘实施与应用挖掘过程:有效的实施方法论应用过程:筹划和执行系统支撑:有效的IT系统成功的关键“无所不能〞的数据挖掘?提高客户的利润奉献度哪些客户最可能离开这个客户可能购置什么其他的产品哪个客户可能不会付款什么是接触我客户的最好渠道谁最有可能购置此类产品?判断交易是否为欺诈对一个特殊的产品有什么特殊需求大规模市场….…一对一市场哪些是最有利润的客户既有客户的维持CustomerRetention交叉銷售Cross-Sell潜在客户的获取CustomerAcquisition客户风险掌控CustomerDelinquency客戶流失预测客戶响应模型客戶生态细分客戶延滞行為金融业成功案例
Define正常使用,信用良好的客戶,为何仍会离开客戶到底在想什么??客户流失预测排除即將可能被強停的客戶強停客戶行為不同於願意使用信用卡之客戶行為即將可能被強停的客戶,無論視為正常客戶、剪卡客戶皆可能造成noise排除近半年來無交易的帳戶無使用信用卡之客戶,剪卡率高;且無交易時間越久,剪卡率越高7/16/15/14/13/12/11/112/111/1AnalysisWindow(6Months)PredictionWindow(2Months)已開卡、信用卡狀態為‘正常’或‘掛停’,半年內有交易、信用評等不為M3~M7…CCAttribute,Transaction,Payment/Bill,…Churn,Non-churnScoringDate>=5/106月底主卡人名下所有有效信用卡均流失(6月底‘剪卡’or5月底‘掛停’&6月底‘掛停’)模型建置架構
ExploreCreditCardChurnModel基本屬性回應狀況和客戶接觸情形行銷活動類別客戶抱怨紀錄客戶詢問紀錄預約額度一般消費金額預借現金金額消費次數預借現金次數消費間隔期消費類別消費特店類別最後交易日消費地區主動消費金額(一般+欲借)信用卡往來期間持有卡別種類持有卡別等級持有卡片數信用額度信用額度調整卡片申請來源分行別開卡註記是否使用消費簡訊信用卡貢獻度卡片有效日是否更換卡片是否曾掛失卡片是否需繳年費繳年費期限應繳金額付款金額未付金額循環利息繳款狀況繳款評等付款比例額度使用比例繳款方式繳款行庫別卡人等級是否有繳年費疑似餘額代償性別年齡星座年收入教育程度職業位階帳寄地址婚姻狀態E-mail居住地址客戶等級集團貢獻度銀行貢獻度持有集團產品持有銀行產品集團往來期間銀行往來期間員工帳單/付款狀況卡片狀況消費行為行銷活動/客服接觸情形已分析不顯著/不適用變數
新增加變數已分析顯著變數
Model最近六個月無主動交易信用卡往來期間為1~1.5年消費限額未調整最近六個月最常之卡人等級為C最近六個月無應繳帳單金額持有JCB卡信用卡貢獻度<=60卡片來源為DirectSale
(0.08%,0.602)
Access分析客戶群人数(1,156,109),依可能剪卡的分数由高至低排序效益:没有模型的情况下,HitRate为1.68%;前5000名单有达10倍以上的效益;前10,000个名单有8倍的效益HitRateHitRate=#Churn/#NameList前5,000个名单的HitRate为17%前10,000个名单的HitRate为13%
Define“Whatourcustomershave”+“Whotheyare”
DeriveGender,Age,Tenure,Frequency客户生态细分
SegmentSavingSecCCMortgage13%2%72%84%CC9%TD4%85%SecTD4%StopStopStopStop100%5%8%
Profile
Assess0%0.5%1.0%1.5%2.0%2.5%3.0%3.5%4.0%0150000300000450000600000750000900000BalanceResrate理财精英平均年龄41岁往来期间在6年以上平均余额为50万持有产品数最高年轻拼搏族平均年龄30岁往来期间在5年以下交易频率最低平均余额最低事业有成平均年龄53岁往来期间在10年以上交易最为频繁平均余额最高股票族只持有证券帐户平均年龄33岁往来期间在5年以下都会区中南部Target:2,000TakeRate: Overall2% Segment:4%Saving=$750,000=$15*100,000-$15*50,000信用卡卡戶响应特定保险行销客戶回應模型目的提升交叉销售的成功率预测客戶响应的可能性过去的经验响应率~30%成本~150万利润~260万建模后40%的成本60%的利润回應客戶比率客户响应模型
Rightchannelforrightcustomer响应分数在前20%的客户其响应率较过去高约2~3倍可考虑优先电话行销响应分数次高的客户(前20%~40%)其响应率较过去高约2倍行销渠道或沟通过程考虑略有不同该区块客户最为顽强,所需行销effort最高,考虑先寄DM行销总经济成效预估:3倍
Define
Derive消费行为基本属性帳单
/付款狀況
Gender*Age*ZIP/GeographicIndustryEducationPromotionCardTypeCreditLine
TenureCashAdvanceTransactionTypeMerchantTypeTransaction#Transaction$
Payment/MinPayUnpaidExpenditure(尚欠消费款)RevolvingInterestRevolvingRate%ofC/LUsageCustomerDelinquencyModelDataWarehouse预测信用卡客户延滞行为
Segment
Assess平均每个月6%的延滞率,1%的呆帐率前20,000延滞机率最高的客户名单,其中65%下个月确实会延滞若针对这些客户做一些控管或预防措施,每年约可减少7亿呆帐议程数据挖掘概述数据挖掘业务案例数据挖掘概念与常用技术数据挖掘软件与架构数据挖掘常见软件TeredataWarehouseMiner架构特点数据挖掘实施与应用挖掘过程:有效的实施方法论应用过程:筹划和执行系统支撑:有效的IT系统成功的关键DataMiningisforpoweruserstofollowaprovenmethodologytodiscoveraction-orientedinsightsfromdetailoperationsdatatoimprovebusiness.数据挖掘是分析专家使用已验证的方法在经营数据中开掘可采取行动的改善企业的洞察力。什么是数据挖掘?数据挖掘:多学科的融合数据挖掘数据库技术统计学其它学科信息科学机器学习可视化从海量的数据库中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程 -Fayyad,PiatetskyShapiror1996假设干种术语:数据挖掘、数据库中的知识发现〔KDD〕,知识抽取,数据/模式分析,数据考古,数据捕捞,商业智能等最常用的术语是“数据挖掘〞和“知识发现〞数据挖掘:流行于统计界〔最早出现于统计文献中〕、数据分析、数据库和管理信息系统界知识发现:主要流行于人工智能和机器学习界。数据挖掘潜在应用数据库分析和决策支持市场分析和管理目标营销,客户关系管理,购物篮分析,交叉销售,市场分群、客户保持欺诈检测与管理其它应用文本挖掘〔新闻组,电子邮件,文档〕和Web分析智能询问解答(QA)系统市场分析和管理(1)分析的数据源在哪里信用卡交易,积分卡,折扣优惠券,客户抱怨,以及〔公众〕生活方式研究目标营销发现具有相同特征的客户群模型:兴趣,收入水平,消费习惯等判别客户的序列购置模式从单身账户到共有账户的转变:结婚交叉销售分析产品销售之间的关联基于关联信息而进行的预测市场分析和管理(2)构造客户特征客户如何选择和使用我们的产品和效劳?识别出客户需求识别出适合不同客户的最正确产品通过预测来发现吸引新客户的因素提供综合信息各种各样的多维综合报表统计上的综合信息〔数据的集中趋势和变化〕欺诈检测和管理(1)应用广泛用于健康卫生,零售,信用卡效劳,电信〔卡欺诈〕等行业方法使用历史数据来构造欺诈行为模型,同时利用数据挖掘来辅助识别出类似案例例如汽车保险:检测出那些伪造事故来骗取保险金的人群洗钱:检测可疑的金钱交易〔美国财政部的金融犯罪执行网络〕医疗保险:检测出职业病人欺诈检测和管理(2)检测出不必要的医疗处理澳大利亚医疗保险委员会查出在许多案例中病人都要求blanketscreeningtests(每年节省一百万澳元)。检测欺诈通话模型:对端号码,通话时长,每天〔周〕通话次数。分析那些偏离预期的通话模式。英国电信检测出频繁进行集团内部通话〔特别是用通话〕的一些犯罪集团,成功防止了数百万美元的欺诈。零售分析家估计大约38%的零售额减少是由于不老实的员工造成的其它应用体育IBMAdvancedScout分析了NBA比赛的统计数据〔阻攻,助攻,犯规等),帮助纽约尼克斯队和迈阿密热队提高竞争优势天文学JPL和Palomar天文台借助数据挖掘技术发现了22颗类星体因特网冲浪辅助IBMSurf-Aid利用数据挖掘算法来分析与销售有关的Web访问日志,发现用户的偏好和行为,分析电子商务的有效性,改善网站的结构等客户为中心,市场为导向客户获取客户保有交叉销售客户提升提升销售客户迁移Fraud常见的业务问题业务目标 模型------------------------------------------- ----------------------钱包份额/争取新客户(WalletShare/Acquisition)预测客户购置新产品的倾向 Cross-SellResponseModel预测客户扩展效劳用量的倾向 Up-sellResponseModel预测客户升级效劳的倾向 UpscaleResponseModel客户挽留及保育(Retention)预测哪些客户会终止效劳的使用 ChurnsentrySolution改善挽留行动的效率 ResponseModel欺诈/拖欠侦测(Fraud/Delinquency)预测客户拖欠账单支付的倾向 PropensitytoDelinquent预测拖欠客户对催缴的响应 PropensitytoCollect欺诈侦测及管理 FraudsentrySolution根底/知识(Infrastructure/Knowledge)了解客户购置不同产品的情况 ProductAffinity评估客户对运营商的利润奉献度 ValueScore评估客户的价格敏感度 PriceSensitivityProfiling预测客户称为高价值客户的倾向 PropensitytobeVIP客户信用度评估 CreditScoring/CreditModel客户分群 Psycho-demographicProfiling预测营收变化趋势 RevenueForecast预测客户的效劳使用量变化趋势 UsageForecast常用的技术业务目标 分析方法/技术------------------------------------------- ----------------------钱包份额/争取新客户(WalletShare/Acquisition)预测客户购置新产品的倾向 决策树/对数回归预测客户扩展效劳用量的倾向 决策树/对数回归预测客户升级效劳的倾向 决策树/对数回归客户挽留及保育(Retention)预测哪些客户会终止效劳的使用 决策树/对数回归改善挽留行动的效率 描述型分析/响应模型欺诈/拖欠侦测(Fraud/Delinquency)预测客户拖欠账单支付的倾向 对数回归预测拖欠客户对催缴的响应 决策树欺诈侦测及管理 规那么归纳根底/知识(Infrastructure/Knowledge)了解客户购置不同产品的情况 关联规那么评估客户对运营商的利润奉献度 ABC本钱核算评估客户的价格敏感度 描述型分析/聚类预测客户称为高价值客户的倾向 对数回归客户信用度评估 描述型分析客户分群 聚类分析预测营收变化趋势 线性回归预测客户的效劳使用量变化趋势 线性回归常用的数据挖掘技术数据挖掘分类一般功能描述型数据挖掘预测型数据挖掘不同角度,不同分类挖掘的数据库类型挖掘的知识类型所用的技术应用的领域数据挖掘分类数据挖掘描述预测统计回归关联分析决策树可视化聚类分析时序分析特征分析神经网络分类曾经欠费租期3到4个月月平均不同受话号码数<=40曾经投诉过无有是非话费下降至1/3是非Etc.是77%流失是非非Etc.Etc.Etc.Etc.预测 根据过去的数据预测将来要发生什么问题描述:预测客户流失可能性结果描述:决策树决策数模型
根本假设:近朱者赤,近墨者黑KnowncreditcardholderMostlikelytohavecreditcard决策树模型(Decisiontreemodel)依赖变量(因变量)独立变量(自变量)量化两个连续变量之间的关系的统计技术回归线性回归Logistic回归拟合一条穿过数据的线,线上的点使对应数据点的方差最小……线性回归与线形回归相似,它的依赖变量(因变量)不是连续的,而是离散的Logistic回归Log(p/(1-p))=4.9+0.911*收入逻辑回归模型(Logisticregression)系数绝对值越大,对目标(欠款)影响力越显重要Pr(Delinqent)=exp(Logit_X)/(1+exp(Logit_X))Logit_X=-0.68
+-3.81*活存余额总额
+-1.45*信卡信用額度
+1.07*信卡上期結欠消費款
+-1.22*信卡卡数
+-0.75*持有产品类別数
+0.32*是否为男性
+-0.29*是否为台北市分行
+-0.42*电子基金下单註記
+0.24*是否为个人用途
+0.46*近6月平均客戶收益金额
+-0.50*是否启用网路
+0.48*活存帳戶数
+0.57*是否非贵宾理财戶
+0.30*信贷总期数
+1.01*是否为员工PositiveNegative描述聚类物以类聚,人以群分无指导学习不同类间的个体相似度尽可能大,不同类之间的尽可能小主要聚类分析方法分类
划分的方法层次的方法基于密度的方法基于网格的方法基于模型的方法ShortDarkHair,SmilingWorkinConsultingMaleswithnoJacketGlassesSuitsK-均值算法X1X2Seed1Seed2Seed3任意选择k个对象作为初始的类中心;循环:根据类中对象的平均值,将每个对象〔重新〕赋给最类似的类更新类的平均值,即计算每个类中对象的平均值;终止:类中心不再发生变化聚类X1X2Seed1Seed2Seed3K-均值算法X1X2Seed1Seed2Seed3经过一次迭代客户分群(Clustering)总交易金额黄金客户
(4%)消费总金额很高
大额透支
平均透支利息总额高经常异地消费休眠客户
(60%)较少交易绝不透支交易次数潜力客户
(16%)单笔交易金额高交易次数不多极少取现存现还款透支消费工资户
(8%)大额转入经常取现无透支消费存取现户
(8%)经常取现经常存现还款交易较多单笔交易金额高有异地交易转出户
(4%)大额转出少量消费“啤酒与尿布〞1981年NCR为Wal-Mart超市集团建立数据仓库,目前容量超过130TB;利用数据仓库,Wal-Mart分析哪些商品顾客最有希望一起购置:“啤酒与尿布〞;关联规那么问题描述:如何决定超市中商品的摆放来增加销售额结果描述:可视化关联规那么age(X,“20..29〞)^income(X,“20..29K〞)→buys(X,“PC〞)[support=2%,confidence=60%]关联规那么-购物车RuleADCAACB&CDSupport2/52/52/51/5Confidence2/32/42/31/3ABCACDBCDADEBCE数据挖掘分类的多维视图挖掘的数据库类型关系的、事务的、面向对象的、对象-关系的、空间的、时间序列的、文本的、多媒体的,WWW,等等挖掘的知识类型特征、区分、关联、分类、聚类、趋势和演化分析、孤立点、偏差分析、类似性分析等多重抽象层次的知识发现所用的技术面向数据库,数据仓库(OLAP),机器学习,统计学,可视化,神经网络,等等应用领域零售,电信,银行,欺诈分析,DNA挖掘,股票证券,Web挖掘,Web日志分析,等等议程数据挖掘概述数据挖掘业务案例数据挖掘概念与常用技术数据挖掘软件与架构数据挖掘常见软件TeredataWarehouseMiner架构特点数据挖掘实施与应用挖掘过程:有效的实施方法论应用过程:筹划和执行系统支撑:有效的IT系统成功的关键数据挖掘工具-功能SASEnterpriseMiner在挖掘功能的广度和深度上占据绝对领先地位,No.1必须在SAS环境下构建挖掘根底(数据文件,处理结果,挖掘过程)数据迁移问题(影响扩展能力,数据冗余,数据管理)试图通过图形界面改善易用性,但并未简化挖掘过程通过ODBC和CLI(SAS/Access)访问TeradataSPSSClementine极佳的易用性(可视化开发环境)侧重于挖掘自动化和模型发布能力功能的广度和深度一般(决策树,神经网络和聚类;少量数据探索和转换功能,V9.0版本推进In-DbsMining)通过ODBC访问TeradataTeradataWarehouseMinerIn-DbsMining先锋,完备稳定的数据探索和转换功能防止数据迁移带来的空间时间开销以及数据管理问题数据挖掘工具-特性TeradataWarehouseMiner充分利用Teradata的并行处理能力,性能极佳防止数据迁移扩展能力强,随Teradata线性扩展SASEnterpriseMiner处理前需将数据保存到SAS数据文件,扩展能力受限相对原始和有限的并行处理能力,性能受限在小数据样本(小于10~50GB)上的最正确选择SPSSClementine声称支持In-DbsMining,但仅限有少量数据预处理功能其它挖掘分析功能仍需在应用效劳器上运行(需要数据抽取)适用于小数据样本TeradataWarehouseMiner的开展背景1997年数据挖掘实验室成立NCR专业效劳人员具备多年数据挖掘应用实施的经验金融业零售业电信业开发团队拥有多年数据挖掘产品的设计开发经验ClementineOEMSAS“AnalyticTemplates〞CRISP-DM数据挖掘方法论携手合作产生了In-dbs(场内挖掘)挖掘的先锋——TeradataWarehouseMiner议程数据挖掘概述数据挖掘业务案例数据挖掘概念与常用技术数据挖掘软件与架构数据挖掘常见软件TeredataWarehouseMiner架构特点数据挖掘实施与应用挖掘过程:有效的实施方法论应用过程:筹划和执行系统支撑:有效的IT系统成功的关键1997年,数据挖掘实验室已经开发和验证了数据挖掘的方法论:当时使用第三方分析工具SAS/SPSS/QuadstoneDataPre-processing
DescriptiveStatisticsDataTransformationTeradataWarehouseMiner
MultivariateStatisticsMachineLearningAlgorithmsAnalyticModelingModelDeployment
ScoringLifecycleMaintenanceTeradataWarehouseMinerBusinessIssuesModelDeploymentDataPre-ProcessingModelCreation
KnowledgeTransferProjectManagementArchitectureandTechnologyPreparationTeradataWarehouseMinerTeradataWarehouseMiner诞生的目标TeraMinerStats1.0and2.01998-1999
描述统计/数据转换/矩阵生成与第三方分析软件的互补TeradataWarehouseMiner3.x2000-2003分析型算法&评分与第三方分析软件各有优势TeradataWarehouseMiner4.02004形成完备的分析工具包TeradataProfilerTeradataADSGeneratorTeradataWarehouseMinerTeradataWarehouseMiner版本开展模型发布TeradataWarehouseMiner产品线分析型模型的建立、测试及校验数据预处理理解业务目标理解源数据数据特征刻画及探索功能:
可视化描述性统计数据探索器分析数据集创立功能:转换矩阵功能重组派生变量分析型模型开发功能:
分析型算法高级统计功能分析型模型发布功能:
模型转换为SQL
模型执行TeradataModelManager目标:运行企业内的业务人员访问和使用模型目标用户:业务人员和挖掘专员TeradataProfiler
目标:数据探索,数据挖掘,数据质量评估目标用户:DBA,数据架构师,挖掘专员,质量分析师TeradataADSGenerator
目标:简化分析数据集的创建,用于建立分析型模型.同时包含TeradataProfiler的功能目标用户:挖掘专员(支持SAS及其它挖掘工具).TeradataWarehouseMiner目标:建立分析型模型.同时包含TeradataADSGenerator的功能目标用户:挖掘专员/分析建模人员单变量统计Count/Minimum/Maximum/MeanStandardDeviationStandardMeanErrorVarianceCoefficientofVarianceSkewnessKurtosisUncorrectedSumofSquaresCorrectedSumofSquaresModes根本数据质量分析DataTypesCount#NULLValues#PositiveValues#NegativesValues#Zeros#Blanks#UniqueValues数据分布分析FrequencyofDiscreteVariablesCross-tabulationPair-wiseHistogramsofContinuousVariablesEvenWidthUserDefinedWidths/BoundariesQuantile“AdaptiveBinning〞覆盖分析Index/KeyColumnConsistency散点图分析Continuousplotin2/3-D分位&分级Top10/Bottom10PercentilesDeciles/Quartiles/TertilesTop5/Bottom5RanksandValuesTeradataWarehouseMiner4.0功能
TeradataProfiler相关分析Quicklyviewcorrelationsacrossvariables数据探索器PerformsbasicstatisticalanalysisonasetoftablesandselectedcolumnswithinanyTeradatadatabaseIntelligentdecisionsaboutwhichfunctionstoperformValuesAnalysis-EverycolumninthesetofinputtablesUnivariateStatisticalAnalysis-EverycolumnofnumericordatetypeFrequencyAnalysis-EverycolumnthathaslessthanorequaltoanumberofuniquevaluesHistogramAnalysis-Everynumericordatetypecolumnthathasmorethananumberofuniquevalues数据可视化2&3DHistograms2&3DFrequencyBarChartsValuesBarCharts&CircularGraphsBoxandWhiskerPlotsScatterPlotsIntegratedDataExplorerGraphicsTeradataWarehouseMiner4.0功能
TeradataProfiler变量生成AggregationsCount,Average,Sumetc.WindowedAggregates/OLAPRank,Quantililes,MovingSums,etc.Arithmeticoperators/functions:+,-,*,/,MOD,**ABS,EXP,LN,LOG,SQRT,etc.Trigonometric&HyperbolicfunctionsCOS,SIN,TAN,ACOS,etc.COSH,SINH,TANH,ACOSH,etc.CASEexpressionsandNULL
operatorsvaluedandsearchedtypesNULLIF,COALESCEComparisonoperators=,>,<,<>,<=,>=LogicalpredicatesBETWEEN…AND…,IN(expressionlist),etc.Calendarfunctions:
day_of_week,day_of_calendar,quarter_of_year,etc.StringfunctionsLOWER,UPPER,TRIM,||,etc.DataTypeconversionSQLpredicatesTRUE,FALSE,NULL变量维度划分SimpleDimensionsSpecificvaluesRangeofvaluesCombinedDimensionsHierarchicalDimensionsSysCalendar,etc.TeradataWarehouseMiner4.0功能
TeradataADSGenerator(includesProfiler)变量变换BinCodingDesignCodingRecodingRescalingDeriveHooktoVariableCreationStatisticalTransformationsZ-ScoreSigmoidNULLValueReplacementLiteralvalueMeanvalueMedianvalueModeImputedvalues变量重组Random(Stratified)SamplePartitioningDenormalize/PivotingJoining构造ADSCreateFinalADSCreateMetadataforRefresh矩阵函数CorrelationCovarianceSSCP/CorrectedSSCPTeradataWarehouseMiner4.0功能
TeradataADSGenerator(includesProfiler)Normality/EqualityTestsKolmogorov-SmirnovLillieforsTestShapiro-WilkD’Agostino&PearsonOmnibusSmirnov分析型算法(MVS)LinearRegressionModelCoefficientsandStatisticsStep-WiseLinearRegressionFactorAnalysisPCA,PAF,MLFOrthogonal/ObliqueRotationsLogisticRegressionModelCoefficientsandStatisticsStep-WiseLogisticRegressionSuccessandLiftTables统计检验BinomialTestsBinomialSignRankTestsMann-Whitney(Kruskal-Wallis)WilcoxonFriedmanContingencyTableTestsChi-squareMedianParametricTestsF(TwoWay)UnequalSampleSizeF(N-Way)EqualSampleSizeTTeradataWarehouseMiner
CompleteTeradataWarehouseMinerPackage可视化RegressionPlotsScreePlotsLiftChartsFactorPatternChartGraphicalTreeBrowserInteractivePruningTextRulesDistributionsClusterSizes/Distance/MeasuresAssociationColorMap分析型算法(续)DecisionTree/RuleInductionEntropy(i.e.C4.5/C5.0)Gini/Regression(i.e.CART)ChaidTreesClusteringK-Means/NearestNeighborExpectation–MaximizationAssociation/SequenceAnalysisSupport/Confidence/Lift/Z-Score模型评分&评估DecisionTreesClusteringLinear/LogisticRegressionFactorAnalysisTeradataWarehouseMiner
CompleteTeradataWarehouseMinerPackage数据仓库与数据挖掘传统方法大量的数据转移工作,耗时,易出错;由于数据转移、存储和性能等原因,难以引入更多的详细数据;数据管理令分析人员厌烦;TWM场内挖掘的优势数据源Vs.TWM场内挖掘方法在Teradata中挖掘,无需数据转移;数据管理由Teradata完成,省时省力;充分利用Teradata的平行处理能力和扩展能力,挖掘的性能随着Teradata数据库性能的扩展而扩展!可以在全部细节数据上挖掘!TeradataDataMining&OLAPSQLextensionsTeradataWarehouseMinerSQL企业级数据挖掘!数据冗余数据转移数据管理困难没有详细数据开放式数据挖掘策略TeradataDataWarehouseScoredDataSetDataSampleAnalyticDataSet数据预处理模型发布建立挖掘模型AnalyticMetadata使用TeradataWarehouseMiner的处理流程“抽取”/定制SQL(ADS)AnalyticDataSetDataSample“应用”分析模型ScoredDataSet“加载”评分数据TeradataDataWarehouseCRMRetentionCampaignTargetCustomerswithAttritionScore>70理解您的数据数据准备“建立”分析模型“评估”分析模型Cust_idProbScore20624340.726120644230.224520516910.8781………20178910.9179Role
ExampleAnalysisLevel Cust_idDependentVariable CloseFlagIndep.1Candidate #ofTransIndep.2Candidate $AmtQ1Indep.3Candidate $AmtQ2… …Indep.NCandidate $AvgBal重新生成/“抽取”ADSRole
ExampleAnalysisLevel Cust_idDependentVariable CloseFlagIndep.3Chosen $AmtQ2Indep.9Chosen $IRA/MonthIndep.15Chosen #Children… …Indep.NChosen RegionIDAppliedADS使用第三方分析工具的处理流程TeradataADSGenerator
数据与分析之间的桥梁EnterpriseDataWarehouseCostofDevelopmentETLresourcestomovedataNetworktrafficDataandservermanagementPotentialforhumanerror优化分析环境降低分析应用开发的开销更快提交分析成果TeradataADSGenerator数据准备在数据挖掘过程中的比重数据挖掘时间分配NCRTWM数据挖掘时间分配EffortDistribution趋近于TeradataADSGeneratorMakeithappen.TeradataWarehouseMiner常用的数据挖掘功能继承Teradata数据库的扩展性享受Teradata数据库轻松的数据管理开放式数据挖掘策略:工具随你所好更专注的数据分析师强烈建议:TeradataWarehouseMiner是必选项!议程数据挖掘概述数据挖掘业务案例数据挖掘概念与常用技术数据挖掘软件与架构数据挖掘常见软件TeredataWarehouseMiner架构特点数据挖掘实施与应用挖掘过程:有效的实施方法论应用过程:筹划和执行系统支撑:有效的IT系统成功的关键数据挖掘方法论ProjectManagementKnowledgeTransferBusinessIssuesArchitectureandTechnologyPreparationDataPreparationAnalyticalModelingKnowledgeDeliveryandDeploymentNCR数据挖掘方法论CRISP-DMDataMiningMethodPeteChapman(NCR),JulianClinton(SPSS),RandyKerber(NCR),ThomasKhabaza(SPSS),ThomasReinartz(DaimlerChrysler),ColinShearer(SPSS)andRüdigerWirth(DaimlerChrysler)NCR数据挖掘实验室1)2)数据仓库选择抽样模型评估验证建模数据探索
数据转换数据清洗
预处理确定&理解业务问题数据的后续处理知识预备建模持续的建模知识共享数据挖掘方法论ScopeBusinessProblem度量数称胜TeradataDataWarehouseExploreBusinessFactsinDB(EDA)望闻问切Model奇正之变,不可胜穷也Deploy工欲成其事,必先利其器CleanData谨防假做真时真亦假,无为有处有还无Select&Sample必也正名乎ScopeBusinessProblem度量数称胜数据挖掘方法论TeradataDataWarehouseSelect&Sample必也正名乎CleanData谨防假做真时真亦假,无为有处有还无ExploreBusinessFactsinDB(EDA)望闻问切Model奇正之变,不可胜穷也Deploy工欲成其事,必先利其器
定义业务问题及使用者对数据挖掘的需求
订定数据挖掘的信息环境订定数据挖掘的产出
定义分析基准(Base)定义分析资料时间结构2003-07-012003-06-012003-05-012003-04-012003-03-012003-02-012003-01-012002-12-012002-11-01AnalysisWindow(6Months)PredictionWindow(2Months)已开卡、信用卡状态为`正常'或`挂停',半年内有交易、信用评等不为M3~M7………..CCAttribute,Transaction,Payment/Bill,CustomerCare,…Churn,Non-churn
信用卡流失定义与分析范围6月底主卡人名下所有有效信用卡均流失〔6月底`剪卡'or5月底`挂停'&6月底`挂停')ScoringDate>=2003-05-10客户反响模型定义与分析范围分析客户群单位:至2001/11月底之主卡续卡持卡人Tenure>=4:该主卡持卡人与信用卡部往来期间超过四个月及以上不含员工户及公司户客户反响与否认义该客户在2001/12~2002/02间被行销的结果,且确实购置行销之火险定义为有反响(1),其余定义为未反响(0)业务问题来自哪里市场分析专家和业务专家的想法具体讲:企业的业务目标过去的或当前的市场活动及其效果企业的价值观产品、客户、效劳等开展方案其他困惑、目标、洞察业务报表业务问题定义的过程问题表述问题分析〔数据分析〕其他成功案例经验数据支持情况分析适合的建模方法分析适合的问题列表业务问题业务问题业务问题标准化的问题定义标准化的问题定义标准化的问题定义目标明确价值评估有效易于行动可借鉴、可重用优先级的问题列表需要答复的问题问题的业务表述〔问题、目标〕?涉及什么产品或效劳、什么客户群?曾经或现在是怎样解决的?解决的流程和结果怎样?支持的数据从哪里来,如何组织?哪些变量会是有关的?希望通过实施挖掘得到怎样的结果、该结果怎样明确表述?将怎样使用实施挖掘得到的结果〔发布、行动〕?将如何评估数据挖掘的应用效果?ScopeBusinessProblem度量数称胜数据挖掘方法论TeradataDataWarehouseSelect&Sample必也正名乎CleanData谨防假做真时真亦假,无为有处有还无ExploreBusinessFactsinDB(EDA)望闻问切Model奇正之变,不可胜穷也Deploy工欲成其事,必先利其器资料品质的好坏对模型影响甚巨资料的量—业务部门对行销活动的相关信息纪录不完整,故无法取得可供分析的资料资料的质—空值或不合理值过多80%為空值Qualifyingdatatakes60-80%projecteffort.0及負值均為不合理值ScopeBusinessProblem度量数称胜TeradataDataWarehouseSelect&Sample必也正名乎CleanData谨防假做真时真亦假,无为有处有还无ExploreBusinessFactsinDB(EDA)望闻问切Model奇正之变,不可胜穷也Deploy工欲成其事,必先利其器从运行经验收集“为什么(因素)〞或征状从数据仓库观察是不是看得到这些因素或征状分隔变量,为建模做准备数据挖掘方法论
核查目前的数据源,探索在每个待选的自变量和目标变量之间是否存在关系。数值分析是全面理解数据的第一步,随之进行的统计分析便于更好地了解有关数据的分布。包括:数据质量检查数据的必要整理通过图形化呈现工具和其他的统计方法理解数据分析待选自变量和目标变量之间的关系数据转换以辅助数据的分析数据派生为建立模型做准备整理和呈现数据探索的发现探索型数据分析探索式资料分析CreditCardAttritionModel探索剪卡客户行为之资料来源根本属性反响状况和客户接触情形行销活动类别客户抱怨纪录客户询问纪录消费/预借现金金额消费/预借现金类别消费/预借现金特店类别最后交易日消费地区往来期间发卡年度/专案持有卡别持有卡片数信用额度卡片申请来源帐上循环金额可用额度分行别开卡注记卡片评等等级预约额度自动扣缴帐款是否使用消费简讯信用卡奉献度应缴金额付款金额未付金额循环利息缴款状况缴款评等付款比例额度使用比例缴款方式性别年龄星座年收入教育程度职业/位阶帐寄地址居住地址持有产品数婚姻状态E-mail客户等级集团奉献度帐单/付款状况卡片状况消费行为行销活动/客服接触情形客户持有有效信用卡中,最早发卡日距离现在
之期间续卡的客户中,收到续卡多久会剪卡疑似被他行BT客户分析:使用循环息2个月以
上,当月以汇款的方式,全额缴清帐款由普/金/白金卡免收年费之条件,分析其比例
及剪卡情形交易类分析:可区分为'31'客户主动消费
,'51'预借现金,其他为手续费、年费
及循环息等针对一般消费+预借现金的次数及金额进行析针对往来期间六个月以上的卡户分析其交易
次数与交易金额增减趋势分析客户缴款行为时,区分为无消费、有消费
全额缴清及未全额缴清针对疑似被他行余额代偿的卡户分析其缴清帐
款至剪卡间隔期间探索式资料分析—根本属性女性较男性剪卡率高—女性用户较多,且剪卡率高年龄大剪卡率低—30岁以下的年轻用户剪卡率较高申请时年收入越高剪卡率越低—年收入60万以下的客户剪卡率较高申请时教育程度越高剪卡率越低—大专以下的客户剪卡率较高申请时职业位阶高剪卡率低—主管级客户较职员,公务员剪卡率低申请时已婚客户剪卡率较低帐寄地址于北中区的主卡人剪卡率低有E-Mail的客户剪卡率低模型喂入变量分析及选取流程帳單/付款狀況卡片狀況行銷活動/客服接觸情形性別年齡星座年收入教育程度職業帳寄地址應繳金額付款金額未付金額循環利息繳款狀況繳款評等付款比例往來期間持有卡別持有卡片數信用額度卡片申請來源帳上循環金額回應狀況和客戶接觸情
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度黑龙江省高校教师资格证之高等教育心理学考前冲刺模拟试卷A卷含答案
- 2024年专升本思政理论知识掌握试题及答案
- 基金从业资格考试常考陷阱试题及答案
- 解除劳动用工合同协议
- 解剖学试题及答案(颈部)
- 2025年木材加工、处理机械合作协议书
- 2025年购房合同协议模板一点
- 销售合作合同(2025年版)
- 二零二五年度智慧城市建设项目管理人员劳动合同
- 2025年度环境卫生整治与垃圾分类处理合同
- 乐理视唱练耳简明教程课后习题答案
- 如何培养幼儿的语言表达能力
- 2023年株洲市社区工作者招聘考试真题
- 汽车维修车间消防安全培训
- DL-T 5847-2021 配电系统电气装置安装工程施工质量检验及评定规程
- 第25课 等差数列的前n项和公式
- 幼儿园优质公开课:小班语言《小兔乖乖》课件
- 学用电风扇(课件)人教版劳动六年级上册
- 厂房、综合楼工程脚手架专项安全方案
- 视频拍摄技术标准要求
- 龙应台作品之《目送》公开课实用课件
评论
0/150
提交评论