数据挖掘概述课件_第1页
数据挖掘概述课件_第2页
数据挖掘概述课件_第3页
数据挖掘概述课件_第4页
数据挖掘概述课件_第5页
已阅读5页,还剩181页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

经济数据挖掘与分析第1章数据挖掘概述1王耀东上海财经大学经济数据挖掘与分析第1章数据挖掘概述1王耀东上海财经大学第1章数据挖掘概述21.1数据挖掘定义1.2数据挖掘的重要性及意义1.3数据挖掘功能1.4数据挖掘步骤和标准1.5数据挖掘常用方法1.5.1数据挖掘的对象1.5.2数据挖掘的常用方法第1章数据挖掘概述21.1数据挖掘定义1.1数据挖掘定义31.1.1数据挖掘的技术定义1.1.2数据挖掘的商业定义1.1数据挖掘定义31.1.1数据挖掘的技术定义1.2数据挖掘的重要性及意义41.2数据挖掘的重要性及意义41.3数据挖掘功能51.3数据挖掘功能51.4数据挖掘步骤和标准61.4.1数据挖掘步骤1.4.2数据挖掘需要的人员1.4数据挖掘步骤和标准61.4.1数据挖掘步骤1.5数据挖掘常用方法71.5.1数据挖掘的对象1.5.2数据挖掘的常用方法1.5数据挖掘常用方法71.5.1数据挖掘的对象第1章数据挖掘概述81.1数据挖掘定义1.1.1数据挖掘的技术定义1.1.2数据挖掘的商业定义1.2数据挖掘的重要性及意义1.3数据挖掘功能第1章数据挖掘概述81.1数据挖掘定义91.4数据挖掘步骤和标准

1.4.1数据挖掘步骤

1.4.2数据挖掘需要的人员1.5数据挖掘常用方法

1.5.1数据挖掘的对象

1.5.2数据挖掘的常用方法91.4数据挖掘步骤和标准§1.1前言10DataMining的汉语名称有:数据挖掘、数据淘金和数据采矿,还没有一个一致公认的译法,一般还是喜欢用英文"DataMining"这个词,今后我们常用DM这样的简写来表示,因为很难找到一个确切的汉语词汇与之对应。§1.1前言10DataMining的汉数据挖掘11

直观上说,数据挖掘就是要采掘出隐藏在原始数据中对决策有用的信息,为管理和研究服务。难怪很多人称之为数据淘金。数据挖掘11直观上说,数据挖掘就是要采掘出隐藏12

数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义。12数据挖掘的历史虽然较短,但从20世纪90年代以来《商业周刊》中文版1997年第7期发表的《在原始数据中寻找关系》一文13

关于数据搜索技术、数据仓库技术,但讲的内容确是数据挖掘在银行、保险、电信及超市等方面的具体应用问题,并给出了由于进行了数据挖掘而获得了巨大回报的具体案例,如MCI通讯公司,Wal-Mart百货公司等。这说明一开始数据挖掘就是作为一个新兴的现代技术出现的。《商业周刊》中文版1997年第7期发表的《在原始数据中寻找关数据挖掘14

信息技术的发展,企业、政府机构可以很方便地收集到大量的资料。海量数据中确实隐含着各种各样的信息,这些信息往往人们凭直觉与经验是难于发现的,而电脑的特点是不怕多、不怕烦,总是可以耐心地仔细处理,数据越多,对研究目标越了解,也就越容易发现有用的规律。数据挖掘正是在这种情况下,从一些个案的处理,克服了许多困难,利用了并行算法、人工智能、统计分析的技术,综合成一种新的、能快速处理大量、海量数据的技术。数据挖掘14信息技术的发展,企业、政府机构可以很数据挖掘15

信息技术的发展,企业、政府机构可以很方便地收集到大量的资料。海量数据中确实隐含着各种各样的信息,这些信息往往人们凭直觉与经验是难于发现的,而用电脑的就容易发现有用的规律。数据挖掘正是在这种情况下,从一些个案的处理,克服了许多困难,利用了并行算法、人工智能、统计分析的技术,综合成一种新的、能快速处理大量、海量数据的技术。数据挖掘15信息技术的发展,企业、政府机构可以§1.2什么是数据挖掘16

数据挖掘是目前IT行业发展最快的产业,并且许多不同领域的专家,如统计学家,金融学家等,对数据挖掘也产生了极大的兴趣。计算机技术,统计分析方法、各类算法及行业知识的结合推动了数据挖掘技术的快速发展。

§1.2什么是数据挖掘16数据挖掘是目前IHandetal(2000)的定义17DataMiningistheprocessofseekinginterestingofvaluableinformationinlargedatabases(数据挖掘是在庞大的数据库中找出有意义或有价值信息的方法)Handetal(2000),eds.Proc.ofthe8thACMSIGKDDInternationalWorkshoponDataMiningandKnowledgeDiscovery.Dallas:ACMPress.Handetal(2000)的定义17DBhavani(1999)的定义18DataMiningistheprocessofposingvariousqueriesandextractionsusefulinformation,patterns,andtrendsoftenpreviouslyunknownfromlargequantitiesofdatapossiblystoredindatabases.数据挖掘是从储存在数据库的大量数据资料中,设置盘问,提取以前未知的信息、模式和趋势的方法。Bhavani(1999)的定义18DatBhavani(1999)的定义19Theprocessofdiscoveringmeaningfulnewcorrelation,patterns,andtrendsbysiftingthroughlargeamountofstoreddata,usingpatternrecognitiontechnologiesandstatisticalandmathematicaltechniques

数据挖掘是从大量储存的数据中,利用模式识别、统计和数学的技术、筛选发现新的有意义的关系、模式和趋势的方法。Bhavani(1999)的定义19ThepKovalerchuk&EvgeniiVityaev的定义20Thesetechniquesarenowappliedtodiscoverhiddentrendsandpatternsinfinancialdatabases

这些技术现在用于发现潜藏在金融数据库中的趋势与模式Kovalerchuk&EvgeniiVityaev的BerryandLinoff(1997)21分析报告给你的是后见之明(hindsight);统计分析给你的是先机(foresight);数据挖掘给你识见(insight)。BerryandLinoff(1997)21分析报告给数据挖掘所要处理的问题22

在庞大的数据库中寻找出有价值的隐藏事件,加以分析,并将这些有意义的信息归纳成结构模式,作为企业在进行决策时之参考。数据挖掘看重的是数据库的再分析,包括模式的建构或是资料特征的判定,其主要目的就是要从数据库中发现先前关心却未曾获悉的有价值信息(Hand,1998)。事实上,数据挖掘并不只是一种技术或是一套软件,而是数种专业技术的综合应用。数据挖掘所要处理的问题22在庞大的数据库中寻找数据挖掘

找寻隐藏在资料中的信息23趋势(Trend)特征(Pattern)关系(Relationship)的过程,数据挖掘

找寻隐藏在资料中的信息23趋势(Trend)从资料中发掘信息或知识

(有人称为KnowledgeDiscoveryinDatabases,KDD)24“资料考古学”(DataArchaeology)“资料模式分析”(DataPatternAnalysis)“功能相依分析”(FunctionalDependencyAnalysis),从资料中发掘信息或知识

(有人称为KnowledgeDis数据挖掘25

目前已被许多研究人员视为结合数据库系统与机器学习技术的重要领域,许多产业界人士也认为此领域是一项能增加企业潜能的重要途径。这一领域蓬勃发展的原因是因为现代的企业已搜集了大量资料,包括市场、客户、供货商、竞争对手以及未来趋势等重要信息,但是数据的超载与无结构化,使得企业决策单位无法有效利用现存的资料,甚至会使决策行为产生混乱与误用。如果能通过数据挖掘技术,从巨量的数据库中,采掘出不同的信息与知识出来,作为决策支持之用,就一定能成为企业竞争的优势。数据挖掘25目前已被许多研究人员视为结合数据库数据挖掘的软件工具26

有些销售得还相当火爆,但是,对于这种数据挖掘的产品应该有一个正确的认识,就是它不是一个无所不能的魔法。它不是在那边监视你的资料的状况,然后告诉你说你的数据库里发生了某种特别的现象。也不是说有了数据挖掘的工具,就连不了解业务、不了解资料所代表的意义、或是不了解统计原理的人也可以做数据挖掘。数据挖掘所采掘出来的信息,也不是你可以不经确认,就可以照单全收应用到业务上的。

事实上,数据挖掘工具是用来帮助业务分析策画人员从资料中发掘出各种假设(Hypothesis),但是它并不帮你确认(Verify)这些假设,也不帮你判断这些假设对你是否真有价值。数据挖掘的软件工具26有些销售得还相当火爆,数据挖掘使用的分析方法27预测模型(回归、时间序列)数据库分割(DatabaseSegmentation)连接分析(LinkAnalysis)偏差侦测(DeviationDetection)数据挖掘使用的分析方法27预测模型(回归、时间序列)28

美国政府从第二次世界大战以前,就在人口普查以及军事方面使用过。近几年来,随着信息科技超乎想象的发展,新工具的出现。

28美国政府从第二次世界大战以前,就在人口普查新工具29关系式数据库对象导向数据库柔性计算理论(包括Neuralnetwork、Fuzzytheory、GeneticAlgorithms、RoughSet等)人工智能的应用(如知识工程、专家系统)网络通讯技术的发展新工具29关系式数据库30

使从资料堆中采掘宝藏,常常能超越归纳的关系,使数据挖掘成为企业智能的一部份。30使从资料堆中采掘宝藏,常常能超越归纳的关系31

数据挖掘和统计分析是有不同的。其实数据挖掘技术中的CART、CHAD或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,数据挖掘有相当大的比重是由高等统计学中的多变量分析所支撑。31数据挖掘和统计分析是有不同的。其实数据挖数据挖掘有下列几项特性32•目标是海量数据的处理,不是一般意义上的统计分析;

•分析的任务是找出特征、规律、联系,而不是验证;

•必须多种技术结合,而不只是统计分析。数据挖掘有下列几项特性32•目标是海量数据的处理,§1.3数据挖掘综合的技术领域33Databasesystems,DataWarehouses,OLAPParallelProcessingMachinelearningVisualizationStatisticalanddataanalysismethodsMathematicalprogrammingHighperformancecomputingDecisionsupport

§1.3数据挖掘综合的技术领域33Databasesy3434统计分析研究35

除了将许多的统计及数据分析方法用于数据挖掘以外还将统计方法和机器学习方法结合在一起,为数据挖掘发展更复杂的统计分析工具(现在,许多的统计分析软件都有市场化的数据挖掘工具产品)。机器学习的概念是让机器从已观测到的模式中学习各种各样的规则,然后再用这些规则来解决问题。数据挖掘通常面临的是海量的数据,所以,进行数据挖掘工作时,必须将数据库管理与机器学习技术结合起来应用。统计分析研究35除了将许多的统计及数据分析方计算机可视化技术36

利用计算机可视化技术,可以进行交互式数据挖掘工作。计算机可视化技术36利用计算机可视化技术,可以决策支持系统37

决策支持系统是一系列工具和过程,用来帮助管理者进行决策并指导他们进行管理。决策支持系统37决策支持系统是一系列工具和过数学规划和高性能计算方法38

利用数学规划和高性能计算方法发展的技术能使得数据挖掘算法顺利实现。当然,有了高性能的硬件会更好。数学规划和高性能计算方法38利用数学规划和高性数据挖掘的发展39

数据挖掘正在不断发展,别的技术也不时地对数据挖掘产生影响。数据挖掘的发展39数据挖掘正在不断发展,别的技新技术40协作代理分布式目标管理技术等。新技术40§1.4数据挖掘的功能41

•分类(classification)•估计与预测(EstimationandPrediction)•聚类(Clustering)•关联(Association)和序列发现

(SequenceDiscovery)•描述(Description),§1.4数据挖掘的功能41•分类(classif数据挖掘的功能42

这些功能大都可以用成熟的计量及统计分析方法来实现,数据挖掘的功能42这些功能大都可以用成熟的计1.分类(Classification)43

所谓分类,就是按照分析对象的属性,建立类组(class)。它根据一些变量的数值做计算,再依照结果作分类。(计算的结果最后会是几个少数离散值,然后按不同值分类,例如将一组资料分为“可能会响应”或是“可能不会响应”两类)。1.分类(Classification)43所分类44

分类常常被用来处理邮寄对象筛选的问题。我们会用一些已经分好类的资料来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。这些我们用来寻找特征的已分类资料可能是来自我们的现有的历史性资料,或是将一个完整数据库做部份取样,再经由实际的运作来测试分类44分类常常被用来处理邮寄对象筛选的问题。分类例子45

譬如利用一个大的邮寄对象数据库的部份取样来建立一个分类模型(ClassificationModel),以后再利用这个模型来对数据库的其它资料或是新的资料作预测。例如,将信用申请者的风险属性,区分为高度风险申请者,中度风险申请者及低度风险申请者。使用的技术有决策树(decisiontree),记忆基础推理(memory-basedreasoning)等。分类例子45譬如利用一个大的邮寄对象数据库的部2.聚类(clustering)46面对海量的资料首要的任务是将它合理地归类。如果已知要求,于是对资料可以设问,按回答的不同给予分类,这就是上面所说的分类。如果事先没有任何要求,象全国各地环境监测的资料,就只能按资料反映的情况,比较接近的划归一类,这种归类的方法称之为聚类(clustering)。2.聚类(clustering)46面对海量的资料聚类47

聚类分析的算法往往按距离的远近来归类,也可以按相似程度的大小来归类。只有合理地聚类后,每一类内就可以找出有关的特征,否则是难于发现真正有用的信息。聚类47聚类分析的算法往往按距离的远近来归类,聚类48

很自然,不同类型的问题可以给出不同的聚类原则,从而找到不同的特征。例如世界上的居民可以按民族归类,可以按肤色归类,可以按国家归类,也可以按宗教信仰归类,……这些不同的聚类原则自然会找出不同的特征。聚类48很自然,不同类型的问题可以给出不同3.估计与预测(EstimationandPrediction)49

估计(estimation)是根据已有的长期累积的资料来推测某一属性未知的真值。例如按照信用卡申请者的教育程度、行为和性别来推估其信用卡的消费量。使用的技巧包括统计方法中的相关分析、回归分析及人工神经网络方法。3.估计与预测(EstimationandPredict估计与预测50

预测(prediction)是根据对象属性之过去观察值来估计该属性未来之值。例如,由顾客过去的刷卡消费量来预测其未来刷卡消费量。使用的技巧包括回归分析、时间序列分析及人工神经网络方法等。估计与预测50预测(prediction)是回归51

回归是使用一系列的现有数值来预测一个定量指标的可能值。若将范围扩大亦可利用逻辑斯蒂回归(LogisticRegression)来预测定性变量,特别在广泛运用现代分析技术如人工神经网络或决策树理论等工具,预测的模式已不受传统线性的局限,在预测的功能上大大增加了选择工具的弹性与应用范围的广度。回归51回归是使用一系列的现有数值来预测一个定时间序列预测52

时间序列预测是用指标本身现有的历史数值来预测未来的数值。

Time-SeriesForecasting的特点在于它所分析的数值都与时间有关,可以处理有关时间的一些特性,譬如时间的阶段性(例如每个礼拜五个或六个工作天)、季节性、节日、以及其它的一些特别因素如过去与未来的关连性有多少等等。时间序列预测52时间序列预测是用指标本身现有的4.关联(Association)和序列发现(SequenceDiscovery)53

关联是要找出在某一事件或是资料中会同时出现的东西。关联(Association)主要是要找出下面这样的信息:如果A是某一事件的一部份,则B也出现在该事件中的机率有X%。4.关联(Association)和序列发现(Sequenc关联和序列发现54例如:如果一个顾客买了低脂乳酪,那么这个顾客同时也买低脂牛奶的机率是85%。确定那些相关对象应该放在一起。例如超市中相关之盥洗用品(牙刷、牙膏和牙线),放在同一间货架上。在客户行销系统上,此种功能可以用来确认交叉销售(cross-selling)的机会,以设计出吸引人的产品群组。

关联和序列发现54例如:如果一个顾客买了低脂乳酪,那么这个顾序列发现(SequenceDiscovery)与关联(Association)关系55

序列发现(SequenceDiscovery)与关联(Association)关系很密切,所不同的是序列发现(SequenceDiscovery)中相关的对象是以时间区分开来例如:如果做了X手术,则Y病菌在手术后感染的机率是45%。例如:如果A股票在某一天上涨12%,而且当天股市加权指数下降,则B股票在两天之内上涨的机率是68%)。

序列发现(SequenceDiscovery)与关联(As5.描述(Description)56

描述的功能是对复杂的数据库提供简要的描述。最简单的例子就是变量的均值和方差。这个功能的主要目的是为了在使用别的功能时对数据先有较好的了解。在建立任何模型之前先做数据描述的工作是十分重要的,因为这会告诉我们怎样去建模。5.描述(Description)56描述57

许多的商业数据挖掘软件包也提供有用的画图软件来帮你对数据作可视化处理。另外,经理们经常使用更加复杂的采掘工具(比如marketbasketanalysis,tree-basedmodels)来更好地理解数据和开发模型。描述57许多的商业数据挖掘软件包也提供有用的画实现数据挖掘的方法

一些统计分析方法58回归分析时间序列判别分析因子分析聚类分析实现数据挖掘的方法

一些统计分析方法58回归分析实现数据挖掘的方法59粗集(roughset)模糊逻辑(fuzzylogic)人工神经网络(NeuralNetwork)决策树理论(DecisionTrees)规则归纳法(RulesInduction)为基础的方法等实现数据挖掘的方法59粗集(roughset)表1.4.1数据挖掘功能及常用的工具举例功能采掘工具举例应用举例ClassificationNeuralnetworks,logisticregression,tree-basedmodels,decisiontree,memory-basedreasoningMailingdecisions,targetmarketing,creditdecisionsClusteringNeuralnetworks,multivariatestatistics,SegmentationEstimationandPredictionLinearandnonlinearregression,neuralnetworks,hazardmodels,collaborativefilteringCustomerscorning,salesforecasting,customerservice,variousmarketingdecisionmodels,AssociationMarketbasketanalysis,settheory,linkanalysisPromotiondesign,shelfspaceallocation,DescriptionTraditionalstatistics,marketbasketanalysis,tree-basedmodelsExploratorydataanalysis60表1.4.1数据挖掘功能及常用的工具举例功能采掘§1.5数据挖掘的应用

国际上数据挖掘应用的行业包括61金融业电信业网络相关行业零售商制造业医疗保健制药业§1.5数据挖掘的应用

国际上数据挖掘应用的行业包括61数据挖掘行业应用分类62

综合General

银行业保险与保健行业电信行业零售/行销行业ManufacturingandUtilities(制造业和公用事业)数据挖掘行业应用分类62综合General综合General63

客户分类(CustomerSegmentation)Retention/AcquisitionDatabasemarketingLifetimevalueofacustomerCrossselling综合General63银行业64BankingCreditscoringCreditCardFraudDetectionPortfolioAnalysisCashPlanning银行业64保险与保健行业65

Insurance&HealthCareClaimAnalysisFraudulentBehavior保险与保健行业65电信行业66TelecommunicationsCallBehaviourAnalysisChurnManagementFraudDetection电信行业66Telecommunications零售/行销行业67Retail/MarketingMarketBasketAnalysisCategoryManagementCreditScoring零售/行销行业67ManufacturingandUtilities(制造业和公用事业)68ProcessManagementDemandPatternsCapacityPlanningInventoryPlanningManufacturingandUtilities(制造表1.5.1数据挖掘应用领域分类表Applicationsof数据挖掘Customer-focusedOperations-focusedCustomer-focusedLife-timeValueMarket-BasketAnalysisProfiling&SegmentationRetentionTargetMarketAcquisitionKnowledgePortalCross-SellingCampaignManagementE-CommerceProfitabilityAnalysisPricingFraudDetectionRiskAssessmentPortfolioManagementEmployeeTurnoverCashManagementProductionEfficiencyNetworkPerformanceNetworkPerformanceManufacturingProcessesCombinatorialChemistryGeneticResearchEpidemiology69表1.5.1数据挖掘应用领域分类表Application数据挖掘应用

目前国外企业界把数据挖掘应用在许多领域70行销财务银行制造厂通讯数据挖掘应用

目前国外企业界把数据挖掘应用在许多领域70行销数据挖掘应用71

在产学合作下,发展出许多实用的系统,例如MDT、CoverstoryandSpotlight、NichWorkvisualizationsystem、LBS、FALCON、FAIS、NYNEX、TASA等等。数据挖掘应用71在产学合作下,发展出许多实用的应用在行销领域的例子72

经由记录客户的消费记录与采购路线,超级市场可以设计出更吸引顾客购买的环境。根据数据挖掘出来的信息,现在超级市场的厨房用品,是按照女性的视线高度来摆放。根据研究指出:美国妇女的视线高度是150公分左右,男性是163公分左右,而最舒适的视线角度是视线高度以下15度左右,所以最好的货品陈列位置是在130至135公分之间。应用在行销领域的例子72经由记录客户的消费记录73

在商业上,有许多特征是很难理解的,但若了解到这些信息,就会增加企业的竞争能力。73在商业上,有许多特征是很难理解的,但若了解一般行销部门较典型的问题74

除了已经购买的产品外,我的客户还可能购买哪些产品?我的最有价值客户中,他们的共通特征为何?当我的客户有可能转向其它竞争同业时,哪些变量能测量出这样的信息?一般行销部门较典型的问题74除了已经购买的产品外,我的客户国外企业界实际发展数据挖掘时,效能并不能预期,因为有许多因素影响着75不充足的教育训练不适当的支持工具资料的无效性过于丰富的模式(patterns)易变与具有时间性资料空间导向资料(spatiallyorienteddata)复杂的资料结构资料的可度量性(scalability)等。国外企业界实际发展数据挖掘时,效能并不能预期,因为有许多因素复杂性76这说明资料与知识的发掘是一项信息技术程度很高的工作,面对易变的环境,没有现成的模型马上可用,也不要期望按一定的计算程序即能成功。复杂性76这说明资料与知识的发掘是一项信息技术程度很高的工作潜在的因素77

我们要认识到一些潜在的因素资料取舍实体关系性数量多寡复杂性数据质量变迁专家意见潜在的因素77我们要认识到一些潜在的因素数据挖掘应用广泛78

数据挖掘在各领域的应用非常广泛,只要该产业拥有具分析价值的数据仓库或数据库,就可利用挖掘工具进行有目的的分析。数据挖掘应用广泛78数据挖掘在各领域的应用非常数据挖掘应用广泛

国外一般较常见的应用案例79零售业直销界制造业财务金融保险通讯业以及医疗服务数据挖掘应用广泛

国外一般较常见的应用案例79零售业数据挖掘的三个应用方式80CustomerProfilingTargetedMarketingMarket-BasketAnalysis。数据挖掘的三个应用方式80CustomerProfiling81即如何获得新顾客?我们希望找出客户的一些共同的特征,希望能藉此预测哪些人可能成为我们的客户,以帮助行销人员找到正确的行销对象。数据挖掘可以从现有客户资料中找出他们的特征,再利用这些特征到潜在客户数据库里去筛选出可能成为我们客户的名单,作为行销人员推销的对象。行销人员就可以针对这些名单寄发广告资料,既可以降低成本,又提高了行销的成功率。CustomerProfiling81即如何获得新顾客?Market-BasketAnalysis82主要是用来帮助零售业者了解客户的消费行为,即如何增加顾客的消费额?譬如哪些产品客户会一起购买,或是客户在买了某一样产品之后,在多长时间之内可能购买另一产品等等,利用关联性产品销售(cross-selling)和连贯性销售(Continuity-Selling)方法,来提高客户的终生价值(LiveTimeValue)。利用数据挖掘,零售业者可以更有效的决定进货量、库存量,以及在店里要如何摆设货品,同时也可以用来评估店里促销活动的成效。Market-BasketAnalysis82主要是用来帮客户关系管理83客户关系管理是数据挖掘的另一个常见的应用方式,即如何留住他们?我们可以由一些原本是我们的客户,后来却转向成为我们竞争对手的客户,分析他们的特征,再根据这些特征到现有客户资料中找出有可能转向的客户,然后公司必须设计一些方法将他们留住,因为毕竟找一个新客户的成本要比留住一个原有客户的成本要高出许多。客户关系管理83客户关系管理是数据挖掘的另一个常见的应用方式销售资料中挖掘顾客的消费习性84

在销售资料中挖掘顾客的消费习性,很容易由交易纪录找出顾客偏好的产品组合,还可找出流失顾客的特征,确定推出新产品的时机点,还可结合基本资料,并依品牌价值等级的高低来区分顾客,进而达到差异化行销的目的;制造业对数据挖掘的需求多运用在质量管理方面,由制造过程中找出影响产品品质最重要的因素,来提高作业流程的效率。销售资料中挖掘顾客的消费习性84在销售资料中挖数据挖掘应用85近来国外的电话公司、信用卡公司、保险公司、股票交易商、以及政府单位对于诈欺行为的侦查(FraudDetection)比较关注,这些行业每年因为诈欺行为而造成的损失都非常可观。数据挖掘可以从一些信用不良的客户资料中找出相似特征并预测可能的诈欺交易,从而达到减少损失的目的。数据挖掘应用85近来国外的电话公司、信用卡公司、保险公司、股数据挖掘应用86财务金融业可以利用数据挖掘来分析市场动向,并预测个别公司的营运以及股价走向。数据挖掘的另一个独特的用法是在医疗业,用来预测手术、用药的疗效、以及医院服务、管理上的效益提高。数据挖掘应用86财务金融业可以利用数据挖掘来分析市场动向,并数据挖掘的在国外别的方面运用的类型87

如果采用不同的价格策略,是否能增加市场占有率?让我们获利高的客户们有什么共同的特征?如何认定客户的信用风险状况?如何设计更好的保险产品来吸引客户,让客户满意?一个经纪人在一个星期中应该可以卖出多少共同基金?根据以往审核的资料,寻找核发信用卡的规则数据挖掘的在国外别的方面运用的类型87如果采用不同的价格数据挖掘的在国外别的方面运用的类型88在NBA球赛资料中,找出球员的强弱点从消费及缴费资料中,预警信用卡呆帐可能从通话记录资料中,预警盗打电话可能从宇宙飞船拍摄的影像资料,找寻星球上的火山星际星体分类数据挖掘的在国外别的方面运用的类型88在NBA球赛资料中,数据挖掘的软件89SPSSSPSSClementine3dbSASSASEnterpriseMiner

Statiatica数据挖掘的软件89SPSS本章的参考书目90邓纳姆著,郭崇慧田凤占靳晓明译,《数据挖掘教程》(世界著名计算机教材精选),清华大学出版社,2005年5月。(美)MehmedKantardzic,《数据挖掘》,清华大学出版社,2003年8月。(美)OliviaParrRud,《数据挖掘实践》,机械工业出版社,2003年9月。本章的参考书目90邓纳姆著,郭崇慧田凤占靳晓明译,《数据91Kimball,R.andRoss,M.,2002,Thedatawarehousetoolkit,Wiley.RobertNisbet,JohnElderIVandGaryMiner(2007),HandbookofStatisticalAnalysisandDataMiningApplications,Wiley-Interscience.91Kimball,R.andRoss,M.,20Journals92AppliedIntelligenceComputer

WorldCIOJournalHarvardBusinessReviewIEEETransactionsonSMCInternationalJournalofComputerApplicationsinTechnologyInternationalJournalofInformationManagementITSolutionJournalJournals92AppliedIntelligenceJournals93JournalofInformationTechnology

JournalofDataAnalysisJournalofDataScienceJournaloftheAmericanStatisticalAssociationJournaloftheRoyalStatisticalSocietySeriesBJournalofBusinessandEconomicsStatisticsJournals93JournalofInformati经济数据挖掘与分析第1章数据挖掘概述94王耀东上海财经大学经济数据挖掘与分析第1章数据挖掘概述1王耀东上海财经大学第1章数据挖掘概述951.1数据挖掘定义1.2数据挖掘的重要性及意义1.3数据挖掘功能1.4数据挖掘步骤和标准1.5数据挖掘常用方法1.5.1数据挖掘的对象1.5.2数据挖掘的常用方法第1章数据挖掘概述21.1数据挖掘定义1.1数据挖掘定义961.1.1数据挖掘的技术定义1.1.2数据挖掘的商业定义1.1数据挖掘定义31.1.1数据挖掘的技术定义1.2数据挖掘的重要性及意义971.2数据挖掘的重要性及意义41.3数据挖掘功能981.3数据挖掘功能51.4数据挖掘步骤和标准991.4.1数据挖掘步骤1.4.2数据挖掘需要的人员1.4数据挖掘步骤和标准61.4.1数据挖掘步骤1.5数据挖掘常用方法1001.5.1数据挖掘的对象1.5.2数据挖掘的常用方法1.5数据挖掘常用方法71.5.1数据挖掘的对象第1章数据挖掘概述1011.1数据挖掘定义1.1.1数据挖掘的技术定义1.1.2数据挖掘的商业定义1.2数据挖掘的重要性及意义1.3数据挖掘功能第1章数据挖掘概述81.1数据挖掘定义1021.4数据挖掘步骤和标准

1.4.1数据挖掘步骤

1.4.2数据挖掘需要的人员1.5数据挖掘常用方法

1.5.1数据挖掘的对象

1.5.2数据挖掘的常用方法91.4数据挖掘步骤和标准§1.1前言103DataMining的汉语名称有:数据挖掘、数据淘金和数据采矿,还没有一个一致公认的译法,一般还是喜欢用英文"DataMining"这个词,今后我们常用DM这样的简写来表示,因为很难找到一个确切的汉语词汇与之对应。§1.1前言10DataMining的汉数据挖掘104

直观上说,数据挖掘就是要采掘出隐藏在原始数据中对决策有用的信息,为管理和研究服务。难怪很多人称之为数据淘金。数据挖掘11直观上说,数据挖掘就是要采掘出隐藏105

数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义。12数据挖掘的历史虽然较短,但从20世纪90年代以来《商业周刊》中文版1997年第7期发表的《在原始数据中寻找关系》一文106

关于数据搜索技术、数据仓库技术,但讲的内容确是数据挖掘在银行、保险、电信及超市等方面的具体应用问题,并给出了由于进行了数据挖掘而获得了巨大回报的具体案例,如MCI通讯公司,Wal-Mart百货公司等。这说明一开始数据挖掘就是作为一个新兴的现代技术出现的。《商业周刊》中文版1997年第7期发表的《在原始数据中寻找关数据挖掘107

信息技术的发展,企业、政府机构可以很方便地收集到大量的资料。海量数据中确实隐含着各种各样的信息,这些信息往往人们凭直觉与经验是难于发现的,而电脑的特点是不怕多、不怕烦,总是可以耐心地仔细处理,数据越多,对研究目标越了解,也就越容易发现有用的规律。数据挖掘正是在这种情况下,从一些个案的处理,克服了许多困难,利用了并行算法、人工智能、统计分析的技术,综合成一种新的、能快速处理大量、海量数据的技术。数据挖掘14信息技术的发展,企业、政府机构可以很数据挖掘108

信息技术的发展,企业、政府机构可以很方便地收集到大量的资料。海量数据中确实隐含着各种各样的信息,这些信息往往人们凭直觉与经验是难于发现的,而用电脑的就容易发现有用的规律。数据挖掘正是在这种情况下,从一些个案的处理,克服了许多困难,利用了并行算法、人工智能、统计分析的技术,综合成一种新的、能快速处理大量、海量数据的技术。数据挖掘15信息技术的发展,企业、政府机构可以§1.2什么是数据挖掘109

数据挖掘是目前IT行业发展最快的产业,并且许多不同领域的专家,如统计学家,金融学家等,对数据挖掘也产生了极大的兴趣。计算机技术,统计分析方法、各类算法及行业知识的结合推动了数据挖掘技术的快速发展。

§1.2什么是数据挖掘16数据挖掘是目前IHandetal(2000)的定义110DataMiningistheprocessofseekinginterestingofvaluableinformationinlargedatabases(数据挖掘是在庞大的数据库中找出有意义或有价值信息的方法)Handetal(2000),eds.Proc.ofthe8thACMSIGKDDInternationalWorkshoponDataMiningandKnowledgeDiscovery.Dallas:ACMPress.Handetal(2000)的定义17DBhavani(1999)的定义111DataMiningistheprocessofposingvariousqueriesandextractionsusefulinformation,patterns,andtrendsoftenpreviouslyunknownfromlargequantitiesofdatapossiblystoredindatabases.数据挖掘是从储存在数据库的大量数据资料中,设置盘问,提取以前未知的信息、模式和趋势的方法。Bhavani(1999)的定义18DatBhavani(1999)的定义112Theprocessofdiscoveringmeaningfulnewcorrelation,patterns,andtrendsbysiftingthroughlargeamountofstoreddata,usingpatternrecognitiontechnologiesandstatisticalandmathematicaltechniques

数据挖掘是从大量储存的数据中,利用模式识别、统计和数学的技术、筛选发现新的有意义的关系、模式和趋势的方法。Bhavani(1999)的定义19ThepKovalerchuk&EvgeniiVityaev的定义113Thesetechniquesarenowappliedtodiscoverhiddentrendsandpatternsinfinancialdatabases

这些技术现在用于发现潜藏在金融数据库中的趋势与模式Kovalerchuk&EvgeniiVityaev的BerryandLinoff(1997)114分析报告给你的是后见之明(hindsight);统计分析给你的是先机(foresight);数据挖掘给你识见(insight)。BerryandLinoff(1997)21分析报告给数据挖掘所要处理的问题115

在庞大的数据库中寻找出有价值的隐藏事件,加以分析,并将这些有意义的信息归纳成结构模式,作为企业在进行决策时之参考。数据挖掘看重的是数据库的再分析,包括模式的建构或是资料特征的判定,其主要目的就是要从数据库中发现先前关心却未曾获悉的有价值信息(Hand,1998)。事实上,数据挖掘并不只是一种技术或是一套软件,而是数种专业技术的综合应用。数据挖掘所要处理的问题22在庞大的数据库中寻找数据挖掘

找寻隐藏在资料中的信息116趋势(Trend)特征(Pattern)关系(Relationship)的过程,数据挖掘

找寻隐藏在资料中的信息23趋势(Trend)从资料中发掘信息或知识

(有人称为KnowledgeDiscoveryinDatabases,KDD)117“资料考古学”(DataArchaeology)“资料模式分析”(DataPatternAnalysis)“功能相依分析”(FunctionalDependencyAnalysis),从资料中发掘信息或知识

(有人称为KnowledgeDis数据挖掘118

目前已被许多研究人员视为结合数据库系统与机器学习技术的重要领域,许多产业界人士也认为此领域是一项能增加企业潜能的重要途径。这一领域蓬勃发展的原因是因为现代的企业已搜集了大量资料,包括市场、客户、供货商、竞争对手以及未来趋势等重要信息,但是数据的超载与无结构化,使得企业决策单位无法有效利用现存的资料,甚至会使决策行为产生混乱与误用。如果能通过数据挖掘技术,从巨量的数据库中,采掘出不同的信息与知识出来,作为决策支持之用,就一定能成为企业竞争的优势。数据挖掘25目前已被许多研究人员视为结合数据库数据挖掘的软件工具119

有些销售得还相当火爆,但是,对于这种数据挖掘的产品应该有一个正确的认识,就是它不是一个无所不能的魔法。它不是在那边监视你的资料的状况,然后告诉你说你的数据库里发生了某种特别的现象。也不是说有了数据挖掘的工具,就连不了解业务、不了解资料所代表的意义、或是不了解统计原理的人也可以做数据挖掘。数据挖掘所采掘出来的信息,也不是你可以不经确认,就可以照单全收应用到业务上的。

事实上,数据挖掘工具是用来帮助业务分析策画人员从资料中发掘出各种假设(Hypothesis),但是它并不帮你确认(Verify)这些假设,也不帮你判断这些假设对你是否真有价值。数据挖掘的软件工具26有些销售得还相当火爆,数据挖掘使用的分析方法120预测模型(回归、时间序列)数据库分割(DatabaseSegmentation)连接分析(LinkAnalysis)偏差侦测(DeviationDetection)数据挖掘使用的分析方法27预测模型(回归、时间序列)121

美国政府从第二次世界大战以前,就在人口普查以及军事方面使用过。近几年来,随着信息科技超乎想象的发展,新工具的出现。

28美国政府从第二次世界大战以前,就在人口普查新工具122关系式数据库对象导向数据库柔性计算理论(包括Neuralnetwork、Fuzzytheory、GeneticAlgorithms、RoughSet等)人工智能的应用(如知识工程、专家系统)网络通讯技术的发展新工具29关系式数据库123

使从资料堆中采掘宝藏,常常能超越归纳的关系,使数据挖掘成为企业智能的一部份。30使从资料堆中采掘宝藏,常常能超越归纳的关系124

数据挖掘和统计分析是有不同的。其实数据挖掘技术中的CART、CHAD或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,数据挖掘有相当大的比重是由高等统计学中的多变量分析所支撑。31数据挖掘和统计分析是有不同的。其实数据挖数据挖掘有下列几项特性125•目标是海量数据的处理,不是一般意义上的统计分析;

•分析的任务是找出特征、规律、联系,而不是验证;

•必须多种技术结合,而不只是统计分析。数据挖掘有下列几项特性32•目标是海量数据的处理,§1.3数据挖掘综合的技术领域126Databasesystems,DataWarehouses,OLAPParallelProcessingMachinelearningVisualizationStatisticalanddataanalysismethodsMathematicalprogrammingHighperformancecomputingDecisionsupport

§1.3数据挖掘综合的技术领域33Databasesy12734统计分析研究128

除了将许多的统计及数据分析方法用于数据挖掘以外还将统计方法和机器学习方法结合在一起,为数据挖掘发展更复杂的统计分析工具(现在,许多的统计分析软件都有市场化的数据挖掘工具产品)。机器学习的概念是让机器从已观测到的模式中学习各种各样的规则,然后再用这些规则来解决问题。数据挖掘通常面临的是海量的数据,所以,进行数据挖掘工作时,必须将数据库管理与机器学习技术结合起来应用。统计分析研究35除了将许多的统计及数据分析方计算机可视化技术129

利用计算机可视化技术,可以进行交互式数据挖掘工作。计算机可视化技术36利用计算机可视化技术,可以决策支持系统130

决策支持系统是一系列工具和过程,用来帮助管理者进行决策并指导他们进行管理。决策支持系统37决策支持系统是一系列工具和过数学规划和高性能计算方法131

利用数学规划和高性能计算方法发展的技术能使得数据挖掘算法顺利实现。当然,有了高性能的硬件会更好。数学规划和高性能计算方法38利用数学规划和高性数据挖掘的发展132

数据挖掘正在不断发展,别的技术也不时地对数据挖掘产生影响。数据挖掘的发展39数据挖掘正在不断发展,别的技新技术133协作代理分布式目标管理技术等。新技术40§1.4数据挖掘的功能134

•分类(classification)•估计与预测(EstimationandPrediction)•聚类(Clustering)•关联(Association)和序列发现

(SequenceDiscovery)•描述(Description),§1.4数据挖掘的功能41•分类(classif数据挖掘的功能135

这些功能大都可以用成熟的计量及统计分析方法来实现,数据挖掘的功能42这些功能大都可以用成熟的计1.分类(Classification)136

所谓分类,就是按照分析对象的属性,建立类组(class)。它根据一些变量的数值做计算,再依照结果作分类。(计算的结果最后会是几个少数离散值,然后按不同值分类,例如将一组资料分为“可能会响应”或是“可能不会响应”两类)。1.分类(Classification)43所分类137

分类常常被用来处理邮寄对象筛选的问题。我们会用一些已经分好类的资料来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。这些我们用来寻找特征的已分类资料可能是来自我们的现有的历史性资料,或是将一个完整数据库做部份取样,再经由实际的运作来测试分类44分类常常被用来处理邮寄对象筛选的问题。分类例子138

譬如利用一个大的邮寄对象数据库的部份取样来建立一个分类模型(ClassificationModel),以后再利用这个模型来对数据库的其它资料或是新的资料作预测。例如,将信用申请者的风险属性,区分为高度风险申请者,中度风险申请者及低度风险申请者。使用的技术有决策树(decisiontree),记忆基础推理(memory-basedreasoning)等。分类例子45譬如利用一个大的邮寄对象数据库的部2.聚类(clustering)139面对海量的资料首要的任务是将它合理地归类。如果已知要求,于是对资料可以设问,按回答的不同给予分类,这就是上面所说的分类。如果事先没有任何要求,象全国各地环境监测的资料,就只能按资料反映的情况,比较接近的划归一类,这种归类的方法称之为聚类(clustering)。2.聚类(clustering)46面对海量的资料聚类140

聚类分析的算法往往按距离的远近来归类,也可以按相似程度的大小来归类。只有合理地聚类后,每一类内就可以找出有关的特征,否则是难于发现真正有用的信息。聚类47聚类分析的算法往往按距离的远近来归类,聚类141

很自然,不同类型的问题可以给出不同的聚类原则,从而找到不同的特征。例如世界上的居民可以按民族归类,可以按肤色归类,可以按国家归类,也可以按宗教信仰归类,……这些不同的聚类原则自然会找出不同的特征。聚类48很自然,不同类型的问题可以给出不同3.估计与预测(EstimationandPrediction)142

估计(estimation)是根据已有的长期累积的资料来推测某一属性未知的真值。例如按照信用卡申请者的教育程度、行为和性别来推估其信用卡的消费量。使用的技巧包括统计方法中的相关分析、回归分析及人工神经网络方法。3.估计与预测(EstimationandPredict估计与预测143

预测(prediction)是根据对象属性之过去观察值来估计该属性未来之值。例如,由顾客过去的刷卡消费量来预测其未来刷卡消费量。使用的技巧包括回归分析、时间序列分析及人工神经网络方法等。估计与预测50预测(prediction)是回归144

回归是使用一系列的现有数值来预测一个定量指标的可能值。若将范围扩大亦可利用逻辑斯蒂回归(LogisticRegression)来预测定性变量,特别在广泛运用现代分析技术如人工神经网络或决策树理论等工具,预测的模式已不受传统线性的局限,在预测的功能上大大增加了选择工具的弹性与应用范围的广度。回归51回归是使用一系列的现有数值来预测一个定时间序列预测145

时间序列预测是用指标本身现有的历史数值来预测未来的数值。

Time-SeriesForecasting的特点在于它所分析的数值都与时间有关,可以处理有关时间的一些特性,譬如时间的阶段性(例如每个礼拜五个或六个工作天)、季节性、节日、以及其它的一些特别因素如过去与未来的关连性有多少等等。时间序列预测52时间序列预测是用指标本身现有的4.关联(Association)和序列发现(SequenceDiscovery)146

关联是要找出在某一事件或是资料中会同时出现的东西。关联(Association)主要是要找出下面这样的信息:如果A是某一事件的一部份,则B也出现在该事件中的机率有X%。4.关联(Association)和序列发现(Sequenc关联和序列发现147例如:如果一个顾客买了低脂乳酪,那么这个顾客同时也买低脂牛奶的机率是85%。确定那些相关对象应该放在一起。例如超市中相关之盥洗用品(牙刷、牙膏和牙线),放在同一间货架上。在客户行销系统上,此种功能可以用来确认交叉销售(cross-selling)的机会,以设计出吸引人的产品群组。

关联和序列发现54例如:如果一个顾客买了低脂乳酪,那么这个顾序列发现(SequenceDiscovery)与关联(Association)关系148

序列发现(SequenceDiscovery)与关联(Association)关系很密切,所不同的是序列发现(SequenceDiscovery)中相关的对象是以时间区分开来例如:如果做了X手术,则Y病菌在手术后感染的机率是45%。例如:如果A股票在某一天上涨12%,而且当天股市加权指数下降,则B股票在两天之内上涨的机率是68%)。

序列发现(SequenceDiscovery)与关联(As5.描述(Description)149

描述的功能是对复杂的数据库提供简要的描述。最简单的例子就是变量的均值和方差。这个功能的主要目的是为了在使用别的功能时对数据先有较好的了解。在建立任何模型之前先做数据描述的工作是十分重要的,因为这会告诉我们怎样去建模。5.描述(Description)56描述150

许多的商业数据挖掘软件包也提供有用的画图软件来帮你对数据作可视化处理。另外,经理们经常使用更加复杂的采掘工具(比如marketbasketanalysis,tree-basedmodels)来更好地理解数据和开发模型。描述57许多的商业数据挖掘软件包也提供有用的画实现数据挖掘的方法

一些统计分析方法151回归分析时间序列判别分析因子分析聚类分析实现数据挖掘的方法

一些统计分析方法58回归分析实现数据挖掘的方法152粗集(roughset)模糊逻辑(fuzzylogic)人工神经网络(NeuralNetwork)决策树理论(DecisionTrees)规则归纳法(RulesInduction)为基础的方法等实现数据挖掘的方法59粗集(roughset)表1.4.1数据挖掘功能及常用的工具举例功能采掘工具举例应用举例ClassificationNeuralnetworks,logisticregression,tree-basedmodels,decisiontree,memory-basedreasoningMailingdecisions,targetmarketing,creditdecisionsClusteringNeuralnetworks,multivariatestatistics,SegmentationEstimationandPredictionLinearandnonlinearregression,neuralnetworks,hazardmodels,collaborativefilteringCustomerscorning,salesforecasting,customerservice,variousmarketingdecisionmodels,AssociationMarketbasketanalysis,settheory,linkanalysisPromotiondesign,shelfspaceallocation,DescriptionTraditionalstatistics,marketbasketanalysis,tree-basedmodelsExploratorydataanalysis153表1.4.1数据挖掘功能及常用的工具举例功能采掘§1.5数据挖掘的应用

国际上数据挖掘应用的行业包括154金融业电信业网络相关行业零售商制造业医疗保健制药业§1.5数据挖掘的应用

国际上数据挖掘应用的行业包括61数据挖掘行业应用分类155

综合General

银行业保险与保健行业电信行业零售/行销行业ManufacturingandUtilities(制造业和公用事业)数据挖掘行业应用分类62综合General综合General156

客户分类(CustomerSegmentation)Retention/AcquisitionDatabasemarketingLifetimevalueofacustomerCrossselling综合General63银行业157BankingCreditscoringCreditCardFraudDetectionPortfolioAnalysisCashPlanning银行业64保险与保健行业158

Insurance&HealthCareClaimAnalysisFraudulentBehavior保险与保健行业65电信行业159TelecommunicationsCallBehaviourAnalysisChurnManagementFraudDetection电

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论