数据挖掘概述课件_第1页
数据挖掘概述课件_第2页
数据挖掘概述课件_第3页
数据挖掘概述课件_第4页
数据挖掘概述课件_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、经济数据挖掘与分析第1章 数据挖掘概述1王耀东上海财经大学第1页,共93页。第1章 数据挖掘概述21.1 数据挖掘定义1.2 数据挖掘的重要性及意义1.3 数据挖掘功能1.4 数据挖掘步骤和标准1.5 数据挖掘常用方法1.5.1 数据挖掘的对象1.5.2 数据挖掘的常用方法第2页,共93页。1.1 数据挖掘定义31.1.1 数据挖掘的技术定义1.1.2 数据挖掘的商业定义第3页,共93页。1.2 数据挖掘的重要性及意义4第4页,共93页。1.3 数据挖掘功能5第5页,共93页。1.4 数据挖掘步骤和标准61.4.1 数据挖掘步骤1.4.2 数据挖掘需要的人员第6页,共93页。1.5 数据挖掘常

2、用方法71.5.1 数据挖掘的对象1.5.2 数据挖掘的常用方法第7页,共93页。第1章 数据挖掘概述8 1.1 数据挖掘定义1.1.1 数据挖掘的技术定义1.1.2 数据挖掘的商业定义1.2 数据挖掘的重要性及意义1.3 数据挖掘功能第8页,共93页。91.4 数据挖掘步骤和标准 1.4.1 数据挖掘步骤 1.4.2 数据挖掘需要的人员1.5 数据挖掘常用方法 1.5.1 数据挖掘的对象 1.5.2 数据挖掘的常用方法第9页,共93页。1.1 前言10 Data Mining的汉语名称有:数据挖掘、数据淘金和数据采矿,还没有一个一致公认的译法,一般还是喜欢用英文Data Mining这个词,

3、今后我们常用DM这样的简写来表示,因为很难找到一个确切的汉语词汇与之对应。 第10页,共93页。数据挖掘11 直观上说,数据挖掘就是要采掘出隐藏在原始数据中对决策有用的信息,为管理和研究服务。 难怪很多人称之为数据淘金。 第11页,共93页。12 数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义。第12页,共93页。商业周刊中文版1997年第7期发表的在原始数据中寻找关系一文 13 关于数据搜索技术、数据仓库技术,但讲的内容确是数据挖掘在银行、保险、电信及超市等方面的具体应用问题,并给出了由于进

4、行了数据挖掘而获得了巨大回报的具体案例,如MCI通讯公司,Wal-Mart百货公司等。 这说明一开始数据挖掘就是作为一个新兴的现代技术出现的。 第13页,共93页。数据挖掘14 信息技术的发展,企业、政府机构可以很方便地收集到大量的资料。 海量数据中确实隐含着各种各样的信息,这些信息往往人们凭直觉与经验是难于发现的,而电脑的特点是不怕多、不怕烦,总是可以耐心地仔细处理,数据越多,对研究目标越了解,也就越容易发现有用的规律。 数据挖掘正是在这种情况下,从一些个案的处理,克服了许多困难,利用了并行算法、人工智能、统计分析的技术,综合成一种新的、能快速处理大量、海量数据的技术 。 第14页,共93页

5、。数据挖掘15 信息技术的发展,企业、政府机构可以很方便地收集到大量的资料。 海量数据中确实隐含着各种各样的信息,这些信息往往人们凭直觉与经验是难于发现的,而用电脑的就容易发现有用的规律。 数据挖掘正是在这种情况下,从一些个案的处理,克服了许多困难,利用了并行算法、人工智能、统计分析的技术,综合成一种新的、能快速处理大量、海量数据的技术 。第15页,共93页。1.2 什么是数据挖掘16 数据挖掘是目前IT行业发展最快的产业,并且许多不同领域的专家,如统计学家,金融学家等,对数据挖掘也产生了极大的兴趣。 计算机技术,统计分析方法、各类算法及行业知识的结合推动了数据挖掘技术的快速发展。 第16页,

6、共93页。Hand et al (2000)的定义 17 Data Mining is the process of seeking interesting of valuable in formation in large databases (数据挖掘是在庞大的数据库中找出有意义或有价值信息的方法) Hand et al (2000), eds. Proc. of the 8th ACM SIGKDD International Workshop on Data Mining and Knowledge Discovery. Dallas: ACM Press. 第17页,共93页。Bha

7、vani (1999)的定义18 Data Mining is the process of posing various queries and extractions useful information,patterns,and trends often previously unknown from large quantities of data possibly stored in databases 数据挖掘是从储存在数据库的大量数据资料中,设置盘问,提取以前未知的信息、模式和趋势的方法。第18页,共93页。Bhavani(1999)的定义19 The process of di

8、scovering meaningful new correlation,patterns,and trends by sifting through large amount of stored data,using pattern recognition technologies and statistical and mathematical techniques 数据挖掘是从大量储存的数据中,利用模式识别、统计和数学的技术、筛选发现新的有意义的关系、模式和趋势的方法。第19页,共93页。Kovalerchuk & Evgenii Vityaev的定义20 These technique

9、s are now applied to discover hidden trends and patterns in financial databases 这些技术现在用于发现潜藏在金融数据库中的趋势与模式 第20页,共93页。Berry and Linoff (1997)21分析报告给你的是后见之明(hindsight);统计分析给你的是先机(foresight);数据挖掘给你识见(insight)。 第21页,共93页。数据挖掘所要处理的问题22 在庞大的数据库中寻找出有价值的隐藏事件,加以分析,并将这些有意义的信息归纳成结构模式,作为企业在进行决策时之参考。 数据挖掘看重的是数据库的

10、再分析,包括模式的建构或是资料特征的判定,其主要目的就是要从数据库中发现先前关心却未曾获悉的有价值信息(Hand,1998)。 事实上,数据挖掘并不只是一种技术或是一套软件,而是数种专业技术的综合应用。 第22页,共93页。数据挖掘找寻隐藏在资料中的信息23趋势(Trend)特征(Pattern)关系(Relationship)的过程,第23页,共93页。从资料中发掘信息或知识(有人称为Knowledge Discovery in Databases,KDD)24“资料考古学”(Data Archaeology)“资料模式分析”(Data Pattern Analysis)“功能相依分析”(F

11、unctional Dependency Analysis),第24页,共93页。数据挖掘25 目前已被许多研究人员视为结合数据库系统与机器学习技术的重要领域,许多产业界人士也认为此领域是一项能增加企业潜能的重要途径。 这一领域蓬勃发展的原因是因为现代的企业已搜集了大量资料,包括市场、客户、供货商、竞争对手以及未来趋势等重要信息,但是数据的超载与无结构化,使得企业决策单位无法有效利用现存的资料,甚至会使决策行为产生混乱与误用。 如果能通过数据挖掘技术,从巨量的数据库中,采掘出不同的信息与知识出来,作为决策支持之用,就一定能成为企业竞争的优势。 第25页,共93页。数据挖掘的软件工具26 有些销

12、售得还相当火爆,但是,对于这种数据挖掘的产品应该有一个正确的认识,就是它不是一个无所不能的魔法。 它不是在那边监视你的资料的状况,然后告诉你说你的数据库里发生了某种特别的现象。 也不是说有了数据挖掘的工具,就连不了解业务、不了解资料所代表的意义、或是不了解统计原理的人也可以做数据挖掘。 数据挖掘所采掘出来的信息,也不是你可以不经确认,就可以照单全收应用到业务上的。 事实上,数据挖掘工具是用来帮助业务分析策画人员从资料中发掘出各种假设(Hypothesis),但是它并不帮你确认(Verify)这些假设,也不帮你判断这些假设对你是否真有价值。 第26页,共93页。数据挖掘使用的分析方法27预测模型

13、(回归、时间序列)数据库分割(Database Segmentation)连接分析(Link Analysis)偏差侦测(Deviation Detection)第27页,共93页。28 美国政府从第二次世界大战以前,就在人口普查以及军事方面使用过。 近几年来,随着信息科技超乎想象的发展,新工具的出现。 第28页,共93页。新工具29关系式数据库对象导向数据库柔性计算理论(包括Neural network、Fuzzy theory、Genetic Algorithms、Rough Set等)人工智能的应用(如知识工程、专家系统)网络通讯技术的发展 第29页,共93页。30 使从资料堆中采掘宝藏

14、,常常能超越归纳的关系,使数据挖掘成为企业智能的一部份。第30页,共93页。31 数据挖掘和统计分析是有不同的。其实数据挖掘技术中的CART、CHAD或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,数据挖掘有相当大的比重是由高等统计学中的多变量分析所支撑。 第31页,共93页。数据挖掘有下列几项特性32 目标是海量数据的处理,不是一般意义上的统计分析; 分析的任务是找出特征、规律、联系,而不是验证; 必须多种技术结合,而不只是统计分析。 第32页,共93页。1.3 数据挖掘综合的技术领域33Database systems,Data Warehouses,OLAPParalle

15、l ProcessingMachine learningVisualizationStatistical and data analysis methodsMathematical programmingHigh performance computingDecision support 第33页,共93页。34第34页,共93页。 统计分析研究35 除了将许多的统计及数据分析方法用于数据挖掘以外 还将统计方法和机器学习方法结合在一起,为数据挖掘发展更复杂的统计分析工具(现在,许多的统计分析软件都有市场化的数据挖掘工具产品)。 机器学习的概念是让机器从已观测到的模式中学习各种各样的规则,然后再

16、用这些规则来解决问题。 数据挖掘通常面临的是海量的数据,所以,进行数据挖掘工作时,必须将数据库管理与机器学习技术结合起来应用。 第35页,共93页。计算机可视化技术36 利用计算机可视化技术,可以进行交互式数据挖掘工作。 第36页,共93页。决策支持系统37 决策支持系统是一系列工具和过程,用来帮助管理者进行决策并指导他们进行管理。 第37页,共93页。数学规划和高性能计算方法38 利用数学规划和高性能计算方法发展的技术能使得数据挖掘算法顺利实现。当然,有了高性能的硬件会更好。 第38页,共93页。数据挖掘的发展39 数据挖掘正在不断发展,别的技术也不时地对数据挖掘产生影响。第39页,共93页

17、。新技术40协作代理分布式目标管理技术等。第40页,共93页。1.4 数据挖掘的功能41 分类(classification) 估计与预测(Estimation and Prediction) 聚类(Clustering) 关联(Association)和序列发现 (Sequence Discovery) 描述(Description),第41页,共93页。数据挖掘的功能42 这些功能大都可以用成熟的计量及统计分析方法来实现 ,第42页,共93页。1分类(Classification)43 所谓分类,就是按照分析对象的属性,建立类组(class)。它根据一些变量的数值做计算,再依照结果作分类。

18、(计算的结果最后会是几个少数离散值,然后按不同值分类,例如将一组资料分为“可能会响应”或是“可能不会响应”两类)。第43页,共93页。分类44 分类常常被用来处理邮寄对象筛选的问题。我们会用一些已经分好类的资料来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。 这些我们用来寻找特征的已分类资料可能是来自我们的现有的历史性资料,或是将一个完整数据库做部份取样,再经由实际的运作来测试第44页,共93页。分类例子45 譬如利用一个大的邮寄对象数据库的部份取样来建立一个分类模型(Classification Model),以后再利用这个模型来对数据库的其它资料或是新的资料作预测。

19、例如,将信用申请者的风险属性,区分为高度风险申请者,中度风险申请者及低度风险申请者。使用的技术有决策树(decision tree),记忆基础推理(memory-based reasoning)等。 第45页,共93页。2聚类(clustering) 46面对海量的资料首要的任务是将它合理地归类。如果已知要求,于是对资料可以设问,按回答的不同给予分类,这就是上面所说的分类。如果事先没有任何要求,象全国各地环境监测的资料,就只能按资料反映的情况,比较接近的划归一类,这种归类的方法称之为聚类(clustering)。第46页,共93页。聚类47 聚类分析的算法往往按距离的远近来归类,也可以按相似程

20、度的大小来归类。只有合理地聚类后,每一类内就可以找出有关的特征,否则是难于发现真正有用的信息。第47页,共93页。聚类48 很自然,不同类型的问题可以给出不同的聚类原则,从而找到不同的特征。例如世界上的居民可以按民族归类,可以按肤色归类,可以按国家归类,也可以按宗教信仰归类,这些不同的聚类原则自然会找出不同的特征。第48页,共93页。3估计与预测(Estimation and Prediction) 49 估计(estimation)是根据已有的长期累积的资料来推测某一属性未知的真值。 例如按照信用卡申请者的教育程度、行为和性别来推估其信用卡的消费量。 使用的技巧包括统计方法中的相关分析、回归

21、分析及人工神经网络方法。第49页,共93页。估计与预测50 预测(prediction)是根据对象属性之过去观察值来估计该属性未来之值。 例如,由顾客过去的刷卡消费量来预测其未来刷卡消费量。使用的技巧包括回归分析、时间序列分析及人工神经网络方法等。 第50页,共93页。回归51 回归是使用一系列的现有数值来预测一个定量指标的可能值。若将范围扩大亦可利用逻辑斯蒂回归(Logistic Regression)来预测定性变量,特别在广泛运用现代分析技术如人工神经网络或决策树理论等工具,预测的模式已不受传统线性的局限,在预测的功能上大大增加了选择工具的弹性与应用范围的广度。 第51页,共93页。时间序

22、列预测52 时间序列预测是用指标本身现有的历史数值来预测未来的数值。 Time-Series Forecasting的特点在于它所分析的数值都与时间有关,可以处理有关时间的一些特性,譬如时间的阶段性(例如每个礼拜五个或六个工作天)、季节性、节日、以及其它的一些特别因素如过去与未来的关连性有多少等等。 第52页,共93页。4关联(Association)和序列发现(Sequence Discovery)53 关联是要找出在某一事件或是资料中会同时出现的东西。关联(Association)主要是要找出下面这样的信息:如果A是某一事件的一部份,则B也出现在该事件中的机率有X。第53页,共93页。关联

23、和序列发现54例如:如果一个顾客买了低脂乳酪,那么这个顾客同时也买低脂牛奶的机率是85。确定那些相关对象应该放在一起。例如超市中相关之盥洗用品(牙刷、牙膏和牙线),放在同一间货架上。在客户行销系统上,此种功能可以用来确认交叉销售(cross-selling)的机会,以设计出吸引人的产品群组。 第54页,共93页。序列发现(Sequence Discovery)与关联(Association)关系55 序列发现(Sequence Discovery)与关联(Association)关系很密切,所不同的是序列发现(Sequence Discovery)中相关的对象是以时间区分开来例如:如果做了X手

24、术,则Y病菌在手术后感染的机率是45。例如:如果A股票在某一天上涨12,而且当天股市加权指数下降,则B股票在两天之内上涨的机率是68)。 第55页,共93页。5 描述(Description)56 描述的功能是对复杂的数据库提供简要的描述。最简单的例子就是变量的均值和方差。 这个功能的主要目的是为了在使用别的功能时对数据先有较好的了解。 在建立任何模型之前先做数据描述的工作是十分重要的,因为这会告诉我们怎样去建模。第56页,共93页。描述57 许多的商业数据挖掘软件包也提供有用的画图软件来帮你对数据作可视化处理。 另外,经理们经常使用更加复杂的采掘工具(比如market basket anal

25、ysis,tree-based models)来更好地理解数据和开发模型。第57页,共93页。实现数据挖掘的方法一些统计分析方法58回归分析时间序列判别分析因子分析聚类分析第58页,共93页。实现数据挖掘的方法59粗集(rough set)模糊逻辑(fuzzy logic)人工神经网络(Neural Network)决策树理论(Decision Trees)规则归纳法(Rules Induction)为基础的方法等第59页,共93页。表1.4.1 数据挖掘功能及常用的工具举例功 能采掘工具举例应用举例ClassificationNeural networks, logistic regress

26、ion, tree-based models, decision tree, memory-based reasoningMailing decisions,target marketing,credit decisionsClusteringNeural networks, multivariate statistics,SegmentationEstimation andPredictionLinear and nonlinear regression, neural networks, hazard models, collaborative filteringCustomer scor

27、ning,sales forecasting, customer service, various marketing decision models,AssociationMarket basket analysis, set theory, link analysisPromotion design,shelf space allocation,DescriptionTraditional statistics,market basket analysis,tree-basedmodelsExploratory data analysis60第60页,共93页。1.5 数据挖掘的应用国际上

28、数据挖掘应用的行业包括61金融业电信业网络相关行业零售商制造业医疗保健制药业第61页,共93页。数据挖掘行业应用分类 62 综合General 银行业保险与保健行业电信行业零售行销行业Manufacturing and Utilities(制造业和公用事业)第62页,共93页。 综合General 63 客户分类(Customer Segmentation) RetentionAcquisition Database marketing Lifetime value of a customer Cross selling 第63页,共93页。 银行业64 Banking Credit scor

29、ing Credit Card Fraud Detection Portfolio Analysis Cash Planning 第64页,共93页。保险与保健行业65 Insurance & Health Care Claim Analysis Fraudulent Behavior第65页,共93页。电信行业66 Telecommunications Call Behaviour Analysis Churn Management Fraud Detection 第66页,共93页。零售行销行业67 Retail/Marketing Market Basket Analysis Categ

30、ory Management Credit Scoring 第67页,共93页。Manufacturing and Utilities(制造业和公用事业)68 Process Management Demand Patterns Capacity Planning Inventory Planning 第68页,共93页。表1.5.1 数据挖掘应用领域分类表Applications of 数据挖掘Customer-focusedOperations-focusedCustomer-focusedLife-time ValueMarket-Basket AnalysisProfiling & S

31、egmentationRetentionTarget MarketAcquisitionKnowledge PortalCross- SellingCampaign ManagementE- CommerceProfitability AnalysisPricingFraud DetectionRisk AssessmentPortfolio ManagementEmployee TurnoverCash ManagementProduction EfficiencyNetwork PerformanceNetwork PerformanceManufacturing ProcessesCom

32、binatorial ChemistryGenetic ResearchEpidemiology69第69页,共93页。数据挖掘应用目前国外企业界把数据挖掘应用在许多领域70行销财务银行制造厂通讯第70页,共93页。数据挖掘应用71 在产学合作下,发展出许多实用的系统,例如MDT、Cover story and Spotlight、Nich Work visualization system、LBS、FALCON、FAIS、NYNEX、TASA等等。第71页,共93页。应用在行销领域的例子72 经由记录客户的消费记录与采购路线,超级市场可以设计出更吸引顾客购买的环境。根据数据挖掘出来的信息,现

33、在超级市场的厨房用品,是按照女性的视线高度来摆放。 根据研究指出:美国妇女的视线高度是150公分左右,男性是163公分左右,而最舒适的视线角度是视线高度以下15度左右,所以最好的货品陈列位置是在130至135公分之间。 第72页,共93页。73 在商业上,有许多特征是很难理解的,但若了解到这些信息,就会增加企业的竞争能力。 第73页,共93页。一般行销部门较典型的问题74 除了已经购买的产品外,我的客户还可能购买哪些产品?我的最有价值客户中,他们的共通特征为何?当我的客户有可能转向其它竞争同业时,哪些变量能测量出这样的信息?第74页,共93页。国外企业界实际发展数据挖掘时,效能并不能预期,因为

34、有许多因素影响着75不充足的教育训练不适当的支持工具资料的无效性过于丰富的模式(patterns)易变与具有时间性资料空间导向资料(spatially oriented data)复杂的资料结构资料的可度量性(scalability)等。 第75页,共93页。复杂性76这说明资料与知识的发掘是一项信息技术程度很高的工作,面对易变的环境,没有现成的模型马上可用,也不要期望按一定的计算程序即能成功。第76页,共93页。潜在的因素77 我们要认识到一些潜在的因素资料取舍实体关系性数量多寡复杂性数据质量变迁专家意见第77页,共93页。数据挖掘应用广泛78 数据挖掘在各领域的应用非常广泛,只要该产业拥有

35、具分析价值的数据仓库或数据库,就可利用挖掘工具进行有目的的分析。 第78页,共93页。数据挖掘应用广泛国外一般较常见的应用案例79零售业直销界制造业财务金融保险通讯业以及医疗服务 第79页,共93页。数据挖掘的三个应用方式80Customer ProfilingTargeted MarketingMarket-Basket Analysis。 第80页,共93页。Customer Profiling81即如何获得新顾客?我们希望找出客户的一些共同的特征,希望能藉此预测哪些人可能成为我们的客户,以帮助行销人员找到正确的行销对象。数据挖掘可以从现有客户资料中找出他们的特征,再利用这些特征到潜在客户

36、数据库里去筛选出可能成为我们客户的名单,作为行销人员推销的对象。行销人员就可以针对这些名单寄发广告资料,既可以降低成本,又提高了行销的成功率。 第81页,共93页。Market-Basket Analysis82主要是用来帮助零售业者了解客户的消费行为,即如何增加顾客的消费额?譬如哪些产品客户会一起购买,或是客户在买了某一样产品之后,在多长时间之内可能购买另一产品等等,利用关联性产品销售(cross-selling)和连贯性销售(Continuity-Selling)方法,来提高客户的终生价值(Live Time Value)。利用数据挖掘,零售业者可以更有效的决定进货量、库存量,以及在店里要

37、如何摆设货品,同时也可以用来评估店里促销活动的成效。 第82页,共93页。客户关系管理83客户关系管理是数据挖掘的另一个常见的应用方式,即如何留住他们?我们可以由一些原本是我们的客户,后来却转向成为我们竞争对手的客户,分析他们的特征,再根据这些特征到现有客户资料中找出有可能转向的客户,然后公司必须设计一些方法将他们留住,因为毕竟找一个新客户的成本要比留住一个原有客户的成本要高出许多。 第83页,共93页。销售资料中挖掘顾客的消费习性84 在销售资料中挖掘顾客的消费习性,很容易由交易纪录找出顾客偏好的产品组合,还可找出流失顾客的特征,确定推出新产品的时机点,还可结合基本资料,并依品牌价值等级的高低来区分顾客,进而达到差异化行销的目的;制造业对数据挖掘的需求多运用在质量管理方面,由制造过程中找出影响产品品质最重要的因素,来提高作业流程的效率。 第84页,共93页。数据挖掘应用85近来国外的电话公司、信用卡公司、保险公司、股票交易商、以及政府单位对于诈欺行为的侦查(Fraud Detection)比较关注,这些行业每年因为诈欺行为而造成的损失都非常可观。数据挖掘可以从一些信用不良的客户资料中找出相似特征并预测可能的诈欺交易,从而达到减少损失的目的。第85页,共93页。数据挖掘应用86财务金融业可以利用数据挖掘来分析市场动向,并预测个别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论