数据挖掘与智能决策技术简介_第1页
数据挖掘与智能决策技术简介_第2页
数据挖掘与智能决策技术简介_第3页
数据挖掘与智能决策技术简介_第4页
数据挖掘与智能决策技术简介_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘与智能决策技术简介

背景

二十世纪末以来,全球信息量以惊人的速度急剧增长—据估计,每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据(信息)。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源,从海量数据中找出隐藏的知识,数据挖掘技术应运而生并显示出强大的生命力。

背景

数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。(AI(ArtificialIntelligence,人工智能))1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)这一术语。随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。

数据挖掘定义技术角度的定义数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。这一定义包括好几层含义:数据源必须是真实的、海量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

数据挖掘定义商业角度的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。

数据仓库的定义

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。此定义由最为权威的、被称为“数据仓库之父”的WilliamH.Inmon先生给出。

数据内容

数据库名(数据库内容描述)

注意:信息的完整性;相关业务人员达成共识。

业务人员确定

IT人员确定数据结构……...计算机内主题数据库数据标准化决策支持:从数据库到数据仓库到数据集市到……数据仓库的定义

数据仓库是决策支持系统(DecisionSupportSystem,DSS,DSS)的基础。在数据仓库中只有单一集成的数据源,并且数据是可访问的。所以与传统数据库相比,在数据仓库环境中DSS分析员的工作将较为容易。

数据仓库的组成一个数据仓库的大小一般都是在100GB以上通常,数据仓库系统应该包含下列程序:(1)抽取数据与加载数据(2)整理并转换数据(采用一种数据仓库适用的数据格式)(3)备份与备存数据(4)管理所有查询(即将查询导向适当的数据源)数据仓库的组成OLAP的定定义义、、特特点点60年代代,,关关系系数数据据库库之之父父提出出了了关关系系模模型型,,促促进进了了联联机机事事务务处处理理(OLTP)的发发展展(数据据以以表表格格的的形形式式而而非非文文件件方方式式存存储储)。1993年,,提出出了了OLAP概念念,,认认为为OLTP已不不能能满满足足终终端端客客户户对对数数据据库库查查询询分分析析的的需需要要,,SQL对大大型型数数据据库库的的简简单单查查询询也也不不能能满满足足终终端端客客户户分分析析的的要要求求。。客客户户的的决决策策分分析析需需要要对对关关系系数数据据库库进进行行大大量量计计算算才才能能获获得得结结果果,,而而查查询询的的结结果果并并不不能能满满足足决决策策者者提提出出的的需需求求。。因因此此,,提出出了了多多维维数数据据库库和和多多维维分分析析的的概概念念,,即即OLAP。OLAP的定定义义、、特特点点OLAP(On-LineAnalysisProcessing)定定义义是数数据据仓仓库库上上的的分分析析展展示示工工具具,,它它建建立立在在数数据据多多维维视视图图的的基基础础上上。。OLAP的主主要要特特点点一是是在在线线性性(OnLine),体体现现为为对对用用户户请请求求的的快快速速响响应应和和交交互互式式操操作作;;二是是多多维维分分析析(Multi_Analysis),这这是是OLAP技术术的的核核心心所所在在。。OLAP的定定义义和和特特点点OLAP与OLTP的区区别别(1)OLTP主要要面面向向公公司司职职员员;OLAP则主主要要面面向向公公司司领领导导者者。。(2)OLTP应用用主主要要是是用用来来完完成成客客户户的的事事务务处处理理,,其其数数据据基基础础是是操操作作型型数数据据库库,,如如民民航航订订票票系系统统、、银银行行储储蓄蓄系系统统等等等等,,通通常常需需要要进进行行大大量量的的更更新新操操作作,,同同时时对对响响应应时时间间要要求求较较高高;而OLAP是以以数数据据仓仓库库或或数数据据多多维维视视图图为为基基础础的的数数据据分分析析处处理理,,是是针针对对特特定定问问题题的的联联机机数数据据访访问问和和分分析析,,它它一一般般不不对对仓仓库库数数据据作作修修改改处处理理,,而而只只是是查查询询,,其其应应用用主主要要是是对对客客户户当当前前及及历历史史数数据据进进行行分分析析,,辅辅助助领领导导决决策策,,其其典典型型的的应应用用有有对对银银行行信信用用卡卡风风险险的的分分析析与与预预测测、、公公司司市市场场营营销销策策略略的的制制定定等等,,主主要要是是进进行行大大量量的的查查询询操操作作,,对对时时间间的的要要求求不不太太严严格格。。多维维数数据据Salesvolumeasafunctionofproduct,month,andregionProductRegionMonthDimensions:Product,Location,TimeHierarchicalsummarizationpathsIndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay立方方体体实实例例TotalannualsalesofTVinU.S.A.DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum数据据立立方方体体的的浏浏览览VisualizationOLAPcapabilitiesInteractivemanipulation客户保留目标营销欺诈检测购物篮分析客户细分客户忠诚度信用打分信用风险评估营销组合管理和评估盈利能力分析价格优化客户服务自动化销售收入和需求预测利润分析交叉销售和增量销售活动管理客户流失分析客户服务和问题解决业绩和能力管理分销渠道业绩分析营业厅和服务商业绩分析流程和质量控制税收监控可能受益的商商业活动数据挖掘解决决方案历史数据预测模型新申请者信用等级评价价预测模型::用过去的客客户数据预测测未来理解商业问题题性别父亲的教育程程度被访者教育程程度工作类型城市当前收入水平平性别父亲的教育程程度被访者教育程程度工作类型城市当前收入水平平当前财政状况况未来信用风险险Time1Time2家庭收入销售数量喜欢流行音乐乐数据挖掘解决决方案PreprocessedDataDataTranslatedDataPatterns/ModelsResultsPreprocessingAnalysisInputOutput数据挖掘解决决方案主要数据挖掘掘技术分类Classification预测Prediction细分Segmentation关联Association序列Sequence将您的顾客和和客户分类预测未来的销销量和欺诈,,流失将市场、顾客客细分发现那些商品品会在一起销销售或购买找出时间进程程中的模式或或趋势决策树规则侦测回归分析聚类分析神经网络序列模式DecisionTreesNeuralNetworksRuleInductionNearestNeighborGeneticAlgorithms数据挖掘主要要新技术决策树神经网络规则侦测序列规则基因算法基于层次的聚聚类方法这类方法不需需要预先给定定参数(聚类类数),但需需要终止条件件。Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)CURE算法-DataPartitioningandClusterings=50p=2s/p=25xxxyyyyxyxs/pq=5CHAMELEON算法ConstructSparseGraphPartitiontheGraphMergePartitionFinalClustersDataSet客户总列表30%VIP0-1孩子2-3孩子20%VIP4+孩子$50-75kincome15%VIP$75k+income70%VIP$50-75kincome$20-50kincome85%VIPAge:40-6080%VIPAge:20-4045%VIP分类决策树Attributes={Outlook,Temperature,Humidity,Wind}OutlookHumidityWindsunnyrainovercastyesnoyeshighnormalnostrongweakyesPlayTennis={yes,no}打高尔夫球的的决策树实例例(自顶向下下)根据加薪百分分比、工作时时长、法定节节假日、及医医疗保险三个个属性来判断断一个企业的的福利状况(good或bad)。对象关系网络网络分析强弱路径自我小群体缺失角色网络分析神经网络线性回归Logistics回归多层神经网络络细胞繁殖神经网络算法法人工神经网((ArtificialNeuralNetwork,ANN)是20世纪80年代后期迅速速发展起来的的人工智能技技术,它对噪噪声数据具有有很高的承受受能力,对未未经训练的数数据具有分类类模拟的能力力,因此在网网站信息、生生物信息和基基因以及文本本的数据挖掘掘等领域得到到了越来越广广泛的应用。。在多种ANN模型中,反向向传播(BackPropagation,BP)网络是应用用最广的一种种。神经元通过非线性函函数n维的输入向量量x被映射为变量量ymk-fweightedsumInputvectorxoutputyActivationfunctionweightvectorwåw0w1wnx0x1xn神经网络的组组成输出节点输入节点隐层节点输入矢量输入矢量:xiwij基本的BP网络由输入层层、输出层和和隐层组成。神经网络的拓拓扑结构神经网络训练练之前,需要要设计网络拓拓扑结构。设设计网络拓扑扑的关键是,,确定隐层的的神经元个数数及各神经元元初始权值和和阈值(偏差差)。理论上上讲,隐层的的神经元数越越多,逼近越越精确。但实实际上,隐层层神经元数不不宜过多;否否则会极大加加长训练时间间,并造成网网络容错能力力下降。经训训练后的神经经网络若其准准确性不能被被接受,则必必须重新进行行拓扑设计或或改用不同的的初始权值和和阈值(偏差差)。神经网络的训训练训练的终止条条件获得一组权重重值,使得训训练集中几乎乎所有样本都都分类正确训练步骤利用随机值对对权值进行初初始化将训练样本逐逐一地输入给给神经网络,,进行训练对于每个神经经元将其所有的输输入值进行线线性求和计算算得到总的输输入利用激励函数数计算其输出出值计算误差修正网络权值值和阈值(偏偏差)BP神经网络BP神经网络通过过迭代处理一一组训练样本本,将各样本本的网络预测测与实际已知知类标号进行行比较实现学学习训练,反反向修改网络络的权值,使使得网络预测测与实际类之之间的误差平平方最小。BP神经网络按照照最优训练准准则反复迭代代,确定并不不断调整神经经网络结构,,通过迭代修修改,当误差差收敛时学习习过程终止。。因此,具有分分类准确、收收敛性好、动动态性好和鲁鲁棒性强等优优点。BP神经网络存在在的问题收敛速度问题题BP分类器最大的的弱点是其训训练速度非常常缓慢,难以以收敛。尤其其是当网络的的训练达到一一定程度后,,收敛更为缓缓慢。局部极小点问问题BP算法采用的是是梯度下降法法,对一个复复杂的网络而而言,其误差差曲面是一个个高维空间中中的曲面,其其中分布着许许多局部极小小点,一旦陷陷入了局部极极小点则算法法很难逃离出出来。BP神经网络存在在的问题网络瘫痪问题题在训练过程中中,权值可能能变得很大,,这会使神经经元的网络输输入变得更大大,从而使得得其激励函数数的一阶导函函数在此点上上的取值很小小。此时的训训练步长会变变得非常小,,最终导致网网络停止收敛敛,这种现象象即是所谓的的网络瘫痪现现象。关联规则挖掘掘实例通过发现顾客客放入其购物物篮中不同商商品之间的联联系,分析顾顾客的购买习习惯。通过了了解哪些商品品频繁地被顾顾客同时购买买,这种关联联的发现可以以帮助零售商商制定营销策策略。例如,,在同一次购购物中,如果果顾客购买牛牛奶的同时,,也购买面包包(和什么类类型的面包))的可能性有有多大?这种信息可以以引导销售,,可以帮助零零售商有选择择地经销和安安排货架。例例如,将牛奶奶和面包尽可可能放近一些些,可以进一一步刺激一次次去商店同时时购买这些商商品。关联规则挖掘掘实例购物篮关联分分析实例图基本概念CustomerbuysdiaperCustomerbuysbothCustomerbuysbeer“啤酒与尿布”的关联规则ForruleACsupport=support({AC})=50%confidence=support({AC})/support({A})=66.6%ForCA(50%,100%)TheAprioriprinciple:A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论