商务智能-数据挖掘原理_第1页
商务智能-数据挖掘原理_第2页
商务智能-数据挖掘原理_第3页
商务智能-数据挖掘原理_第4页
商务智能-数据挖掘原理_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘原理

赵卫东博士

复旦大学软件学院

商务智能-数据挖掘原理第1页WhatisDataMining?AccordingtotheGartnerGroup,Dataminingistheprocessofdiscoveringmeaningfulnewcorrelations,patternsandtrendsbysiftingthroughlargeamountsofdatastoredinrepositories,usingpatternrecognitiontechnologiesaswellasstatisticalandmathematicaltechniques.Dataminingreferstotheworkofdiscoveringnewanduseful(business)knowledgefromlargerealdatabasesthroughanon-trivialprocessandusingasoundmethodologyandmultipledataprocessingandanalyticaltechniques.Examples:Detecttaxationfraud:notdeclaringallincomefortaxation;Fromthethousandsofmobilephonecustomers,predictwhichcustomersaregoingtoswitchtoacompetitor.商务智能-数据挖掘原理第2页数据挖掘受多学科影响

数据挖掘是一个交叉科学领域,受多个学科影响,包含数据库系统、统计、机器学习、可视化和信息科学。

商务智能-数据挖掘原理第3页一个比较正式数据挖掘定义高层次上主动式自动发觉方法,被称为发觉驱动型知识发觉。从数据中提取正确、有用、未知和综合信息并用它进行决议过程。数据挖掘相关学科是统计理论、数据库技术和人工智能。前BusinessObjectsToddRowe曾表示:“从技术上讲,甚至只要有完备Excel数据就能用上BI。”

商务智能-数据挖掘原理第4页过程数据挖掘并不是一个装在软件包装盒中工具能够简单买到并运行在商业智能环境中,也不会自动开始产生值得注意商业规律。商务智能-数据挖掘原理第5页正确提取信息应该是正确,而且在统计上是主要以支持有依据决定。正确意味着确证性和完整性。不但需要从数据库中得到正确客户,还希望得到全部正确客户。这就需要原始数据和数据挖掘过程都含有正确性。商务智能-数据挖掘原理第6页有用数据挖掘过程可能会传递正确和主要结果,不过这些知识必须是对商业有用。如结果告诉你要在一个大量渠道上多样化市场运作,这可能会无法办到。一样结果必须使你能抢在竞争对手之前行动。商务智能-数据挖掘原理第7页未知数据挖掘要产生新信息。假如过程只是传递一些无关紧要结果,那么数据挖掘商业动力就会消失。这就是区分验证和探索性质。商务智能-数据挖掘原理第8页最小要求以上显示了数据挖掘最小要求,能够用它来评价数据挖掘是否对业务环境增加了附加价值其它要求商务智能-数据挖掘原理第9页WhyDataMining?GainaninsightintobusinessdataIdentifyusefulpatterns,correlationsandmodelsfromdataautomaticallytoanswerquestionslike,Whichcustomerislikelytochurnintwomonths?Whichcustomerismycrossselltarget?Whatarethecharacteristicsofmyhighspendingandlowspendingcustomers?DataminingisacoretechnologyofbusinessintelligenceDataminingisacoreapplicationofdatawarehousesDataminingisthecoretechnologyofanalyticalCRMDataminingisthecoretechnologyofonlinerecommendationandpersonalizationine-commerceDatamininghasbecomeapartofbusinessfunctioninmanycompanies商务智能-数据挖掘原理第10页Dataminingisregularlyusedin商务智能-数据挖掘原理第11页经典数据挖掘系统结构

商务智能-数据挖掘原理第12页Verification-DrivenAnalysisVerification-drivendataminingtoolsextractdata.Theuserisexpectedtogenerateinformationbasedonhisinterpretationofthereturneddata.商务智能-数据挖掘原理第13页NewProcessWithDataMiningDiscovery-drivenComputersiftsthroughmillionsofhypothesesandonlypresentsthemostinteresting/validonesExample:Fromasamplegroupofclientsthathavedefectedtoacompetitivebank-identifyclientcharacteristicsthatarestronglycorrelated,andusingtheseattributes,scoretherestoftheclientandprospectpopulationandthestrengthoftheirrelationshipstosamplegroup.商务智能-数据挖掘原理第14页WhatCanDataMiningDo?ClassificationandEstimationPredictionForecastingClusteringandSegmentationAssociationDiscoveryDescriptionandvisualizationMarketBasedAnalysisandUp-Selling/Cross-SellingPharmaceuticalIndustry:DrugEffectivenessbyPatientTypeDefectAnalysisinManufacturingUniversityandEmployeeRecruitmentEmployeeTurnoverPredictionsCreditRiskDeterminationCreditCardFraudCustomerGroupingandBehaviourPrediction商务智能-数据挖掘原理第15页数据挖掘过程商务智能-数据挖掘原理第16页占70%工作量,是最主要阶段占25%工作量系统演示商务智能-数据挖掘原理第17页EffortDistribution

商务智能-数据挖掘原理第18页CRISP–DMisaniterative,adaptiveprocess.商务智能-数据挖掘原理第19页IBMIntelligentMiner可视化界面商务智能-数据挖掘原理第20页AlphaMiner界面商务智能-数据挖掘原理第21页数据挖掘过程是循环过程上图会轻易造成一个线性过程印象。实际上,每一步结果会导致这么一个结论:需要从前几步中得到更多信息,并不停重复这一过程。这些循环确保了最终结果是完全为业务量身定制。商务智能-数据挖掘原理第22页业务分析理想化地,企业中全部活动都在不一样程度上经过策略和商业目标与企业任务描述相关。数据挖掘使你能够比以前在更高层次上控制你目标。业务分析包括到领域教授和挖掘教授。前者专心于要求商业需求,而后者从数据挖掘观点上确保这些要求可行性,而且详细说明满足这些要求所需挖掘操作。商务智能-数据挖掘原理第23页数据分析为了研究使用统计方法数据,可能有必要清理数据,添入缺损值,或者从几个系统中将数据整合起来。数据分析将会对以后步骤中必须数据转换提供一个初步了解,比如数据清理和整合。可能也会指出获取外部信息是必要,比如说日常商业运作中并不需要用户人口统计数据。在这一步中包括到角色是挖掘教授,他们执行大部分任务,还有数据库管理员,他们将经过提供数据访问权限来支持这些活动。商务智能-数据挖掘原理第24页数据准备当挖掘所需数据可供使用时,往往需要在真正进行挖掘前做一些准备工作。对于是否需要做这些准备工作,大部分在数据分析步骤中进行评定。商务智能-数据挖掘原理第25页数据质量数据显示出一些特定值,叫做偏离点,它们远离预期正常范围。这些值可用各种方法来处理:假如它们仍在现实中存在话,对这些数据取对数能够将它们转化到较小范围。不然能够将包含这些值统计除去,或者将全部统计中相关属性除去。商务智能-数据挖掘原理第26页空缺值一个更常见问题是空缺值。另外,有些统计值可能空缺,或者某一个属性可能会有大量空缺值。对第一个情况,能够不使用这些统计;对第二种情况,能够丢弃这个属性。商务智能-数据挖掘原理第27页猜测空缺值另一个处理空缺值方法是归咎(imputation)。能够用几个技术来猜测空缺值,下面是一些相关技术,复杂度逐步增加:从别统计中随机抽取一个值添入。取其它统计中对应属性最频值,中间数或平均数。对其它统计中这个属性值分布做一个统计模型,然后依据分布情况,随机选一个值。试图用统计或挖掘技术从相同统计值中预估空缺值。商务智能-数据挖掘原理第28页数据预处理

商务智能-数据挖掘原理第29页数据中不一致性数据挖掘能够有效地处理数据中不一致性。即使源数据是干净、整合和经过验证,它们仍有可能包含现实世界不真实数据。有效认识和解决数据质量相关问题唯一办法,就是企业对内部处理流程进行监视、分析和报告。美国硬盘生产商Maxtor公司首期信息长官斯考特.海卡尔说“商务智能最大困难在于需要确保用于总结性分析和仪表板中最底层数据永远干净、一致并相关。我们需要数据仓库具备自我治疗能力,能够自动地感应、侦查、通告和维修任何不正确、缺失或未经查对数据因素。但这至少需要一到两年才会发生。”商务智能-数据挖掘原理第30页噪声这种噪声可能是由用户错误输入或是用户填写问卷时笔误造成。假如这些错误不是发生太频繁,数据挖掘工具还是能够忽略它们,而且找出数据中存在整体模式。商务智能-数据挖掘原理第31页脏数据形成原因滥用缩写词数据输入错误不一样惯用语(如:ASAP对“atfirstchance”)重复统计丢失值拼写改变不一样计量单位过时编码商务智能-数据挖掘原理第32页数据清洗(客户数据)Maggie.kline@future_MargaretSmith-KlinephdFUTUREElectronics5/23/031016thavemanhattanny10012001124367Salutation:Ms.Firstname:MargaretLastname:Smith-KlinePostname:Ph.D.Matchstandards:Maggie,Peg,PeggyGender:StrongFemaleCompanyname:FutureElectronicsAddress1:101AvenueoftheAmericasCity:NewYorkState:NYZIP+4:10013-1933Email:maggie.kline@future_SSN:001-12-4367DateMay23,输入统计输出统计商务智能-数据挖掘原理第33页MsMargaretSmith-KlinePh.D.FutureElectronics101AvenueoftheAmericasNewYorkNY10013-1933maggie.kline@future_May23,姓名:Ms.MargaretSmith-KlinePh.D.企业名:FutureElectronicsCo.LLC社会保障号:001-12-4367购置日期:5/23/地址:101AvenueoftheAmericasNewYork,NY10013-1933纬度:40.722970经度:-74.005035Fedcode:36061电话:(222)922-9922Email:maggie.kline@future_输入纪录合并纪录MaggieSmithFutureElectronicsCo.LLC1016thAve.Manhattan,NY10012maggie.kline@future_001-12-4367Ms.PegKlineFutureElect.Co.1016thAve.NewYorkNY10013001-12-4367(222)922-99225/23/03匹配和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论