




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘原理
赵卫东博士
复旦大学软件学院
数据挖掘原理
赵卫东博士
复旦大学软件学院
1WhatisDataMining?AccordingtotheGartnerGroup,Dataminingistheprocessofdiscoveringmeaningfulnewcorrelations,patternsandtrendsbysiftingthroughlargeamountsofdatastoredinrepositories,usingpatternrecognitiontechnologiesaswellasstatisticalandmathematicaltechniques.Dataminingreferstotheworkofdiscoveringnewanduseful(business)knowledgefromlargerealdatabasesthroughanon-trivialprocessandusingasoundmethodologyandmultipledataprocessingandanalyticaltechniques.Examples:Detecttaxationfraud:notdeclaringallincomefortaxation;Fromthethousandsofmobilephonecustomers,predictwhichcustomersaregoingtoswitchtoacompetitor.WhatisDataMining?According2数据挖掘受多学科的影响
数据挖掘是一个交叉科学领域,受多个学科影响,包括数据库系统、统计、机器学习、可视化和信息科学。
数据挖掘受多学科的影响数据挖掘是一个交叉科学领域,受多个学3一个比较正式的数据挖掘的定义高层次上的主动式自动发现方法,被称为发现驱动型知识发现。从数据中提取正确的、有用的、未知的和综合的信息并用它进行决策的过程。数据挖掘的相关学科是统计理论、数据库技术和人工智能。前BusinessObjects的ToddRowe曾表示:“从技术上讲,甚至只要有完备的Excel数据就能用上BI。”
一个比较正式的数据挖掘的定义高层次上的主动式自动发现方法,被4过程数据挖掘并不是一个装在软件包装盒中的工具可以简单的买到并运行在商业智能环境中,也不会自动开始产生值得注意的商业规律。过程数据挖掘并不是一个装在软件包装盒中的工具可以简单的买到并5正确的提取的信息应该是正确的,并且在统计上是重要的以支持有依据的决定。正确意味着确证性和完整性。不但需要从数据库中得到正确的客户,还希望得到所有正确的客户。这就需要原始数据和数据挖掘过程都具有正确性。正确的提取的信息应该是正确的,并且在统计上是重要的以支持有依6有用的数据挖掘过程可能会传递正确的和重要的结果,但是这些知识必须是对商业有用的。如结果告诉你要在一个大量的渠道上多样化市场运作,这可能会无法办到。同样结果必须使你能抢在竞争对手之前行动。有用的数据挖掘过程可能会传递正确的和重要的结果,但是这些知识7未知的数据挖掘要产生新的信息。如果过程只是传递一些无关紧要的结果,那么数据挖掘的商业动力就会消失。这就是区分验证和探索的性质。未知的数据挖掘要产生新的信息。如果过程只是传递一些无关紧要的8最小要求以上显示了数据挖掘最小要求,可以用它来评价数据挖掘是否对业务环境增加了附加的价值其他要求最小要求以上显示了数据挖掘最小要求,可以用它来评价数据挖掘是9WhyDataMining?GainaninsightintobusinessdataIdentifyusefulpatterns,correlationsandmodelsfromdataautomaticallytoanswerquestionslike,Whichcustomerislikelytochurnintwomonths?Whichcustomerismycrossselltarget?Whatarethecharacteristicsofmyhighspendingandlowspendingcustomers?DataminingisacoretechnologyofbusinessintelligenceDataminingisacoreapplicationofdatawarehousesDataminingisthecoretechnologyofanalyticalCRMDataminingisthecoretechnologyofonlinerecommendationandpersonalizationine-commerceDatamininghasbecomeapartofbusinessfunctioninmanycompaniesWhyDataMining?Gainaninsigh10DataminingisregularlyusedinDataminingisregularlyused11典型的数据挖掘系统结构
典型的数据挖掘系统结构12Verification-DrivenAnalysisVerification-drivendataminingtoolsextractdata.Theuserisexpectedtogenerateinformationbasedonhisinterpretationofthereturneddata.Verification-DrivenAnalysisVe13NewProcessWithDataMiningDiscovery-drivenComputersiftsthroughmillionsofhypothesesandonlypresentsthemostinteresting/validonesExample:Fromasamplegroupofclientsthathavedefectedtoacompetitivebank-identifyclientcharacteristicsthatarestronglycorrelated,andusingtheseattributes,scoretherestoftheclientandprospectpopulationandthestrengthoftheirrelationshipstosamplegroup.NewProcessWithDataMiningDi14WhatCanDataMiningDo?ClassificationandEstimationPredictionForecastingClusteringandSegmentationAssociationDiscoveryDescriptionandvisualizationMarketBasedAnalysisandUp-Selling/Cross-SellingPharmaceuticalIndustry:DrugEffectivenessbyPatientTypeDefectAnalysisinManufacturingUniversityandEmployeeRecruitmentEmployeeTurnoverPredictionsCreditRiskDeterminationCreditCardFraudCustomerGroupingandBehaviourPredictionWhatCanDataMiningDo?Classi15数据挖掘过程数据挖掘过程16占70%的工作量,是最重要的阶段占25%的工作量系统演示占70%的工作量,是最重要的阶段占25%的工作量系统演示17EffortDistribution
EffortDistribution
18CRISP–DMisaniterative,adaptiveprocess.CRISP–DMisaniterative,adap19IBMIntelligentMiner可视化界面IBMIntelligentMiner可视化界面20AlphaMiner界面AlphaMiner界面21数据挖掘过程是循环的过程上图会容易造成一个线性过程的印象。事实上,每一步的结果会导致这样一个结论:需要从前几步中得到更多的信息,并不断重复这一过程。这些循环保证了最后的结果是完全为业务量身定制的。
数据挖掘过程是循环的过程上图会容易造成一个线性过程的印象。22业务分析理想化地,公司中的所有活动都在不同程度上通过策略和商业目标与公司的任务描述相关。数据挖掘使你能够比以前在更高的层次上控制你的目标。业务分析涉及到领域专家和挖掘专家。前者专心于规定商业需求,而后者从数据挖掘的观点上保证这些要求的可行性,并且具体说明满足这些要求所需的挖掘操作。业务分析理想化地,公司中的所有活动都在不同程度上通过策略和商23数据分析为了研究使用统计方法的数据,可能有必要清理数据,添入缺损的值,或者从几个系统中将数据整合起来。数据分析将会对以后步骤中必须的数据转换提供一个初步的了解,比如数据清理和整合。可能也会指出获取外部的信息是必要的,比如说日常商业运作中并不需要的顾客人口统计数据。在这一步中涉及到的角色是挖掘专家,他们执行大部分的任务,还有数据库管理员,他们将通过提供数据的访问权限来支持这些活动。数据分析为了研究使用统计方法的数据,可能有必要清理数据,添入24数据准备当挖掘所需的数据可供使用时,往往需要在真正进行挖掘前做一些准备工作。对于是否需要做这些准备工作,大部分在数据分析步骤中进行评估。数据准备当挖掘所需的数据可供使用时,往往需要在真正进行挖掘前25数据质量数据显示出一些特定的值,叫做偏离点,它们远离预期的正常范围。这些值可用多种方法来处理:如果它们仍在现实中存在的话,对这些数据取对数可以将它们转化到较小的范围。否则可以将包含这些值的记录除去,或者将所有记录中的相关属性除去。数据质量数据显示出一些特定的值,叫做偏离点,它们远离预期的正26空缺值一个更常见的问题是空缺值。此外,有些记录的值可能空缺,或者某一个属性可能会有大量的空缺值。对第一种情况,可以不使用这些记录;对第二种情况,可以丢弃这个属性。空缺值一个更常见的问题是空缺值。27猜测空缺值另一种处理空缺值的方法是归咎(imputation)。可以用几种技术来猜测空缺值,下面是一些相关技术,复杂度逐渐增加:从别的记录中随机抽取一个值添入。取其他记录中对应属性的最频值,中间数或平均数。对其他记录中这个属性的值分布做一个统计模型,然后根据分布情况,随机选一个值。试图用统计或挖掘技术从相似记录的值中预估空缺值。猜测空缺值另一种处理空缺值的方法是归咎(imputation28数据预处理
数据预处理29数据中的不一致性数据挖掘能够有效地处理数据中的不一致性。即使源数据是干净的、整合的和经过验证的,它们仍有可能包含现实世界的不真实的数据。有效认识和解决数据质量相关问题的唯一办法,就是企业对内部处理流程进行监视、分析和报告。美国硬盘生产商Maxtor公司的首期信息长官斯考特.海卡尔说“商务智能最大的困难在于需要确保用于总结性分析和仪表板中的最底层的数据永远干净、一致并相关。我们需要数据仓库具备自我治疗能力,能够自动地感应、侦查、通告和维修任何不正确、缺失或未经核对的数据因素。但这至少需要一到两年才会发生。”数据中的不一致性数据挖掘能够有效地处理数据中的不一致性。即使30噪声这种噪声可能是由用户的错误输入或是顾客填写问卷时的笔误造成的。如果这些错误不是发生的太频繁,数据挖掘工具还是能够忽略它们,并且找出数据中存在的整体模式。噪声这种噪声可能是由用户的错误输入或是顾客填写问卷时的笔误造31脏数据形成的原因滥用缩写词数据输入错误不同的惯用语(如:ASAP对“atfirstchance”)重复记录丢失值拼写变化不同的计量单位过时的编码脏数据形成的原因滥用缩写词32数据清洗(客户数据)Maggie.kline@future_MargaretSmith-KlinephdFUTUREElectronics5/23/031016thavemanhattanny10012001124367Salutation:Ms.Firstname:MargaretLastname:Smith-KlinePostname:Ph.D.Matchstandards:Maggie,Peg,PeggyGender:StrongFemaleCompanyname:FutureElectronicsAddress1:101AvenueoftheAmericasCity:NewYorkState:NYZIP+4:10013-1933Email:maggie.kline@future_SSN:001-12-4367DateMay23,2003输入记录输出记录数据清洗(客户数据)Maggie.kline@future33MsMargaretSmith-KlinePh.D.FutureElectronics101AvenueoftheAmericasNewYorkNY10013-1933maggie.kline@future_May23,2003姓名:Ms.MargaretSmith-KlinePh.D.公司名:FutureElectronicsCo.LLC社会保障号:001-12-4367购买日期:5/23/2003地址:101AvenueoftheAmericasNewYork,NY10013-1933纬度:40.722970经度:-74.005035Fedcode:36061电话:(222)922-9922Email:maggie.kline@future_输入纪录合并的纪录MaggieSmithFutureElectronicsCo.LLC1016thAve.Manhattan,NY10012maggie.kline@future_001-12-4367Ms.PegKlineFutureElect.Co.1016thAve.NewYorkNY10013001-12-4367(222)922-99225/23/03匹配和合并MsMargaretSmith-KlinePh.D.姓34数据清理处理内容格式标准化异常数据清除错误纠正重复数据的清除数据清理处理内容格式标准化35属性间的相互依赖性数据挖掘将会同时从不同角度来看待数据。这就防止了把某些自身看起来好像不相关的属性丢弃的情况。数据挖掘将会发现属性间的相互依赖性,这些相互依赖性往往需要提取数据中的所有相关信息,甚至是隐藏在多个属性的组合中。属性间的相互依赖性数据挖掘将会同时从不同角度来看待数据。这就36结果解释对结果的解释完全依赖于数据挖掘步骤的可视化输出。对结果的解释需要挖掘专家和领域专家的紧密合作。他们一起将技术的结果解释为商业的意义,并且评价从这些结果中得出结论的正确性。当结果从技术上来说是正确的,但对商业上来说并不意味着任何有价值的东西的时候,有必要进行迭代。结果解释对结果的解释完全依赖于数据挖掘步骤的可视化输出。37商业应用一个例子就是预测所有客户中的可创造高利润的群体,必须决定如何去接近这些客户,同时还要决定如何判断他们是否像模型预测的那样能带来利润。领域专家依靠对挖掘结果解释中的信息,来支持商业应用的决定。在小公司中,领域专家可能就是决策者,但通常来说,决策者往往是一些顾问。如果领域专家对决策是否为挖掘结果所支持不是很确定,或者他和实际决策者中有任何的误解,都需要回复到结果解释阶段。商业应用一个例子就是预测所有客户中的可创造高利润的群体,必须38商业反馈商业环境中的结果被反馈到商业智能环境中,并和数据挖掘模型的输出一起做分析。比如说,假设你邮寄活动的预测回复与实际回复作一个比较。当你试图了解是什么因素使得你对某些客户的预测出现错误时,可能会引发一轮新的数据挖掘过程。商业反馈商业环境中的结果被反馈到商业智能环境中,并和数据挖掘39数据挖掘原理
赵卫东博士
复旦大学软件学院
数据挖掘原理
赵卫东博士
复旦大学软件学院
40WhatisDataMining?AccordingtotheGartnerGroup,Dataminingistheprocessofdiscoveringmeaningfulnewcorrelations,patternsandtrendsbysiftingthroughlargeamountsofdatastoredinrepositories,usingpatternrecognitiontechnologiesaswellasstatisticalandmathematicaltechniques.Dataminingreferstotheworkofdiscoveringnewanduseful(business)knowledgefromlargerealdatabasesthroughanon-trivialprocessandusingasoundmethodologyandmultipledataprocessingandanalyticaltechniques.Examples:Detecttaxationfraud:notdeclaringallincomefortaxation;Fromthethousandsofmobilephonecustomers,predictwhichcustomersaregoingtoswitchtoacompetitor.WhatisDataMining?According41数据挖掘受多学科的影响
数据挖掘是一个交叉科学领域,受多个学科影响,包括数据库系统、统计、机器学习、可视化和信息科学。
数据挖掘受多学科的影响数据挖掘是一个交叉科学领域,受多个学42一个比较正式的数据挖掘的定义高层次上的主动式自动发现方法,被称为发现驱动型知识发现。从数据中提取正确的、有用的、未知的和综合的信息并用它进行决策的过程。数据挖掘的相关学科是统计理论、数据库技术和人工智能。前BusinessObjects的ToddRowe曾表示:“从技术上讲,甚至只要有完备的Excel数据就能用上BI。”
一个比较正式的数据挖掘的定义高层次上的主动式自动发现方法,被43过程数据挖掘并不是一个装在软件包装盒中的工具可以简单的买到并运行在商业智能环境中,也不会自动开始产生值得注意的商业规律。过程数据挖掘并不是一个装在软件包装盒中的工具可以简单的买到并44正确的提取的信息应该是正确的,并且在统计上是重要的以支持有依据的决定。正确意味着确证性和完整性。不但需要从数据库中得到正确的客户,还希望得到所有正确的客户。这就需要原始数据和数据挖掘过程都具有正确性。正确的提取的信息应该是正确的,并且在统计上是重要的以支持有依45有用的数据挖掘过程可能会传递正确的和重要的结果,但是这些知识必须是对商业有用的。如结果告诉你要在一个大量的渠道上多样化市场运作,这可能会无法办到。同样结果必须使你能抢在竞争对手之前行动。有用的数据挖掘过程可能会传递正确的和重要的结果,但是这些知识46未知的数据挖掘要产生新的信息。如果过程只是传递一些无关紧要的结果,那么数据挖掘的商业动力就会消失。这就是区分验证和探索的性质。未知的数据挖掘要产生新的信息。如果过程只是传递一些无关紧要的47最小要求以上显示了数据挖掘最小要求,可以用它来评价数据挖掘是否对业务环境增加了附加的价值其他要求最小要求以上显示了数据挖掘最小要求,可以用它来评价数据挖掘是48WhyDataMining?GainaninsightintobusinessdataIdentifyusefulpatterns,correlationsandmodelsfromdataautomaticallytoanswerquestionslike,Whichcustomerislikelytochurnintwomonths?Whichcustomerismycrossselltarget?Whatarethecharacteristicsofmyhighspendingandlowspendingcustomers?DataminingisacoretechnologyofbusinessintelligenceDataminingisacoreapplicationofdatawarehousesDataminingisthecoretechnologyofanalyticalCRMDataminingisthecoretechnologyofonlinerecommendationandpersonalizationine-commerceDatamininghasbecomeapartofbusinessfunctioninmanycompaniesWhyDataMining?Gainaninsigh49DataminingisregularlyusedinDataminingisregularlyused50典型的数据挖掘系统结构
典型的数据挖掘系统结构51Verification-DrivenAnalysisVerification-drivendataminingtoolsextractdata.Theuserisexpectedtogenerateinformationbasedonhisinterpretationofthereturneddata.Verification-DrivenAnalysisVe52NewProcessWithDataMiningDiscovery-drivenComputersiftsthroughmillionsofhypothesesandonlypresentsthemostinteresting/validonesExample:Fromasamplegroupofclientsthathavedefectedtoacompetitivebank-identifyclientcharacteristicsthatarestronglycorrelated,andusingtheseattributes,scoretherestoftheclientandprospectpopulationandthestrengthoftheirrelationshipstosamplegroup.NewProcessWithDataMiningDi53WhatCanDataMiningDo?ClassificationandEstimationPredictionForecastingClusteringandSegmentationAssociationDiscoveryDescriptionandvisualizationMarketBasedAnalysisandUp-Selling/Cross-SellingPharmaceuticalIndustry:DrugEffectivenessbyPatientTypeDefectAnalysisinManufacturingUniversityandEmployeeRecruitmentEmployeeTurnoverPredictionsCreditRiskDeterminationCreditCardFraudCustomerGroupingandBehaviourPredictionWhatCanDataMiningDo?Classi54数据挖掘过程数据挖掘过程55占70%的工作量,是最重要的阶段占25%的工作量系统演示占70%的工作量,是最重要的阶段占25%的工作量系统演示56EffortDistribution
EffortDistribution
57CRISP–DMisaniterative,adaptiveprocess.CRISP–DMisaniterative,adap58IBMIntelligentMiner可视化界面IBMIntelligentMiner可视化界面59AlphaMiner界面AlphaMiner界面60数据挖掘过程是循环的过程上图会容易造成一个线性过程的印象。事实上,每一步的结果会导致这样一个结论:需要从前几步中得到更多的信息,并不断重复这一过程。这些循环保证了最后的结果是完全为业务量身定制的。
数据挖掘过程是循环的过程上图会容易造成一个线性过程的印象。61业务分析理想化地,公司中的所有活动都在不同程度上通过策略和商业目标与公司的任务描述相关。数据挖掘使你能够比以前在更高的层次上控制你的目标。业务分析涉及到领域专家和挖掘专家。前者专心于规定商业需求,而后者从数据挖掘的观点上保证这些要求的可行性,并且具体说明满足这些要求所需的挖掘操作。业务分析理想化地,公司中的所有活动都在不同程度上通过策略和商62数据分析为了研究使用统计方法的数据,可能有必要清理数据,添入缺损的值,或者从几个系统中将数据整合起来。数据分析将会对以后步骤中必须的数据转换提供一个初步的了解,比如数据清理和整合。可能也会指出获取外部的信息是必要的,比如说日常商业运作中并不需要的顾客人口统计数据。在这一步中涉及到的角色是挖掘专家,他们执行大部分的任务,还有数据库管理员,他们将通过提供数据的访问权限来支持这些活动。数据分析为了研究使用统计方法的数据,可能有必要清理数据,添入63数据准备当挖掘所需的数据可供使用时,往往需要在真正进行挖掘前做一些准备工作。对于是否需要做这些准备工作,大部分在数据分析步骤中进行评估。数据准备当挖掘所需的数据可供使用时,往往需要在真正进行挖掘前64数据质量数据显示出一些特定的值,叫做偏离点,它们远离预期的正常范围。这些值可用多种方法来处理:如果它们仍在现实中存在的话,对这些数据取对数可以将它们转化到较小的范围。否则可以将包含这些值的记录除去,或者将所有记录中的相关属性除去。数据质量数据显示出一些特定的值,叫做偏离点,它们远离预期的正65空缺值一个更常见的问题是空缺值。此外,有些记录的值可能空缺,或者某一个属性可能会有大量的空缺值。对第一种情况,可以不使用这些记录;对第二种情况,可以丢弃这个属性。空缺值一个更常见的问题是空缺值。66猜测空缺值另一种处理空缺值的方法是归咎(imputation)。可以用几种技术来猜测空缺值,下面是一些相关技术,复杂度逐渐增加:从别的记录中随机抽取一个值添入。取其他记录中对应属性的最频值,中间数或平均数。对其他记录中这个属性的值分布做一个统计模型,然后根据分布情况,随机选一个值。试图用统计或挖掘技术从相似记录的值中预估空缺值。猜测空缺值另一种处理空缺值的方法是归咎(imputation67数据预处理
数据预处理68数据中的不一致性数据挖掘能够有效地处理数据中的不一致性。即使源数据是干净的、整合的和经过验证的,它们仍有可能包含现实世界的不真实的数据。有效认识和解决数据质量相关问题的唯一办法,就是企业对内部处理流程进行监视、分析和报告。美国硬盘生产商Maxtor公司的首期信息长官斯考特.海卡尔说“商务智能最大的困难在于需要确保用于总结性分析和仪表板中的最底层的数据永远干净、一致并相关。我们需要数据仓库具备自我治疗能力,能够自动地感应、侦查、通告和维修任何不正确、缺失或未经核对的数据因素。但这至少需要一到两年才会发生。”数据中的不一致性数据挖掘能够有效地处理数据中的不一致性。即使69噪声这种噪声可能是由用户的错误输入或是顾客填写问卷时的笔误造成的。如果这些错误不是发生的太频繁,数据挖掘工具还是能够忽略它们,并且找出数据中存在的整体模式。噪声这种噪声可能是由用户的错误输入或是顾客填写问卷时的笔误造70脏数据形成的原因滥用缩写词数据输入错误不同的惯用语(如:ASAP对“atfirstchance”)重复记录丢失值拼写变化不同的计量单位过时的编码脏数据形成的原因滥用缩写词71数据清洗(客户数据)Maggie.kline@future_MargaretSmith-KlinephdFUTUREElectronics5/23/031016thavemanhattanny10012001124367Salutation:Ms.Firstname:MargaretLastname:Smith-KlinePostname:Ph.D.Matchstandards:Maggie,Peg,PeggyGender:StrongFemaleCompanyname:FutureElectronicsAddress1:101AvenueoftheAmericasCity:NewYorkState:NYZIP+4:10013-1933Email:maggie.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 系统性备考:特许金融分析师试题
- 辽宁省名校联盟2024-2025学年高二下学期3月联合考试历史试题(含解析)
- 小金库案例警示教育
- 深入探讨2024年CFA试题及答案
- CFA知识体系框架试题及答案
- 高校预防火灾
- 止痛泵使用规范
- 骨关节肌肉病理
- 2024年CFA考试总结与提升经验与试题及答案
- CFA考试经验丰富者的建议与试题及答案
- GB/T 4303-2023船用救生衣
- 101种心理防御机制
- 医院培训课件:《医疗安全(不良)事件报告制度培训》
- 拆除电杆施工方案
- 村(居)民房屋翻建(新建)申请表
- 管理学原理 王光健版
- 机关建筑能源托管服务项目可研方案
- DB31T 684-2023养老机构照护服务分级要求
- 气道异物梗阻急救课件
- 硝酸银化学品安全技术说明书MSDS
- 冶金厂设计基础
评论
0/150
提交评论