数据挖掘导论第一章课件_第1页
数据挖掘导论第一章课件_第2页
数据挖掘导论第一章课件_第3页
数据挖掘导论第一章课件_第4页
数据挖掘导论第一章课件_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘导论Pang-ningTan,MichaelStieinbach,andVipinKumar著PearsonEducationLTD.人民邮电出版社数据挖掘导论Pang-ningTan,MichaelStie12023/7/302数据挖掘导论2023/7/292数据挖掘导论主要参考书JiaweiHan,MichelineKamberandJianPeiDataMining:ConceptsandTechniqus(thirdEdition),MonrganKaufmannPublishersInc.,2012范明,孟小峰译数据挖掘:概念与技术(第二版)机械工业出版社,20072023/7/303数据挖掘导论主要参考书JiaweiHan,MichelineKam2023/7/304数据挖掘导论2023/7/294数据挖掘导论2023/7/305数据挖掘导论2023/7/295数据挖掘导论JiaweiHan在数据挖掘领域做出杰出贡献的郑州大学校友——韩家炜2023/7/306数据挖掘导论JiaweiHan在数据挖掘领域做出杰出贡献的郑州大学校友第1章绪论英文幻灯片制作:Tan,Steinbach,Kumar中文幻灯片编译:范明第1章绪论英文幻灯片制作:Tan,Steinbach7为什么挖掘数据?(商业)大量数据被收集,存储在数据库\数据 仓库中Webdata,e-commercepurchasesatdepartment/

grocerystoresBank/CreditCard

transactions计算机越来越便宜,功能越来越 强大竞争压力越来越大Providebetter,customizedservicesforanedge(e.g.inCustomerRelationshipManagement)2023/7/308数据挖掘导论为什么挖掘数据?(商业)大量数据被收集,存储在数据库\数据2为什么挖掘数据?(科学)数据以极快的速度收集和存储(GB/hour)remotesensorsonasatellitetelescopesscanningtheskiesmicroarraysgeneratinggeneexpressiondatascientificsimulationsgeneratingterabytes(千兆字节)ofdata传统的技术难以处理这些rawdata数据挖掘可能帮助科学家inclassifyingandsegmentingdatainHypothesisFormation2023/7/309数据挖掘导论为什么挖掘数据?(科学)数据以极快的速度收集和存储(GB/挖掘大型数据集:动机常常有些信息“隐藏”在数据中,并非显而易见的人分析需要数周\数月,才能发现有用的信息许多数据根本未曾分析过TheDataGap2023/7/3010数据挖掘导论挖掘大型数据集:动机常常有些信息“隐藏”在数据中,并非显而什么是数据挖掘许多不同定义本书定义在大型数据存储库中,自动地发现有用信息的过程。Exploration&analysis,byautomaticorsemi-automaticmeans,oflargequantitiesofdatainordertodiscovermeaningfulpatternsJiaweiHan的定义从大型数据集中提取有趣的(非平凡的,蕴涵的,先前未知的并且是潜在有用的)信息或模式一个类似于JiaweiHan的定义Non-trivialextractionofimplicit,previouslyunknownandpotentiallyusefulinformationfromdata2023/7/3011数据挖掘导论什么是数据挖掘许多不同定义2023/7/2911数据挖掘导论什么(不)是数据挖掘

WhatisDataMining?CertainnamesaremoreprevalentincertainUSlocations(O’Brien,O’Rurke,O’Reilly…inBostonarea)Grouptogethersimilardocumentsreturnedbysearchengineaccordingtotheircontext(e.g.Amazonrainforest,A,)

WhatisnotDataMining?Lookupphonenumberinphonedirectory

QueryaWebsearchengineforinformationabout“Amazon”2023/7/3012数据挖掘导论什么(不)是数据挖掘WhatisDataMining数据挖掘与KDD数据挖掘与知识发现数据挖掘是数据库中知识发现(knowledgediscoveryindatabase,KDD)不可缺少的一部分KDD是将未加工的数据转换为有用信息的整个过程2023/7/3013数据挖掘导论数据挖掘与KDD数据挖掘与知识发现2023/7/2913数引发数据挖掘的挑战1可伸缩海量数据集越来越普遍数千兆字节(terabytes)为处理海量数据,算法必须是可伸缩的(scalable)可伸缩可能还需要新的数据结构,以有效的方式访问个别记录例如,当要处理的数据不能放进内存时,可能需要非内存算法使用抽样技术或开发并行和分布算法也可以提高可伸缩程度2023/7/3014数据挖掘导论引发数据挖掘的挑战1可伸缩2023/7/2914数据挖掘导挑战2高维性具有数以百计或数以千计属性的数据集生物信息学:涉及数千特征的基因表达数据不同地区温度测量:维度(特征数)的增长正比于测量的次数为低维数据开发的数据分析技术不能很好地处理高维数据某些数据分析算法,随着维度(特征数)的增加,计算复杂性迅速增加2023/7/3015数据挖掘导论挑战2高维性2023/7/2915数据挖掘导论挑战3异种数据和复杂数据传统的数据分析方法只处理包含相同类型属性的数据集非传统的数据类型的出现需要能够处理异种属性的技术半结构化文本和超链接的Web页面集具有序列和三维结构的DNA数据地球表面不同位置上的时间序列测量值(温度、气压等)的气象数据数据中的联系如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子联系2023/7/3016数据挖掘导论挑战3异种数据和复杂数据2023/7/2916数据挖掘导论挑战4数据的所有权与分布数据地理上分布在属于多个机构的资源中需要开发分布式数据挖掘技术分布式数据挖掘算法面临的主要挑战包括(1)如何降低执行分布式计算所需的通信量?(2)如何有效地统一从多个资源得到的数据挖掘结果?(3)如何处理数据安全性问题?2023/7/3017数据挖掘导论挑战4数据的所有权与分布2023/7/2917数据挖掘导挑战5非传统的分析传统的统计学方法:假设-检验模式提出一种假设,设计实验来收集数据,然后针对假设分析数据当前的数据分析任务常常需要产生和评估数以千计的假设希望自动地产生和评估假设导致了一些数据挖掘技术的开发数据挖掘所分析的数据集通常不是精心设计的实验的结果代表数据的时机性样本(opportunisticsample)而不是随机样本(randomsample)数据集常常涉及非传统的数据类型和数据分布2023/7/3018数据挖掘导论挑战5非传统的分析2023/7/2918数据挖掘导论数据挖掘的起源数据挖掘是多学科交叉领域利用了来自如下一些领域的思想:统计学的抽样、估计和假设检验人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论数据库系统提供有效的存储、索引和查询处理支持分布式技术也能帮助处理海量数据最优化、进化计算、信息论、信号处理、可视化和信息检索MachineLearning/Pattern

RecognitionStatistics/

AIDataMiningDatabasesystems2023/7/3019数据挖掘导论数据挖掘的起源数据挖掘是多学科交叉领域MachineLe

数据挖掘任务预测vs.描述预测(Prediction)根据其他属性的值,预测特定属性的值描述(Description)导出概括数据中潜在联系的模式2023/7/3020数据挖掘导论数据挖掘任务预测vs.描述2023/7/2920数据挖掘数据挖掘任务分类(Classification)[Predictive]回归(Regression)[Predictive]关联规则发现(AssociationRuleDiscovery)[Descriptive]序列模式发现(SequentialPatternDiscovery)[Descriptive]聚类(Clustering)[Descriptive]异常/偏差检测(Anomaly/DeviationDetection)[Predictive]2023/7/3021数据挖掘导论数据挖掘任务分类(Classification)[Pred分类:定义给定一批记录----训练集(trainingset)Eachrecordcontainsasetofattributes,oneoftheattributesistheclasslabel(类标号).任务:建立一个模型(model)类标号属性是其他属性值的函数目标:previouslyunseenrecordsshouldbeassignedaclassasaccuratelyaspossible.Atestset(检验集)isusedtodeterminetheaccuracyofthemodel.Usually,thegivendatasetisdividedintotrainingandtestsets,withtrainingsetusedtobuildthemodelandtestsetusedtovalidateit2023/7/3022数据挖掘导论分类:定义给定一批记录----训练集(trainings分类:例子categoricalcategoricalcontinuousclassTestSetTrainingSetModelLearnClassifier2023/7/3023数据挖掘导论分类:例子categoricalcategoricalcon分类:应用1DirectMarketingGoal:Reducecostofmailingbytargetingasetofconsumerslikelytobuyanewcell-phoneproduct.Approach:Usethedataforasimilarproductintroducedbefore.Weknowwhichcustomersdecidedtobuyandwhichdecidedotherwise.This{buy,don’tbuy}decisionformstheclassattribute.Collectvariousdemographic,lifestyle,andcompany-interactionrelatedinformationaboutallsuchcustomers.Typeofbusiness,wheretheystay,howmuchtheyearn,etc.Usethisinformationasinputattributestolearnaclassifiermodel.2023/7/3024数据挖掘导论分类:应用1DirectMarketing2023/7/2分类:应用2FraudDetectionGoal:Predictfraudulentcasesincreditcardtransactions.Approach:Usecreditcardtransactionsandtheinformationonitsaccount-holderasattributes.Whendoesacustomerbuy,whatdoeshebuy,howoftenhepaysontime,etcLabelpasttransactionsasfraudorfairtransactions.Thisformstheclassattribute.Learnamodelfortheclassofthetransactions.Usethismodeltodetectfraudbyobservingcreditcardtransactionsonanaccount.2023/7/3025数据挖掘导论分类:应用2FraudDetection2023/7/29分类:应用3SkySurveyCatalogingGoal:Topredictclass(starorgalaxy)ofskyobjects,especiallyvisuallyfaintones,basedonthetelescopicsurveyimages(fromPalomarObservatory).3000imageswith23,040x23,040pixelsperimage.Approach:Segmenttheimage.Measureimageattributes(features)-40ofthemperobject.Modeltheclassbasedonthesefeatures.SuccessStory:Couldfind16newhighred-shiftquasars,someofthefarthestobjectsthataredifficulttofind!2023/7/3026数据挖掘导论分类:应用3SkySurveyCataloging202分类:应用3Attributes:Imagefeatures,Characteristicsoflightwavesreceived,etc.EarlyIntermediateLateDataSize:72millionstars,20milliongalaxiesObjectCatalog:9GBImageDatabase:150GB

Class:StagesofFormationCourtesy:2023/7/3027数据挖掘导论分类:应用3Attributes:EarlyIntermed回归回归(regression)Predictavalueofagivencontinuousvaluedvariablebasedonthevaluesofothervariables,assumingalinearornonlinearmodelofdependency.Greatlystudiedinstatistics,neuralnetworkfields.Examples:Predictingsalesamountsofnewproductbasedonadvertisingexpenditure.Predictingwindvelocitiesasafunctionoftemperature,humidity,airpressure,etc.Timeseriespredictionofstockmarketindices2023/7/3028数据挖掘导论回归回归(regression)2023/7/2928数据挖关联规则:定义关联规则(associationrule)Givenasetofrecordseachofwhichcontainsomenumberofitemsfromagivencollection;Producedependencyruleswhichwillpredictoccurrenceofitemsbasedonoccurrencesofotheritems.RulesDiscovered:

{Milk}-->{Coke}{Diaper,Milk}-->{Beer}2023/7/3029数据挖掘导论关联规则:定义关联规则(associationrule)R关联规则:应用1MarketingandSalesPromotion:Lettherulediscoveredbe

{Bagels,…

}

-->

{PotatoChips}PotatoChips

asconsequent=>Canbeusedtodeterminewhatshouldbedonetoboostitssales.Bagelsintheantecedent=>Canbeusedtoseewhichproductswouldbeaffectedifthestorediscontinuessellingbagels.Bagelsinantecedent

and

Potatochipsinconsequent

=>CanbeusedtoseewhatproductsshouldbesoldwithBagelstopromotesaleofPotatochips!2023/7/3030数据挖掘导论关联规则:应用1MarketingandSalesPr关联规则:应用2Supermarketshelfmanagement.Goal:Toidentifyitemsthatareboughttogetherbysufficientlymanycustomers.Approach:Processthepoint-of-saledatacollectedwithbarcodescannerstofinddependenciesamongitems.Aclassicrule--Ifacustomerbuysdiaperandmilk,thenheisverylikelytobuybeer.So,don’tbesurprisedifyoufindsix-packsstackednexttodiapers!2023/7/3031数据挖掘导论关联规则:应用2Supermarketshelfmana聚类:定义Givenasetofdatapoints,eachhavingasetofattributes,andasimilaritymeasureamongthem,findclusterssuchthatDatapointsinoneclusteraremoresimilartooneanother.Datapointsinseparateclustersarelesssimilartooneanother.SimilarityMeasures:EuclideanDistanceifattributesarecontinuous.OtherProblem-specificMeasuresIntraclusterdistancesareminimizedInterclusterdistancesaremaximized2023/7/3032数据挖掘导论聚类:定义Givenasetofdatapoin聚类:应用1MarketSegmentation:Goal:subdivideamarketintodistinctsubsetsofcustomerswhereanysubsetmayconceivablybeselectedasamarkettargettobereachedwithadistinctmarketingmix.Approach:Collectdifferentattributesofcustomersbasedontheirgeographicalandlifestylerelatedinformation.Findclustersofsimilarcustomers.Measuretheclusteringqualitybyobservingbuyingpatternsofcustomersinsameclustervs.thosefromdifferentclusters.

2023/7/3033数据挖掘导论聚类:应用1MarketSegmentation:202聚类:应用2DocumentClustering:Goal:Tofindgroupsofdocumentsthataresimilartoeachotherbasedontheimportanttermsappearinginthem.Approach:Toidentifyfrequentlyoccurringtermsineachdocument.Formasimilaritymeasurebasedonthefrequenciesofdifferentterms.Useittocluster.Gain:InformationRetrievalcanutilizetheclusterstorelateanewdocumentorsearchtermtoclustereddocuments2023/7/3034数据挖掘导论聚类:应用2DocumentClustering:202文档聚类:例ClusteringPoints:3204ArticlesofLosAngelesTimes.SimilarityMeasure:Howmanywordsarecommoninthesedocuments(aftersomewordfiltering).2023/7/3035数据挖掘导论文档聚类:例ClusteringPoints:3204异常检测任务:识别其特征显著不同于其他数据的观测值这样的观测值称为异常点(anomaly)或离群点(outlier)发现真正的异常点,而避免错误地将正常的对象标注为异常点应用信用卡欺诈检测网络入侵检测2023/7/3036数据挖掘导论异常检测任务:识别其特征显著不同于其他数据的观测值2023/数据挖掘的应用数据挖掘的应用37数据挖掘的应用数据库分析和决策支持市场分析和管理针对销售(targetmarketing),顾客关系管理,购物篮分析,交叉销售(crossselling),市场分割(marketsegmentation)风险分析与管理预测,顾客关系,改进保险,质量控制,竞争能力分析欺骗检测与管理其它应用文本挖掘(新闻组,email,文档资料)流数据挖掘(Streamdatamining)Web挖掘.DNA数据分析2023/7/3038数据挖掘导论数据挖掘的应用数据库分析和决策支持2023/7/2938数据市场分析与管理(1)用于分析的数据源在哪?信用卡交易,会员卡,打折优惠卷,顾客投诉电话,(公共)生活时尚研究针对销售(Targetmarketing)找出顾客群,他们具有相同特征:兴趣,收入水平,消费习惯,等.确定顾客随时间变化的购买模式个人帐号到联合帐号的转变:结婚,等.交叉销售分析(Cross-marketanalysis)产品销售之间的关联/相关基于关联信息的预测2023/7/3039数据挖掘导论市场分析与管理(1)用于分析的数据源在哪?2023/7/29市场分析与管理(2)顾客分类(Customerprofiling)数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类)识别顾客需求对不同的顾客识别最好的产品使用预测发现什么因素影响新顾客提供汇总信息各种多维汇总报告统计的汇总信息(数据的中心趋势和方差)2023/7/3040数据挖掘导论市场分析与管理(2)顾客分类(Customerprofil法人分析和风险管理财经规划和资产评估现金流分析和预测临时提出的资产评估交叉组合(cross-sectional)和时间序列分析(金融比率(financial-ratio),趋势分析,等.)资源规划:资源与开销的汇总与比较竞争:管理竞争者和市场指导对顾客分类和基于类的定价在高度竞争的市场调整价格策略2023/7/3041数据挖掘导论法人分析和风险管理财经规划和资产评估2023/7/2941数欺骗检测和管理(1)应用广泛用于健康照料,零售,信用卡服务,电讯(电话卡欺骗),等.方法使用历史数据建立欺骗行为模型,使用数据挖掘帮助识别类似的实例例汽车保险:检测这样的人,他/她假造事故骗取保险赔偿洗钱:检测可疑的金钱交易(USTreasury'sFinancialCrimesEnforcementNetwork)医疗保险:检测职业病患者,医生和介绍人圈2023/7/3042数据挖掘导论欺骗检测和管理(1)应用2023/7/2942数据挖掘导论欺骗检测和管理(2)检测不适当的医疗处置澳大利亚健康保险会(AustralianHealthInsuranceCommission)发现许多全面的检查是请求做的,而不是实际需要的(每年节省100万澳元).检测电话欺骗电话呼叫模式:通话距离,通话时间,每天或每周通话次数.分析偏离期望的模式.英国电讯(BritishTelecom)识别频繁内部通话的呼叫者的离散群,特别是移动电话,超过数百万美元的欺骗.零售分析家估计,38%的零售业萎缩是由于不忠诚的雇员造成的.2023/7/3043数据挖掘导论欺骗检测和管理(2)检测不适当的医疗处置2023/7/294其它应用运动IBMAdvancedScout分析NBA的统计数据(阻挡投篮,助攻,和犯规)获得了对纽约小牛队(NewYorkKnicks)和迈艾米热队(MiamiHeat)的竞争优势天文借助于数据挖掘的帮助,JPL和PalomarObservatory发现了22颗类星体(quasars)InternetWebSurf-AidIBMSurf-Aid将数据挖掘算法用于有关交易的页面的Web访问日志,以发现顾客喜爱的页面,分析Web销售的效果,改进Web站点的组织,等.2023/7/3044数据挖掘导论其它应用运动2023/7/2944数据挖掘导论数据挖掘界简史1989IJCAIWorkshoponKnowledgeDiscoveryinDatabases(Piatetsky-Shapiro)KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994WorkshopsonKnowledgeDiscoveryinDatabasesAdvancesinKnowledgeDiscoveryandDataMini

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论