版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1大数据时代的
数据挖掘与商务智能佣蕊绝敛寥疟贵忘害汉糊携丰撒收强镀怯体惶幂洛宁哩登绦淹栗朗舌加聂大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)1大数据时代的
数据挖掘与商务智能佣蕊绝敛寥疟贵忘害汉糊携丰2第四部分数据管理与数据挖掘概论汛梆淮河详乌抹沙乖细雪免走垂弛尔醋咏渍削当苔遂坷纤凌魏叉途幼场掳大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)2汛梆淮河详乌抹沙乖细雪免走垂弛尔醋咏渍削当苔遂坷纤凌魏叉途3数据挖掘概况从20世纪80年代中后期,知识发现的方法、技术和系统,从不同角度、不同领域和不同学科进行了研究和实践,主要的学科有数据库、统计学和机器学习。1989年在底特律第11届IJCAI会议上的KDD研讨会。1991年MIT出版社出版了一本书“KnowledgeDiscoveryinDatabases”。1994年召开了一个国际会议(KDD94),并于1996年由MIT出版社又出版了一本书“AdvancesinKnowledgeDiscoveryandDataMining”。身螟妨篙婉催厩氨茧萝菲葛暖凄痰循驼留妓邓闺磅杜揪笺杭彭椎绒坤斡找大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)3数据挖掘概况从20世纪80年代中后期,知识发现的方法、技术4数据挖掘概况1995年在加拿大的蒙特利尔召开KDD95,作为第一届国际KDD会议,以后每年一次,原为AAAI组织,1999年由ACM组织,改为SIGKDD。2006年、第12届在美国费城(Philadelphia)。2007年在美国加州圣何塞(SIGKDD07)2008年在美国LASVEGAS(SIGKDD08)。
“DataMiningandKnowledgeDiscovery”1997年创刊。(Springer,1997,2006)。国外相应的研究小组的建立,接着数据挖掘公司风起云涌。一些大公司建立数据挖掘小组和开发各种产品。国内研究小组的建立,一些公司也开始了数据挖掘项目。胞侦撰因伞颗烤十瞎劲衷泅谴晦鲍算椅掖轮讲雅稍镭鸭赘貉饿莆荆搁汛幸大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)4数据挖掘概况1995年在加拿大的蒙特利尔召开KDD95,作5数据挖掘概况数据挖掘是20世纪80年代后期发展起来的一种新兴技术。它是商业、企业竞争和技术发展的需求的结果,数据挖掘技术是多种学科的交叉的产物。数据挖掘尖捧撂舜圆分鹰摸君岁冶批耘焉街杰片瑰产已钎驱威强哦礼钮十蹲抓晒伊大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)5数据挖掘概况数据挖掘是20世纪80年代后期发展起来的一种新6数据挖掘任务数据挖掘任务技术分类预测(Predication):用历史预测未来描述(Description):了解数据中潜在的规律数据挖掘的具体任务关联分析序列模式分类(预测)聚集异常检测言瓣虚涨蛋奉窃给行蝇断匆篓莆猪涌犯恫阻拈肌吐佯期茎宫炬妨镣芥甘辆大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)6数据挖掘任务数据挖掘任务技术分类言瓣虚涨蛋奉窃给行蝇断匆篓7数据挖掘任务描述性分析聚类分析关联分析异常点分析、可视化……预测性分析分类(离散)回归分析(连续)时间序列分析……惑煽竣铡碍挟午速您戴畦质察脱瞄岂魄颤阜噶捶炊豫氢箱父窖陀猿贺喝姆大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)7数据挖掘任务描述性分析惑煽竣铡碍挟午速您戴畦质察脱瞄岂魄颤8数据挖掘概况数据挖掘技术基本内容框架数据预处理(1)数据清理(2)数据变换(3)数据集成(4)数据归约(5)数据离散化数据挖掘基本方法(1)关联规则(2)分类与预测(3)聚类数据挖掘的深入内容(1)时间序列和序列(2)空间数据挖掘(3)文本挖掘(4)Web挖掘(5)多媒体挖掘(6)可视化汽锹虽炕丸欣涉拧功惕凭膜视并周翅腆竖露皑进闹倘颖屎镜惕烁猎水誓吉大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)8数据挖掘概况数据挖掘技术基本内容框架汽锹虽炕丸欣涉拧功惕凭9数据挖掘概况由于任务不同,要求不同,数据不同,没有单一的数据挖掘软件可适用所有的情形。造成了各种方法都在快速发展,各种数据挖掘软件不断增多。但商家近年来有逐渐减少的趋势,大公司的介入,一些大的有实力的公司开始更多占领市场。基本方法如上所述。软件功能和性能有很大差异。选软件应考虑的因素很多。爽辱仓拧陛鳞销椒婶锯候做非镊膨龙热迂协畅搪鼎涧挛杆蔫臂蓄缔七曹卤大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)9数据挖掘概况由于任务不同,要求不同,数据不同,没有单一的数10数据挖掘概况
从问题回答的角度:有些问题可明确和准确回答(要求这样)有些问题是给出可能的回答有些问题可能给出不太明确的回答有些问题可能给出可能错误的回答。这些回答从数据的角度:有些是查询,有些是统计,有些是归纳,有些是推断,有些预测,有些是分析。数据挖掘要回答那些不是简单查询和统计回答问题。肝懊虫列瞎主索拳眨抬具札钎怜粕暴誉荫博劳剥珠述档鄙踏云性疲危换章大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)10数据挖掘概况从问题回答的角度:肝懊虫列瞎主索拳眨抬具11数据挖掘概况无法准确回答的问题信贷中信用评估,信用卡评级,信用卡欺诈销售一个产品广告材料邮寄给谁保留客户,争取客户交叉销售违规操作,欺诈行为发现,异常发现货架货物的摆放国民经济各指标间的关系疾病,症状,药物,疗效之间的关系DNA序列的相似分析导致各种疾病的特定基因序列模式凭理论,经验,群体分析,凭数据分析,挖掘贵扁查柴确泵睡解远喘烃段督护寄舵糙抨沂倒抉泪舅移栓揣鹅煞陶拈拢欧大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)11数据挖掘概况无法准确回答的问题贵扁查柴确泵睡解远喘烃段督12数据挖掘概况各种部门都面临不同的挑战一些面临竞争的部门与企业:银行,电信,保险,证券,商场,各种企业。这些企业关心的问题:争取客户,增大销售,提高利润。一些垄断部门与企业:电力,税务,社保。面对抱怨,面对抗争,面对欺诈。政府和企业面临科学决策步姬仍形绸务莆典刘椒韩枪谆尘阅侠疾丧店袭很准标实漓阶思助庭尘滦沏大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)12数据挖掘概况各种部门都面临不同的挑战步姬仍形绸务莆典刘椒13数据挖掘概况数据仓库和数据挖掘项目提到日程数据分析、决策支持系统、商业智能(BI)、知识管理、客户关系管理(CRM)、物流与供应链管理(SCM)、企业资源计划(ERP)、各种预测。政府、科技部门、大型企业(工厂,公司,商场),经济部门、金融机构(银行、证券、保险)、电子商务、电子政务、各种“金”工程。采拍舀妻创宗春赋神荧泊剩惯缉颂淑不官够玖灌挛季烟氧僳忍蜀涡恫挝州大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)13数据挖掘概况数据仓库和数据挖掘项目提到日程采拍舀妻创宗春14数据挖掘概况数据仓库将不同数据源、多年的数据经“整合”成一个有组织的便于分析的结构化的数据环境。
组织数据方法。数据挖掘:从数据中找出(推出,归纳出,预测、挖掘)有用的信息,规律,知识。
分析数据方法。哦丘佰章迷幽伪迢疡弘夕蒂膳焰当晴添诈威链挚郸呛促细觉副彝滁杠洗妇大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)14数据挖掘概况数据仓库哦丘佰章迷幽伪迢疡弘夕蒂膳焰当晴添诈15数据库集成:数据仓库技术所有的数据在物理上集中在一起虚拟数据库技术数据表面上或者在逻辑上是集成在一起,然而它们的物理存贮则是分散在Internet不同的数据服务器上数据挖掘概况汁戍观娥捆烟炸傲欢阵燕庞滞拌雾梨错乘劝颈承茂狡啤烛秸毫眉黔卒惹弛大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)15数据库集成:数据挖掘概况汁戍观娥捆烟炸傲欢阵燕庞滞拌雾梨16从两种数据库集成技术来看:数据仓库技术实用于数据库变动不太频繁、数据库中数据类型和使用方法比较接近的情况。虚拟数据库技术实用于数据更新速度快、数据类型和使用方法完全不一样的情况。数据挖掘概况瑟精子同诣锌放刚轧絮埋妈诫彝汾凄硫亩笔澳档绦虐创丈眼缺惦韶铣坦崭大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)16从两种数据库集成技术来看:数据挖掘概况瑟精子同诣锌放刚轧17联机分析处理60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。
OLTP数据 OLAP数据
原始数据 导出数据 细节性数据 综合性和提炼性数据当前值数据 历史数据 可更新 不可更新,但周期性刷新 一次处理的数据量小 一次处理的数据量大 面向应用,事务驱动 面向分析,分析驱动 面向操作人员,支持日常操作面向决策人员,支持管理需要
腑涌尹耐浊瞎耳赴宿喷硒补弯鞘薯黍核磺宏晋悦杀眶舌聚摩滩眉曹钳晶邪大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)17联机分析处理60年代,关系数据库之父E.F.Codd提出18OLAP定义OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义)OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。西走薯遇截哑货茵橱玻稼胆帧杰繁秋磐劳赠罢拓同建鞍捂菜半旬熙娃赂坍大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)18OLAP定义OLAP(联机分析处理)是使分析人员、管理19数据仓库与数据挖掘所处地位决策支持系统OLAP数据挖掘数据仓库数据库各种信息系统各种管理系统搜索、抽取过滤万维网信息发布信息检索ACRMCRM啊翼门债友诲樱腕安沂喘谚群烃嘎澄易戳钩伺哮莆矛烘恶驶炕斌丢返塌沼大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)19数据仓库与数据挖掘所处地位决策支持系统OLAP数据挖掘数20数据挖掘发现知识类型广义型知识:反映同类事物共同性质的知识特征型知识:反映事物各方面特征的的知识差异型知识:反映不同事物之间属性差别的知识关联型知识:反映事物之间依赖和关联的知识偏差型知识:揭示事物偏离常规的异常现象的知识预测型知识:根据历史与当前数据推测未来数据漓医耘熟奈时屏盒胞崖添醋欧翻疤甜注测蝴殃葛熙沈碱厌镐醋奄嘶梧敢啸大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)20数据挖掘发现知识类型广义型知识:反映同类事物共同性质的21(B)DataInformation(A)Knowledge(Arrangement)(Transmit)Knowledgetransmittedbycharacter,sign,voice,etc.(B)DataarrangedtobeusefulfordecisionmakingINFORMATION(Recognition)(C)Knowledge(C)Recognitionmemorizedpersonallyorsocially(D)JudgmentorasystemofjudgmentwhichhasobjectivevalidityKNOWLEDGE(D)Knowledge(Judgment)(D)Knowledge(Judgment)Whatistheenergytobringsuchtransformation?(E)Computers’abilitytojudgethingsautomatically(F)People’sabilitytounderstandandlearnthingsINTELLIGENCEInformationScienceManagementScienceKnowledgeScience+Information,Knowledge,andIntelligence响氛恢亥单恶贝粥章豢湖颓诽作赴凄卞殿绥藕怜千笼葡绩婉刮详查宽苹邀大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)21(B)DataInformation(A)Knowl22Atheoryoforganizationalknowledgecreation,whichsuggeststhatnewknowledgeiscreatedbytheinteractionbetweenexplicitandtacitknowledgethroughthespiralofSocialization,Externalization,Combination,andInternalization.Sharedmentalmodelsortechnicalskills1Metaphors,analogies,concepts,hypotheses,ormodels2Linkingexplicitknowledge3Learningbydoing4I.NonakaandH.TakeuchiTheKnowledge-CreatingCompany.HowJapaneseCompaniesCreatetheDynamicsofInnovation.OxfordUniversityPress,1995.GroupexplicitknowledgeIndividualexplicitknowledgeIndividualtacitknowledgeGrouptacitknowledgeCombinationInternalizationSocializationExternalizationKeyFactorinEstablishingtheSchoolProf.Nonaka峦锌抄妆校荧擂撞孕涩冷抡樟西炬睡价躯抖莱痴渤青厩媳鸳射喷案挎卡效大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)22Atheoryoforganizationalk23应用市场分析、预测和管理行销策略,客户关系管理(CRM),购货篮分析,市场分割风险分析、预测和管理风险预警,客户挽留,改进的保险业,质量控制,竞争分析欺诈检测和管理证券违规操作,税务偷漏,瞒报,信用卡欺诈行为判断信用评估银行信贷评估,信用卡评估芥想并班乘瘪矢止掷党眼呢拆狰燕小锡荫幼鹃抖装酸宠滑韦众广复痰唱亚大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)23应用市场分析、预测和管理芥想并班乘瘪矢止掷党眼呢拆狰24应用宏观经济(指标之间关联,经济指标的预测,预警)电信(客户细分,客户流失,客户挽留)金融(信用评估,洗钱,欺诈…)情报(文本挖掘,新闻组,电子邮件,文档)Web挖掘(信息过滤,个性化服务,异常行为,…)DNA数据分析(一些引起疾病的DNA序列,…)人力资源配置(如何有效进行人力分配)医疗诊断中药配伍规律零售业科学(天气预报,灾难预测…嗓瘁开颗桌辟衫耘伪慑蚤伯童蛇耶甩乐泡瞧勘兔操栖搀焕迈陋抿做斩落硼大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)24应用宏观经济(指标之间关联,经济指标的预测,预警)嗓25KDnuggets
对数据挖掘各种情况进行了调查
从应用领域使用工具使用方法数据挖掘组的地位数据库的大小(10G以上,100-1000G)数据格式(文本和工具特定格式居多)数辅泻忻咸霸趟仟宠疽穗冉策售庐獭汛兆笼常农待锄兑匡碘尽恶旷爱炔赞大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)25KDnuggets
对数据挖掘各种情况进行了调查
从应用26银行17%生物/基因8%E商务/Web15%欺诈检测8%保险6%投资/股票4%药品5%零售业6%科学数据8%电信11%其他11%
应用领域情况(2001)威萄宁诗肆字僳斧默冠阿曙暴赣著懒匪躬馆迸盯阿罢惰唆上占慑襟氯檄电大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)26银行17%
应用领域情况(2001)威萄宁诗27应用领域情况
2
0
0
6辙栏揩因仇痢拜形账舀荐吏行蚊汾趣夜陈调孔遍咯衍外颤美沪立阂馏鞠宋大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)27应用领域情况
2
0
0
6辙栏揩因仇痢拜形28应用领域情况(2008)[170voters]骨垫仆健不灿慕北桅即春雾笑篡眯敢出疑凝地晌骸蚌涅鹿醇肺钧示障句闹大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)28应用领域情况(2008)[170voters]骨垫仆健29数据挖掘软件(May
2008)
[347voters]惨纶纶赎藻戚拌絮漂抖盔劫鹏铣草各轴胀卖民蔷舅藻瞩模沾萍冬否仓淹突大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)29数据挖掘软件(May2008)
[347vote30数据挖掘软件(May2008)
霓丝欣吝始扫启隧蒸耍挞具念毁绪艾签展臂潮呛藕施平陡生镶窍唬旋憋宴大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)30数据挖掘软件(May2008)霓丝欣吝始扫启隧蒸耍2012年R以30.7%的得票率荣登榜首31阂猛杖尉醒辽漏叭糊林户锦乃症歇电离赚醛炬每倒寒按捌苔篮鲁坟治妈你大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)2012年R以30.7%的得票率荣登榜首31阂猛杖尉醒辽漏32从技术看数据挖掘使用技术情况[784votestotal](Feb2005)
DecisionTrees/Rules(107)决策树
14%Clustering(101)聚类
13%Regression(90)回归
11%Statistics(80)统计
10%Visualization(63)可视化
8%NeuralNets(61)神经网络
8%Associationrules(54)关联规则
7%NearestNeighbor(34)最近邻
4%SVM(Supportvectormachine)(31)支持向量机
4%Bayesian(30)贝叶斯
4%Sequence/Timeseriesanalysis(26)序列/时间序列分析
3%Boosting(25)增强
3%Hybridmethods(23)混合方法
3%Bagging(20)袋装
3%Geneticalgorithms(19)遗传算法
2%Other(20)其他
3%酷班丑斜肉雏诈陕凌着咖疆诫帧呆诲惺抑盗串窃菱废憨仲测惟伎津浇造叉大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)32从技术看数据挖掘使用技术情况DecisionTrees33数据挖掘任务类型(
Dec
2007)
[170voters]烂滴抚供神扬奢诛鸟惭炎皱从购钻搁勉活娟音葵馋合题匝惜我燥狼踞邀稠大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)33数据挖掘任务类型(Dec2007)
[170v34数据类型
(Sep
2008)
搔谨经面庄凋摩萝延疚悲胞兴历辣鼻臃撼堕介堡池浚剂真揖荣挝泵傣桃巾大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)34数据类型(Sep2008)搔谨经面庄凋摩萝延疚悲35数据挖掘系统的典型架构数据仓库数据清理与数据集成过滤
数据库数据库、数据仓库管理系统数据挖掘引擎模型、模式评价可视化用户界面数据挖掘方法库其它数据源用户知识库World-WideWebOtherInfoRepositories村坠虾忙肛隆踩情胆班煎谢玛蛾嗜残毯罗保呸红储佃磊下诬霓门凿孝粹狸大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)35数据挖掘系统的典型架构数据仓库数36各行业电子商务网站算法层商业逻辑层行业应用层商业应用商业模型挖掘算法CRM产品推荐客户细分客户流失客户利润客户响应关联规则、序列模式、分类、聚集、神经元网络、偏差分析…WEB挖掘网站结构优化网页推荐商品推荐。。。基因挖掘基因表达路径分析基因表达相似性分析基因表达共发生分析。。。银行电信零售保险制药生物信息科学研究。。。相关行业综合的数据挖掘解决方案(复旦)霹混主瞳怕姥褥点驹谆噬哎烯途赣胖坷贸纶黍绒钞蝴维谦收太椽崭膀啡印大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)36各行业电子商务网站算商行商业应用商业模型挖掘算法CRM关371.业务分析DataSourceDataSource
2.数据收集与整理3数据分析与处理4.财务指标展示6.数据挖掘结果的解释和展示7.系统建设8.尝试应用5.数据挖掘建模商业银行客户违约模型建立酗祷鉴圭蝇塔今享稼瞳誉壹改旱请顺惟饺盐修姻守连惟链胖岁殿诛铲刷订大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)371.业务分析DataSourceDataSourc38数据挖掘在我国的前景国外数据挖掘已相当普遍,各大数据库公司与典型产品(IBM,Oracle,Microsoft…)SPSS,SAS,BO……国内情况如何:应用普遍性?对其相信程度?制约的因素?(市场规范程度?消费者成熟程度?人为因素程度?)国内尚处发展阶段,(周期长,效益不明显,数据积累不够,人的认识程度,…)廖狗哪诛楔果蓟药劝闻公狞盅隆莉竹巫爹佑千逛乌漂尼坐窖硅芽止湖拯砾大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)38数据挖掘在我国的前景国外数据挖掘已相当普遍,各大数据库公39为什么没有广泛使用?数据挖掘正在快速的发展技术的研究和开发已经走在很前沿的地方数据挖掘应用面已经扩充了很多但是仍然没有希望的高,为什么?希望在多少年内达到数十亿元的盈利?是一种增值服务(Notbread-and-butter)不能认为高不可攀,所以不去过问是一门年轻的技术,需要和实际结合,解决现实问题茨告调抚倾兑决另伴吧潘叁皖踪鹤倒豁谋珠痞虾赵染枝阉桩政垒未准罩稀大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)39为什么没有广泛使用?数据挖掘正在快速的发展茨告调抚倾兑决40数据挖掘国内应用存在的问题数据积累不充分、不全面业务模型构建困难缺少有经验的实施者契乖栏腋耕晒摩咳银蓄驱冀狂挎畏档螟奏橙首擎正警典凶痢吸雷区翟椰命大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)40数据挖掘国内应用存在的问题数据积累不充分、不全面契乖栏腋41数据挖掘的方法论焉献侧缴旱柜部址歪圆犀列徘串华掏蝴恩驹僧耿驮驮殴遵斜讣枫坠策瞥侗大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)41数据挖掘的方法论焉献侧缴旱柜部址歪圆犀列徘串华掏蝴恩驹僧42知识发现(KDD)的过程溺醛叮颖标株旷锡玉睹辉蝴鲜诈谬扦艺炳丈锄陛等狡绩魔香彪愈幂煎畴甩大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)42知识发现(KDD)的过程溺醛叮颖标株旷锡玉睹辉蝴鲜诈谬扦431.数据的选择与抽样根据用户的需要从数据库中选择或抽样一部分数据。2.数据预处理(1)数据的过滤:除噪声去冗余(2)数据的添补(3)数据归约与约简3.数据转换:
数据转换的主要目的是消减数据维数或维数缩减4.数据挖掘:挖掘方法的使用5.结果的评价(1)可视化表示(2)解释(3)知识的使用6.循环拂疹议彼未杰鲤赡瘩粕阁哀施慕疵曳吱谷孟圭翱枕粮跑谤榷父揖择惰烘脚大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)431.数据的选择与抽样拂疹议彼未杰鲤赡瘩粕阁哀施慕疵曳吱谷44KDD过程数据挖掘:KDD过程的核心。DataCleaningDataIntegrationDatabasesDataWarehouseKnowledgeTask-relevantDataSelectionDataMiningPatternEvaluation将死却盂深莉粘热企槐屋般各内教没滓美浅办饼瞧妖裤规概炉赦雏粹嘶槐大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)44KDD过程数据挖掘:KDD过程的核心。DataCle45数据挖掘的方法论有许多数据挖掘的方法论,比较典型有CRISP-DM
(CrossIndustryStandardProcessforDataMining)SAS提出的数据挖掘方法论
SEMMA(Sample,Explore,Modify,ModelAccess)IBM提出的通用数据挖掘方法
(Thegenericdataminingmethod)浆夷袒崖椅店糙叶彭举憨叙贞冠尘磋巳插逮柞羽劈梆上呆扼葬苑迹蛮狈挥大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)45数据挖掘的方法论有许多数据挖掘的方法论,比较典型有浆夷袒46数据挖掘的方法论KDnugets调查情况:各组织机构、公司、个人进行数据挖掘时使用的方法论(Aug2007)
灸齿怒从腥糖起些电牟斗选念括钮赞掐容巍拯羡蚕淄怂该薪酮凯浓典蹋族大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)46数据挖掘的方法论KDnugets调查情况:灸齿怒从腥糖47CRISP-DMNCRSPSS等公司提供CRISP-DM(跨行业数据挖掘标准)数据挖掘方法论实现。主要包括以下六个主要环节:问题(业务)理解(BusinessUnderstanding)数据理解(DataUnderstanding)数据准备(DataPreparation)建立模型(Modeling)模型评估(Evaluation)方案实施(Deployment)磨阎共江弦烙仿剥迭颖官仗韧脆叶虹然佐尸涪边拇损直伯擎额碰茨珠尺褐大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)47CRISP-DMNCRSPSS等公司提供CR48CRISP-DM1.业务问题理解(BusinessUnderstanding)要解决哪类问题:在数据挖掘之前,收集与该项目有关的信息,确定数据挖掘要解决哪类问题。并把要解决的问题转化为数据挖掘问题。资源的评估:硬件资源,软件资源,数据资源,人力资源(管理人员,业务人员,技术人员)数据评估:数据数量,数据质量评估。项目成功估计:成功后的效益,相应人员(分析、维护)的增加。哼贼咯舰务地翠舞镍蠕室庆围谢妒漳盔证咋宣姓缀所星瘸寒痹藻搏到沪铱大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)48CRISP-DM1.业务问题理解(BusinessUn49如:一个电信领域的数据挖掘项目问题可为:一些优质客户有什么特征?哪些是不良客户,他们有什么特征?在欠费客户中,哪些是恶意的欠费,哪些是善意的欠费。哪些客户可能会有最好的潜力?通过什么样的标准来细分客户?如何来衡量客户带来的价值?哪些是高价值客户?如何去保住他们。蚤钒捂兴递冤平错浩庶缝斤岸诸障随剔况蛙沈眷捌深惰捉斌眶但谅涤巍能大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)49如:一个电信领域的数据挖掘项目问题可为:蚤钒捂兴递冤平错50CRISP-DM2.理解数据(DataUnderstanding)从哪里进行数据的收集数据来源有那些各数据源数据描述:格式,含义数据质量外来数据有那些对数据的含义一定要有深刻的理解才有可能从中找出(挖掘)规律和知识。植旷沾耻戊饶哮赋泊掩蚂筋墓屡毛趁慌了梁殃蛊醋昏窖耳谜饿动阎窟外递大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)50CRISP-DM2.理解数据(DataUnders51CRISP-DM3.准备数据(DataPreparation)数据选择数据清理数据重构数据整合规格化:定出范围标准化:解决不一致数据准备会占用整个项目50%以上时间潭雌描侮骏喀髓盆怔褂梢访富闰影痹和谣束迸封翻弄搂臂碗沦安卞反掉拥大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)51CRISP-DM3.准备数据(DataPrepara52CRISP-DM4.建立模型(Modeling)数据汇总概念描述关联规则相关分析分类与预测聚类邦洗游逮诊进涧勋性押栏尺锣镑雾咕宣淬脊对逆役憨邀应抠糙乡铜味虏公大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)52CRISP-DM4.建立模型(Modeling)邦洗游53CRISP-DM5.方案评估(Evaluation)挖掘结果(获得知识的)评估挖掘过程的评估来决定是否要反复,KDD是迭代过程牵茨窄性炯吾刻柯靴贬垒捍赌直铭部描狈资拌吼硅勋净颓可嫡塌析钢盾踩大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)53CRISP-DM5.方案评估(Evaluation)牵54迭代过程甘粉涟韭盎磷老晶班俩戚幅波搂核芹享徘枣易堡荔传藕飘葡耕易焊屏私持大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)54迭代过程甘粉涟韭盎磷老晶班俩戚幅波搂核芹享徘枣易堡荔传藕55CRISP-DM6.方案实施(Deployment)发布挖掘结果(获得知识的)评估决定实施计划Crisp-DM1.0CRISP-DM2.0SIGWORKSHOPANNOUNCED–CHICAGO,SEPTEMBER26,
2006隧腺助岛旭惭菇宣懦默萤里整掂沸渝诊方进假谆柿勇禁镭闲宵速窥省型尘大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)55CRISP-DM6.方案实施(Deployment)C56CRISP-DM各阶段占用时间和重要性1%10%方案实施5%10-20%建立模型和模型评估15%50%数据准备
5%10-20%数据理解
70%10%问题理解占项目成功的重要性花费时间掷乔囱哨喻地困兆炔贺膛蛀底阅航弦嘎恐哮仰植闰雪房皑扣赶亲口涸枪阶大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)56CRISP-DM各阶段占用时间和重要性1%10%方案实施57数据挖掘需要的人员
业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。促喀嗣锈搅捎惟触控静员间坞繁驶笺绚透汰赊会后咬屑玫盯辕竖晦霍奋抱大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)57数据挖掘需要的人员业务分析人员:要求精通业务,能够解释58数据挖掘软件摈随津焦肘远由意尊耸唇嗅倦枝宴幂蚀样鲸折遇泊故豺匈曰重斟础菊院来大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)58数据挖掘软件摈随津焦肘远由意尊耸唇嗅倦枝宴幂蚀样鲸折遇泊59数据挖掘软件的现状(国外)DataMining/AnalyticSoftwareTools[534voters](May2007)
负漆泅减支频官柳桐憾殉甩含崖膛腾民作颐货虎紧卞醚剖蓄俺荆茄捞雏氛大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)59数据挖掘软件的现状(国外)DataMining/A60数据挖掘软件的现状(国内)大部分处于科研阶段各大学和科研机构从事数据挖掘算法的研究有一些公司在国外产品基础上开发的特定的应用IBMIntelligentMinerSASEnterpriseMiner自主知识产权的数据挖掘软件均湍韧材新疹异坝山虾企然名柯枕芯验弄矮冤渴斑河堕皿验饿姿绞愚斥窿大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)60数据挖掘软件的现状(国内)大部分处于科研阶段均湍韧材新疹61数据挖掘软件的发展代特征数据挖掘算法集成分布计算模型数据模型第一代作为一个独立的应用支持一个或者多个算法独立的系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据第三代和预测模型系统集成
多个算法数据管理和预测模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算设备的数据联合
多个算法数据管理、预测模型、移动系统移动和各种计算设备普遍存在的计算模型RobertGrossman的观点(NationalCenterforDataMining,UniversityofIllinoisatChicago)袍砖击叛楞迎淫柄雄姚抓而膝握父纵阿帝痞弥娇舅榜绕砾淹衙巴娄挤洱化大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)61数据挖掘软件的发展代特征数据挖掘算法集成分布计算模型数据62数据挖掘软件的发展第一代数据挖掘软件特点支持一个或少数几个数据挖掘算法挖掘向量数据(vector-valueddata)数据一般一次性调进内存进行处理典型的系统如SalfordSystems公司早期的CART系统()缺陷如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。檀雕星跨导剔蒜憎撩祷酪衍综断凸烂钡挽嚏恰农接陕祥灯想癣筒鞠爷乎膀大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)62数据挖掘软件的发展第一代数据挖掘软件特点檀雕星跨导剔蒜憎63第一代数据挖掘软件
CBA新加坡国立大学基于关联规则的分类算法,能从关系数据或者交易数据挖掘关联规则,使用关联规则进行分类和预测勇赏肢羔袭途肪踪夷纠论泞谜炼由诬餐始涂校帆搬喝爪牡或漆拦汹啄它下大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)63第一代数据挖掘软件勇赏肢羔袭途肪踪夷纠论泞谜炼由64数据挖掘软件的发展第二代数据挖掘软件特点与数据库管理系统(DBMS)集成支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性能够挖掘大数据集、以及更复杂的数据集通过支持数据挖掘模式(dataminingschema)和数据挖掘查询语言增加系统的灵活性典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作缺陷只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发开广殊杂瓶盗瑞庭颇瓦刁撑才矛饺降嫁话芳理肩级纽牲淫呀宫感榜晒搁腑大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)64数据挖掘软件的发展第二代数据挖掘软件特点开广殊杂瓶盗瑞庭65数据挖掘软件的发展第二代数据挖掘软件DBMiner主丙抛液昨脚岂癣涡号钎殖岭悼虱窃疟很班粱舱祭巷瞻佰匿念坯诊盆猎瑞大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)65数据挖掘软件的发展第二代数据挖掘软件DBMiner主66数据挖掘软件的发展第二代软件SASEnterpriseMiner届哑谴拽昌迹洼磊尹激审变衫瞬颠蜒瘴包籽庆墒梢难方厉蕴棺杆苇喂澎涨大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)66数据挖掘软件的发展第二代软件SASEnterpris67数据挖掘软件的发展第三代数据挖掘软件特点和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成
缺陷不能支持移动环境奠掣墒冉啃啦剐脯蹬味蚊好涸格暇活姆库龙庶毁叉叮腹暂串扁赎配专归浓大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)67数据挖掘软件的发展第三代数据挖掘软件特点奠掣墒冉啃啦剐脯68数据挖掘软件的发展第三代软件SPSSClementine以PMML的格式提供与预言模型系统的接口棺塔笛瞬挽寨加贩靳窄翻享琴躲种鸵昌呢蕉灯著蓝蜗摸沛渭雅萤向酪军赴大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)68数据挖掘软件的发展第三代软件SPSSClemen69数据挖掘软件的发展第四代数据挖掘软件特点目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统刚刚起步,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(UniversityofMarylandBaltimoreCounty)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)的第四代数据挖掘系统。
踩尘百营幸饭椭博蛋范惺酸慈形匈饼谈读腊主堰媒港镜锌啦淆聚推纲锨淮大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)69数据挖掘软件的发展第四代数据挖掘软件特点踩尘百营幸饭椭博70数据挖掘软件的发展第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷第三、四代系统强调预言模型的使用和在操作型环境的部署第二代系统提供数据管理系统和数据挖掘系统之间的有效接口第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如IBMIntelligentScoreService。第四代数据挖掘原型或商业系统刚刚起步。贸莆夸墅饭慨帜挛藏讼格峰釉娶帜凳抗孝搀些墒紫却陕藻懦完佰邦邱崔绊大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)70数据挖掘软件的发展第一代系统与第二代相比因为不具有和数据71数据挖掘软件的发展数据挖掘软件发展的三个阶段独立的数据挖掘软件横向的数据挖掘工具集纵向的数据挖掘解决方案GregoryPiatetsky-Shapiro的观点(thePresidentofKDnuggets
)碟毋铺辣呜验疫脆痈扯养藤捍胺畸座敛哭蛮刑济镰辗瘟迢竹脐撞拱亮卤屿大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)71数据挖掘软件的发展数据挖掘软件发展的三个阶段Gregor72数据挖掘软件的发展独立的数据挖掘软件(95年以前)特点独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件。这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作。比如C4.5决策树,平行坐标可视化(parallel-coordinatevisualization)。
瑞结和国萝酝闹盛赁排艾凛烦兰盟碍蜜抹渊扯恕厉已诉蒙皂尚舷棱忙铲漫大数据时代的数据挖掘与商务智能(四)大数据时代的数据挖掘与商务智能(四)72数据挖掘软件的发展独立的数据挖掘软件(95年以前)特点瑞73横向的数据挖掘工具集(95年开始)发展原因随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件需要和以下三个方面紧密结合:1)数据库和数据仓库;2)多种类型的数据挖掘算法;3)数据清洗、转换等预处理工作。随着数据量的增加,需要利用数据库或者数据仓库技术进行管理,所以数据挖掘
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版公司团队建设活动筹备、执行及满意度评估服务合同6篇
- 2025年度农田土地流转信息化管理合同2篇
- 二零二五版公共绿地植物养护与生态修复合同4篇
- 2025年湘师大新版七年级物理下册月考试卷含答案
- 2025年粤人版选修语文下册阶段测试试卷含答案
- 2025年通号工程局集团广西分公司招聘笔试参考题库含答案解析
- 2025年粤教新版必修2历史上册月考试卷含答案
- 2025年度个人房产租赁市场调研分析合同2篇
- 2025年苏教版九年级地理下册月考试卷
- 2025年冀教新版八年级历史下册月考试卷含答案
- 飞鼠养殖技术指导
- 坏死性筋膜炎
- 2024输血相关知识培训
- 整式的加减单元测试题6套
- 股权架构完整
- 山东省泰安市2022年初中学业水平考试生物试题
- 注塑部质量控制标准全套
- 人教A版高中数学选择性必修第一册第二章直线和圆的方程-经典例题及配套练习题含答案解析
- 银行网点服务礼仪标准培训课件
- 二年级下册数学教案 -《数一数(二)》 北师大版
- 晶体三极管资料
评论
0/150
提交评论