大数据数据挖掘案例_第1页
大数据数据挖掘案例_第2页
大数据数据挖掘案例_第3页
大数据数据挖掘案例_第4页
大数据数据挖掘案例_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据数据挖掘案例【篇一:大数据数据挖掘案例】本文为系列文,该篇为第一篇。下面是正文:简而言之,数据挖掘(datamining)是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术。在本文中,我们从数据挖掘的实例出发,并以数据挖掘中比较典型的分类算法入手,给读者介绍我们如何运用数据挖掘的技术解决现实中出现的问题。数据挖掘是如何解决问题的?本节通过几个数据挖掘实际案例来诠释如何通过数据挖掘解决商业中碰到的问题。下面有关“啤酒和尿不湿”的故事是数据挖掘中最典型的案例。而target公司通过“怀孕预测指数”来预测女顾客与否怀孕的案例也是近来为数据挖掘学者最津津乐道的一种话题。尿不湿和啤酒诸多人会问,终究数据挖掘能够为公司做些什么?下面我们通过一种在数据挖掘中最典型的案例来解释这个问题——一种有关尿不湿与啤酒的故事。超级商业零售连锁巨无霸沃尔玛公司(walmart)拥有世上最大的数据仓库系统之一。为了能够精确理解顾客在其门店的购置习惯,沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,从而懂得顾客经常一起购置的商品有哪些。在沃尔玛庞大的数据仓库里集合了其全部门店的具体原始交易数据,在这些原始交易数据的基础上,沃尔玛运用数据挖掘工具对这些数据进行分析和挖掘。一种令人惊奇和意外的成果出现了:“跟尿不湿一起购置最多的商品竟是啤酒”!这是数据挖掘技术对历史数据进行分析的成果,反映的是数据的内在规律。那么这个成果符合现状吗?与否是一种有用的知识?与否有运用价值?为了验证这一成果,沃尔玛派出市场调查人员和分析师对这一成果进行调查分析。通过大量实际调查和分析,他们揭示了一种隐藏在“尿不湿与啤酒”背后的美国消费者的一种行为模式:在美国,到超市去买婴儿尿不湿是某些年轻的父亲下班后的日常工作,而他们中有30%~40%的人同时也会为自己买某些啤酒。产生这一现象的因素是:美国的太太们常嘱咐她们的丈夫不要忘了下班后为小孩买尿不湿,而丈夫们在买尿不湿后又随手带回了他们喜欢的啤酒。另一种状况是丈夫们在买啤酒时忽然记起他们的责任,又去买了尿不湿。既然尿不湿与啤酒一起被购置的机会诸多,那么沃尔玛就在他们全部的门店里将尿不湿与啤酒并排摆放在一起,成果是得到了尿不湿与啤酒的销售量双双增加。按常规思维,尿不湿与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内这一有价值的规律的。target和怀孕预测指数有关数据挖掘的应用,近来尚有这样一种真实案例在数据挖掘和营销挖掘领域广为流传。美国一名男子闯进他家附近的一家美国零售连锁超市target店铺(美国第三大零售商塔吉特)进行抗议:“你们居然给我17岁的女儿发婴儿尿片和童车的优惠券。”店铺经理立刻向来者承认错误,但是其实该经理并不懂得这一行为是总公司运行数据挖掘的成果。如图所示。一种月后,这位父亲来道歉,由于这时他才懂得他的女儿确实怀孕了。target比这位父亲懂得他女儿怀孕的时间足足早了一种月。target怀孕预测指数target能够通过分析女性客户购置统计,“猜出”哪些是孕妇。他们从target的数据仓库中挖掘出25项与怀孕高度有关的商品,制作“怀孕预测”指数。例如他们发现女性会在怀孕四个月左右,大量购置无香味乳液。以此为根据推算出预产期后,就抢先一步将孕妇装、婴儿床等折扣券寄给客户来吸引客户购置。如果不是在拥有海量的顾客交易数据基础上实施数据挖掘,target不可能做到如此精确的营销。电子商务网站流量分析网站流量分析,是指在获得网站访问量基本数据的状况下对有关数据进行的统计和分析,其惯用手段就是web挖掘。web挖掘能够通过对流量的分析,协助我们理解web上的顾客访问模式。那么理解顾客访问模式有哪些好处呢?在技术架构上,我们能够合理修改网站构造及适度分派资源,构建后台服务器群组,例如辅助改善网络的拓扑设计,提高性能,在有高度有关性的节点之间安排快速有效的访问途径等。协助公司更加好地设计网站主页和安排网页内容。协助公司改善市场营销决策,如把广告放在适宜的web页面上。协助公司更加好地根据客户的爱好来安排内容。协助公司对客户群进行细分,针对不同客户制订个性化的促销方略等。人们在访问某网站的同时,便提供了个人对网站内容的反馈信息:点击了哪一种链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而全部这些信息都被保存在网站日志中。从保存的信息来看,网站即使拥有了大量的网站访客及其访问内容的信息,但拥有了这些信息却不等于能够充足运用这些信息。那么如果将这些数据转换到数据仓库中呢?这些带有大量信息的数据借助数据仓库报告系统(普通称作在线分析解决系统),即使能给出可直接观察到的和相对简朴直接的信息,却也不能告诉网站其信息模式及如何对其进行解决,并且它普通不能分析复杂信息。因此对于这些相对复杂的信息或是不那么直观的问题,我们就只能通过数据挖掘技术来解决,即通过机器学习算法,找到数据库中的隐含模式,报告成果或按照成果执行。为了让电子商务网站能够充足应用数据挖掘技术,我们需要采集更加全方面的数据,采集的数据越全方面,分析就能越精确。在实际操作中,有下列几个方面的数据能够被采集:访客的系统属性特性。例如所采用的操作系统、浏览器、域名和访问速度等。访问特性。涉及停留时间、点击的url等。条款特性。涉及网络内容信息类型、内容分类和来访url等。产品特性。涉及所访问的产品编号、产品目录、产品颜色、产品价格、产品利润、产品数量和特价等级等。当访客访问该网站时,以上有关此访客的数据信息便会逐步被积累起来,那么我们就能够通过这些积累而成的数据信息整顿出与这个访客有关的信息以供网站使用。能够整顿成型的信息大致能够分为下列几个方面:访客的购置历史以及广告点击历史。访客点击的超链接的历史信息。访客的总链接机会(提供应访客的超级链接)。访客总的访问时间。访客所浏览的全部网页。访客每次会话的产出利润。访客每月的访问次数及上一次的访问时间等。访客对于商标总体正面或负面的评价。分类:从人脸识别系统说起美国电视剧《反恐24小时》中有一集,当一种恐怖分子用手机拨打了一种电话,从ctu(反恐部队)的计算机系统中便立刻发出恐怖分子出现的预警。诸多好莱坞的大片中这类智能系统的应用也比比皆是,它能从茫茫人群中实时找出正在苦苦追踪的恐怖分子或间谍。而在北京奥运会上,最引人注意的it热点莫过于“实时人脸识别技术”在奥运会安检系统中的应用,这种技术通过对人脸核心部位的数据采集,让系统能够精确地识别出全部进出奥运场馆的观众身份。现在人脸识别技术正广泛的应用于多个安检系统中,警方只需将犯罪分子的脸部数据采集到安检数据库,那么只要犯罪分子一出现,系统就能精确地将其识别出来。现如今人脸识别技术已经相对成熟,谷歌在picasa照片分享软件的工具中就已经加入了人脸识别功效。固然,人脸识别技术牵涉到隐私,是把双刃剑,谷歌在谷歌街景地图中故意将人脸含糊化,变得无法识别就是这个因素。如图所示为人脸识别示意图。人脸识别示意图即使需要借力于其它技术,但是人脸识别中的重要技术还是来自于数据挖掘中的分类算法(classification)。让我们从一种最简朴的事实来解释分类的思想。构想一下,一天中午,你第一次到三里屯,站在几家以前从未去过的餐厅门前,现在的问题是该选择哪家餐厅用餐。应当如何选择呢?假设您没有带手机,无法上网查询,那么可能会出现以下两种状况:一种,你记起某位朋友去过其中一家,并且仿佛他对这家的评价还不错,这时,你很有可能就直接去这家了。第二种,没有类似朋友推荐这类先验知识,你就只能从自己以往的用餐经历中来选择了,例如你可能会比较餐厅的品牌和用餐环境,由于似乎以前的经历告诉自己,品牌响、用餐环境好的餐厅可能味道也会好。不管与否意识得到,在最后决定去哪家吃的时候,我们已经根据自己的判断原则把候选的这几家餐厅分类了,可能分成好、中、差三类或者值得去、不值得去两类。而最后去了自己选择的那家餐厅,吃完过后我们自然也会根据自己的真实体验来鉴定我们的判断准则与否对的,同时根据这次的体验来修正或改善自己的判断准则,决定下次与否还会来这家餐厅或者与否把它推荐给朋友。选择餐厅的过程其实就是一种分类的过程,这类分类例子是屡见不鲜的。在古时,司天监会依赖长时间积累的信息,通过观察天象对与否会有天灾做出分类预测。古人则通过对四季气候雨水的常年观察,总结出农作物最佳播种时间。在伯乐的《相马经》中,就通过简朴分类分辨出羸马的三条原则:“大头小颈,弱脊大腹,小颈大蹄”。其实在数据挖掘领域,有大量基于海量数据的分类问题。普通,我们先把数据分成训练集(trainingset)和测试集(testingset),通过对历史训练集的训练,生成一种或多个分类器(classifier),将这些分类器应用到测试集中,就能够对分类器的性能和精确性做出评判。如果效果不佳,那么我们或者重新选择训练集,或者调节训练模式,直到分类器的性能和精确性达成规定为止。最后将选出的分类器应用到未经分类的新数据中,就能够对新数据的类别做出预测了。节选谭磊所著的自《大数据挖掘》一书。未完待续……end.标签:除非特别注明,本站全部文章均不代表本站观点。报道中出现的商标属于其正当持有人。请恪守理性,宽容,换位思考的原则。猜你喜欢-02-17-02-11-02-06-01-21-01-19-12-23-12-15-11-25-11-02-10-26【篇二:大数据数据挖掘案例】马云说:互联网还没搞清晰的时候,移动互联就来了,移动互联还没搞清晰的时候,大数据就来了。近两年,“大数据”这个词越来越为大众所熟悉,“大数据”始终是以高冷的形象出现在大众面前,面对大数据,相信许多人都一头雾水。下面我们通过十个典型案例,让大家实打实触摸一把“大数据”。你会发现它其实就在身边并且也是很有趣的。啤酒与尿布全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购置婴儿尿片时,经常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的典型案例,被人津津乐道。数据新闻让英国撤军10月23日《卫报》运用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中全部的人员伤亡状况均标注于地图之上。地图上一种红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有具体的阐明:伤亡人数、时间,造成伤亡的具体因素。密布的红点多达39万,显得格外触目惊心。一经刊出立刻引发朝野震动,推动英国最后做出撤出驻伊拉克军队的决定。意料之外:胸部最大的是新疆妹子淘宝数据平台显示,购置最多的文胸尺码为b罩杯。b罩杯占比达41.45%,其中又以75b的销量最佳。另首先是a罩杯,购置占比达25.26%,c罩杯只有8.96%。在文胸颜色中,黑色最为畅销。以省市排名,胸部最大的是新疆妹子。qq圈子把前女友推荐给未婚妻3月腾讯推出qq圈子,按共同好友的连锁反映摊开顾客的人际关系网,把顾客的前女友推荐给未婚妻,把同窗同事朋友圈子分门别类,运用大数据解决能力给人带来“震撼”。“魔镜”预知石油市场走向如果你对“魔镜”还停留在“魔镜魔镜,告诉我谁是世界上最美的女人”,那你就真的out了。“魔镜”不仅仅是童话中王后的宝贝,并且是真实世界中的一款神器。其实,“魔镜”是苏州国云数据科技公司的一款牛逼的大数据可视化产品,并且是国内首款喔。在现在,“魔镜”能够通过数据的整合分析可视化不仅能够得出谁是世界上最美的女人,还能通过价量关系得出市场的走向。在很快前,“魔镜”协助中石等公司分析数据,将数据可视化,使公司科学的判断、决策,节省成本,合理配备资源,提高了收益。谷歌成功预测冬季流感,谷歌通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在到间季节性流感传输时期的数据进行比较,并建立一种特定的数学模型。最后谷歌成功预测了冬季流感的传输甚至能够具体到特定的地区和州。大数据与乔布斯癌症治疗乔布斯是世界上第一种对本身全部dna和肿瘤dna进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是涉及整个基因的数据文档。医生按照全部基因按需下药,最后这种方式协助乔布斯延长了好几年的生命。奥巴马大选连任成功11月奥巴马大选连任成功的胜利果实也被归功于大数据,由于他的竞选团体进行了大规模与进一步的数据挖掘。时代杂志更是断言,依靠直觉与经验进行决策的优势急剧下降,在政治领域,大数据的时代已经到来;各色媒体、论坛、专家铺天盖地的宣传让人们对大数据时代的来临兴奋不已,无数公司和创业者都纷纷跳进了这个狂欢队伍。微软大数据成功预测奥斯卡21项大奖,微软纽约研究院的经济学家大卫??罗斯柴尔德(davidrothschild)运用大数据成功预测24个奥斯卡奖项中的19个,成为人们津津乐道的话题。今年罗斯柴尔德再接再厉,成功预测第86届奥斯卡金像奖颁奖典礼24个奖项中的21个,继续向人们展示当代科技的神奇魔力。超市预知高中生顾客怀孕明尼苏达州一家塔吉特门店被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿——一种高中生。但没多久他却来电道歉,由于女儿经他逼问后坦承自己真的怀孕了。塔吉特百货就是靠着分析顾客全部的购物数据,然后通过有关关系分析得出事情的真实状况。精选自:速途网,原文地址:/content/523734.shtml本文tags:数据挖掘数据分析那些事数据分析【篇三:大数据数据挖掘案例】摘要:下列内容整顿自6月4日由数据分析网举办的《大嘴巴漫谈数据挖掘典型案例赏析》分享活动中,易向军老师的讲话内容。数据分析网的朋友们,大家晚上好,首先很感谢数据分析网的支持,提供这样一种平台,能够和大家一起分享、交流。作为《大嘴巴漫谈数据挖掘(第2季)》的新书公布会,今天重要给大家带来3个数据挖掘的典型案例。一、产品精细化运行之道运行的核心在于持续性改善,运行分析需要确保数据的精确与一致性;能够容忍一定程度上精确性的偏差。那么,精确和精确有什么区别呢?精确是指现象或者测量值相对事实之间的离散程度小,也就是我们口语的靠近事实、符合事实等;精确是指在条件不变的状况下,现象或者测量值能够低离散程度的重复再现,也就是我们口语说的次次如此、回回同样等。下面的crisp-dm代表了数据挖掘的原则过程。在这个原则过程中最重要的是哪一种环节呢?(讨论ing)@mountain全部的业务都是围绕需求来的@数据哥需求分析,想清晰怎么干,否则南辕北辙@fs只有懂得客户需求,才干满足客户的需要因此最重要的是商业理解。购物篮模型,用一句话来说,就是在适宜的时间、适宜的地点,通过适宜的方式,向适宜的人群推荐适宜的产品。那么当我们拟定了购物篮分析模型的第一目的后,即我们的第一步商业理解结束之后,第二步便是数据理解。这一步需要将我们的业务模型映射到数据模型,或者换句话说,我们需要什么样的数据来支撑我们的分析目的?我们需要什么样的数据一定要基于我们的分析目的,那么我们来分析下我们的目的。第一种目的是研究我们的商品,找到商品与商品之间的某种联系。研究商品需要什么样的数据呢?消费购物单,就是我们需要超市机构反馈给我们的票单据(小单子),这是我们商品的购置数据。除了商品的购置数据,还需要什么数据?我们除了要研究商品,还要研究消费者。研究消费者需要消费者个人属性数据。(在实际的工作中,根据实际需要,不限于这里列出的数据。)接下来是第三步是数据准备。在这个过程中需要理解数据,会用到清理、集成、变换、归约的办法,由于原始数据来自于我们的多个业务平台。清理:补充缺失值、平滑噪声数据、识别或删除离群点并解决数据不一致性集成:将多个数据源中的数据整合起来并同意存储变换:将数据转换为合用于挖掘的形式,例如属性规范化归约:通过压缩、聚集、离散化等办法减少数据存储空间,并保持模型成果与归约前几乎相似数据准备之后,是数据建模,也就是通过数学的办法来解决业务问题。那么如何把业务问题转化成数据办法呢?我们的分析目的是找到商品之间的某种联系,这里要用到什么数学办法(业务语言),这句话转化为数学角度来理解,就是找到商品之间某种联系的一种可能性(数据语言)。可能性问题就是概率,概率就是用来量化可能性的问题。例如:在购置a商品的条件下购置b商品的概率是条件概率,a、b两个商品一起购置的概率是联合概率。我们最后发现商品之间存在某种联系,就是几个可能性,而这几个可能性就是概率。一种是联合概率,有购置a商品和购置b商品的概率,这个联合概率我们给它定义一种关联规则算法,叫做支持度。一种是条件概率,在购置a商品的条件下,又购置了b商品的概率,这个条件概率,我们称之为置信度。支持度越高,置信度越高,那么a、b商品之前的有关性就越强。在咱们这个概率中或者在数学中,研究有关性尚有那些指标?大家要把置信度理解为一种条件概率,严格来说跟置信区间没什么太大关系。研究有关性尚有一种有关系数,有关系数的范畴是-1到1,绝对值越靠近于1,阐明有关性越强;绝对值越靠近于0,阐明有关性越弱。(0,1)之间为正有关,(-1,0)之间为负有关。正有关和负有关是数学名词,负有关在业务上怎么理解呢?负有关阐明a、b这两个商品是互相排斥的,买了a就不会再买b,能够替代。假设a、b这两个商品是互相排斥的,给出两个概率,一种概率是在购置了a商品的前提下购置b商品的概率,一种是没有任何前提条件下直接购置b商品的概率。这两个概率谁大谁小?直接购置的概率大,由于a、b排斥,购置了a会影响购置b,极端状况下,购置了a就不再购置b。支持度和置信度,只能衡量两个商品的正有关,无法衡量负有关。为此我们引入第三个指标,提高度。如果提高度不大于1,阐明这个两个商品是互相排斥的;如果提高度不不大于1,阐明这个两个商品是互相增进的。提高度等于1,阐明a、b互相独立,不存在任何关系。通过以上的分析,最后通过关联规则算法,我们但愿支持度和置信度大某些,这里普通会定义一种最小值,这个最小值需要通过业务经验来拟定。通过关联规则找到了2类强关联的商品组合之后,接下来需要做什么?看我们的分析目的,我们第一种分析目的就是研究商品,找到商品之间的关联组合。第二个分析目的,研究消费者。什么样的消费者会购置这类商品组合,这是我们接下来要完毕的任务。研究消费者,我们用决策树模型。树重要有3部分构成:根,分支,叶子。其中根是最重要的。什么是决策呢?简朴来说,就是做决定,是一种选择,从若干个方案中找到最优的方案。决策首先会有一种决策目的,或者叫决策结论。决策结论不是拍脑袋的,一定要有一种决策根据,通过决策根据做判断。决策由决策根据和决策结论构成。决策结论就是树的叶子,决策根据是树的根,这样决策就和树建立联系了。哪些消费者会购置强关联的商品组合?对老板来说,这就是一种决策问题。在这个决策问题中,决策根据就是人的特性。老板要根据顾客的基本属性来判断。决策是一种判断题:买还是不买。决策流程涉及决策根据和决策结论。从根到叶子的途径都是一种决策流程。一种决策树上有若干个决策途径,我们就是要从若干个决策途径中找到最优的途径。我们根据什么来判断这个途径的好坏?概率大小,看哪一种途径在样本中出现的次数最多,就认为是最优的。出现次数最多是一种概率问题,频率和概率有什么关系?频率是概率的实验值,概率是频率的理论值。有同窗说头大了,其实,我们学习数据挖掘,最后研究的业务问题以及模型构建,就是数学上的统计问题,因此统计学一定要学好,否则学习模型会比较吃力。也就是说数据挖掘也是有一定门槛的,对数学是有规定的。我们通过决策树模型最后得到两类人群。能够清晰地定位哪些消费者会购置我们的商品组合,而不是漫无目的的推荐。以上内容是第一种案例。可能今天不能把3个案例都讲完,但是我想的是不用图快,把某些知识点给大家讲清晰,讲透彻。下面我们来看顾客体验中的数据挖掘案例。二、顾客体验中的数据挖掘顾客体验如何跟数据挖掘结合起来呢?什么是顾客体验?顾客是使用产品的人,体验是感受,是主观的,而我们进行数据分析或者数据挖掘是基于客观的对象。第一步就需要量化,把主观的体验量化成客观的数据。如何量化顾客体验呢?例如形容一种食品特别好吃,食品的体验特别好。能够用色香味俱全来形容,这就是量化的东西。色,指颜色,好看,通过视觉来测量。香,通过嗅觉来测量。味,通过味觉,尝一尝来测量。形容一种食品特别好吃,是很主观的,但是能够通过色香味这3个能够测量的方面来形容。我们再举一种具体的产品,例如一种网站,就是一种产品,我们怎么来形容和描述某一种网站的顾客体验好。登录或者打开一种网站,最直接的体验就是界面好看。例如,我们拿数据分析网来说,打开数据分析网觉得界面很美观,视觉效果好。除了界面,我们还要看内容,更新与否及时,与否有价值;尚有打开速度。对于一种购物网站,最重要的体验是什么?安全性。总结下,界面、内容、性能、效率、安全等是衡量一种网站发展的体验方面。通过食品和网站这两个例子,如果让你来量化某一种产品的顾客体验,你首先应当怎么办?顾客体验是一种主观的东西,主观的东西不能被直接测量,因此需要定指标。定指标,分解到指标。为什么强调分解这个词呢。由于顾客体验本身是个很主观的东西,不能被直接测量,就需要把它分解成若干个可直接测量的指标,这是很核心的第一步。通过这些间接的指标组合,衡量整个产品的顾客体验。我

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论