




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据数据挖掘案例【篇一:大数据数据挖掘案例】本文为系列文,该篇为第一篇。下面是正文:简而言之,数据挖掘(datamining)是有组织有目标地搜集数据,经过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识技术。在本文中,我们从数据挖掘实例出发,并以数据挖掘中比较经典分类算法入手,给读者介绍我们怎样利用数据挖掘技术处理现实中出现问题。数据挖掘是怎样处理问题?本节经过几个数据挖掘实际案例来诠释怎样经过数据挖掘处理商业中碰到问题。下面关于“啤酒和尿不湿”故事是数据挖掘中最经典案例。而target企业经过“怀孕预测指数”来预测女用户是否怀孕案例也是最近为数据挖掘学者最津津乐道一个话题。尿不湿和啤酒很多人会问,到底数据挖掘能够为企业做些什么?下面我们经过一个在数据挖掘中最经典案例来解释这个问题——一个关于尿不湿与啤酒故事。超级商业零售连锁巨无霸沃尔玛企业(walmart)拥有世上最大数据仓库系统之一。为了能够准确了解用户在其门店购置习惯,沃尔玛对其用户购物行为进行了购物篮关联规则分析,从而知道用户经常一起购置商品有哪些。在沃尔玛庞大数据仓库里集合了其全部门店详细原始交易数据,在这些原始交易数据基础上,沃尔玛利用数据挖掘工具对这些数据进行分析和挖掘。一个令人惊奇和意外结果出现了:“跟尿不湿一起购置最多商品竟是啤酒”!这是数据挖掘技术对历史数据进行分析结果,反应是数据内在规律。那么这个结果符合现实情况吗?是否是一个有用知识?是否有利用价值?为了验证这一结果,沃尔玛派出市场调查人员和分析师对这一结果进行调查分析。经过大量实际调查和分析,他们揭示了一个隐藏在“尿不湿与啤酒”背后美国消费者一个行为模式:在美国,到超市去买婴儿尿不湿是一些年轻父亲下班后日常工作,而他们中有30%~40%人同时也会为自己买一些啤酒。产生这一现象原因是:美国太太们常嘱咐她们丈夫不要忘了下班后为小孩买尿不湿,而丈夫们在买尿不湿后又随手带回了他们喜欢啤酒。另一个情况是丈夫们在买啤酒时突然记起他们责任,又去买了尿不湿。既然尿不湿与啤酒一起被购置机会很多,那么沃尔玛就在他们全部门店里将尿不湿与啤酒并排摆放在一起,结果是得到了尿不湿与啤酒销售量双双增加。按常规思维,尿不湿与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发觉数据内这一有价值规律。target和怀孕预测指数关于数据挖掘应用,最近还有这么一个真实案例在数据挖掘和营销挖掘领域广为流传。美国一名男子闯进他家附近一家美国零售连锁超市target店铺(美国第三大零售商塔吉特)进行抗议:“你们竟然给我17岁女儿发婴儿尿片和童车优惠券。”店铺经理立刻向来者认可错误,不过其实该经理并不知道这一行为是总企业运行数据挖掘结果。如图所表示。一个月后,这位父亲来道歉,因为这时他才知道他女儿确实怀孕了。target比这位父亲知道他女儿怀孕时间足足早了一个月。target怀孕预测指数target能够经过分析女性客户购置统计,“猜出”哪些是孕妇。他们从target数据仓库中挖掘出25项与怀孕高度相关商品,制作“怀孕预测”指数。比如他们发觉女性会在怀孕四个月左右,大量购置无香味乳液。以此为依据推算出预产期后,就抢先一步将孕妇装、婴儿床等折扣券寄给客户来吸引客户购置。假如不是在拥有海量用户交易数据基础上实施数据挖掘,target不可能做到如此精准营销。电子商务网站流量分析网站流量分析,是指在取得网站访问量基本数据情况下对关于数据进行统计和分析,其惯用伎俩就是web挖掘。web挖掘能够经过对流量分析,帮助我们了解web上用户访问模式。那么了解用户访问模式有哪些好处呢?在技术架构上,我们能够合理修改网站结构及适度分配资源,构建后台服务器群组,比如辅助改进网络拓扑设计,提升性能,在有高度相关性节点之间安排快速有效访问路径等。帮助企业愈加好地设计网站主页和安排网页内容。帮助企业改进市场营销决议,如把广告放在适当web页面上。帮助企业愈加好地依照客户兴趣来安排内容。帮助企业对客户群进行细分,针对不一样客户制订个性化促销策略等。人们在访问某网站同时,便提供了个人对网站内容反馈信息:点击了哪一个链接,在哪个网页停留时间最多,采取了哪个搜索项、总体浏览时间等。而全部这些信息都被保留在网站日志中。从保留信息来看,网站即使拥有了大量网站访客及其访问内容信息,但拥有了这些信息却不等于能够充分利用这些信息。那么假如将这些数据转换到数据仓库中呢?这些带有大量信息数据借助数据仓库汇报系统(通常称作在线分析处理系统),即使能给出可直接观察到和相对简单直接信息,却也不能告诉网站其信息模式及怎样对其进行处理,而且它通常不能分析复杂信息。所以对于这些相对复杂信息或是不那么直观问题,我们就只能经过数据挖掘技术来处理,即经过机器学习算法,找到数据库中隐含模式,汇报结果或按照结果执行。为了让电子商务网站能够充分应用数据挖掘技术,我们需要采集愈加全方面数据,采集数据越全方面,分析就能越精准。在实际操作中,有以下几个方面数据能够被采集:访客系统属性特征。比如所采取操作系统、浏览器、域名和访问速度等。访问特征。包含停留时间、点击url等。条款特征。包含网络内容信息类型、内容分类和来访url等。产品特征。包含所访问产品编号、产品目录、产品颜色、产品价格、产品利润、产品数量和特价等级等。当访客访问该网站时,以上关于此访客数据信息便会逐步被积累起来,那么我们就能够经过这些积累而成数据信息整理出与这个访客关于信息以供网站使用。能够整理成型信息大致能够分为以下几个方面:访客购置历史以及广告点击历史。访客点击超链接历史信息。访客总链接机会(提供给访客超级链接)。访客总访问时间。访客所浏览全部网页。访客每次会话产出利润。访客每个月访问次数及上一次访问时间等。访客对于商标总体正面或负面评价。分类:从人脸识别系统说起美国电视剧《反恐二十四小时》中有一集,当一个恐怖分子用手机拨打了一个电话,从ctu(反恐部队)计算机系统中便立刻发出恐怖分子出现预警。很多好莱坞大片中这类智能系统应用也比比皆是,它能从茫茫人群中实时找出正在苦苦追踪恐怖分子或间谍。而在北京奥运会上,最引人注意it热点莫过于“实时人脸识别技术”在奥运会安检系统中应用,这种技术经过对人脸关键部位数据采集,让系统能够精准地识别出全部进出奥运场馆观众身份。现在人脸识别技术正广泛应用于各种安检系统中,警方只需将犯罪分子脸部数据采集到安检数据库,那么只要犯罪分子一出现,系统就能精准地将其识别出来。现如今人脸识别技术已经相对成熟,谷歌在picasa照片分享软件工具中就已经加入了人脸识别功效。当然,人脸识别技术牵涉到隐私,是把双刃剑,谷歌在谷歌街景地图中有意将人脸含糊化,变得无法识别就是这个原因。如图所表示为人脸识别示意图。人脸识别示意图即使需要借力于其余技术,不过人脸识别中主要技术还是来自于数据挖掘中分类算法(classification)。让我们从一个最简单事实来解释分类思想。构想一下,一天中午,你第一次到三里屯,站在几家以前从未去过餐厅门前,现在问题是该选择哪家餐厅用餐。应该怎样选择呢?假设您没有带手机,无法上网查询,那么可能会出现以下两种情况:一个,你记起某位朋友去过其中一家,而且好像他对这家评价还不错,这时,你很有可能就直接去这家了。第二种,没有类似朋友推荐这类先验知识,你就只能从自己以往用餐经历中来选择了,比如你可能会比较餐厅品牌和用餐环境,因为似乎以前经历告诉自己,品牌响、用餐环境好餐厅可能味道也会好。不论是否意识得到,在最终决定去哪家吃时候,我们已经依照自己判断标准把候选这几家餐厅分类了,可能分成好、中、差三类或者值得去、不值得去两类。而最终去了自己选择那家餐厅,吃完过后我们自然也会依照自己真实体验来判定我们判断准则是否正确,同时依照这次体验来修正或改进自己判断准则,决定下次是否还会来这家餐厅或者是否把它推荐给朋友。选择餐厅过程其实就是一个分类过程,这类分类例子是屡见不鲜。在古时,司天监会依赖长时间积累信息,经过观察天象对是否会有天灾做出分类预测。古人则经过对四季气候雨水常年观察,总结出农作物最好播种时间。在伯乐《相马经》中,就经过简单分类区分出羸马三条标准:“大头小颈,弱脊大腹,小颈大蹄”。其实在数据挖掘领域,有大量基于海量数据分类问题。通常,我们先把数据分成训练集(trainingset)和测试集(testingset),经过对历史训练集训练,生成一个或多个分类器(classifier),将这些分类器应用到测试集中,就能够对分类器性能和准确性做出评判。假如效果不佳,那么我们或者重新选择训练集,或者调整训练模式,直到分类器性能和准确性达成要求为止。最终将选出分类器应用到未经分类新数据中,就能够对新数据类别做出预测了。节选谭磊所著自《大数据挖掘》一书。未完待续……end.标签:除非尤其注明,本站全部文章均不代表本站观点。报道中出现商标属于其正当持有些人。请恪守理性,宽容,换位思索标准。猜你喜欢-02-17-02-11-02-06-01-21-01-19-12-23-12-15-11-25-11-02-10-26【篇二:大数据数据挖掘案例】马云说:互联网还没搞清楚时候,移动互联就来了,移动互联还没搞清楚时候,大数据就来了。近两年,“大数据”这个词越来越为大众所熟悉,“大数据”一直是以高冷形象出现在大众面前,面对大数据,相信许多人都一头雾水。下面我们经过十个经典案例,让大家实打实触摸一把“大数据”。你会发觉它其实就在身边而且也是很有趣。啤酒与尿布全球零售业巨头沃尔玛在对消费者购物行为分析时发觉,男性用户在购置婴儿尿片时,经常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起促销伎俩。没想到这个举措竟然使尿布和啤酒销量都大幅增加了。如今,“啤酒+尿布”数据分析结果早已成了大数据技术应用经典案例,被人津津乐道。数据新闻让英国撤军10月23日《卫报》利用维基解密数据做了一篇“数据新闻”。将伊拉克战争中全部人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出窗口则有详细说明:伤亡人数、时间,造成伤亡详细原因。密布红点多达39万,显得格外触目惊心。一经刊出立刻引发朝野震动,推进英国最终做出撤出驻伊拉克军队决定。意料之外:胸部最大是新疆妹子淘宝数据平台显示,购置最多文胸尺码为b罩杯。b罩杯占比达41.45%,其中又以75b销量最好。其次是a罩杯,购置占比达25.26%,c罩杯只有8.96%。在文胸颜色中,黑色最为畅销。以省市排名,胸部最大是新疆妹子。qq圈子把前女友推荐给未婚妻3月腾讯推出qq圈子,按共同挚友连锁反应摊开用户人际关系网,把用户前女友推荐给未婚妻,把同学同事朋友圈子分门别类,利用大数据处理能力给人带来“震撼”。“魔镜”预知石油市场走向假如你对“魔镜”还停留在“魔镜魔镜,告诉我谁是世界上最美女人”,那你就真out了。“魔镜”不但仅是童话中王后宝贝,而且是真实世界中一款神器。其实,“魔镜”是苏州国云数据科技企业一款牛逼大数据可视化产品,而且是国内首款喔。在现在,“魔镜”能够经过数据整合分析可视化不但能够得出谁是世界上最美女人,还能经过价量关系得出市场走向。在很快前,“魔镜”帮助中石等企业分析数据,将数据可视化,使企业科学判断、决议,节约成本,合理配置资源,提升了收益。谷歌成功预测冬季流感,谷歌经过分析5000万条美国人最频繁检索词汇,将之和美国疾病中心在到间季节性流感传输时期数据进行比较,并建立一个特定数学模型。最终谷歌成功预测了冬季流感传输甚至能够详细到特定地域和州。大数据与乔布斯癌症治疗乔布斯是世界上第一个对本身全部dna和肿瘤dna进行排序人。为此,他支付了高达几十万美元费用。他得到不是样本,而是包含整个基因数据文档。医生按照全部基因按需下药,最终这种方式帮助乔布斯延长了好几年生命。奥巴马大选连任成功11月奥巴马大选连任成功胜利果实也被归功于大数据,因为他竞选团体进行了大规模与深入数据挖掘。时代杂志更是断言,依靠直觉与经验进行决议优势急剧下降,在政治领域,大数据时代已经到来;各色媒体、论坛、教授铺天盖地宣传让人们对大数据时代降临兴奋不已,无数企业和创业者都纷纷跳进了这个狂欢队伍。微软大数据成功预测奥斯卡21项大奖,微软纽约研究院经济学家大卫??罗斯柴尔德(davidrothschild)利用大数据成功预测24个奥斯卡奖项中19个,成为人们津津乐道话题。今年罗斯柴尔德再接再厉,成功预测第86届奥斯卡金像奖颁奖仪式24个奖项中21个,继续向人们展示当代科技神奇魔力。超市预知高中生用户怀孕明尼苏达州一家塔吉特门店被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他女儿——一个高中生。但没多久他却来电道歉,因为女儿经他逼问后坦承自己真怀孕了。塔吉特百货就是靠着分析用户全部购物数据,然后经过相关关系分析得出事情真实情况。精选自:速途网,原文地址:/content/523734.shtml本文tags:数据挖掘数据分析那些事数据分析【篇三:大数据数据挖掘案例】摘要:以下内容整理自6月4日由数据分析网举行《大嘴巴漫谈数据挖掘经典案例赏析》分享活动中,易向军老师讲话内容。数据分析网朋友们,大家晚上好,首先很感激数据分析网支持,提供这么一个平台,能够和大家一起分享、交流。作为《大嘴巴漫谈数据挖掘(第2季)》新书公布会,今天主要给大家带来3个数据挖掘经典案例。一、产品精细化运行之道运行关键在于连续性改进,运行分析需要确保数据精准与一致性;能够容忍一定程度上准确性偏差。那么,准确和精准有什么区分呢?准确是指现象或者测量值相对事实之间离散程度小,也就是我们口语靠近事实、符合事实等;精准是指在条件不变情况下,现象或者测量值能够低离散程度重复再现,也就是我们口语说次次如此、回回一样等。下面crisp-dm代表了数据挖掘标准过程。在这个标准过程中最主要是哪一个步骤呢?(讨论ing)@mountain全部业务都是围绕需求来@数据哥需求分析,想清楚怎么干,不然南辕北辙@fs只有知道客户需求,才能满足客户需要所以最主要是商业了解。购物篮模型,用一句话来说,就是在适宜时间、适宜地点,经过适宜方式,向适宜人群推荐适宜产品。那么当我们确定了购物篮分析模型第一目标后,即我们第一步商业了解结束之后,第二步便是数据了解。这一步需要将我们业务模型映射到数据模型,或者换句话说,我们需要什么样数据来支撑我们分析目标?我们需要什么样数据一定要基于我们分析目标,那么我们来分析下我们目标。第一个目标是研究我们商品,找到商品与商品之间某种联络。研究商品需要什么样数据呢?消费购物单,就是我们需要超市机构反馈给我们票单据(小单子),这是我们商品购置数据。除了商品购置数据,还需要什么数据?我们除了要研究商品,还要研究消费者。研究消费者需要消费者个人属性数据。(在实际工作中,依照实际需要,不限于这里列出数据。)接下来是第三步是数据准备。在这个过程中需要了解数据,会用到清理、集成、变换、归约方法,因为原始数据来自于我们各种业务平台。清理:补充缺失值、平滑噪声数据、识别或删除离群点并处理数据不一致性集成:将多个数据源中数据整合起来并同意存放变换:将数据转换为适适用于挖掘形式,比如属性规范化归约:经过压缩、聚集、离散化等方法降低数据存放空间,并保持模型结果与归约前几乎相同数据准备之后,是数据建模,也就是经过数学方法来处理业务问题。那么怎样把业务问题转化成数据方法呢?我们分析目标是找到商品之间某种联络,这里要用到什么数学方法(业务语言),这句话转化为数学角度来了解,就是找到商品之间某种联络一个可能性(数据语言)。可能性问题就是概率,概率就是用来量化可能性问题。比如:在购置a商品条件下购置b商品概率是条件概率,a、b两个商品一起购置概率是联合概率。我们最终发觉商品之间存在某种联络,就是几个可能性,而这几个可能性就是概率。一个是联合概率,有购置a商品和购置b商品概率,这个联合概率我们给它定义一个关联规则算法,叫做支持度。一个是条件概率,在购置a商品条件下,又购置了b商品概率,这个条件概率,我们称之为置信度。支持度越高,置信度越高,那么a、b商品之前相关性就越强。在咱们这个概率中或者在数学中,研究相关性还有那些指标?大家要把置信度了解为一个条件概率,严格来说跟置信区间没什么太大关系。研究相关性还有一个相关系数,相关系数范围是-1到1,绝对值越靠近于1,说明相关性越强;绝对值越靠近于0,说明相关性越弱。(0,1)之间为正相关,(-1,0)之间为负相关。正相关和负相关是数学名词,负相关在业务上怎么了解呢?负相关说明a、b这两个商品是相互排斥,买了a就不会再买b,能够代替。假设a、b这两个商品是相互排斥,给出两个概率,一个概率是在购置了a商品前提下购置b商品概率,一个是没有任何前提条件下直接购置b商品概率。这两个概率谁大谁小?直接购置概率大,因为a、b排斥,购置了a会影响购置b,极端情况下,购置了a就不再购置b。支持度和置信度,只能衡量两个商品正相关,无法衡量负相关。为此我们引入第三个指标,提升度。假如提升度小于1,说明这个两个商品是相互排斥;假如提升度大于1,说明这个两个商品是相互促进。提升度等于1,说明a、b相互独立,不存在任何关系。经过以上分析,最终经过关联规则算法,我们希望支持度和置信度大一些,这里通常会定义一个最小值,这个最小值需要经过业务经验来确定。经过关联规则找到了2类强关联商品组合之后,接下来需要做什么?看我们分析目标,我们第一个分析目标就是研究商品,找到商品之间关联组合。第二个分析目标,研究消费者。什么样消费者会购置这类商品组合,这是我们接下来要完成任务。研究消费者,我们用决议树模型。树主要有3部分组成:根,分支,叶子。其中根是最主要。什么是决议呢?简单来说,就是做决定,是一个选择,从若干个方案中找到最优方案。决议首先会有一个决议目标,或者叫决议结论。决议结论不是拍脑袋,一定要有一个决议依据,经过决议依据做判断。决议由决议依据和决议结论组成。决议结论就是树叶子,决议依据是树根,这么决议就和树建立联络了。哪些消费者会购置强关联商品组合?对老板来说,这就是一个决议问题。在这个决议问题中,决议依据就是人特征。老板要依照料客基本属性来判断。决议是一个判断题:买还是不买。决议流程包含决议依据和决议结论。从根到叶子路径都是一个决议流程。一个决议树上有若干个决议路径,我们就是要从若干个决议路径中找到最优路径。我们依据什么来判断这个路径好坏?概率大小,看哪一个路径在样本中出现次数最多,就认为是最优。出现次数最多是一个概率问题,频率和概率有什么关系?频率是概率试验值,概率是频率理论值。有同学说头大了,其实,我们学习数据挖掘,最终研究业务问题以及模型构建,就是数学上统计问题,所以统计学一定要学好,不然学习模型会比较吃力。也就是说数据挖掘也是有一定门槛,对数学是有要求。我们经过决议树模型最终得到两类人群。能够清楚地定位哪些消费者会购置我们商品组合,而不是漫无目标推荐。以上内容是第一个案例。可能今天不能把3个案例都讲完,不过我想是不用图快,把一些知识点给大家讲清楚,讲透彻。下面我们来看用户体验中数据挖掘案例。二、用户体验中数据挖掘用户体验怎样跟数据挖掘结合起来呢?什么是用户体验?用户是使用产品人,体验是感受,是主观,而我们进行数据分析或者数据挖掘是基于客观对象。第一步就需要量化,把主观体验量化成客观数据。怎样量化用户体验呢?比如形容一个食品尤其好吃,食品体验尤其好。能够用色香味俱全来形容,这就是量化东西。色,指颜色,好看,经过视觉来测量。香,经过嗅觉来测量。味,经过味觉,尝一尝来测量。形容一个食品尤其好吃,是很主观,不过能够经过色香味这3个能够测量方面来形容。我们再举一个详细产品,比如一个网站,就是一个产品,我们怎么来形容和描述某一个网站用户体验好。登录或者打开一个网站,最直接体验就是界面好看。比如,我们拿数据分析网来说,打开数据分析网以为界面很美观,视觉效果好。除了界面,我们还要看内容,更新是否及时,是否有价值;还有打开速度。对于一个购物网站,最主要体验是什么?安全性。总结下,界面、内容、性能、效率、安全等是衡量一个网站发展体验方面。经过食品和网站这两个例子,假如让你来量化某一个产品用户体验,你首先应该怎么办?用户体验是一个主观东西,主观东西不能被直接测量,所以需要定指标。定指标,分解到指标。为何强调分解这个词呢。因为用户体验本身是个很主观东西,不能被直接测量,就需要把它分解成若干个可直接测量指标,这是很关键第一步。经过这些间接指标
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论