版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据分析方法以关联分析为例目录l大数据是什么l大数据分析五个方面l关联分析大数据l指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。截至2012年,单一数据集的大小从数兆字节(TB)至数十兆亿字节(PB)不等。l经济的开发成长促进了密集数据科技的使用。全世界共有约46亿的移动电话用户,并有10至20亿人链接互联网。自1990年起至2005年间,全世界有超过10亿人进入中产阶级,收入的增加造成了识字率的提升,更进而带动信息量的成长。全世界通过电信网络交换信息的容量在1986年为281兆亿字节(PB),1993年为471兆字节,2000年
2、时增长为2.2艾字节(EB),在2007年则为65艾字节。根据预测,在2013年互联网每年的信息流量将会达到667艾字节。1.Wikipedia大数据2.2011 年,新生成的和复制的信息量估计超过了 1.8 ZB(泽字节);而在 2013 年,这一数字估计可达 4 ZB.1ZB=1024EB=1024*1024PB=1024*1024*1024TBZB与TB相差的数量级等于TB与KB之间相差的数量级.大数据应用的威力3.医疗保险和医疗补助服务中心已经开始在要求支付前用预测分析软件来标示看似报销欺诈的凭据。欺诈预防系统有助于实时甄别高风险医疗保健提供者的欺诈、浪费与滥用行为,它已经终止、阻止或
3、确认了 1.15 亿 美元的欺诈性支付,在该程序上头一年花的每 1 美元带来了 3 美元的成本节约。在阿富汗战争最激烈的那几年,美国国防高级研究计划局派遣了数据科学家团队和可视化技术团队到战地。在一个名为 Nexus 7 的计划中,这些团队被直接派进作战部队,用他们的工具帮助指挥官解决特定的作战计划。在其中一个地区,Nexus 7 的工程师将卫星数据和监测仪数据融合, 观察交通工具是如何在道路网中流动,这使其更容易定位并摧毁简易爆炸装置。-白宫2014“大数据”白皮书大数据分析五个方面4.1.预测性分析能力 数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的
4、结果做出一些预测性的判断。 2.数据质量和数据管理 数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。 3.可视化分析 不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。 4.语义引擎 我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。 5.数据挖掘算法 可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数
5、据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。 关联分析关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。5.关联分析关联分析研究的关系有两种:简单关联关系和序列关联关系。简单关联关系购买面包的顾客中80%会购买牛奶。面包和牛奶作为一种早餐的搭配是大家所接受的,二者没有共同属性,但是二者搭配后就是一顿美味早餐。商场购买时,如果你把这两样摆在一起时,就会刺激顾客的潜意识联系了二者的关系,并刺激购买。这是一种简单的关联关系。6.关联分
6、析序列关联关系比如买了iphone手机的顾客中80%会选择购买iphone手机保护壳,这就是序列关联关系,一般没人先去买个保护壳再去买手机。这是存在先后的时间上的顺序的。7.关联分析研究的关系有两种:简单关联关系和序列关联关系。关联分析8.关联算法的三个概念1.支持度(Support) 就是数据集中包含某几个特定项的概率。比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次,那么此关联的支持度为5%。2.置信度(Confidence) 就是在数据集中已经出现A时,B发生的概率,置信度的计算公式是 :A与B同时出现的概率/A出现的概率。3.提高度(Lift,也称兴趣度) 即商品之间的亲
7、密关系。当提高度指标大于1时,表明商品之间可能具有真正的关联关系。提高度数据越大,则商品之间的关联意义越大。如果提高度小于1.0时,表明商品之间不可能具有真正的关联关系。在某些情况下,提高度会出现负值,此时商品之间很有可能具有相互排斥的关系,体现在购物篮中,就是这些商品从来不会出现在同一个购物篮中。关联分析案例-购物篮分析在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈
8、夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润。9.关联分析-关联分析阶段10.1.第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。以一个包含A与B两个项目的2-itemset为例,我们可以求得包含A,B项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则A,B称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表
9、示为Large k或Frequent k。算法并从Large k的项目组中再试图产生长度超过k的项目集Large k+1,直到无法再找到更长的高频项目组为止。2.第二阶段是要产生关联规则。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小可信度(Minimum Confidence)的条件门槛下,若一规则所求得的可信度满足最小可信度,则称此规则为关联规则。例如:经由高频k-项目组A,B所产生的规则,若其可信度大于等于最小可信度,则称A,B为关联规则。关联分析-关联分析阶段11.就“啤酒尿布”这个案例而言,使用关联规则挖掘技术,对交易资料库中的记录进行资料挖掘,首先必须要
10、设定最小支持度与最小可信度两个门槛值,在此假设最小支持度min-support=5% 且最小可信度min-confidence=65%。因此符合需求的关联规则将必须同时满足以上两个条件。若经过挖掘所找到的关联规则 尿布,啤酒满足下列条件,将可接受尿布,啤酒 的关联规则。用公式可以描述为:Support(尿布,啤酒)5% and Confidence(尿布,啤酒)65%。其中,Support(尿布,啤酒)5%于此应用范例中的意义为:在所有的交易记录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence(尿布,啤酒)65%于此应用范例中的意义为:在所有包含尿布的
11、交易记录资料中,至少有65%的交易会同时购买啤酒。因此,今后若有某消费者出现购买尿布的行为,我们将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据尿布,啤酒关联规则而定,因为就过去的交易记录而言,支持了“大部分购买尿布的交易,会同时购买啤酒”的消费行为。关联分析案例-购物篮分析-数据关联的意义1.购物篮大于商品传统零售业里考核员工的主要指标是商品销售额。老板会将商品销售指标下发到个人,每个人都只会关注自己的“一亩三分地”,卖啤酒的只管闷头卖啤酒,卖尿布的只管闷头卖尿布,每个柜台只管自己的商品是否能进入客户手中的购物篮。卖啤酒的不关心购物篮中的尿布,卖尿布的也漠视购物篮中的啤酒,只要别漏了
12、自己柜台的东西,长此以往商店的整体效益当然不会好了,效益不好就要裁员,零售店无法扩大。反观沃尔玛的卖场管理体系中,购物篮是主要的管理对象,而不仅仅是商品。为什么沃尔玛会以购物篮为管理重点?沃尔玛认为商品销售量的冲刺只是短期行为,而零售企业的生命力取决于购物篮。一个小小的购物篮体现了客户的真实消费需求和购物行为,每一只购物篮里都蕴藏着太多的客户信息。零售业的宗旨是服务客户,沃尔玛认为商店的管理核心应该是以购物篮为中心的顾客经营模式,商品排名只能体现商品自身的表现,而购物篮可以体现客户的购买行为及消费需求,关注购物篮可以使门店随时掌握客户的消费动向,从而使门店始终与客户保持一致。12.关联分析案例-购物篮分析-数据关联的意义购物篮的表现形式就是我们常说的“客单价”,客单价的高低直接反映了零售企业的经营效益。根据AC尼尔森2006年对国内零售企业的调查发现, 从周一到周五正常工作日,同样一个万米经营面积的大卖场,国内卖场的平均客
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生态园户外足球场施工合同
- 2025版防盗窗产品销售、安装及质保服务合同3篇
- 2024年度水电安装及节能改造工程合同模板3篇
- 2024年物业管理专业人才聘用合同范本一
- 2024技术服务合同:基于云计算的智能办公系统
- 2024年版房地产销售代理合同协议
- 2024年铝结构建筑合同
- 2025版工厂开荒保洁与生产设备清洁合同范本3篇
- 2024年煤炭内河运输船舶安全管理与培训合同3篇
- 常州工学院《计算机图形学B》2023-2024学年第一学期期末试卷
- (新版)工业机器人系统操作员(三级)职业鉴定理论考试题库(含答案)
- 食材配送服务方案(技术方案)
- 课件:《中华民族共同体概论》第一讲 中华民族共同体基础理论
- 2024-2025学年安徽省合肥市蜀山区数学四年级第一学期期末质量检测试题含解析
- 离婚协议书模板可打印(2024版)
- 2024国家开放大学电大专科《兽医基础》期末试题及答案试卷号2776
- 厂区保洁服务投标方案【2024版】技术方案
- 养老机构绩效考核及奖励制度
- 龙岩市2022-2023学年七年级上学期期末生物试题【带答案】
- DB32-T 4750-2024 模块化装配式污水处理池技术要求
- 企业员工绩效管理与员工工作动机的激发
评论
0/150
提交评论