基于大数据的统计分析方法和工具_第1页
基于大数据的统计分析方法和工具_第2页
基于大数据的统计分析方法和工具_第3页
基于大数据的统计分析方法和工具_第4页
基于大数据的统计分析方法和工具_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2目录背景统计分析方法和技术原理 主流工具案例总结3 结构化数据与非结构化数据 传统数据分析与大数据分析 NoSQL的特点背景4背景结构化数据与非结构化数据结构化数据:行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。非结构化数据:不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。5背景传统数据分析与大数据分析传统数据分析大数据分析关联性重量销量形状大小适合喝茶or咖啡?适合男生or女生?适合送礼?6背景NoSQL的特点NoSQL数据库的主要特点:lNoSQL具有灵活的数据模型lNoSQL容易实现可伸缩性

2、(向上扩展与水平扩展)l动态模式7目录概论统计分析方法和技术原理 主流工具案例总结8基于NoSQL的统计分析方法和技术原理l基于NoSQL的数据管理l传统关系型数据库向大数据处理方式的转移统计分析方法和技术原理 9统计分析方法和技术原理 基于NoSQL的数据管理10统计分析方法和技术原理 传统关系型数据库向大数据处理方式的转移l 数据迁移工作: Apache Sqoopl 访问接口改造: Pig Latinl 半结构化/非结构化数据存储l 数据统计分析方式改造:HadoopMAP REDUCE11目录概论统计分析方法和技术原理 主流工具案例总结12 目前,大数据分析工具在金融服务、零售、医疗卫

3、生/生命科学、执法、电信、能源与公共事业、数字媒体/精准营销、交通运输等行业都有着广泛的应用。但纵观国内企业,不论是国企还是民企,真正在业务决策中以数据分析结果为依据的,主要还是集中在银行,保险,电信和电商等几个行业。主流大数据统计分析工具13成功案例案例1:民生银行借IBM InfoSphereBigInsights应对金融业的大数据挑战 IBM InfoSphereBigInsights大数据解决方案和企业级NoSQL数据库SequoiaDB合作,为民生银行搭建低成本、高性能、高可靠且水平扩张的数据平台,帮助民生银行通过大数据分析应对金融业的大数据挑战,完善交易流水查询分析系统,产业链金融

4、管理系统,以及私人银行产品货架管理系统。 主流大数据统计分析工具14成功案例案例2:华为FusionInsight:招行数据生产力的“挖掘机” 招商银行部署华为FusionInsight之后,构建起基于云计算平台的大数据应用和分析平台,实现7年内海量交易历史明细信息的实时查询、实时征信、实时事件营销,以及针对准确客户群的精准营销。信用卡征信时间将由2周左右降到10分钟以内。根据招商银行某重要分行客户为样本测算,招商银行只要发送原来数量19.6%的短信,就可以覆盖95%最终购买的客户。主流大数据统计分析工具15成功案例案例3:用友UAP成功案例大大提高波司登竞争力 波司登基于用友UAP统一应用平

5、台的ERP系统,打通从客户下订单到生产、仓储、发运、财务等环节,构建企业的完整的内部管理信息系统,提高企业的内部协同能力,从而提高企业竞争力。并且将财务、销售、订单等大集中,订单数据能实时统计到集团总部,为采购业务提供精确支撑,实现按订单采购,保证采购原辅料能够满足生产需要,避免大量库存积压,也避免缺货等风险。 主流大数据统计分析工具16成功案例案例4:农行携手曙光构建大数据系统推动业务创新 农行采用曙光XData大数据一体机系统,满足系统对于并发用户数和性能的要求,能够支撑农业银行历史数据查询和分析业务,为推动农行业务持续不断创新奠定基础。 主流大数据统计分析工具17成功案例案例5:九次方企

6、业征信大数据平台令金融交易更加简单便携 九次方企业征信大数据平台利用互联网大数据挖掘技术采集互联网全部与企业相关的信用指标,比如企业违法违规信息、行政处罚信息、客户投诉信息等等。同时九次方还联合20多个省市政府,协助政府搭建当地的企业征信大数据平台获取地方政府的数据授权,通过脱敏处理之后,向银行、小贷公司、担保公司等客户提供企业信用分析服务。 主流大数据统计分析工具18成功案例案例6:王府井百货与百分点合作搭建王府井大数据平台 在王府井百货与百分点合作搭建的王府井大数据平台将用来分析商品、用户和业务数据,以打通用户和后端运营的关系,构建用户画像,以及分析商品的全渠道经营状况。其中,百分点帮助王

7、府井针对线上用户的浏览和购买行为,进行数据分析,从而形成实时的商品个性化推荐和消息推送。 主流大数据统计分析工具19成功案例案例7:宜信金融云打造大数据变现超级伙伴 宜信旗下的宜人贷,是利用宜信金融云平台,其极速模式将对用户的授信时长从原来的十多分钟压缩到了一分钟之内,极大提高了用户体验和放款效率。宜信商通贷是基于宜信金融云推出的面向电商的一个实时授信产品。这种电商贷款模式通过高效整合交易数据、第三方数据以及社交网络行为数据,为用户提供个性化的融资产品。 主流大数据统计分析工具20目录概论统计分析方法和技术原理 主流工具案例总结21App AnalyticsGame AnalyticsMobi

8、le Ad TrackingEnterprise游戏运营分析移动广告监测企业解决方案移动应用统计分析11500+l 应用款数7.5亿+l 累计覆盖2500万+l 日活设备35%覆盖l Top盈收游戏2.5亿+l 玩家覆盖1000万+l 日活玩家49家l 网盟对接40%覆盖l 行业广告主1500万点击l 日监测点l 两大一线应用市场l 三大运营商l 四大银行大数据统计分析案例TalkingData22计算需求大数据统计分析案例23大数据统计分析案例u 开发人员少u 业务方向不清晰u 产品需求简单u 简单、可用、快速开发u 批量插入效率一般u 大数据量下Schema变化难草根时代(HelloWor

9、ld)草根时代24大数据统计分析案例草根时代(统计分析系统计算模型)ucountusumugroup byumulti join udistinct count草根时代25大数据统计分析案例青铜时代u基于Hadoop生态的批处理系统u数据库批量Insert/Update,压力大u数据库读压力小uSchema 更新多青铜时代26大数据统计分析案例u大数据量 Insert/Update/Delete/优化,均是messageulazy式操作,自上而下逐步Flush到leaf节点u天然多版本,无需做undo loguFast insert/ Fast update,延迟小uSchema更改,例如Co

10、lumn增加/删除/更改青铜时代青铜时代27大数据统计分析案例u大数据量插入能力,更新能力的确比较突出uInnoDB也不差,和索引、数据Layout、操作模式有关青铜时代青铜时代28大数据统计分析案例黄金时代(行式到列式)u极高的装载速度(最高可以等于所有硬盘IO的总和,基本是极限了)u适合大量的数据而不是小数据u高效的压缩率,不仅节省储存空间也节省计算内存和CPUu非常适合做聚合操作黄金时代29大数据统计分析案例uInfobrightuInfiniDBuMonetDBuVerticau列存储uAggressiveCompression(CPU/IO平衡)ushared-nothing,gri

11、d-based(并行查询)u多备份(高可用性)黄金时代(行式到列式)黄金时代30大数据统计分析案例select avg( score ) from example where class =Junior and grade = A group by gender;黄金时代(行式到列式)黄金时代31大数据统计分析案例黄金时代(行式到列式)查询速度(ms)存储能力(G)黄金时代32大数据统计分析案例云端时代uAerospike/RedisuLevelDB/RocksDBuBitmap服务,高吞吐、高随机查询下下谁更合适?云端时代33大数据统计分析案例u列式数据库(count/Group by)uHDFS/Kafka等文件存储(scan)u搜索引擎(文本随机查询)uRedis/LMDB/R

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论