




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主讲:方明清大数据概论大数据基本概念123大数据背景3大数据案例培训目标核心内容4大数据技术版本号:V1.0大数据时代背景数据爆炸国际数据集团“数字世界”历时三年,对全球数据量进行了调查,07年全球信息量约为16万PB,即使在全球遭遇金融危机的2009年,全球信息量仍达到80万PB,比上一年度增长62%。2010年这一数字达到1.2ZB,约为2007年的8倍。这意味着TB、PB、EB已经过时,全球将正式进入数据存储的“泽它时代”,进入数据爆炸时代。“数字世界”调查预测,未来十年,全球总体信息量将是现在的44倍。数据单位BKBMBGBTBPBEBZBYB基数22222221010次方01020304050602124数字化时代数据爆炸时代5数据源12+TB
of
tweetdata
everyday25+TBof
logdataeveryday100+TBof
dataeveryday615PBofdataeveryyear大数据对各行业产生价值和影响全面洞察客户信息提升企业资产管理数据深度利用风险及时感知和控制辅助智能决策更快和更大规模的产品创新全面分析来自渠道反馈、社会传媒等多源信息,将每个客户作为个体进行全景了解。利用实时数据实现预测性维护并减少故障,推动产品和服务开发。梳理结构化、非结构化、海量历史/实时、地理信息四类数据资源,以企业核心业务及应用为主线实现四类数据资源的关联利用。通过全面数据分析改进风险模型,结合交易流数据实时捕获风险,及时有效的控制。实时分析所有的运营数据和效果反馈,优化运营流程。利用投资回报率最大的技术减少IT成本多源捕获市场反馈,利用海量市场信息和研究数据来快速驱动创新。更快和更大规模的产品创新全面洞察客户信息提升企业资产管理数据深度利用辅助智能决策风险及时感知和控制大数据蓝海区域发展气候信息行业信息市场信息国家战略投资信息经济信息生活咨询贸易信息旅游咨询个人生活相关(投资理财、居家生活、旅游出行)企业发展相关(投资前景、市场战略、市场先机)区域经济发展(区域规划、城市发展、发展先机)国家发展战略(全球经济、国计民生、政策法规)数据影响到我们生活周边的各个方面。计算应用分析加工版本号:V1.0大数据基本概念大数据BigData大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合大数据=“海量数据”+“复杂类型的数据”涉及各个行业领域电力、电信、经贸、教育、医疗、金融、石油、民航天文、气象、基因、医学、物理、互联网与人类社会活动有关的网络数据大数据核心特征总结4V数据量大(Volume)类型繁多(Variety)价值密度低(Value)速度快时效高(Velocity)
普开大数据引领薪未来大数据与云计算的关系大数据的战略意义不在于掌握庞大的数据信息,在于对这些含有意义的数据进行专业化处理如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”
普开大数据引领薪未来
每天几百GB、几TB的资料,且持续成长中
如何从大量数据中挖掘出隐藏的巨大商业价值
如何快速构建并且保证系统的安全简便可用存储分析管理大数据的挑战大数据的应用案例评估/预测数据收集/加工客户关怀关联分析舆情跟踪/分析风险管理发大数据应用场景:金融交通优化大数据应用场景:政府
自然灾害预防研究改进物流规划环境监控就业分析社交网络意识热点跟踪经济预测欺诈检测大数据应用场景:医疗健康不间断医疗保健流感跟踪数据分析/报告社交网络改善研究欺诈索赔医保物流规划治疗计划关联分析
评估和预测
整合和分析
数据
就业分析
社交网络应
用
跨校学习
提升研究水平
大数据可以为教育和科研做些什么?
现状中国将近4200万小微企业,占企业总数的的97.3%由于分布零散、业务不规范、盈利不明朗、信贷时间长、信用难以构建等现状,使得小微企业的贷款相当困难• 大数据与小而美的金融信贷完全是构建在互联网的基础通过数据分析,以自主服务模式为主的、面对小微企业的信贷工厂24小时开放、随时申请、随时审批、随时发放的纯互联网的小额信贷服务
ODPSOpenDataProcessingService,阿里云开放数据处理服务来自淘宝、天猫、B2B、支付宝的交易数据、日志、聊天记录以及评价等各个方面的数据经过确定的调度、系统监控、数据分析、算法优化等流程,最终形成了310模式阿里金融阿里金融的实时业务墙阿里金融的数据和趣事经济不景气啊意大利银行坏账率18.6%西班牙银行坏账率10.9%我国规定银行坏账率5%以下,实际呢?阿里金融坏账率0.76%如何做到的?阿里金融的数据和趣事海量数据的存储和计算来自谷歌:数据量大比数据模型精细更具优势Hadoop4500+服务器共同存储和并行计算69.1PB数据,总容量87PB每日净增量260TB每日作业数15-18万到2013年为止,除支付宝仍在部分使用Oracle,淘宝所有业务全部使用开源,成本降低60%以上使用IOE,成本2000万,现在用Mysql成本400万TPS:IOE9000/Mysql加其他开源软件,128000网页游戏国内网页游戏厂商百个服/网页游戏,30-50个库/服10G用户数据/天/游戏[十几款游戏]场景:游戏玩家行为分析其他平台:数据无法导出中间数据汇总丢弃,无法用户级分析智慧交通用户:最大城市,交通领域(Citytraffic)场景:车牌记录[CarLicencePlate],100亿[10Billion]/年需求:小时级别->优化到分钟级[Minute]->未来优化到秒级[Seconds]查询场景:车辆异常快速识别VehicleAbnormal交通安全问题互联网视频集群接收日志超过2TB/天7000+任务/日任务数据吞吐20TB+/天,离线小时数据分析常规运营数据分析数据挖掘和用户精分推荐系统用户按地域收入年龄性别收入层次划分广告系统指数指数指数用电信息采集数据统计分析基于Hadoop+HBase的解决方案在数据完整率、终端通讯流量、低压日电量等方面的统计分析总用时比现有基于OracleRAC的系统快6~20倍,查询响应时间缩短了2个数量级,成本仅为原方案的1/5采集终端250万,覆盖用户数1500万采集频率1/天—1/15分钟电表数据单条超过5k总体计算时间超过7小时,计算任务的串行计算时间超过1370小时联通用户上网记录查询解决方案系统部署引入HBase集群:NameNode节点:3台;DataNode(数据存储节点):~200台;Zookeeper节点:7台;集群监控节点:1台;入库服务节点:24台;在网络交换设备方面,通过机框间通过万兆交换机连接,以完成快速的数据交换;将Hadoop框架带入并支撑建设,满足高性能的数据导入和快速查询。数据分析用户手机访问一次网页,约会产生数十条,甚至数百条请求,意味着产生数十条和数百条上网记录:访问手机新浪网首页,约产生20条记录;访问新浪iPad首页,约产生40条记录;在iPad中看一条新浪新闻,产生超过180条记录;访问淘宝触摸屏版,约产生60条记录;全国每日新增约10TB数据,每月近万亿条记录,存放6个月,约2PB;移动互联网用户快速增加,智能终端迅速普及、户均流量显著增长,上网记录数据将进一步猛增。产生效益联通各省市公司关于3G客户数据流量问题争议占3G业务投诉达由原来7~15%左右,下降至0.4~1%;用户可快速、准确查询上网记录情况。销售分析Loremipsumdolorsitamet,consecteturadipisicingelit.Aut,accusantiumillumautemadasperioresnisi.YourTextHere客户投诉销售技巧销售分析活动反馈竞争对手客户主要投诉哪些问题?如何杜绝骚扰客户现象?客户经常提到哪些竞争对手?主要差距是哪些方面,例如产品、服务、价位、优惠活动?哪种优惠活动容易促使用户的购买行为?什么样的销售话术成单率更高?销售分析
普开大数据引领薪未来语音分析主要基于热线以及电销的通话数据虽然其本身也是大数据,但稍显“孤单”语音分析将被语音分析系统结构化的语音数据作为“大数据”的重要来源结合多渠道客户行为数据、客户信息、知识库、经营数据等等企业能搜集到的所有数据,汇聚成“大数据”采用超大规模分布式运算架构、结合各种数据挖掘手段进行快速的分析挖掘大数据分析电销中心客服中心电子渠道产品缺陷流程错误用户喜好营销效果多渠道用户行为分析决策辅助数据报告客户信息等专业人才混乱数据->价值,所有的决策“用数据说话”从语音分析走向“大数据”分析落地行业总结列表互联网政府:交通、地质、公安、智慧城市...通信:联通、移动、电信金融:部分银行和证券公司广电、传媒医疗建筑行业大数据技术大数据技术展现与交互报表、图形、可视化工具、增强现实数据计算查询、统计、分析、预测、挖掘、图谱、BI数据存储分布式文件系统,分布式数据库数据采集ETL工具,数据总线基础架构支持云计算平台、云存储、网络、监控等大数据处理平台离线处理平台Hadoop交互式处理平台Spark,Swift流处理平台S4,Storm大数据技术线路图Mahout、Hive、Pig、R语言MapReduce、Storm、Impala、TezPresto、Spark、SparkStreamingHDFS、Hbase、CassadraFlume、Kafka、Scribe基于业务的6大类10个方向的数据分析项目实战数据收集
数据存储数据计算分析与挖掘ETL项目实战Sqoop、DataXEcharts.jsD3.js、开源报表系统大数据技术线路图只有Hadoop?只有Hadoop?只有Hadoop?大数据技术总结开源大数据生态圈商用大数据生态圈大数据技术总结开源大数据生态圈:1、Hadoop、HBase、Hive2、Hypertable曾经有一些用户3、NoSQL,membase、MongoDb大数据技术总结商用大数据生态圈:1、一体机数据库/数据仓库:IBMPureData(Netezza),OracleExadata,SAPHana2、数据仓库:TeradataAsterData,EMCGreenPlum,HPVertica等等。3、数据集市:QlikView、Tableau、以及国内的YonghongDataMartHadoop架构的应用领域概览电信医疗交通公安航空电力金融搜索社交游戏视频民生核心什么是HadoopHadoop是Apache开源软件基金会开发的运行于大规模普通服务器上的大数据存储、计算、分析的分布式存储系统和分布式运算框架Hadoop2.0由三个部分组成分布式文件系统HDFS资源分配系统Yarn分布式运算框架MapReduceHadoop这个单词是什么意思?它是作者儿子的一个毛绒玩具小象的名字Hadoop,Why?• 数据太多了,需要能存储、快速分析Pb级数据集的平台• 单机的存储、IO、CPU有限,需要可扩展的集群• 单点故障问题单点故障是正常现象,但需要处理这种异常节点有增有减• 需要好用的、可靠的基础平台来解决,最好是开源的传统RDBMS处理大数据的局限性• 容量– 100GB~100TB• 速度• 成本– 高端设备的价格超过线性增加比例– 软件按年收取授权费或技术支持费• 代码复杂度– 分表、分库– 跨库之间的数据一致性• 数据类型– 结构化:表结构预定义,每行的列都一样– 强类型:对blob以及文件的处理,在时间和空间上效率都不高Google的贡献TheGoogleFileSystem• 作者:SanjayGhemawat,HowardGobioff,Shun-TakLeung• 首次发表于2003年10月,纽约• 第19届ACMSymposiumonOperatingSystemsPrinciples• 首个商用的超大型分布式文件系统• 价值在于经验的分享,而不是架构的先进——“这是可行的!”Google
MapReduce• 作者:JeffreyDean,SanjayGhemawat• 首次发表于2004年12月,旧金山• 第6届USENIXOperatingSystemsDesignandImplementation• 基于GFS• 汲取了函数式编程的设计思想• 把计算移动到数据GoogleBigTable• 作者:FayChang,JeffreyDean,Sanjay
Ghemawat,WilsonC.Hsieh,DeborahA.
Wallach,MikeBurrows,TusharChandra,
AndrewFikes,andRobertE.Gruber• 首次发表于2006年11月,西雅图• 第7届USENIXOperatingSystemsDesignand
Implementation• 同样基于GFS• 同样是告诉大家——“这是可行的!”Google论文与Apache项目Hadoop对企业的意义可以利用低成本来有效的缩短数据的处理时间在大数据中发掘商业价值利用Hadoop的分布式运行框架可以迅速的搭建起自己的分布式运算系统利用Hadoop的分布式文件系统,可以快速搭建自己的分布式存储服务• Hadoop对企业的意义Hadoop
的企业定位音频视频文档文本XML网站日志点击数据社交网络关联数据传感器嵌入式设备地理信息GPS定位数据分析数据检索数据展现数据分享
Hadoop具体应用• 具体应用
– Facebookmessage系统(HBase)
– T
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 许昌陶瓷职业学院《数字逻辑设计》2023-2024学年第二学期期末试卷
- 信息技术 第二册(五年制高职)课件 9.1.9 我国人工智能的发展现状
- 初中教育教学业务培训稿
- 企业薪酬管理制度
- 儿童画红薯课件
- 商场保洁人员培训
- 四川省卫生类事业单位公开招聘(医学基础知识)近年考试真题库及答案
- 江西省卫生类事业单位竞聘-中药类近年考试真题库-含答案解析
- 2024-2025学年下学期高二英语外研社版同步经典题精练之固定搭配和句型
- 康复护理学术会心得
- GB/T 44770-2024智能火电厂技术要求
- 江苏省苏州市2023-2024学年五年级下学期期中综合测试数学试卷(苏教版)
- 工程测量报价单
- 学习解读2022年《关于加快推进政务服务标准化规范化便利化的指导意见》实用PPT动态课件
- 培训签到表 (最新版)
- 草莓采摘机器人机械结构设计
- 绿色再生资源回收利用项目资金申请报告写作模板
- 腰椎椎弓根钉技术应用(赵兵德20160418)
- 连铸3行热试小结
- 压力钢管镇墩抗滑稳定及地基应力计算
- (整理)可摘局部义齿义齿复习题+参考答案
评论
0/150
提交评论