版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据张辉201312月西安BigData大数据什么是大数据大数据原理和构成大数据应用大数据价值BigData目录什么是大数据BigData什么是大数据HadoopIBM英特尔HP数据商业智能数据库服务器SAPHANANoSQLSQLHDFS预测数据流运算节点机器学习并行计算磁盘阵列甲骨文AMD内存计算GoogleMapreduce
可视化GbPbTbZbBigData什么是大数据由多个软件、硬件部分组成的一个数据系统一个执行体系有别于传统企业数据中心,用来应对现代海量数据化的生活,商业环境。不是一个行业,而是一种新的数据处理方法是关于数据的运输和处理,以及最后有效使用的体系与云计算一样都是一种新的生产组织形式Web2.0时代的解决方案大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯BigData什么是大数据大数据的目的原始数据的处理和分类存储将存储的数据调取并分析最终提供决策依据归类数据类型有效分析组合大数据的特点4V海量高速多样精确BigData什么是大数据1KB=1024字节存储单位1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB=1,048,576GB1EB=1024PB=1,073,741,824GB1ZB=1024EB=1,099,511,627,776GB100万G10亿G1万亿G22亿台215万台2100台500G硬盘电脑15寸电脑排成行可以往返一次月球BigData什么是大数据Volume海量1PB=1024TB=1,048,576GB1EB=1024PB=1,073,741,824GB1ZB=1024EB=1,099,511,627,776GBIntel:人类文明开始到2003年地球共产生了5EB数据.2012年全年,全球产生数据2.7ZB是2003年以前的500倍2015年,全球估计产生数据8ZB,等于1800万个美国国会图书馆44%35ZB2000年数字信息占全球数据量的25%75%都在报纸胶片磁带等媒介2013年数字信息98%非数字信息2%BigData什么是大数据商业数据现状Twitter2007年5000条微博更新/天2008年30万条微博更新/天2009年250万条微博更新/天2010年3500万条微博更新/天2011年2亿条微博更新/天2013年4亿条微博更新/天2013年上传时长12年的视频/天2013年用户分享25亿条信息/天我国一个一线城市的健康档案数据5PB/年我国一个智慧城市的数据800PB/年一个单数据表几亿-几百亿条记录下线商品14亿件,在线商品8亿件淘宝数据库存了20PB数据平均每月增加1.5PB智能移动终端设备的巨量增长BigData什么是大数据Velocity高速6000万用户登录/天20亿次页面访问/天每天1.2亿次网站访问响应时间小于100毫秒大数据的惊人不止是在数量上,同时数据还是巨量具有动态分析价值的数据。访问响应时间的加快,数据库读写速度的加快,对电商企业来说就等于多成交。对于很多情况下,动态的数据价值远大于静态数据,比如气象预测,灾难预测,快消行业等。由于输入速度加快,所以要求输出速度也要加快BigData什么是大数据Variety多样数据:结构化数据半结构化数据非结构化数据指关系型数数据表指关系结构构与内容混混合在一起起的数据类类型文档、视频频、音频、、图片20%结构化80非结构化企业数据2012年互联网产产生的数据据25%结构化75非结构化50%-70%源于人与人人的互动BigData什么是大数据Veracity准确大数据的核核心思想之之一准确源自于于对全部数数据的处理理分析基础数据的的真实准确确性,才能能保证结果果的有效性性。BigData什么是大数据大数据VS云计算两者都是生生产方式改改变为主,,生产资料料改变为辅辅,提高生生产效率。。云计算是将将计算和存存储,由本本地转移到到了云端。。大数据则是是提供了一一套新的计计算和存储储工作原理理。二者有本质质的不同,,但却是一一个完整的的体系。大大数据可以以是云计算算的心脏,,云计算是是大数据服服务的通路路。BigData什么是大数据大数据VS物联网物联网是大大数据的流流程中的第第一层采集层物联网网关关以上就进进入了大数数据工作范范畴。局部域内的的物联网应应用解决方方案等同于于这个域内内的大数据据系统大数据原理理和构成大数据的核核心工作思思路大数据系统统颠覆了传传统数据中中心的工作作逻辑传统数据系系统工作逻逻辑:运算系统调调动数据库库的数据,,数据的移移动。大数据系统统工作逻辑辑:运算系统直直接部署至至数据处,,数据仅架架构内移动动。BigData大数据原理和构成BigData大数据原理和构成传统数据系系统工作原原理客户客户客户客户客户客户互联网路由器访问请求负载均衡服务器集群群DBDBDBDB数据库集群群数据调用请请求数据移动结果反馈BigData大数据原理和构成Hadoop软件框架大数据系统统核心组件件MapreduceHBaseHDFSHadoop核心子项目目BigData大数据原理和构成Hadoop系统工作原原理BigData大数据原理和构成Hadoop系统构架BigData大数据原理和构成存储与数据据库的比较较传统数据中中心HadoopJOBDRAID存储系统HDFS容错性扩展性某已分配任任务出错,,该计算必必须重新执执行节点灵活调调整节点相对固固定,扩展展时会造成成无法访问问在任务执行行中任何时时候可任意意添加节点点SQLNoSQL数据类型平行计算系系统MapReduceRAID出现坏盘后后,重建阵阵列需要十十多个小时时,这在大大数据时代代是无法接接受的BigData大数据原理和构成SAPHANAHadoop的升级内存计算技技术真正的海量量数据瞬间间分析内存数据库库实现任何地地点、任何何时候、可可以查看实实时的动态态数据,任任何时候都都可以知道道正在发生生着什么。。并且做出出应对。利用高性能能的大数据据一体机服服务器,将将数据库直直接植入大大容量内存存中进行实实时处理。。HadoopMapreduceHDFSHBaseBigData大数据原理和构成大数据的硬硬件32颗处理器、、每颗处理理器12核=384核X96个线程32TB的内存很很多中型企企业的数据据库也只不不过几TB.可以完美运运行内存计计算数据库库大数据一体体机服务器+存储+网络=融合基础架架构SeaMicroSM1500064颗处理器、、每颗处理理器8核=512核心4TB的内存5PB本地存储10U的空间万兆以太网网Systemx3650M4机架式2U2颗处处理理器器8核心心内存存最最大大768GB本地地存存储储9TB2.6万换算算成成10U的空空间间80核心心大数数据据的的软软件件数据据存存储储管管理理数据据处处理理数据据分分析析Hadoop数据据库库软软件件BigData大数据原理和构成提取取转转换换归归类类可视视化化BI商业业智智能能大数数据据的的核核心心价价值值高附附加加值值阶阶段段大数数据据应应用用BigData大数据应用大数数据据应应用用的的意意义义巨量量数数据据的的产产生生对所所有有复复杂杂数数据据格格式式的的归归类类管管理理分分析析20%结构构化化数数据据的的分分析析利利用用80%非结结构构化化的的没没有有发发挥挥作作用用,,商商业业洞洞察察力力的的资资源源浪浪费费。。找出出最最优优解解决决方方案案应用用的的核核心心大数数据据分分析析BigData大数据应用数据据质质量量和和数数据据管管理理可视视化化分分析析语义义引引擎擎数据据挖挖掘掘算算法法预测测性性分分析析能能力力大数数据据应应用用的的分分析析方方法法高质质量量的的数数据据处处理理和和管管理理是是输输出出高高质质量量结结果果的的前前提提深入入数数据据内内部部,,用用机机器器去去做做人人工工做做不不到到的的数数据据价价值值发发现现从非非结结构构化化数数据据中中提提取取信信息息的的方方式式展示示数数据据分分析析结结果果,,供供使使用用者者决决策策根据据可可视视化化和和数数据据挖挖掘掘的的结结果果做做出出预预测测BigData大数据应用大数数据据应应用用的的分分析析逻逻辑辑DescriptivePredictivePrescriptive发生生了了什什么么??为为什什么么?还会会发发生生什什么么?还会会发发生生什什么么??,,如如果果发发生生了了,,如如何何应应对对??BigData大数据应用大数数据据应应用用的的假假想想一一给某某总总办办公公室室、、汽汽车车、、家家里里装装上上烟烟感感。。发现现某某总总在在办办公公室室的的抽抽烟烟数数量量最最大大,,在在车车里里和和在在家家基基本本不不抽抽。。那么么就就可可以以知知道道,,某某总总在在工工作作期期间间香香烟烟以以及及与与香香烟烟有有关关的的产产品品消消费费多多。。那在在家家期期间间的的消消费费习习惯惯又又是是什什么么,,根根据据人人的的行行为为习习惯惯,,不不抽抽烟烟但但需需要要其其他他事事情情分分散散注注意意力力。。吃东东西西??看看电电视视??看看书书??。。。。。。。。。。。。。。。。。。。这样样就就可可以以深深入入了了解解一一个个人人的的消消费费行行为为习习惯惯,,从从而而提提前前做做出出应应对对或或者者积积极极的的主主动动应应对对。。BigData大数据应用大数数据据应应用用的的假假想想二二通过过对对某某人人淘淘宝宝购购物物的的跟跟踪踪分分析析,,挖挖掘掘出出他他的的消消费费趋趋势势。。某男男,,在在电电子子商商务务网网站站上上长长期期买买衣衣服服,,内内衣衣等等商商品品。。通通过过消消费费记记录录可可以以预预知知其其单单身身。。用百百度度联联盟盟,,把把世世纪纪佳佳缘缘,,花花田田等等交交友友网网站站的的广广告告推推送送给给他他。。某男男开开始
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 卫生系统平安建设活动方案(3篇)
- 质控小组职责模版(2篇)
- 施工人员管理制度(3篇)
- 二零二五年度建筑工程施工服务外包合同2篇
- 课题申报书:大语言模型驱动三语教学的能动性分析和应用路径研究
- 装饰图案课程设计理念
- 二零二五年度新能源设备技术出口服务协议3篇
- 2024年规范化劳务输出协议模板
- 材料员岗位的具体职责说明范文(2篇)
- 课题申报书:大学生数字化生存境况及优化路向研究
- 材料性能学智慧树知到期末考试答案章节答案2024年南昌大学
- 数据中心供电系统应用方案
- 中东及非洲注塑成型模具行业现状及发展机遇分析2024-2030
- JGJ276-2012 建筑施工起重吊装安全技术规范 非正式版
- QCT1067.4-2023汽车电线束和电器设备用连接器第4部分:设备连接器(插座)的型式和尺寸
- VDA6.3-2023过程审核检查表
- 一年级数学下册平面图形数个数问题详解+练习
- 锦纶纤维研究报告-中国锦纶纤维行业竞争格局分析及发展前景研究报告2020-2023年
- 浙江省舟山市2023-2024学年高二上学期1月期末检测地理试题(解析版)
- 国家电网有限公司架空输电线路带电作业工作管理规定
- 计算机安全弱口令风险
评论
0/150
提交评论