




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据尹航 2014 10月 成都Big Data大数据什么是大数据大数据原理和构成大数据应用大数据价值Big Data目录什么是大大数据Big Data什么是大数据HadoopIBM英特尔HP数据商业智能能数据库服务器SAPHANANoSQLSQLHDFS预测数据流运算节点点机器学习习并行计算算磁盘阵列列甲骨文AMD内存计算算GoogleMapreduce可视化GbPbTbZbBig Data什么是大数据由多个软件、硬件部分组成的一个数据系统一个执行体系有别于传统企业数据中心,用来应对现代海量数据化的生活,商业环境。不是一个行业,而是一种新的数据处理方法是关于数据的运输和处理,以及最后有效使
2、用的体系与云计算一样 都是一种新的生产组织形式Web 2.0时代的解决方案大数据(big data),或称巨巨量资料料,指的的是所涉涉及的资资料量规规模巨大大到无法法透过目目前主流流软件工工具,在在合理时时间内达达到撷取取、管理理、处理理、并整整理成为为帮助企企业经营营决策更更积极目目的的资资讯Big Data什么是大数据大数据的的目的原始数据的处处理和分类存存储将存储的的数据调调取并分分析最终提供供决策依依据归类数据类型有效分析组合大数据的的特点4V海量高速多样精确Big Data什么是大数据1 KB =1024字节存储单位位1 MB =1024KB1 GB =1024MB1 TB =102
3、4GB1 PB =1024TB =1,048,576 GB1 EB =1024PB =1,073,741,824GB1 ZB =1024EB =1,099,511,627,776GB100万G10亿G1万亿G22亿台215万台2100台500G硬盘电脑脑15寸电脑排排成行可可以往返返一次月月球Big Data什么是大数据Volume海量1 PB =1024TB =1,048,576 GB1 EB =1024PB =1,073,741,824GB1 ZB =1024EB =1,099,511,627,776GBIntel:人类文文明开始始到2003年 地球球共产生生了5EB数据.2012年全年,
4、全球产产生数据据2.7ZB是2003年以前的的500倍2015年,全球球估计产产生数据据8ZB,等于1800万个美国国国会图图书馆44%35ZB2000年数数字信息息占全球球数据量量的25%75%都在报纸纸 胶片片 磁带带等媒介介2013年数数字信息息98%非数字信信息2%Big Data什么是大数据商业数据据现状Twitter2007年5000条微博更更新/天2008年30万条微博博更新/天2009年250万条微博博更新/天2010年3500万条微博博更新/天2011年2亿条微博博更新/天2013年4亿条微博博更新/天2013年 上传传时长12年的视频频/天2013年用用户分享享25亿条信息
5、息/天我国一个个一线城城市的健健康档案案数据5PB/年我国一个个智慧城城市的数数据800PB/年一个单数数据表几几亿-几百亿条条记录下线商品品14亿件,在在线商品品8亿件淘宝数据据库存了了20PB数据平均每月月增加1.5PB智能移动动终端设设备的巨巨量增长长Big Data什么是大数据Velocity高速6000万用户登登录/天20亿次页页面访问问/天每天1.2亿次网站站访问响响应时时间小于于100毫秒大数据的的惊人不不止是在在数量上上,同时时数据还还是巨量量具有动动态分析析价值的的数据。访问响应应时间的的加快,数据库库读写速速度的加加快,对对电商企企业来说说就等于于多成交交。对于很多多情况下
6、下,动态态的数据据价值远远大于静静态数据据,比如如气象预预测,灾灾难预测测,快消消行业等等。由于输入入速度加加快,所所以要求求输出速速度也要要加快Big Data什么是大数据Variety多样数据:结构化数据半结构化数据非结构化数据指关系型型数据表表指关系结结构与内内容混合合在一起起的数据据类型文档、视视频、音音频、图图片20%结构化80非结构化化企业数据据2012年互联网网产生的的数据25%结构化75非结构化化50%-70%源于人与与人的互互动Big Data什么是大数据Veracity准确大数据的的核心思思想之一一准确源自自于对全全部数据据的处理理分析基础数据据的真实实准确性性,才能能保证
7、结结果的有有效性。Big Data什么是大数据大数据VS云计算两者都是是生产方方式改变变为主,生产资资料改变变为辅,提高生生产效率率。云计算是是将计算算和存储储,由本本地转移移到了云云端。大数据则则是提供供了一套套新的计计算和存存储工作作原理。二者有本本质的不不同,但但却是一一个完整整的体系系。大数数据可以以是云计计算的心心脏,云云计算是是大数据据服务的的通路。Big Data什么是大数据大数据VS物联网物联网是是大数据据的流程程中的第第一层采集层物联网网网关以上上就进入入了大数数据工作作范畴。局部域内内的物联联网应用用解决方方案等同同于这个个域内的的大数据据系统大数据原原理和构构成大数据的的
8、核心工工作思路路大数据系系统颠覆覆了传统统数据中中心的工工作逻辑辑传统数据据系统工工作逻辑辑:运算系统统调动数数据库的的数据,数据的的移动。大数据系系统工作作逻辑:运算系统统直接部部署至数数据处,数据仅仅架构内内移动。Big Data大数据原理和构成Big Data大数据原理和构成传统数据据系统工工作原理理客户客户客户客户客户客户互联网路由器访问请求求负载均衡衡服务器集集群DBDBDBDB数据库集集群数据调用用请求数据移动动结果反馈馈Big Data大数据原理和构成Hadoop软件框架架大数据系系统核心心组件MapreduceHBaseHDFSHadoop核心子项项目Big Data大数据原理
9、和构成Hadoop系统工作作原理Big Data大数据原理和构成Hadoop系统构架架Big Data大数据原理和构成存储与数数据库的的比较传统数据据中心HadoopJOBDRAID存储系统统HDFS容错性扩展性某已分配配任务出出错,该该计算必必须重新新执行节点灵活活调整节点相对对固定,扩展时时会造成成无法访访问在任务执执行中任任何时候候可任意意添加节节点SQLNoSQL数据类型型平行计算算系统MapReduceRAID出现坏盘盘后,重重建阵列列需要十十多个小小时,这这在大数数据时代代是无法法接受的的Big Data大数据原理和构成SAPHANAHadoop的升级内存计算算技术真正的海海量数据
10、据瞬间分分析内存数据据库实现任何何地点、任何时时候、可可以查看看实时的的动态数数据,任任何时候候都可以以知道正正在发生生着什么么。并且且做出应应对。利用高性性能的大大数据一一体机服服务器,将数据据库直接接植入大大容量内内存中进进行实时时处理。HadoopMapreduceHDFSHBaseBig Data大数据原理和构成大数据的的硬件32颗处理器器、每颗颗处理器器12核=384核X 96个线程32TB的内存很很多多中型企企业的数数据库也也只不过过几TB.可以完美美运行内内存计算算数据库库大数据一一体机服务器+存储+网络=融合基础础架构SeaMicroSM1500064颗处理器器、每颗颗处理器器
11、8核=512核心4TB的内存5PB本地存储储10U的空间万兆以太太网Systemx3650M4机架式2U2颗处理器器8核心内存最大大768GB本地存储储9TB2.6万换算成10U的空间80核心大数据的的软件数据存储储管理数据处理理数据分析析Hadoop数据库软软件Big Data大数据原理和构成提取转转换归归类可视化BI商业智能能大数据的的核心价价值高附加值值阶段大数据应应用Big Data大数据应用大数据应应用的意意义巨量数据据的产生生对所有复复杂数据据格式的的归类管管理分析析20%结构化数数据的分分析利用用80%非结构化化的没有有发挥作作用,商商业洞察察力的资资源浪费费。找出最优优解决方方
12、案应用的核核心大数据分分析Big Data大数据应用数据质量量和数据据管理可视化分分析语义引擎擎数据挖掘掘算法预测性分分析能力力大数据应应用的分分析方法法高质量的的数据处处理和管管理是输输出高质质量结果果的前提提深入数据据内部,用机器器去做人人工做不不到的数数据价值值发现从非结构构化数据据中提取取信息的的方式展示数据据分析结结果,供供使用者者决策根据可视视化和数数据挖掘掘的结果果做出预预测Big Data大数据应用大数据应应用的分分析逻辑辑DescriptivePredictivePrescriptive发生了什什么?为为什么?还会发生生什么?还会发生生什么?,如果果发生了了,如何何应对?Bi
13、g Data大数据应用大数据应应用的假假想一给某总办办公室、汽车、家里装装上烟感感。发现某总总在办公公室的抽抽烟数量量最大,在车里里和在家家基本不不抽。那么就可可以知道道,某总总在工作作期间香香烟以及及与香烟烟有关的的产品消消费多。那在家期期间的消消费习惯惯又是什什么,根根据人的的行为习习惯,不不抽烟但但需要其其他事情情分散注注意力。吃东西?看电视视?看书书?。这样就可可以深入入了解一一个人的的消费行行为习惯惯,从而而提前做做出应对对或者积积极的主主动应对对。Big Data大数据应用大数据应应用的假假想二通过对某某人淘宝宝购物的的跟踪分分析,挖挖掘出他他的消费费趋势。某男,在在电子商商务网站站上长期期买衣服服,内衣衣等商品品。通通过消费费记录可可以预知知其单身身。用百度联联盟,把把世纪佳佳缘,花花田等交交友网站站的广告告推送给给他。某男开始始买女士士消费品品了比如如衣服,鞋帽等等。则则说明该该男找到到女朋友友了。通过信用用卡记录录可以分分析出其其关系进进展情况况。发现其买买房,装装修了。则该男男快结婚婚了。之后就是是孕婴用用品的推推荐。Big Data大数据应用大数据的的大应用用城市智能能交
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东菏泽郓城重点达标名校2025年初三练习题二(全国卷II)语文试题含解析
- 吉林省普通高中联合体2025年高三物理试题4月质量调研测试(二模)试题含解析
- 浙江省教育考试院2024-2025学年高三第三次模拟生物试题含解析
- 员工绩效评估合同模板
- 合同收据格式
- 电磁兼容测试高级工程师聘请协议
- 二手住宅交易协议合同
- 地铁线路建设工程施工合同协议
- 促进创业和小型企业在阿曼支持经济多样化的研究:阿曼
- 一种替来他明制备工艺方法的改进及中试研究
- GB/T 10183.1-2018起重机车轮及大车和小车轨道公差第1部分:总则
- 波形梁钢护栏检测记录表
- 小学生国学知识竞赛题库和答案
- 体检报告单入职体检模板
- 质量体系调查表模板(空)
- 护士角色的转换与适应
- 档案袋密封条模版
- 桩基托梁挡土墙施工方案
- 《中学思想政治学科教学论》课程教学大纲
- 常用CMYK色值表大全
- 碳纤维预浸料项目可行性研究报告-用于立项备案
评论
0/150
提交评论