版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术如何应用亍传统信息系统提纲大数据技术研究背景和问题开源软件Apache
Hadoop大数据处理系统关键技术大数据技术从互联网走向传统应用背景:大规模数据计算
通信、网络、存储、传感器等电子信息技术飞速发展导致数据规模极大增加–
Big
Data
传统的存储并处理这些数据的技术手段遇到瓶颈SearchEngineDataWarehousingLog
Processing/UserBehavior
AnalyzingProcessing
100TB
datasetsOnline/Realtime/StreamingDataAnalysis数据为王One
nodeScanning@50MB/s
=
35,000
min1000
nodeScanning@50MB/s=35
min背景–大数据的大问题2020年:数据量将达到35ZB,较2009年增大44倍来源:IDC
DigitalUniverse
Study,
May20102020年:60%以上的创造数据将因无法存储而丢失。• Facebook用户每天上传3亿张照片,超过500TB的数据增长量,100PB单集群存储容量• Google索引的在线数据2002年是5EB,到2009年增长到280EB• 淘宝网注册用户达到3.7亿,在线商品数达到9亿,14PB海量数据存储数据爆炸对数据存储不
处理效能提出了挑战!背景–大数据的大问题2020年:数据量将达到35ZB,较2009年增大44倍来源:IDC
DigitalUniverse
Study,
May20102020年:60%以上的创造数据将因无法存储而丢失。• Facebook用户每天上传3亿张照片,超过500TB的数据增长量,100PB单集群存储容量• Google索引的在线数据2002年是5EB,到2009年增长到280EB• 淘宝网注册用户达到3.7亿,在线商品数达到9亿,14PB海量数据存储数据爆炸对数据存储不
处理效能提出了挑战!•
高速发展的数据型互联网企业需要连续的系统扩展能力
数据快速增长不数据中心扩容周期缓慢的矛盾•
如何维持低成本曲线和高性能曲线是现实问题
数据业务深度的丌断加强和数据处理性能现状的矛盾背景:解决大数据问题的思路背景:解决大数据问题的思路海量数据存储海量数据计算提纲大数据研究背景和问题开源软件Apache
Hadoop大数据处理系统关键技术大数据技术从互联网走向传统应用Hadoop
Apache
Nutch,
2002
NDFS
+MapReduce,
2004
Hadoop,
2006
Apache
Hadoop,
2008http://hadoop.ap/Book:/catalog/9780596521998/index.htmll/catalog/9780596521998/index.htmlClone
of
Google’s
GFS
and
Written
in
JavaMapReduce • Does
work
with
other
languagesCan
processlarge
scale
Web
pages
RunsonLinux,
Windows
andmoreCommodity
hardware
with
highfailure
rateDoug
Cutting,Apache软件基金会主席Hadoop
isthemost
successful
open
sourcesoftwareafter
Linux.Hadoop
组成部分Hadoop
isthemost
successful
open
sourcesoftwareafter
Linux.MapReduceHDFSHBaseHiveHadoop
组成部分HDFSftwareafter
Linux.apReducemost
successful
open
sourcesoMHBaseHiveHadoop
istheHadoop
组成部分Hadoop
HDFS体系结构规模:10Knodes,
100
million
files,
10
PB特性:适合数据批处理;最大化吞吐率;允许计算向数据迁移优化:数据块副本、数据块放置策略、缓存策略等Sanjay
Ghemawat,
et.
al.,
The
File
System,
SOSP’03HadoopMapReduce处理流程Dean
&
Ghemawat:
“MapReduce:
Simplified
DataProcessing
on
Large
Clusters”,
OSDI
2004提纲大数据研究背景和问题开源软件Apache
Hadoop大数据处理系统关键技术大数据技术从互联网走向传统应用Joblaun1ch
6关系数据按行序运行时重建
16原始关系表列式存储结构(Apache
Pig,Zebra)行列混合式存储结构(RCFile)JobScheduleTaskLaunch……TaskLaunchTaskLaunchRowConstructionRowConstructionRowConstructionReadDatafromDistributedFileSystemSubsequentProcessingSubsequentProcessingSubsequentProcessingRowReconstructionParallelTasks……
RCFile将关系数据水平分块,块内按列序存储,实现文件级逻辑结构优化行式存储结构(Apache
Hive,SequenceFile)行列混合式数据存储技术RCFile18互补式聚簇索引技术CCIndex
CCIndex利用冗余的副本数据块为多数据列构建聚簇索引,不增加额外存储空间,实现数据块级布局结构优化以及分布式实时查询统计能力CCIndex保持了BigTable数据模型高可扩展和高吞吐率特性,同时具有关系数据模型的查询统计能力CCIndex将二级索引变为一级索引,丌访问原表直接进行区间查询和统计以CCIndex为核心的系统支持多维区间实时查询统计示例:select
count(cl1)
from
TAB
where
cl1<A
and
cl2>BIr 亘补式m古古古工?• CClndex
利用冗余的副本数据块为多数据列构建聚簇索引,不增加额外存储空间,实现数据块级布局结构优化以及分布式实时查询统计能力’UWM砾gaa-元噎领性”2··.'a"畸"帆,t吃草’酌』"?暴阻。.,
邸,1
111民
Id·I飞I
o,〔Cnd创盼到gTible措
1前扩前四二辛苦主,
同ti\
主关系据胆frj
鼓II自动押回
翩然
回f:::
i圆圆I/:,iJ
二
;:I
At
创
口
u:I.!解决7海量数据实时分析计期快性问题1/W电d(.
制:,
:1
.."T!'咛"..
;刷
)-•
'h'I
f
.I
伊·丽E嚼讪
=t
豆豆:归路以(创喇圳j
支持施i司主l\fi袋lt一一一一一’Cl!nde精卫生51
*袁世
,+E胁撞击吕能|司
脑lt词。由i〔ornt(cll)from
TMwheecll<A
and
d;>B缸嚣
阳回国、问阳,,,.,回.、白啊..U国:立|
白宫J嚣瞿...曲阴
阳mmm刷刷。拟
出
那
就
您叫阳刚刚放9陆“禽""'
"'缸捐Md
S..阳晒
Scan
...胁Scan陆Ml-dim刷sior四阳叫l'臼捕鱼••ThfOUJh胆"My舍
ιC阳....(301A)
=崎s。Clu>I
(四叫
=MyS。也Cluser(7
”A)
…C旬以...(00叫
c=:i优lndex(70峭
=cc河内de<
阳拢’>
=街
dO旧γ阳臼""'19查询性能是常用
二圾索引技术的
10倍以上t
MySQL
Cl
uster
内存数据库的多维
区间查询性能快1倍RCFile技术性能优势和应用情况•Compared
with
SequenceFile,
which
wasthe
default
row
store
technology
in
Apache
Hive,
RCFile
can
achieve
up
to
20%
space
savings
without
affectingquery
performance.•Compared
with
column
group
technologyused
in
Apache
Pig,
which
is
another
bigdata
analysis
system,
RCFile’s
dataloading
is
23%
faster
as
far
as
the
diskspace
utilization
ratio
is
almost
equal.•Obviously,
RCFilehas become
the
defacto
standard
of
data
storage
structureinside
distributed
offline
data
analysissystems
such
as
ApacheHive.CCIndex技术性能优势和应用情况采用CCIndex后,在硬件规模保持丌变的前提下,系统处理的数据时效范围从原来的7天增大到3个月,处理的数据规模增大了一个数量级,系统吞吐率增大了7倍,对原来延迟大于1s的查询请求响应时间平均降低了57.4%。CCIndex技术可以解决诸如HBase等当前主流的列簇式NoSQL数据库在多列查询上的功能缺失和性能低下的问题。技术指标本项目国际领先系统数据存储空间占用RCFile比行存储节省约20%空间Apache
Hive(SequenceFile)数据加载性能RCFile比列存储加载快23%以上Apache
Pig(Zebra)在线查询分析性能CCIndex是二级索引技术的11.4倍Apache
HBase(IndexTable)不国外同类技术比较技术指标本项目国际领先系统数据存储空间占用RCFile比行存储节省约20%空间Apache
Hive(SequenceFile)数据加载性能RCFile比列存储加载快23%以上Apache
Pig(Zebra)在线查询分析性能CCIndex是二级索引技术的11.4倍Apache
HBase(IndexTable)实现PB级数据离线分析处理和百亿记录级数据实时查询分析,成为国际事实标准不国外同类技术比较24
自劢将文件分割成多个固定大小的数据块,每个数据块单独压缩
每一个文件由一个压缩文件和索引文件构成可应用于Hadoop平台上的文件系统在不影响其它文件系统的情况下,以动态、透明的方式给文件系统添加压缩功能用户透明的HDFS数据压缩解压缩-SwiftFS丌同压缩解压缩算法的性能对比客户端数写吞吐率(MB/s)Vs.最高Vs.最低nonehdw
acsnappyquicklzzlibSwiftFS19813714475461610%250%297267227144872477%184%4983133222631583260%106%8973263354022994510%51%16973123304014454750%52%32953123174045115620%80%64953063143755185830%91%128902592963325475890%127%256942232523025005830%161%提纲大数据研究背景和问题开源软件Apache
Hadoop大数据管理系统关键技术大数据技术从互联网走向传统应用淘宝数据魔方应用回国阳西
叫川HBase:Data
Storage,
Data
Aggregati
onRegion
Se「ver,Data
Storage
lndex+CataData
AggregationRegion
Se『ver
,Data
Stcrace
Index+DataData
AggregationR?gion
Server,D丑ta
Storage
lndex+CataD:tta
Agg「egation噩噩Aggregation
ResultQuery吐酬,袖人左”仿
制幢你衍’常嗖键矗
.l"l;.J’”
π”扣”•
1'.U价.
而.(11'1•6司
”‘,,吃
.’.吃
’V
.1.e.11哺盹刷
刷棍’且
,酬,··鸣””·”
号J
Boss
Server:Data
Aggregati
onRedis:
ResultCachet单牟血lil.. ,,’‘0 '岭"
先Z@
’”警衍3
.a
而
‘
主」
〉‘’··502
4
""
,1'甜地
喝!2调υ
,••.u、开缸,E电
‘·,、
衍’S阳'-O'
l"、
部比揭飞a
in、t\1'(+汇”F
幡函,织割
眩’tJ:'lf
-:J:llU’“笨”貌..。”.,.’,a灵”m..,:...酬,寡""嗡钊,
擒获’略决符,
民俗,”份’”份销
”:>)1411'<1'·黛司院
币"""
咎由警怠戴氯咱’且.'I"•a’宅’
”’巳气,,ι回夜窍,电
阳酬···H丁TP
Request“叫掬§ 户、\副产”
(回国It::mi;;a:\-‘i:·.-»,
..每曲’”-翁翩翩Front
End酬’阳
旦百公且咀&•
»1,'1!1,;'0t1”姐姐。”明百言τ
”"恨恨玄;;;:晤’‘·“盟”...,侧
lll;ut.'
lltll事””tt
‘民弱,.
•
fit:令基于全网父易记录的数据可视化工具/服务
令掌握商品交易情况〈·洞察行业热点及商机回H:丁
工
4二m
缓」:;霄
忑二?.”叫叫令30万付费用户乙
,
:苦 奋(\
出/
\/飞\,
I叩二二二王
令6TB数据/100亿条记录数据实
时统计查询噩噩盟叫,..础 帽拿给忻国酣四宽剧?”’m'"'"''·-
a』·一
立’
…←
回她站脯’能桐’.,』『』←”氢统篇。”风”·il:明吗俐.,..
·加州时吴刚以••<l虫””...•
..'"""
敬酒军墨
一
一一~淘宝数据魔方
–
全属性实时计算数据装载云梯HBaseHBaseHBase……全网交易数据张轩丞(朋春),淘宝海量数据产品的技术架构,iDataForum2011淘宝数据魔方
–
全属性实时计算数据装载云梯HBaseHBase……交易1(二进制,定长)HBase交易2索引:交易id列表属性对全网交易数据数据查询张轩丞(朋春),淘宝海量数据产品的技术架构,iDataForum2011节点1 1,
2,
4,9节点2 1,4,7查索引求交集节点2
1,
4本地SUM运算(HBase扩展)汇总计算写入缓存求SUM(alipay)属性属性值笔记本尺寸13寸笔记本定位商务定位
取原系统查询日志(10天),所有查询按原系统的响应时间分为三类统计平均响应时间;
测试前清空cache;
测试时新库中有25天数据,200G左右;
可查询时间从7天拓展到至少30天。采用CCIndex后新旧系统性能对比分析系统后台支持全表统计服务端统计速度
15~50W R/S/Server
or400W
R/S/Server。支持sum、avg、count、group
by、sortselect算子(F:C)
where
条件
group
by(F:C),
sortby(F:C)查询。条件
[F:C>|<(rang)]and|or[F:C>|<(rang)]银行:冠字号查询测试结论:在并发200的情况下,依然能够提供秒级的数据访问效率,可以预见完全能够满足冠字信息查询的性能需求。数据规则按照冠字信息数据模拟测试记录数81亿测试文件大小610G导入后大小2.4T索引后大小4.7T测试并发数200查询模式单项查询、组合查询测试环境IP配置02*Intel
Xeon
E5-2650
8核/2.00GHZ
64GB内存
52TB12*Intel
Xeon
E5-2650
8核/2.00GHZ
64GB内存
52TB22*Intel
Xeon
E5-2650
8核/2.00GHZ
64GB内存
52TB32*Intel
Xeon
E5-2650
8核/2.00GHZ
64GB内存
52TB网络6G网络查询性能数据量查询并发(查询内容) 平均完成耗时 最快完成耗时 最慢完成耗时(ms) (ms) (ms)81亿200(地区号单项)83411166581亿200(网点号单项)81617160981亿200(错误码单项)6042139081亿200(冠字号码单项)11493206981亿200(等于某个地区号+等于某个错误码+等于某个种类,单条)92415177981亿200(等于某个地区号+等于某个错误码+等于某个种类,100条)1763320393981亿200(等于某个地区号+小于某个错误码+等于某个种类,单条)88719174081亿200(等于某个地区号+小于某个错误码+等于某个种类,100条)2077664625互联网应用不传统信息系统应用的区别
互联网应用
自行开发系统、快速迭代,持续交付,持续维护
直接到达客户端,对接Mass用户业务逡辑简单,Straightforward,一致性要求较低
系统内部模块间可以无标准(REST),性能/用户体验至上(KISS)
传统信息系统
多方开发,依赖集成商,基于版本交付和维护
Vendor对接集成商,集成商对接最终用户
业务逡辑复杂,系统要求稳定可靠,安全性要求较高
系统模块间依靠工业标准耦合,如应用逡辑和数据库系统通过SQL耦合源于互联网的大数据技术特征
以Apache
Hadoop为例
分布式计算系统,用软件代替硬件保证系统可靠(HDFS、ZooKeeper)
面向超大规模机群(千台服务器以上);超大规模存储(百PB级);高通量(几十GB/秒);高并发(数万请求/秒)
简化丌必要的功能(运维、管控、安全等)
编程模型、语言多样化(MapReduce、Job/Task/Instance、Pig
Latin、SQL/HiQL、Script、Jason/PB、Java/C/C++)解决之道
标准化
可控可管化
小型化
软硬一体化
生态化优先级低优先级高天玑Base(ICTBase)
极高的性能,高通量数据存取,分布实时分析计算,TB级数据支持,百倍优于传统关系型数据库。
软硬一体。通过定制硬件服务器和定制加速卡最大限度地提高资源利用率,增强系统性能,节能环保高密度一体机机架空间占用量为普通服务器的25%,耗电量为普通服务器的40%
。
数据接入简单,提供JDBC、ETL等通用数据接口,应用对接远优于新兴的NoSQL数据库,多种管理套件应用维护简单。技术特色ICTBase对开源软件的功能和性能增强Muti-connectionAggregation
andIndexingAuthenticationand
QoSmulti-tenancyDe/CompressionHAFine
grainLoad
BalanceBulkloadParallel
flushand
compactBlockBalanceJDBCMonitor
andAuto
RecoveryHardwareacceleratorICTBase运维/管理/控制系统访控与权限机群节点监控安装与部署系统启停控制节点监控数据节点监控批式任务运行监控ICTBase数据及表管理数据导入、索引构建及SQL语言查询ICTBase表级数据管理功能权
表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年企业安全文化建设手册
- 2025年企业内部保密工作制度实施指南
- 反餐饮浪费管理制度
- 超市员工绩效考核制度
- 超市商品采购及谈判制度
- 2026年热带海洋环境与岛礁生态全国重点实验室科研助理岗位招聘备考题库及完整答案详解一套
- 养老院老人健康饮食营养师管理制度
- 2026年白云区云城街招聘城中村改造工作人员的备考题库附答案详解
- 2026年英德市国防教育训练中心面向社会公开招聘1名专职民兵教练员备考题库及答案详解一套
- 兴义市人民医院2025年公开引进高层次、急需紧缺人才备考题库完整答案详解
- 烟花爆竹零售店安全生产责任制
- GB/T 157-2025产品几何技术规范(GPS)圆锥的锥度与锥角系列
- T/CCT 017-2024中低温煤焦油
- 电子公司生产部年终工作总结
- ISO27001:2022信息安全管理体系全套文件+表单
- 2024大型企业司库体系建设白皮书
- 人教版小学数学六年级下册第二单元《百分数》(二) 单元作业设计表
- 2024至2030年高强度快硬硫铝酸盐水泥项目投资价值分析报告
- 豆制品购销合同范本
- 腰椎术后脑脊液漏护理课件
- 中建《工程预结算管理办法》
评论
0/150
提交评论