Intel智慧交通解决方案_第1页
Intel智慧交通解决方案_第2页
Intel智慧交通解决方案_第3页
Intel智慧交通解决方案_第4页
Intel智慧交通解决方案_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

英特尔智慧交通解决方案-英特尔大数据平台最佳实践第一页,共三十八页。提纲•

大数据带来交通管理上的挑战•

Intel企业级

Hadoop平台•

基于Intel

Hadoop构建智慧交通应用解决方案第二页,共三十八页。大数据时代-数据爆发性增长3

统计、分析、预测、实时处理IDC预测全球的数据使用量到2020年会增长44倍,达到35.2ZB

(1ZB

=

10亿TB)

*Source:

McKinsey

Global

Institute

Analysis

SG

Cross

Asset

Research,

PwC第三页,共三十八页。Value大数据处理速度要求越来越高•

大数据与海量数据的一

个重要区别,在于不但

数据尺寸大,而且对数

据处理的响应速度有有

着更高的要求•

传统的以周,天,小时

为单位的运算处理周期

,下降到以分钟,秒为单位•

大数据高价值的重要体

现-处理速度High

utilityDiminishing

utilityArchival

valueTimeHighLowNegative第四页,共三十八页。数据的多样性•

数据形式的多样:

结构化数据

,数据间有很强的因果关系

半结构化数据

,数据间因果关系较弱

非结构化数据,

数据间无因果关系•

数据来源的多样性:––––不同的应用系统各种设备互联网其它Flat

file第五页,共三十八页。创造显著业务价值(VALUE)©

Copyright

2011EMCCorporation.

All

rights

reserved.大数据分析显著的业务价值3V特性驱动下创建挖掘数据资产价值,通过数据驱动业务,变成本中心为利润中心第六页,共三十八页。智慧城市-最典型的大数据应用7第七页,共三十八页。智能交通系统面临大数据的挑战

海量数据

城市A:

500000个探头,

三个月会产生200PB的视频数据

城市B:

12,000个ITS探头,

每天20亿条记录,三个月产生1PB的数据

实时计算

−实时数据的采集、扫描、查询和共享

−实时事件监测

−准实时的预测分析

大型跨区域分布式计算−−−−−数据过于庞大,建设中心机房困难带宽所限无法将海量数据汇总至总中心数据多为分中心本地用户访问数据过于集中,系统风险加大总中心投资过大,无法分摊到位8第八页,共三十八页。数据处理需求与传统平台扩展能力之间的差距不断增大数据处理需求与传统平台硬件扩展的差距不断扩大Industry

Progress大数据处理需要的扩展能力第九页,共三十八页。

Big

DataBig云计算技术是有效处理大数据的有效手段大数据和云是两个不同的概念,但两者之间有很多交集。支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性,因此实际上大数据和云之间存在很多合力的地方。大数据应用是在云上跑的、非常典型的应用。例如尽管电子邮件也是云上的应用之一,但也可以脱离云架构,但是大数据应用必须架构在云设施上。这就是两者的关系——大数据处理离不开云第十页,共三十八页。海量数据分析处理向云系统架构演进•结构化数据•数据规模一般为TB规模•集中式,为了分析进行大量数据移动,数据向计算靠近•

批处理为主事务关系型数据库批处理数据仓库集群化非结构化流式多种数据源分析(MapReduce)组织传统BI分析大数据分析•

结构化/非结构化混合分析的能力•数据规模从数十TB到PB级别•分布式,计算向数据靠近•

支持流式分析

Examples:TelcoGovtFinanceWeb第十一页,共三十八页。提纲•

大数据带来交通管理上的挑战•

Intel企业级

Hadoop平台•

基于Intel

Hadoop构建智慧交通应用解决方案第十二页,共三十八页。什么是Hadoop?

开源Apache

项目,灵感来源于Google的

MapReduce白皮书和Google文件系(GFS),

Yahoo完成了绝大部分初始设计和开发

•Hadoop

核心组件包括:

-分布式文件系统

-Map/Reduce

分布式计算

用Java编写•

运行平台:

•Linux,

Mac

OS/X,

Solaris•普通的X86硬件平台ShuffleMapReduce第十三页,共三十八页。Hadoop

之上的常见应用组件

H•

MapReduce的过程化语言接口•

高可用分布式协调器•

Hadoop上的类SQL引擎•

用于随机实时读写访问的数据库引擎(NOSQL)•

工作流式的作业管理器和协调器•

可扩展的机器学习库

PigZookeeper

Hive

HBase

Oozie

Mahout第十四页,共三十八页。为什么Hadoop很重要?•非结构化数据暴增:–估计未来5年,企业的数据将增长650%,其中80%都是非结构化数据–

比如FACEBOOK每天收集100TB的数据,Twitter会有每天产生3500亿的tweets•

非结构化的数据同样蕴藏巨大价值•需要新方法利用不同类型数据进行业务分析–

Apache

Hadoop作为一个分析存储大量数据的关键数据平台出现第十五页,共三十八页。Hadoop

与“大数据”•

Hadoop是致力于“大数据”处理的最重要平台之一–

能够轻松扩展到PB级别的数据存储,处理规模–

带有容错功能的并行处理架构–

基于普通的X86平台硬件架构,硬件成本低廉–

用内置格式存储/处理数据–

基于开源项目,拥有当量的代码来源,并且传统厂商也日益重视对其的支持,它已经成为重要的并行处理架构标准之一第十六页,共三十八页。Hadoop数据平台创建革命性的新应用

医疗•

电子病历的实时查询、搜索和实时共享•医疗影像数据的存储和检索•疾病的趋势分析,流行病告警•

计算机辅助诊断(疾病分类等)•药物效果分析•

药物相互作用(副作用)分析

金融•

非结构化数据(例如签名、影像等)的存储和检索•

准实时的交易统计和分析•

交易相关性分析•

客户风险分析•

交易监控、合规分析、法规遵从

制造

•设备参数采集和监控

感器数据实时采集、分析和实时告警

•失效分析和损失预估

预测性分析

电信

•详单和账单的采集、存储、实时查询和统计

用户上网记录的采集、查询、统计

用户行为分析,套餐推荐

用户流失性分析

3G网络优化,流量优化,网间优化

•基站参数采集和分析

政府部门

智能交通系统:

交通信息的实时采集、实时统计和实时查询

交通信息的实时分析,例如区间测速

交通状况的模式分析和优化

智慧城市安保系统:图像视频的存储、检索和比对。

物联网:传感器数据的实时采集、实时分析和实时

告警

零售•

统计和分析:

准实时的售卖点销售统计•

决策支持:

从库存管理、价格制定到新店选址•新的商业/服务模式:定向广告、优惠券、日常生活助理等第十七页,共三十八页。Intel

提供企业级的Hadoop产品

Intel

Hadoop

经过测试和验证的稳定版本,在

生产环境成功部署运营

包括了Intel针对现有客户在实际使

用中出现问题的解决方法以及改

进和优化

基于Intel在云计算研发上的经验积

累,提供专业的咨询服务,帮助

构建高可扩展高性能的分布式系

统–

结合Intel的硬件部门,提供全面的

软硬件解决方案–

为Intel硬件平台进行优化,提供更

高性能。Complex

MPP

Systems(<50TB,

real-time

analytics)Apache

Hadoop(Petabytes,batch

analytics)第十八页,共三十八页。Structured

Data

CollectorSqoop

1.4.1Flume

1.1.0CoordinationZookeeper

3.3.5

Map/Reduce

1.0.3Distributed

Processing

Framework

HBase

0.90.7

Real-time

Distributed

Big

Table

HDFS

1.0.3

HadoopDistributed

File

System

Hive

0.9.0SQL-like

Query

Pig

0.9.2Data

manipulation

Hadoop

ManagerDeployment,

Configuration,

Monitoring,Alerting

and

Kerberos英特尔企业级Hadoop堆栈第十九页,共三十八页。为什么选择英特尔企业级Hadoop大数据平台更高性能•••基于Hadoop底层的大量优化算法,使应用效率更高、计算存储分布更均衡系统安装程序计算得出的参数配置,适合大多数应用情况与硬件技术相结合,提高平台性能企业级服务•••全面测试的企业级发行版,保证长期稳定运行集成最新开源的和自行开发的补丁,用户可以及时修正漏洞保证各个部件之间的一致性,使应用顺易于管理•

提供独有的基于浏览器的集群安装和管

理界面,解决开源版本管理困难的问题•

提供网页、邮件和短信方式的系统异常

报警

滑运行功能增强•提供跨数据中心的HBase数据库虚拟大表

功能•

实现HBase数据库复制和备份功能•

其他针对企业用户需要的增强功能第二十页,共三十八页。Intel对hadoop的性能优化21(0.90.3)

700Open

Source

HBase

3500Optimized

HDFS

I/O(0.90.3)Balancing

25000Open

Source

HBase

82000Advanced

Region•为企业级应用而优化:

优化后的HBase与开源版本的性能差异••性能数据在8台服务器组成的小规模集群上测试得到服务器配置:E5-2680

8核CPU,

64GB内存,8块

7200rpm

SATA硬盘,

千兆以太网query/s

3500

3000

2500

2000

1500

1000

500

0insertion/s

100000

80000

60000

40000

20000

0••

基于HBase数据库−平均每秒每服务器插入

10000条记录

(双路,

32GB)

(每条记录大约1KB)−数据查询:

平均每秒每服务器大于400

次查询,查询时延小于1秒(在不同压

力下0.05秒~0.8秒)

每次查询返回一个用户一个月的移动详细记录第二十一页,共三十八页。跨数据中心大表•••••••全局虚拟大表大表数据分区存放在物理分中心多个分中心位于不同地理位置分中心之间由网络互连接入任何分中心可访问全局数据高可用性适合本地高速写入•分布式聚合计算,避免大数据传输虚拟大表分中心

A分中心

B分中心

C第二十二页,共三十八页。直观集群管理工具简化管理••基于浏览器的图形化分布式集群管理软件。它提供配置、安装、管理和优化的工具。基本特点:

集群安装配置向导,自动计算常用

最优配置

集群参数全面配置,包括所有

Hadoop参数和用户自定义参数

集群配置版本控制,可备份恢复历

史配置

支持有命名服务器和无命名服务器

环境

支持Kerberos认证和配置通信通道

加密,系统更安全第二十三页,共三十八页。电源:高效(80+白金)热插拔冷冗余电源专为Hadoop优化的硬件

网络:新一代Intel四网络口千兆以太网

I/O:非标准主板设计支持最大I/O

能效:双CPU分散型设计降低散热功耗

内存:最大容量适应

BigData

需求

存储:支持多种硬盘数量模式,支持

最大存储容量,适应BigData

需求新一代英特尔®

服务器主板产品S2600GZ

―Grizzly

Pass‖新一代英特尔®

服务器系统产品R2000

―Big

Horn

Peak‖灵活:3种主板SKU

提供不同计算能力新一代英特尔®

服务器主板产品S2600JF

―Jefferson

Pass‖S2600WP

―Washington

Pass‖新一代英特尔®

服务器系统产品H2000

―Bobcat

Peak‖网络:FDR/QDR

InfiniBand高速互联

I/O:

3至4个

PCIE

Gen3

x16

I/O内存:按需选择不同内存插槽数量

RAS:单节点独立散热

易维护性:服务器节点热插拔

电源:高效冗余电源

高密度:4-Node-in-2U,适用

于计算密集型节点,

高效空间利用,降低TCO3214第二十四页,共三十八页。SpecificationDetail单一机架设备可支持20节点服务器Pernode:CPU:2xIntel(R)Xeon(R)CPU8-coreE5-26502.00GHz(Upto40CPUsintotalforonerack)Memory:Maximum384GB(Upto7,680GBforonerack)Storage:Maximum36TB,12x3T3.5’’SATAharddisks(Upto720TBforonerackConnectionEthernet:4x1GbEthernetPortsInfiniband:2xQDR(40Gb/s)/FDR(56Gb/s)ports(withadd-onmodule)Administration:1xsharedordedicatedIPMIv2.0EthernetportRemoteKVM(Keyboard,Video,Mouse)SupportIntel(R)IntelligentPowerNodeManagerPowersupply:2xredundant750WFormfactor:16.7‖Wx16.5‖L(or424mmx419mm)224-portQDRInfiniBandswitch24xInfiniBandQDRports148-port1GbEEthernetswitch48x1GbEportsPackagingandaccessories42UrackpackagingInfiniBandcables:QSFP/QSFP+Ethernetcables:RJ45为客户提供针对性的设备优化设计第二十五页,共三十八页。英特尔产品增强开源系统原始实现针对HDFS数据节点的读写选取提供高级均衡算法,提高系统扩展性,适合不同配置服务器组成的集群简单均衡算法,容易在慢速服务器或热点服务器上产生读写瓶颈,最慢服务器成为系统性能瓶颈根据读请求并发程度动态增加热点数据的复制倍数,提高Map/Reduce任务扩展性无法自动扩充倍数功能,在集中读取时扩展性不强,存在性能瓶颈为HDFS的NameNode提供双机热备方案,提高可靠性NameNode是系统的单点破损点,一旦失效系统将无法读写实现跨区域数据中心的HBase超级大表,用户应用可实现位置透明的数据读写访问和全局汇总统计无此功能,无法进行跨数据中心部署可将HBase表复制到异地集群,并提供单向、双向复制功能,实现异地容灾没有成熟的复制方案在HBase中,根据数据局部性、服务器Region数、表的Region数来实现负载均衡,适合多用户共享集群创建多张大表的应用只根据Region数量进行负载均衡,容易产生系统不均衡基于HBase的分布式聚合函数,比传统方式提高10倍以上效率无成熟方案实现对HBase的不同表或不同列族的复制份数精细控制无此功能HBase的MajorCompaction精细控制简单算法,容易产生合并风暴英特尔Hadoop与开源Hadoop比较第二十六页,共三十八页。Intel提供企业级支持保障

24X7X365

GlobalSupport

(Phone,

Email,

Web,

onsite)

“Follow-the-sun”

Online

Knowledge

Base

Developer

Forums

Patches

committed

to

open

source

Intel

Beta

Program

Developer

andAdmin

Training

Emergency

Hot

Fixes

Developer

CommunityOnline

Tutorials,

Videos,

Documentation第二十七页,共三十八页。提纲•

大数据带来交通管理上的挑战•

Intel企业级

Hadoop平台•

基于Intel

Hadoop构建智慧交通应用解决方案第二十八页,共三十八页。过车记录单个区数据中心全市数据总和每秒钟~6MB/s1200条记录/s120MB/s24000条记录/秒每小时~20GB/hour432万条/小时~400GB/hour8640万条/小时每天~480GB/day1亿条/天~9.6TB/day20亿条/天每月~14.4TB/month30亿条/月~288TB/month600亿条/月三个月~43.2TB/3months90亿条/三个月~0.8PB/3months1800亿条/三个月违章车辆图片数据单个区数据中心全市数据总和每小时~1.8GB/h36GB/h每天~43.2GB/day~864GB/day每月~1.2TB/month~24TB/month三个月~3.6TB/3months~72TB/3months某市智能交通管理系统数据存储处理需求-海量数据处理和存储的挑战第二十九页,共三十八页。传统关系数据库数据方案潜在问题:•

初始投入和后期维护,扩展成本巨大•

人为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论