版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、L省交通厅大数据平台规划议题 我们对交通大数据平台的理解 建设思路12 应用规划与部署4 总体规划3智慧交通 - 大数据方案优势方案优势实时监测、智能监控交通信息,轻松处理海量数据应用负载适应性强,广泛兼容,易于扩展交通信息智能处理,及时发布动态数据整合与共享高可用性、高稳定性客户价值客户价值海量数据处理和实时分析全网、全天候覆盖动态监控、智能导航交通拥堵侦测与预警跨地区信息共享、资源整合显著降低软硬件购置成本Hadoop家族大数据服务交通数据源浮动车计算分析出租汽车客流分析议题 我们对交通大数据平台的理解 建设思路12 应用规划与部署4 总体规划3文件存储分析搜索挖掘数据高铁交换实时数据库监
2、控open-falcon 以Hadoop为核心,融合其他技术平台系统,实现超融合一栈式企业级数据分析解决方案。数据存储,数据分析,可视化,运维监控,机器学习,人工智能。全面的一栈式解决方案。实现平台级融合,所有平台一统底层数据交互格式,统一元数据管理,数据治理。全面拥抱开源技术栈。展现大数据平台具备的关键能力基础的大数据平台能力:具备管理大数据平台主机集群的能力,能够按照需要,动态分配资源,具备多租户管理能力,数据安全管理能力;同时具备处理海量数据的能力,可以根据需要,对不同业务部门不同的应用,开放不同的数据。能力一能力一大数据采集:大数据平台容纳百亿级数据量,能够从内部和外部的各种数据源中获
3、取数据能力二能力二大数据计算分析:海量数据实时和离线分析计算,秒级响应。能力三能力三关键能力一:基础大数据平台管理能力大数据总体架构(数据银行+数据高铁)通过 八大类接口实现大数据平台存储能力和计算能力的开放。查询开发框架访问服务(DataBank UI)JDBC/ODBC接口数据服务(DataBank API)实时数据数据库搜索引擎认证管理安全/管理权限管理审计管理图形化安装部署工具商业支持报警结构化数据数据库API流传感器半结构化数据非结构化数据日志网页图片二进制视频音频管理API(安装/监控/配置)文档HADOOP-HDFS/YARN/ZOOKEEPER (POWER/EC)数据访问RE
4、ST-API接口HBASE数据仓库交互分析数据挖掘工作流数据挖掘Spark-SQLkylinphoenixopentsdbSolrelasticsearchMLlibSpark-RRedisHIVESPARKSTORMKAFKAcrate文档解析拼音提示数据同步搜索统计实时接入实时展现统计分析实时预警ETL工作流权限控制增强函数工作流深度学习可视化访问工具开发框架管理工具交互工具展现工具sqoopkettleJAVAwebservicekafkaflumeNIFI结构化数据半结构化数据非结构化数据关键能力二:大数据采集数据来源 数据存储实时地理信息校验数据拍照数据基础数据定期更新纬表分布式消息
5、队列Kafkasqoop/kettle/webservice/ API/nifi/restapi数据接入文本数据数据库爬虫数据网络数据接口其它flume大数据 Cluster大数据集群大数据集群关键能力三:大数据分析数据来源 数据存储实时地理信息校验数据拍照数据基础数据文件其他redis消息GPS用户指标数据适配转换分布式预处理消息解析消息过滤数据转换数据落地消息中间件Storm流处理集群消息解析策略匹配数据清单指标汇总定期更新纬表分布式缓存定义数据关系数据规则数据实时数据外挂处理程序数据处理实时计算应用层统一接触平台/地理位置信息电子大屏汽车型号用户特征F5代理tomcat1tomcat2t
6、omcat3准时实时接口用户位置用户轨迹疲劳驾驶驾驶速度文本数据数据库爬虫数据网络数据接口其它sqoop/kettle/webservice/ API数据接入大数据集群可视化Echarts议题 我们对运营商大数据平台的理解 建设思路12 应用规划与部署4 总体规划3目录123架构规划数据接入规划硬件与网络规划技术架构路线的选型存在 “开源”与“混搭”两种策略可结合各省情况进行选择策略一策略二开源模式(Hadoop)坚持开源技术,自主掌握核心技术混搭模式(Hadoop+MPP+传统数据仓库)按场景选型,混搭架构技术特征1技术特征2技术特征3技术特征XHadoopMysqlDB2/OracleMP
7、P应用场景1应用场景2应用场景N特点:1,免费使用,拥有自主的知识产权,需要自建运维团队,有一定风险;现有人员需要技术转型,存在技术门槛2,符合互联网精神,汇集众人智慧,正在逐步完善3,Hadoop目前对于多维度数据自助分析、集市等应用场景下的表现逊于MPP4,Hadoop适合大规模集群使用特点:1,需购买闭源的商业软件/运维服务;2,需要根据不同应用场景搭配组合,形成优势互补;3,应用场景并不是一成不变且异构集群将造成额外的数据冗余和数据同步,可能成为系统瓶颈4,MPP在大规模集群(超过100个节点)下的可用性还有待验证适用:自主掌握核心技术适用:对海量数据的特定分析较多大数据平台体系架构(
8、Level 1)借鉴互联网架构,引入成熟开源框架,基于x86平台构建分布式计算与存储平台,在保障系统可靠性(High-Availability)和可水平扩展(Scale-Out)基础上,同时大幅降低系统总拥有成本(TCO)。技术选型及亮点1. 采用Kafka消息队列框架,实现地理位置数据采集与解析,30s;2. 采用近似实时的flume框架对接Kafka、实现位置信息实时采集入库Hadoop集群,周期性存储数据。3. 在1个集群上承载批处理和流处理,基于hadoop资源管理可最大效率利用资源,实现消峰填谷,实现异构集群架构。4. 在Hadoop基础上,引入Spark、Storm计算框架,通过H
9、ive,mllib ,storm实现海量数据实时计算和历史数据的统计分析;引入Redis内存数据库,结合Storm,实现基于LBS的实时动态感知用户地理位置以及用户统计行为数据,深度挖掘用户价值。5. 提供Open API(JDBC/ODBC/RestAPI),制定计算与存储资源共享与开放标准,结合丰富架构和运维经验,基于Open API构建OCI API,为后续数据资产运营奠定基础。6,基于echarts的开源框架展现。7,支持弹性扩展架构,可有效保护现有投资;同时,积极的引入nosql数据库hbase,利用分布式数据库优势实现数据快速访问,为未来技术替换缩减投资奠定基础。技术架构设计(流计
10、算场景,需求驱动)技术架构关键问题解决方案数据整合关键技术说明1、功能: 通过大数据计算高效计算、数据挖掘、复杂事件处理、用户行为识别4大功能模块满足各类业务场景 批量数据运算以及实时计算的需求2、技术 1)开源技术 全面采用开源技术节省成本。依赖于开源社区保障系统安全,社区的高速发展针对现 场应用可以快速更新补丁,并且可以根据业务场景的需要有针对性的选择相应技术 2)内存计算 引入SPARK实现基于内存的计算,通过灵活的scala语言实现小数据集的秒级查询,并于Hadoop完美结合 3) 统一框架 以hadoop技术为核心,基于统一资源调度框架Yarn,集成批处理( hadoop )、内存计
11、算(spark)、实时计算(storm),机器学习(mllib),数据仓库(SQL on Hadoop),集群监控运维,数据可视化为一体,简化系统架构实现资源的统一管理。实现真正的一栈式大数据解决方案。数据多样性、高效、高吞吐量、低延迟且支持高可靠性、水平扩展,弹性扩容Hadoop如何做到数据容灾20hadoop把文件拆成不同的小块,一个块多个副本,分别部署在不同的机器上,而只使用其中的一个块。datanode定期向管理中心发心跳以确保可用,假如一台机器坏了,或硬盘坏了,调度中心会直接调用其中的一个副本块,同时快速随机选一台可用的机器复制副本。因为走局域网带宽,可以灵活设置恢复时间,性能几乎不
12、受任何影响基于Hadoop框架的开放与共享 共享和开放的目的是为了充分利用平台的存储与计算资源,通过开放的API接口调用,实现不同平台的数据交互,满足不同业务的需求。对共享于开放带来的任务管理复杂、多租户资源争用以及安全问题,分别通过任务统一管理、调度,对象管理和用户配合管理以及用户认证和用户权限管理来解决平台(共享、开放)Zookeeper统一管理注销接口统一封装用户(组)操作权限封装LADP、Sentry封装作业管理配额管理监控管理对象管理用户权限管理用户认证接口类别关键技术要求技术架构应对作业管理对作业进行统一操作管理采用Zookeeper技术,实现批处理平台作业的统一注册和注销,并通过
13、Zookeeper实现作业的提交执行和状态监控对象管理可针对HDFS文件、MR任务、Hive数据表和Hbase数据表等对象进行操作通过对HDFS文件、MR任务、Hive数据表和Hbase数据表等对象原生态接口接口的统一封装,实现相关对象的对外操作开放用户权限管理支持用户、用户组创建,并能为用户和用户组分析针对操作对象的各类权限提供创建、注销用户/用户组、加入、剔重、查询用户/用户组;HDFS文件、MR任务、Hive数据表、Hbase数据表授权和权限查询等对外服务接口,以此支撑大数据平台的用户统一权限管理。用户认证支持通过用户名和密码进行用户认证提供LADP对外用户认证接口,平台通信采用Kerb
14、eros认证,同时结合Hadoop开源组件Sentry,实现操作对象的细粒度基于角色的安全控制。配额支持对用户/用户组的存储资源分析和计算资源分配引入Yarn技术框架,对存储资源和计算资源的一调配,按用户(组)实现资源隔离,实现多任务高效地运行在一个的集群上监控支持针对设备、平台、作业和对象的全面监控通过Agent方式实时采集监控指标信息,同时开放插件注册API,支持自定义监控指标目录123架构规划数据接入规划硬件与网络规划内部数据接入思路用户移动轨迹识别涉及数据数据域用户资料库GPS电子警察抓拍现状了解建议近期工作重点汽车进入敏感区域识别涉及数据数据类型: 敏感区域资料,用户信息库采集周期:
15、按日采集按日数据库抽取;?已提供数据:文件形式数据(目前)待已接入: GPS位置信息采集周期: 30s从价值和用途方面考虑数据接入,现阶段最有价值的数据为用户资料数据,其次是GPS变更数据后期根据业务场景需要,逐步接入其它系统数据。阶段一: GPS数据接入阶段二: 用户资料库数据接入阶段一:GPS数据接入;阶段二: 敏感区域数据;阶段三:用户资料库数据;暂无。外部数据接入思路互联网资源涉及数据数据域互联网数据合作平台现状了解建议近期工作重点第三方合作涉及数据阶段一:运营商数据阶段二:整合数据、客户分析报告、渠道拓展、用户特征,用户移动轨迹等。数据未接入从价值和用途方面考虑数据采集,现阶段最有价
16、值的数据为用户汽车资料库数据,建议优先接入能完善用户标签体库。阶段一:汽车资料库数据;阶段二:用户资料库数据未接入:汽车标签库数据;采集周期:定期采集;后期根据业务场景需要,逐步接入。目录123架构规划数据接入规划硬件与网络规划主机配置原则1.估算建设规模2.梳理各种输入4.确定主机数据数据量计算:根据卡口数据,GPS信息等、接入数据源及数据量,估算系统建设规模(各种数据的日吞吐量和峰值吞吐量)梳理接口数据源与产品模块的对应关系:根据产品模块功能划分,梳理数据流转过程,确定各产品模块的输入数据量大小(包括日吞吐量和峰值吞吐量)3. 推算处理能力推算单主机处理能力:根据各卡口和实验室实测和各监控
17、终端的处理能力,以及各监控终端对相关硬件的侧重点(内存数据侧重内存空间;流处理平台侧重CPU和网络带宽、批处理平台侧重CPU、内存、硬盘空间、磁盘IO读写速度和网络带宽等)推算出设备的处理能力;根据单设备处理能力计算:根据单设备处理能力和峰值数据量计算所需设备的数量;根据存储空间需求计算:根据产品模块存储空间需求和存储位置需求(内存/硬盘)计算所需设备数量;集群共用:同一网络内且平台类型相同,采用集群共用的方式(如批处理和内容分类服务同属于内网且同基于Hadoop平台实现),在满足数据处理时效的前提下,通过YARN框架的RM进行管理;相同配置共用:不建议在同一集群中使用配置不同的机器,虽然集群
18、可以工作但性能会出现“短板效应”,实施、维护及管理难度均会提升,如磁盘空间不一样,会造成数据倾斜,严重影响性能。根据处理能力、存储空间和是否共用集群确定硬件配置,同时考虑备用主机需求。网络配置原则1.估算建设规模2.计算带宽需求数据量计算:根据卡扣数据,GPS信息等、接入数据源及数据量,估算系统建设规模(各接口的日吞吐量和峰值吞吐量)计算各产品模块的输入、输出带宽需求:根据各监控终端模块功能划分,梳理数据流转过程,确定输入、输出带宽需求(主要考虑峰值情况)3.结合平台特点流计算与批处理共用集群需要重点保证低延迟和高吞吐:流计算平台的特点是必须满足数据处理的时效性,因此重点是保障低延迟;批处理平
19、台的特点是必须满足对大容量、多样性数据的处理和存储,因此重点是保障高吞吐;基于HDFS弹性存储系统10G 万兆以太网千兆 以太网管理节点管理节点数据接入节点IO节点存储120TB 磁盘5计算节点HadoopDB ServerFCSAN Switch已有系统新建大数据系统外部用户内部用户总体方案构成总体方案构成大数据集群大数据集群大数据管理平台大数据管理平台总体方案概述Hadoop计算集群基础架构POWER8服务器,5个计算节点弹性存储,总的存储空间约120TB;基于万兆 的计算网络;Hadoop计算集群管理平台基于大数据的高性能计算集群管理平台,新建大数据集群环境进行高效率的统一管理;大容量数
20、据存储平台新建的数据库存储平台120TB管理节点接口节点计算存储节点1计算存储节点2计算存储节点3计算存储节点4计算存储节点5千兆业务网万兆业务网管理备份节点Hadoop集群硬件系统拓扑基于预期业务参数,计算数据量级存储周期数据增量/年数据格式总存储HDFS总存储Total linux os主机数量N3年3Tgz33.75T27TN*2*500G3*Datanode+2*Naemnode=510年3Tgz140.625T112.5TN*2*500G5*Datanode+2*Namenode=720年3Tgz281.25T225TN*2*500G11*Datanode+2*Namenode=13
21、举例:计算公式,存储10年,每天1T数据增量: HDFS总存储=3T*3*10+(3T*3*10*25%) ;HDFS总存储=112.5T Datanode数n=112.5T/12*2T=5台;2台Namenode,1台客户机,总共5+2+1=8台注意: 为了保证集群的稳定性,最低要求3台datanode;这里仅仅针对GPS一种数据源评估。大数据平台硬件配置估算及建议XXX交通厅大数据平台硬件配置建议存储规划议题 我们对交通大数据平台的理解 建设思路12 应用规划与部署4 总体规划3大数据平台应用场景大数据平台应用场景实时判定车的位置是否在敏感区,敏感区来自业务系统设置,是指定设施的GPS每日新增8G左右的空间,一个月250G左右,一年约3T左右。目前平均在线车辆目标3万左右,总体车辆数在约7万。车辆每30秒回传一个位置;场景场景1-1-敏感区系统判定敏感区系统判定大数据大数据 Cl
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年重型商用车配件批量采购协议范本版B版
- 2024年销售激励计划协议3篇
- 2024年软件开发与维护合同:某互联网公司与软件开发公司之间的软件开发及维护协议
- 2024年货物装卸服务合同6篇
- 2024食用菌产业链上下游企业战略联盟合同3篇
- 2024年酒品买卖合同范本
- 2024砂石行业绿色供应链整合与购销合同协议3篇
- 2024年汽车座套个性化定制与销售合同3篇
- 2024琴行钢琴租赁合作协议书3篇
- 2024年高端精密仪器代工与维修合同
- PPVT幼儿语言能力测试题附答案
- 致客户通知函
- 中华人民共和国职业分类大典电子版
- 各种预混料配方设计技术
- 19XR开机运行维护说明书
- 全国非煤矿山分布
- 临床研究技术路线图模板
- 12千伏环网柜(箱)标准化设计定制方案(2019版)
- 思想品德鉴定表(学生模板)
- 满堂支架计算
- MA5680T开局配置
评论
0/150
提交评论