中位物联网大数据平台总体设计_第1页
中位物联网大数据平台总体设计_第2页
中位物联网大数据平台总体设计_第3页
中位物联网大数据平台总体设计_第4页
中位物联网大数据平台总体设计_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、物联网大数据平台李拓目次引言文档目标本文档是关于 xx公司物联网大平台的总体架构设计计划.本文包含以下内容:.平台总体架构设计;五大子体系设计;运用平台设计平台安排架构设计;平台运维及团队扶植;文档规模本文档仅限于北京 xx 科技公司内部人员和直接协助北京xx 科技进行大平台扶植的相干人员浏览 .预期的读者及浏览建议本文档的预期读者:北京 xx 科技的大平台项目相干人员 ;直接协助北京 xx 科技进行大平台扶植的相干外部人员 ;4. 术语Hadoop: Apache 的散布式框架.HDFS : Hadoop 的散布式文件体系 .NameNode: Hadoop HDFS 元 数 据 主 节 点

2、 办 事 器 . 负 责 保 持DataNode文件存储元数据信息.JobTracker : Hadoop 的 Map/Reduce 调 剂 器 , 负 责 与TackTracker 通讯分派盘算义务并跟踪义务进度.DataNode: Hadoop数据节点,负责存储数据.TaskTracker : Hadoop 调剂程序 , 负责 Map,Reduce 义务的具体启动和履行.Kafka : 新闻队列 .Netty : NOI 框架 .项目概述项目布景跟着营业的增长, 数据收集存储备份才能轻微缺少数据处理剖析才能无法知足营业的须要公司营业创新转型的须要设计目标xx 的大数据平台主如果为车辆. 人

3、员 . 物联网供给终端接入 . 数据剖析, 并为行业运用供给数据接口 . 平台建成后 , 初期可接入百万级的终端, 可承载多种营业及运用 . 跟着营业增长,平台可以动态扩容, 最终可实现万万级. 亿级终端的接入及数据剖析处理才能 .本文档针对xx 的大数据平台运用需求, 联合数据的特色,提出将来公司整体的体系架构 , 以充分知足公司在3 到 5 年内的营业增长和数据增长需求. 并且在企业总体系统架构的基本上 , 提出体系的软硬件的具体选型计划 , 以及供给大数据平台整体计划, 分步实行和推广的建议; 供给大数据平台产品整合.集成 . 体系优化 . 稳固性等建议计划 .技巧计划路线建议对 xx

4、大数据平台体系进行总体计划 , 与现有的交通部数据中间以及各个营业体系进行对接, 以顺应将来3 到 5 年内公司营业成长的请求.大数据软硬平台 / 收集架构计划建议从需求的数据量. 盘算量 . 运用的场景. 功效 . 机能等身分来设置装备摆设软硬件平台的建议 ;提出具体的体系总体架构和软硬件安排构造建议;大数据运用集成点计划建议Hadoop数据集成.运用集成.运维治理设计建议;大数据团队扶植计划建议对 xx 技巧团队的人员需乞降设置装备摆设情形以及所须要控制的技巧提出建议1.1.5.大数据体系实行指点建议计划供给大数据平台整体计划 , 分步实行和推广的建议 ; 供给大数据产品整合. 集成 .

5、平台化的建议体系优化 . 稳固性等建议计划 .数据平台总体架构计划数据平台愿景如上图所示 ,xx 的大数据平台最终建成后 , 应当是一个完整的数据办事平台 , 包含数据平台 . 运用平台 . 数据产品以及内部运行支撑运用情形 , 该平台上的用户既包含外部用户 , 也包含企业内部用户 , 既有最终用户 , 也有运用开辟人员以及数据剖析和数据开辟人员 .数据办事平台构成数据平台:是数据的集散地. 数据平台的重要目标是存储和处理海量数据, 该平台除了汇聚xx 所有的营业数据和用户数据之外 , 还有合作机构的相干数据, 其焦点功效包含数据收集. 同步与集成. 海量数据存储. 海量数据处理框架. 海量数

6、据仓库等. 该平台的用户重要稀有据剖析用户和数据开辟用户 , 这两类用户在数据平台长 进行数据剖析及数据集成 . 建模与发掘运用平台:运用开辟人员开辟基于数据平台的车辆监控 . 人员监控 . 物品监控等运用并安排在运用平台 , 供最终用户拜访. 该平台的扶植目标是处理海量http 请求 ,其焦点功效包含运用办事器. 散布式缓存. 散布式新闻队列 . 散布式文件体系 . 散布式数据库以及散布式简略存储等.内部运行支撑运用情形:该情形重要供企业内部用户将运用, 包含贸易智能 . 运营支撑 . 体系运维 . 剖析运用等 . 该数据产品由大数据平台开辟人员进行研发 .数据产品:当该平台稳固运行一段时光

7、之后 , 企业依据营业成长的须要 , 可以开辟专门的数据产品 , 对外供给数据办事 , 供最终用户运用 . 该数据产品由大数据平台开辟人员进行研发 .数据办事平台的用户划分运用开辟用户: xx 内部的技巧研发人员 , 重要联合具体营业 , 开辟基于数据平台的运用 , 并安排到运用平台 ;数据剖析用户:xx 内部的技巧研发人员, 重要基于数据平台中的海量数据, 进行营业数据剖析 , 指点临盆运营 ;数据开辟用户:xx 内部的技巧研发人员, 重要基于数据平台中的海量数据, 进行数据建模. 集成和发掘 , 在指点临盆运营的同时 , 发掘新的利润增长点 ;内部数据产品用户:包含各条营业线上的各类营业人

8、员如客服等.外部用户:合作机构如运营商. 银行 . 商户 , 终端用户 .企业用户等.地位信息数据源数据平台可以从第三方平台 ( 交通部数据中间 . 运营商 )或定位中端(车机.sim 卡)等收集地位 . 状况等信息 .无论是企业内部用户 , 照样企业外部用户 , 无论是技巧研发人员照样营业人员 , 他们既是平台数据的临盆者 , 同时也是平台数据的花费者. 集存储 . 盘算 . 剖析于一体的大数据平台 ,涵盖了 xx 营业数据的全性命周期治理, 既相符如今行业大数据企业成长的趋向 , 也最终表现了 xx 企业的最终最内在的价值.数据处理流程xx 大数据平台的数据处理流程如上上图所示. 对各类终

9、端产生的构造化和非构造化数据源起首经由过程数据收集平台进行数据收集, 然落后入海量存储盘算处理平台 , 生成各类多维数据 , 供给用办事平台挪用 , 支撑最终的用户拜访.重要功效联合 xx 的当前营业成长近况, 今朝 xx 的大数据平台重点解决三类典范需求:营业数据归集. 备份与靠得住存储离线数据剖析发掘及时查询统计剖析针对这三类需求 , 大数据平台在数据收集和运营治理的帮助下 , 分离供给存储体系 . 离线盘算体系和海量数据库体系 , 分离知足上述三类需求. 下面起首介绍平台的软件架构设计.设计原则采取基于 Hadoop 的开源技巧路线整合公司的终端数据. 员工 . 客户 . 盘算 . 存储

10、等所有资本于一体平台涵盖公司数据临盆. 存储 . 发掘 . 剖析 . 办事等全性命周期治理联合营业线, 剖析发掘和营业支撑等运用自立研发项目分阶段完成.期:开辟数据收集体系 , 从第三方平台及终端收集地位信息 , 实现 2 种终端的接入 . 开辟运用平台 , 供给接口给客户端拜访数据 .期:实现多种终端的接入 , 并完美运用接口 .3期:凋谢存储体系和简略的MapReduce功效给其他用户运用 , 数据库方面单表的简略查询或带前提查询 , 内部运用及时收集组件 .4期:凋谢Hive如许的类SQL盘算给外部分,内部开端引入 Mahout 进行数据发掘 , 数据库方面改良查询说话, 支撑更多的 S

11、QL 语法 , 及时收集可以交给其他部分随意率性安排客户端支撑罕有的异构数据源5 期:盘算平台成熟, 完整成为各部分配合介入开辟营业的平台 , 数据库具备大部分SQL 查询语法 , 及时收集体系稳固数据平台软件架构设计数据平台构造图如所上图所示 , 大数据平台由五个子体系构成, 分离为:存储体系 . 离线盘算体系 . 海量数据库体系 . 收集体系和治理体系 . 这五个子体系之间有如下联系关系关系:治理体系为全部平台的帮助体系 , 为其它体系的正常运行供给相干的帮助功效;收集体系负责平台的数据收集工作, 这些数据的产生来自各营业临盆体系及第三方平台或终端;存储体系 . 离线盘算体系和海量数据库系

12、总共用一套底层文件体系 , 包管了这三个重要体系的数据集成与有用共享 ;离线盘算体系和海量数据库体系还可以依据各自的负载 , 可以动态分派响应的盘算才能 .从 错误 ! 未找到引用源。 可以看出 , 除收集体系和治理体系之外 , 包含底层存储情形在内的所有体系都是采取开源软件搭建而这些软件都是经由相干行业的技巧公司先验是成熟靠得住可行的 . 采取开源软件, 在平台可以达到低成本扶植的后果的同时 , 响应开源社区的中断演进, 也为平台后续的运行进级供给了中断的技巧支撑和版本稳固包管数据收集体系功效负责接入第三方办事平台和终端装备. 负责收集 . 清洗和导入公司各营业线上的所有的构造化营业数据和非

13、 构造化数据.要解决的问题今朝, 公司须要和交通部的数据中间对接, 吸收终端的地位数据 . 同时也要接入大量的终端. 并且 , 将来营业临盆线的体系日记信息因为也须要保管下来, 并进行剖析发掘 . 收集体系可以将营业临盆线的所有营业数据和日记数据收集到采取低成本的开源可线性扩大的存储情形 , 达到了数据低成本安然靠得住存储 , 并支撑进一步 的数据剖析和发掘.搭建办法运用优良的 Netty 框架 , 与第三方运用和终端通讯, 收集数据 . 针对各类终端采取的不合通讯协定, 开辟响应的协定解析模块, 将地位和指令信息解析为构造化数据保管至U HDFS.采取业界成熟的 Flume 开源包将驻留在临

14、盆情形共享存储上的非构造化的日记数据以增量靠得住的方法收集到HDFS中,采取Sqoop开源包从备库中将营业构造化数据增量收集到HDFS .数据存储体系功效为公司内部各营业部分供给低成本安然靠得住可扩大的一揽子存储解决计划 , 做为营业数据的备库. 支撑离线盘算和实行处理体系的数据导入与导出等.要解决的问题存储体系运用开源 Apache HDFS平台所供给的低成本安然 . 靠得住 . 可线性扩大的平台优势, 可以解决公司的营业数据归集. 备份与低成本靠得住存储 .离线盘算体系功效为公司各营业部分的技巧人员和营业人员供给海量数据的剖析 . 建模 . 集成和发掘盘算情形 .要解决的问题搭建公司数据离

15、线盘算情形 , 安插专业的运维团队, 用低成本 . 盘算共享 . 专业团队支撑的方法扶植起来的可线性扩大的离线盘算情形.搭建办法在Hadoop HDFS之上,用 MapReduce进行散布式盘算, 用 Hive 为用户供给友爱的盘算客户端, 用 Mathout 解决机械进修数据发掘问题 .海量数据库体系功效为公司内部人员 . 财产链高低游合作伙伴. 终端用户供给高并发 . 及时可扩大的数据剖析查询统计情形.要解决的问题搭建及时查询统计剖析处理体系 , 在专业开辟和运维团队的支撑下 , 供给一个公司今朝紧缺的专业的散布式海量数据及时处理情形 . 该情形对内可以支撑公司相干营业的贸易智能. 营业支

16、撑等运用 , 晋升营业才能, 开展新的营业 , 对外可以支撑公司高低游财产链的相干合作伙伴 . 相干的企业用户的在线查询请求, 改良用户体验, 晋升办事质量, 加强客户的黏性 , 扩大用户规模, 增长营业 营收 .在Apache HDFS基本上,经由过程 HBase的海量存储才能和快速的查询功效, 对外供给 Web 和 RESTfull API两种用户接口 , 为相干的用户和运用供给高并发 . 高吞吐量的基于海量数据的及时查询统计剖析处理体系 .治理体系功效供给全部平台的共性功效, 包含用户治理. 拜访控制 . 平台监控 . 平台进级 . 机能隔离和功课调剂等帮助功效组件 , 为平台的中断靠得

17、住运营供给外围支撑情形.要解决的问题每一个好的临盆体系 , 都有一个靠得住的运行帮助支撑情形 . 治理体系为全部大数据平台的稳固安然持久运行供给靠得住的外部帮助支撑 .搭建办法用户体系可以采取办事器当地体系和平台新建用户体系相联合的方法来解决; 监控可以采取Hadoop Ambari来搭建 ; 拜访控制可以经由过程设置用户拜访权限. 情形隔离等方法来达到请求 ; 要解决机能隔离和功课调剂 ,一个最简略的办法是经由过程平台和义务监控. 功课队列 . 负载平衡和资本动态调剂等方法来实现; 平台审计也可以经由过程体系监控来实现.运用平台架构设计运用平台架构图运用平台是针对具体营业开辟的平台 , 负责承载公司运营的各类营业 . 例如:车辆监控体系 . 人员定位体系 . 物流货色跟踪体系等今朝 , 运用平台要开辟的是车辆监控体系 .车辆监控体系的办事运用RESTfull API用户接口 . 接口与exlive 平台的接口完整兼容, 便利已有客户端的接入 .运用平台与数据平台通讯, 获取响应的数据.平台安然待完美平台监控 待完美待完美平台运维运维原则:在线 Hadoop 数据办事平台的运维工作是一个体系工程须要遵守一些根本的原则:运维工作从体系搭建和运用研发之前就已经开端症结点要有冗余设计能主动检讨的必定要做到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论