数据库投资商和企业数据采集处理项目技术方案_第1页
数据库投资商和企业数据采集处理项目技术方案_第2页
数据库投资商和企业数据采集处理项目技术方案_第3页
数据库投资商和企业数据采集处理项目技术方案_第4页
数据库投资商和企业数据采集处理项目技术方案_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案 xxx大数据库中心数据库投资商和企企业数据据采集处处理项目目项目编号:I5330000000000661700012206技术方案xxx有限限公司 二一七年年六月目 录TOC o 1-3 h z u HYPERLINK l _Toc485473263 1 引言 PAGEREF _Toc485473263 h 3 HYPERLINK l _Toc485473264 项项目背景景 PAGEREF _Toc485473264 h 3 HYPERLINK l _Toc485473265 项项目目标标 PAGEREF _Toc485473

2、265 h 3 HYPERLINK l _Toc485473266 建建设原则则 PAGEREF _Toc485473266 h 3 HYPERLINK l _Toc485473267 参参考规范范 PAGEREF _Toc485473267 h 4 HYPERLINK l _Toc488547732668 5 名词解解释 PAGEREF _Toc485473268 h 5 HYPERLINK l _Toc485473269 2 云数据据采集中中心 PAGEREF _Toc485473269 h 7 HYPERLINK l _Toc485473270 需需求概述述 PAGEREF _Toc48

3、5473270 h 7 HYPERLINK l _Toc485473271 总总体设计计 PAGEREF _Toc485473271 h 7 HYPERLINK l _Toc485473272 核术能 PAGEREF _Toc485473272 h 10 HYPERLINK l _Toc485473273 3 大数据据计算平平台 PAGEREF _Toc485473273 h 34 HYPERLINK l _Toc485473274 需求概概述 PAGEREF _Toc485473274 h 34 HYPERLINK l _Toc485473275 总体设设计 PAGEREF _Toc4854

4、73275 h 34 HYPERLINK l _Toc485473276 数据模模型设计计 PAGEREF _Toc485473276 h 35 HYPERLINK l _Toc485473277 4 数据据运营 PAGEREF _Toc485473277 h 38 HYPERLINK l _Toc48547732778 4.11 数据据挖掘分分析 PAGEREF _Toc485473278 h 38 HYPERLINK l _Toc485473279 4.2 数数据分析析处理的的主要工工作 PAGEREF _Toc485473279 h 38 HYPERLINK l _Toc48547328

5、0 4.3 数数据分析析团队组组织和管管理 PAGEREF _Toc485473280 h 39 HYPERLINK l _Toc485473281 5 安全设设计 PAGEREF _Toc485473281 h 42 HYPERLINK l _Toc485473282 6 风险分分析 PAGEREF _Toc485473282 h 46 HYPERLINK l _Toc485473283 7 部署方方案 PAGEREF _Toc485473283 h 47 HYPERLINK l _Toc485473284 8 实施计计划 PAGEREF _Toc485473284 h 48 HYPERLI

6、NK l _Toc485473285 9 技术规规格偏离离表 PAGEREF _Toc485473285 h 49 HYPERLINK l _Toc485473286 10 售后后服务承承诺 PAGEREF _Toc485473286 h 52 HYPERLINK l _Toc485473287 11 关于于运行维维护的承承诺 PAGEREF _Toc485473287 h 55 HYPERLINK l _Tooc488547732888 12 保密措措施及承承诺 PAGEREF _Toc485473288 h 56 HYPERLINK l _Toc485473289 13 培训训计划 PAG

7、EREF _Toc485473289 h 581 引言 项项目背景景XXX大数数据中心心建设出出发点考考虑从投投资者角角度涵盖盖招商全全流程,尽尽可能为为投资者者解决项项目实施施过程中中的困难难和问题题,便于于招商部部门准确确掌握全全省招商商数据,达达到全省省招商项项目数据据共享,形形成全省省招商工工作“一盘棋棋、一张张网、一一体化”格局。大大数据中中心将充充分发挥挥大数据据优势,加加强对企企业投资资项目、投投资轨迹迹分析,评评估出其其到XX投资的的可行性性,为招招商过程程留下痕痕迹、找找到规律律、明辨辨方向、提提供“粮食”、提高高效率,实实现数据据寻商、数数据引商商、数据据助商,实实现数据据

8、资源实实时共享享、集中中管理、随随时查询询,实现现项目可可统计、可可监管、可可协调、可可管理、可可配对、可可跟踪、可可考核。本次数据运运营服务务主要是是为大数数据平台台制定数数据运营营规范及及管理办办法 ,同同时为“企业数数据库”提供数数据采集集、存储储与分析析服务,并并根据运运营规范范要求持持续开展展数据运运营服务务。 项项目目标标制定招商商大数据据运营规规范及管管理办法法。制定招商商大数据据相关元元数据标标准,完完成相关关数据的的采集、整整理与存存储。根据业务务需求,研研发招商商大数据据招商业业务分析析模型,并并投入应应用。根据运营营规范及及管理办办法的要要求持续续开展数数据运营营工作。

9、建建设原则则基于本项目目的建设设要求,本本项目将将遵循以以下建设设原则:前瞻性和准个要企大应需高和准参业应建足面来标个具定性经济性和和性个以需基充虑发需确统构要系初入能服象求时设充虑有的对立据基台用用软件应应提供完完备的整整合方案案。先进性和和成熟性性 了项有的周应考管新术需按进设选进术和技满务务需求。高性能和和安全性性 范行建开提理济的方确 稳向服象可服具全在遭攻击击或崩溃溃时能快快速恢复复,确保保重要数数据的机机密性和和完整性性。 参参考规范范GB/TT 2-0 信息安安全技术术信息息系统安安全管理理要求GB/TT 9-0 信息安安全技术术信息息安全风风险评估估规范GB/TT 2-0 信息

10、安安全技术术信息息系统安安全等级级保护基基本要求求GB/TT 2-0 信息安安全技术术信息息系统安安全等级级保护定定级指南南GA/TT 80B 计算机机信息系系统安全全等级保保护管理理要求GB/TT 69 计算机机软件产产品开发发文件编编制指GB/TT 4-9 软件工工程术语语GB/TT 4-0信息技技术 软件工工程术语语GB/TT 2.26 软件工工程 产品质质量 第 1模GB/TT 2.26 软件工工程 产品质质量 第 2度GB/TT 2.26 软件工工程 产品质质量 第 3度GB/TT 2.26 软件工工程 产品质质量 第 4质度GB/TT 3-0 计算机机软件可可靠性和和可维护护性管理

11、理GB/TT 5-9 信息技技术 软件包包 质量要要求和测测试 名名词解释释DFS简单存存储分布布式文件件系(me trage Dstrutedd Fe ystem)分数 Database)作度 DCS:数数据计算算服务(Data MPS:消消息处理理服务(Message 流处务ta Datta rcDMQ:分分布式消消息队列列(Diistrribuutedd ea Queeue)作成自理进Aot ei rcHTTP:超文本本传输协协定(HHypeerTeext Traansffer oc服信协Sv Messsagge o2 云数据据采集中中心 需需求概述述根据云采心立满 1至 2年内的的 数

12、据存存储和计计算规模模,需要要满足: 数据采集集范围包包括但不不限于世世界5000强、全全国5000强、行行业200强企业业相关数数据。 总数据容容量至少少达到330T。 总总体设计计整个云数据据采集中中心分为为三部分:硬件资资源层、软软件平台台层、软软件应用用层。硬件资源层层主要指指实体硬硬件设备包括用用来存储储数据的的光纤阵阵列柜和和存储服服 务器器用来作作统计分析以以及搜索索用的计算服服务器用来部部署分布布式消息(DMQ)/WEEB/AAPP 软件的的 B 及消息息服务器器,用来来部署用用 PosstgrreSQQL 关系数数据库软软件的应应用数据据库服务务器用来部部署作业业调度服服务进

13、程(J的作业业调度服服务器。 作为数数据通信信用的全全千兆三三层交换换机等等等其中光光纤阵列列柜主要要用来存存储统计计分 析析后的粗粗颗粒度度数据存储服服务器用用来部署署分布式式文件系系统和分分布式数数据库同 存储非非结构化化和结构构(台标标图片电商图图片等等等和结构构化数据(行为为数据, 索引数数据g 数据清理后后的细颗颗粒度数数据等等等计算服服务器主主要用来来完成数数 的统搜计务了成减信建储务器器和计算算服务器器合二为为一所以该该服务器器同时具具有计算算和存储储数据的的功能前 也考作度进J进署储服上于 云数据据采集中中心需要面面对多种种宽带用用户(电电信、移移动、联联通,所以以,数据中心心

14、 的对对外的网网络需要要直连上上电信移动联通三三家公司司的网络络保证以上三三家公司司间的通通信性能能高速和和可靠。软件平台层层是云数数据采集集中心的的核心支支撑层,也也是我们们这次方方案设计计和实施施的主体体部分,在在核心技技术章节节会对“分分布式文文件系统统(S22DFSS)”、“分分布式数数 据库库(D22B)”、“分分布式消消息服务务(DMMQ)”“作作业调度度服务进进程(JJSS)、数数 据计计算服务务进程(DDCS)”主主要部分分加以详详细的描描述。软件平台层层的所有有服务器器都统一一部署的的 644 位操操作系统统 CeentOOS 66.5(也也可以选选择 RRHELL 6.5

15、xx64);其核心心软 件件或者进进程有:分布式式文件系系统(SS2DFFS)、分分布式数数据库(DD2B)、作作业调度度服 务务进程(JJSS)、数数据计算算服务进进程(DDCS)、作作业生成成服务进进程(JJGS)、消消息处 理服务务进程(MMPS)、流流数据处处理进程程(SDDS)等等等。WWEB 及应用用服务器器软件 Apaachee&Toomcaat,消消息队列列软件分分布式消消息(DDMQ)。还还要实现现整个云云数据采采集 中中心的资资源管理理及监控控管理系系统。软件应用层层是云数数据采集集中心的的功能实实现及 UI 表达层层,功能能实现需需要基于于 软件平平台层的的支撑后期设设计

16、和实实施的主主体该层的的主要功功能应用有有数据采采集用据应云采心源及。数电联移和 HTTTP 把的文本图片数数据以及及用户行为数数据存储储在云数据据采集中中心里以供后后期分析析计算用用。 云数据采集集中心整整体架构构图云数据采集集中心网网络结构构图 核术能2.3.11 分布布式文件件存储技技术 传统存存储技术术面临的的问题:构建成本本高:大大容量及及高网络络带宽的的高端存存储系统统架构昂昂贵。文件系统统功能和和性能差差强人意意:难以以实现全全局命名名空间的的文件共共享、 文件系系统难以以扩展,容容易形成成瓶颈。扩展性困困难:技技术存在在瓶颈(cae-up 架构决决定的、扩展展成本无法法 控制制

17、。问潜单障恢难价应用目标标差异:主要面面临运营营商、金金融行业业的 OLTTP 应用、很很少针 对海量量的流数数据,或或者非结结构化数数据进行行设计和和优化。异构设备备繁杂:不同时时期、不不同公司司、不同同操作系系统的异异构设备备纷 繁复杂杂,无法法整合,资资源利用用率极低低。分布式文件件系统主主要为解解决以上上问题而而出现的的一种新新型大规规模数据据存储技技 术架构构主要为为非结构构化数据(视频频/文件/文档图像/音频等等非结构构化数据提 供供海量的的存储平平台,以以集群的的方式提提供线性性横向扩扩展能力力。分布式文件件系统是是一种构构建于通通用 x6部件之之上的高高可用高可靠靠高可扩扩 展

18、的的新型分分布式文文件系统统应用分分布式文文件系统统用户可可以采用用廉价可可靠的通通用 服硬盘以及以太网络来构建媲美企业级存储产品的存储系统。 分布式式文件系系统应对对的数据据特性和和访问特特性:数据量巨巨大,数数百 TB 或 PB 级,增增长迅速速;类型多样样化,包包括图像像、文本本、语音音、视频频等文件件数据;按时间有有序生成成,数据据均带有有时间标标志 ;前端数据写写入速度度很高,每每秒钟写写入数据据可达几几万甚至至几十万万条记 录或者者上 GB 量数据据 ;更新操作极极少:追追加方式式写入,一一旦写入入,几乎乎没有数数据修改改,查 询涉及及大量的的磁盘读读操作,查查询处理理产生大大量的

19、临临时结果果,不同同类 型的数数据存在在联合分分析查询询;分布式文件件系统的的基本原原理是采采用集群群方式来来整合物物理上独独立的多多个存储储 资源以软件件方式提提供单一一的名字字空间;采用多多副本的的方式保保证数据据的高可可用性, 任意单单一节点点失效均均不会导导致数据据丢失和和数据服服务的正正常运行行同时分布式式文 件件系统通通过良好好设计的的系统结结构和数数据分布布策略可保证证系统性性能的高高可扩展展性, 并支持持存储容容量/性能的的在线扩扩展。相比较于 D(直连连存储、N(存储储区域网网络)和和 N(网络络存储, 应应用分布布式文件件系统构构建的网网络存储储系统更更像是一一个N提供类类

20、似于传传统NS 的文文件级访访问接口口(N 和 DS都是块块设备级级别的访访问接口口。 分布式式文件系系统与传传统 N/N 设备的的比较:比较项高端AA分布式文件件系统性能一般双端口口,性能能受机头头影响,难以以扩展,出出口带 宽是瓶瓶颈一般双端口口,性能能受机头影响难以扩扩展, P较好性能随节点点数的增增加成线线性增长扩展能力性能及容量量无法扩扩展,或或者有限扩展展能较好扩展展,但成成本高昂性能及容量量按需扩扩展,动动态均衡可用性 方式保保护, 双机保保护停机 Debi 时D 方式保保护双机保 护 , 停 机 I bd时基于灵活的的多副本本机制,自动检测自动故故障恢复复, 无无需停机机数据管

21、理企业级功能能需要单单独购买买企业级功能能需要单单独购买(还需需要单独独的文件系统100多万一一套)内嵌多种企企业级应应用:快快照、镜像、回回收站成本专有的硬件件平台,软软件拥有成本高,扩扩展成本本高专有的硬件件平台,软软件拥有成本本高,扩扩展 成成本高开发通用的的硬件平平台,一一体化的软件件,成本本低,扩扩 展成本本低可维护性专门的技术术支持服服务,需需要培训结构异常复复杂,需需要大量培训,厂厂商服务务 昂贵贵内嵌多种自自动化的的故障检检测和恢复功功能国内开开发, 技术支支持快速速用户使用分分布式文文件系统统如同使使用本地地文件系系统。所所不同的的是,传传统 NASS 通常以以单一节节点的方

22、方式实现现容量和和性能的的扩展能能力有限限易于成成为性能能瓶颈和和 单一一故障点点而分布布式文件件系统则则有多个个节点集集合地提提供服务务由于其其结构特特征, 分布式式文件系系统的性性能和容容量均可可在线线线性扩展展并且系系统内不不存在单单一故障障点。 对比参参看下面面两幅示示意图:传统存储架架构图分布式文件件系统架架构图分布式文件件系统的的设计应应用特别别适合海海量非结结构化数数据存储储大量客客户端并并发的 / 密集型型应用。目目前,分分布式文文件系统统已经被被应用于于政府、医医疗影像像、 勘查数数据计算算、视频频服务以以及动画画制作等等领域。这这些领域域的数据据访问特特征均为为: 量 的实

23、际生产环境使用,分布式文件系统已被证明是该类型应用的有效解决方案。布式文件系系统的服服务器端端程序运运行于 Lux x4系统之之上支持多多种 Lux 位发行行版,包包括 Reddhatt、CenntOSS 等。分分布式文文件系统统客户端端则支持持 Linnux 和 nw同布件还通三件 F 和 NFSS 接口, 可以兼兼容大多多数应用用。 分布式式文件系系统的核核心技术术及特征征:扩展性和高高性能:分布式式文件系系统利用用双重特特性来提提供几 TB 至数 PB 的高扩扩展存储储解决方方案cae-Out 架构允允许通过过简单地地增加资资源 来来提高存存储容量量和性能能,磁盘盘、计算算和 O 资源都

24、都可以独独立增加加, 支持 G 和 fin 等高速速网络互互联。分分布式文文件系统统弹性哈哈 lt Hassh)解解除了分分布式文文件系统统对元数数据服务务器的需需求, 消除了了单点故故障和性性能瓶颈颈,真正正实现了了并行化化数据访访问。高可用性:分布式式文件系系统可以以对文件件进行自自动复制制,如镜镜像或多多 次复制制,从而而确保数数据总是是可以访访问,甚甚至是在在硬件故故障的情情况下 也能正正常访问问。自我我修复功功能能够够把数据据恢复到到正确的的状态,而而且 修复是是以增量量的方式式在后台台执行,几几乎不会会产生性性能负载载。分布布式 文件系系统没有有设计自自己的私私有数据据文件格格式,

25、而而是采用用操作系系统中 主流标标准的磁磁盘文件件系统(如如 SX/S存件此 数据可可以使用用各种标标准工具具进行复复制和访访问。全局统一命命名空间间:全局局统一命命名空间间将磁盘盘和内存存资源聚聚集成一一 个单一一的虚拟拟存储池池,对上上层用户户和应用用屏蔽了了底层的的物理硬硬件。 存储资资源可以以根据需需要在虚虚拟存储储池中进进行弹性性扩展,比比如扩容容或 收缩。当当存储虚虚拟机映映像时,存存储的虚虚拟映像像文件没没有数量量限制, 成千虚拟机均通过单一挂载点进行数据共享。虚拟机 可在命名 环境中经常 发生的访问热点和性能瓶颈问题。弹性哈希算算法:分分布式文文件系统统采用弹弹性哈希希算法在在

26、存储池池中定位位 数据,而而不是采采用集中中式或分分布式元元数据服服务器索索引。在在其他的的 a-t 存储系系统中,元元数据服服务器通通常会导导致 O 性能瓶瓶颈和单单 点故障障问题。分分布式文文件系统统中,所所有在 a-t 存储配配置中的的存 储系统统都可以以智能地地定位任任意数据据分片,不不需要查查看索引引或者向向其 他服务务器查询询。这种种设计机机制完全全并行化化了数据据访问,实实现了真真正 的线性性性能扩扩展。弹性卷管管理:数数据储存存在逻辑辑卷中,逻逻辑卷可可以从虚虚拟化的的物理存存,不会会导致应应用中断断。逻辑辑卷可以以在所有有配置服服务器中中增长和和缩减,可可以在不不同服务务器迁

27、移移进行容容量均衡衡,或者者增加和和移除系系统, 这些操操作都可可在线进进行。文文件系统统配置更更改也可可以实时时在线进进行并 应用,从从而可以以适应工工作负载载条件变变化或在在线性能能调优。完全软件实实现(ftware Oy:分布布式文件件系统认认为存储储是软件件问 题题,不能能够把用用户局限限于使用用特定的的供应商商或硬件件配置来来解决。分分 布式文文件系统统采用开开放式设设计,广广泛支持持工业标标准的存存储、网网络和 计算机机设备,而而非与定定制化的的专用硬硬件设备备捆绑。对对于商业业客户, 分布式文件系统可以以虚拟装置的形式交付,也可以与虚拟机容器 打包,或者是公有云中部署的映像。开源

28、社区中,分布式文件系统 被大量部署在基于廉价闲置硬件的各种操作系统上,构成集中统一 的虚拟存储资源池。简而言之,分布式文件系统是开放的全软件实 现,完全独立于硬件和操作系统。储系 布式文件系统不仅提供了一个分布式文件系统,而且还提供了许多 RAID 和自我修复等。分布式文件系统汲取了微内核架构的经验教训,借 鉴了 GNU/Hurd 操作系统的设计思想,在用户空间实现了完整的存 储操作系统栈。用户空间实实(User ace与传统统的文件件系统不不同分布式式文件系系 统在在用户空空间实现现,这使使得其安安装和升升级特别别简便。模块化堆栈栈式架构(Mduar tacabe rchteccture分布

29、式式文件系系统 采采用模块块化、堆堆栈式的的架构,可可通过灵灵活的配配置支持持高度定定制化的的 应用环环境,比比如大文文件存储储、海量量小文件件存储、分分布式文文件系统统、 多传输输协议应应用等。每每个功能能以模块块形式实实现,然然后以积积木方式式进 行简单单的组合合,即可可实现复复杂的功功能。比比如,RRepllicaate 模块可可实现 Ire 模块可可实现 I通者合现 I0 和 A0同得能可原始数据格格式存储(Data tredd nNate Frmats分布式式文件系系统 以数式 TTSS存并 多种数数据自动动修复机机制。因因此,系系统极具具弹性,即即使离线线情形下下文 件也可可以通过

30、过其他标标准工具具进行访访问。如如果用户户需要从从分布式式文件 系统中中迁移数数据,不不需要作作任何修修改仍然然可以完完全使用用这些数数据。无元数据服服务设计计(NoMettadata wthte Eastc ashgrtm:对 a-t 存储系系统而言言,最大大的挑战战之一就就是记录录数据逻逻辑与物物理 位置的的映像关关系,即即数据元元数据,可可能还包包括诸如如属性和和访问权权限 等等信息。传传统分布布式存储储系统使使用集中中式或分分布式元元数据服服务来维维 护元元数据,集集中式元元数据服服务会导导致单点点故障和和性能瓶瓶颈问题题,而 分布式式元数据据服务存存在性能能负载和和元数据据同步一一致

31、性问问题。特特别是 对于海海量小文文件的应应用,元元数据问问题是个个非常大大的挑战战。分布布式文 件系统统独特地地采用无无元数据据服务的的设计,取取而代之之使用算算法来定定位,服务器器都可以以智能地地对文件件数据分分片进行行定位,仅仅仅根据据文件名名 和路路径并运运用算法法即可,而而不需要要查询索索引或者者其他服服务器。这这使 得得数据访访问完全全并行化化,从而而实现真真正的线线性性能能扩展。无无元数据据 服务务器极大大提高了了分布式式文件系系统的性性能、可可靠性和和稳定性性。基于标准准协议:分布式式文件系系统存储服服务支持持 NF,F,TTTP,FTP 以及及分布式式文件系系统原生生协议,完

32、完全与 S 标准兼兼容。 分布式式文件系系统技术术及性能能指标:支持设备备数量:最大百百万台以以上支持存储储容量:最大 2B 以上客户端的的数量:最大支支持上亿亿并发网络支持:以太网网GsGs/NFNBNDGsGs文件副本本数量:任意(缺省 1份)协议: N/FHPTW V原议 S 标准支持文件件数量:最大上上亿个文文件个:T D 与 HDDFS 的比较较对比项S架构类型带元数据库库中心架架构故发)全分布式去去中心架架构存在方式分布式文件件系统软软件,基基于x866平台使用方式RT IVCE/FN 标准协议(应用代码码与平台台无关性性便于移移植和维护)系统可用性性低高数据可用性性复制类I数据定

33、位方方式eHash同步方式异步同步负载均衡自动自动支持网络千兆以太网网兆网B网读兆约0/0/约0/0B读(1*220GBB)(万万兆)约1255s约25ss写(1*220GBB)(万万兆)约2000s约20ss千差距不大2.3.22 分布式式并行计计算技术术 概述 并行计算技技术真正正将传统统运算转转化为并并行运算算从而更更加充分分的利用用广泛部部署的普普通计算算资源实实现大规规模的运运算和应应用的目目的在此基基础上为为第三方方开发者者 提供供通用平平台,为为客户提提供并行行服务。这这里主要要为门户户网站提提供作业业调度平平台, 实现日日志分析析,性能能优化,全全文检索索,视频频处理,用用为分

34、析析等等的的支撑平平台。用户通过统统一计算算平台把把任务分分派给系系统内的的多个节节点调度节节点资源源执行 任务发挥多多核并行行处理优优势提升运运算效率率充分运运用网络络内的计计算资源源达到 解决大大规模计计算问题题的目的的。 分布式式并行计计算架构构图分布式并行行计算架架构图 作业调调度及计计算过程程 分布式式并行计计算技术术特点池化资源源管理 利用用池化技技术,任任何一台台联在互互联网上上的普通通 PC 机从硬硬件到软软件,可可通过池池化技术术加入服服务器池池中,等等待任务务分配,系统能能充分利利用现 有服务务器资源源,将所所有运算算子任务务分配给给节点服服务器,有有效避免免计 算资源源闲

35、置现现象的发发生。无中心系系统架构构 在平平台管理理下的单单节点能能力一致致,使节节点在部部署上和和使用上上具备无无 差别性性,任一一节点功功能可由由其他节节点替代代或强化化,可以以最大程程度确 保平台台资源使使用的灵灵活性以以及在灾灾备环境境下的可可靠性系系统架构构。通道式工工作机制制 平台台为用户户提供一一个并行行任务处处理通道道,处理理过程对对用户来来说完全全 透明,由由平台自自动进行行负载均均衡、资资源匹配配、任务务传输等等,使用用户 专注于于自身任任务管理理,将执执行过程程交由平平台完成成。2.3.33 布据术D2B 是是一个具有高高性能的的高性能能,可扩扩展,无无模式,面面向文档档

36、(dcumet-retedd)的数数据库其内存存储的是是一种 JON-ie结构化化数据的的分布式式 数据据库软件件尤其具具有高扩扩展性和和高可靠靠性支持大大表水平折折分以及分分区镜像像。 提提供内存存缓存数数据,所所以数据据存取速速度非常常快,主主要是由由于它处处理写入入的方式式: 它们存存储在内内存中,然然后通过过后台线线程写入入磁盘。持据非散类 o的的 bjjsonn因以 比较复复杂的数数据类型型DB 另外的的最大的的特点是是他支持持的查询询语言非非常强大大其 语语法有点点类似于于面向对对象的查查询语言言几乎可可以实现现类似关关系数据据库单表表查询的的 大功而支数立它点性易易 用,存存储数

37、据据非常方方便。主要功能特特性:面向集合合存储,易易存储对对象类型型的数据据“面向集合合(oecto-Oretedd意思是是数据被被分组存存储在数数据集 中被称为为一个集集(lecti)每个 集合在在数据库库中都有有一个唯唯一 的名且包限的集概似型 (RDBM里的(tae不同同的是它它不需要要定义任任何模式(scema)。模式自由由模式自(scema-freee)意味着着对于存存储在 DB 数据库库中的文文件我们 要它何定如要你可不构 的文件件存储在在同一个个数据库库里。自动分片片以支持持云级别别的伸缩缩性:自自动分片片功能支支持水平平的数据据库集群群, 可可动态添添加额外外的机器器。支持动态

38、态查询支持完全全索引,包包含内部部对象。自动处理理碎片,以以支持云云计算层层次的扩扩展性。可通过网网络访问问 可用于于 Wdsa OSX、Linnux 和 li 的官方方二进制制版本。 可用于于 CC、C#、C+、HHaskkelll、Jaava、JaavaSScriipt、PPerll、PHHP、PPythhon、 Rubby 和和 Sccalaa 的的官方驱驱动程序序,以及及广泛可可用于其其他语言言的社区区支持 的驱动动程序。Ad-hocc JaavaSScriipt 查询让让您能够够使用基基于任何何文档属属性的任任何条件件来查 找数据据。这些些查询对对应于 SQLL 查询询的功能能,使

39、SQLL 开发发人员能能够很 直观地地编写 D22B 查询。支持查询询中的正正则表达达式。 D22B 查询结结果存储储在提供供过滤、聚合和和排序等等一系列列功能的的游标中中,包 括括 liimitt()、sskipp()、 sorrt()、coountt()、 disstinnct() 和和 grroupp()等等等高级级特性。 高级聚聚合的 maap/rreduuce 实现现。 类似似于 RDBBMS 的属性性索引支支持,可以直直接在文文档的选选定属性性上创建建索引。使用提示示、解释释计划和和分析的的查询优优化特性性。类似于 yL 的主/从复制制,支持持复制和和故障恢恢复。基于集合合的对象象

40、存储,在在需要规规范化数数据时允允许参考考查询。通过自动动分片功功能水平平扩展。高性能无无争用并并发机制制的即时时更新。D2B 服服务端可可运行在在 nnw 或 OS X 平台,支支持 位应 用。推推荐运行行在 位平台台,因为为 B 在 位模式式运行时时支持的的最大文文件尺寸寸 为 2GGB。分布式数据据库(DD2B) 集群群示例图图 D2BB 与关系型数数据库的的逻辑结结构对比比:D2B关系型数据据库数据库(ddataabasse)数据库(ddataabasse)oei)b)文档(doocummentt)wD2B 的的性能指指标:10亿约6000GB 以上(与与每条记记录大小小有关系系,这里

41、的数据:1Kbb/条)写(1亿亿,无索引引)约150000-200000 写(1亿亿,有索引引)约100000 写(1亿亿:Reepliica t +Shaardiing 模式)约60000-880000读(1亿亿)约M1Ms读(1亿亿)8000-100000 询统计一个值值(100亿)10244(理论论上)的配I Xeon 87 2路16核心,2256GGB内存,115k S 6BA0共12备的架构构模式:Reppliccat+Shaardiing。2.3.44 负载载均衡1)开源负负载均衡衡软件比比较xoLu ra Serrverr)可以以实 n平的均 提供 有I载技I 虚拟服服务器软软件

42、S基于内内容请 求分发发的内核核yeer-交换机机 TV集功x款级可的 We服务软软件及反反向代理理软件 于HTTTP(第第七层)应应用代理理服务 器在国内内大型的的互联网网公司都都有 使使用。HAProoxy是是一款提提供高可可用性的的 C第和T第 七层应用的的代理软软件在国内内大 型型的互联联网公司司都有使使用。抗负载载能力强强是工作作在网络络4 层之之上仅作作分发之之用没有流流量的 产生这个特特点也决决定了它它在负载载 均衡衡软件里里的性能能最强的的;性低是缺 也是一一个优点点因为没没有可太太多配 置的东东西,所所以并不不需要太太多接 触,大大大减少少了人为为出错的的几率;稳自完双 方如

43、Seav和 Seta量证衡O 能不会会收到大大流量的的影响;本支则不 能做动动静分离离;工作在在网络的的层之上上可以针针 t用些的比 如针对对域名目录结结构它的正正则 规Hry强灵Ni对对网络的的依赖非非常小理 上i通能负 能;i安配维较 单;可以承承担高的的负载压压力且稳稳定, 一般能能支撑超超过几万万次的并并发量;Ni可可以通过过端口检检测到服服务 器器内部的的故障,不不支持uurl来来检测;i也为b加 存器;能够补补充Nx的一些些缺点比比如 Ssn持oi引工 作;Px网依常 上i通能负 功能;L一本仅 是一款款负载均均衡软件件单纯从从效率 讲Px会gx 出色,在在并发处处理上也也是优于于

44、 gxPx装置护 较简单单;可以承承担高的的负载压压力且稳稳定, 一般能能支撑超超过几万万次的并并发量;建议用 Nn或 Px作载反理件硬 载均衡衡使用。究究竟选择择 Ngginxx 还是是 HAAProoxy 要看团团队对这这两种软软件的熟熟悉程度度, 越越熟悉,就就能容易易掌控,减减少风险险,我们们团队对对 Ngginxx 非常常熟悉,所所以,这这里我们们推荐用用 Ngginxx 作为为软件的的反向代代理工具具。2.3.55 数据据采集概述述数据采集功功能主要要完成海海量数据采集上传。 数据采采集的来来源有: 工、企业网网站、百百度、谷谷歌等。根根据特定定的数据据源,不不同应用用,不同同类型

45、 的数据据进行收收集,并并提供统统一的数数据采集集方式,方方便后台台数据集集成、数数据存储储。 数据采采集结构构图:数据采集主主要是由由采集服服务器,通通过 HTTTP 协议和和 su 技术把把数据上上传并缓缓存在 EB 及消息息服务器器上EB 及消息息服务器器可以缓缓存一周周的数据据上传 数传再息服程P进成的清格 式并最终终入库存存储台标等等非结构构化数据据存储在在分布式式文件系系(DF中, g 或者行行为等结结构化数数据存储储在分布布式数据据库(MMonggonDDB)中中。参见见如下数数 据采集集/存储流流程图:DMQ 是是一个分分布式的的消息服服务平台台,提供供的功能能包括:配置维维护

46、、名名字服 务分布式式同步组服务务等能提供供一种高性能可靠的的可扩展展的分布式式的、 可配置置关键特特性,DDMQ 的核心心技术特特点:大容量堆内内存和高高可用性性:假设设你有 0 台服务务器, 并且每每个节点点有 2GBB 间复存你的据大 0 服仅一贝反助布制可 0 份堆并网的位能如 某台服服务器崩崩溃了, 网格只只需要简简单地创创建一份份丢失数数据的新新副本, 并将它们放到另一台服务器上应用也无需再借助于一个巨大的独立 数据库来获取数据以追求最大性能的 - 这是 80%以上的企业应用中 的瓶颈所在!扩展性:由于数数据是均均匀分布布的,所所以除了了考虑到到网络上上的组通通讯, 根本就就没有必

47、必要来限限制网格格的大小小网络上上的组通通讯只要要能够发发现 一一个新的的节点即即可. 所有的的数据获获取方式式都是通通过点对对点通信信,即节节点之间间直接进进行通信信非常容容易控制制。 DMQ 的增加加或者减减少不需要要 关闭闭整个服服务。 简单的的添加删删除集群群中的机机器不会会引发任任何服务务中断。数据分布布DMQ 使用一一致性哈哈希算法法来决定定集群中中键值的的存储位位置。 一致性性哈希算算法成本本低速度快快并且最最重要的的是不需需要额外外的元数数据 或或者网络络通信就就能确定定键值的的位置。 数据分布的目的是为了在集群 环境下保持足够的状态副本以使其具备可持续性和容错性但是又不 会有

48、过多的副本而阻碍 DMQ 的可扩展性。原子性:一个 Udate 操作不不是成功功就是失失败不会有有第三种种状态出出现。顺序性:在在一个 DMQQ 中中 Q 服务器器上的消消息 a 在 消息 b之前发发布,那那么在所所有的 DMQQ 服务器器上的消消息 a 都会在在消息 b之前被被发布,DMQ 会保持一致顺序。实时性:对于每每个 etDMQ 集群中中的所有有服务器器都会保保持实时时更 新新制度,使使得所有有的服务务视图都都会是最最新的。统像ln 无论连连接到集集群中的的哪一个个 DMQQ 集群节节点 服务,都都是得到到同样的的镜像视视图。可靠性:数据在在内存中中缓存了了 2任台机都造 成数据据的

49、丢失失。分布布式消息息管理架架构图:MPS MPS2MPS4MPS6MPS8MPS10统一的数据视图心跳/同步Server1【备】(数据)Server2【主】(数据)Server3【备】(数据)Server4【备】(数据)数据网(电信、移动、联通)智能终端智能终端智能终端智能终端智能终端智能终端智能终端智能终端DMQ 有有以下几几种关键键较色,每每类较色色的职责责如下表表格描述述?角色名称职责Ld)就是DMQQ集群的的老大,它它不接受受Cliientt的请求求,是管管理其他他DMQQ服务的,只负责责进行投投票的发发起和决决议,最最终更新新状态.追随者(FFollloweer)Fle的是者ee参

50、导Ld发起的投票票,向下下是面向向客户端端的交互互,用于于接收客客户端的的请求和和反 馈客户户端的结结果。参参与领导导者(LLeadder)发发起的投投票。观察者(OObseerveer)观察者可以以接收客客户端连连接,将将写请求求转发给给领导者者(Leeadeer)节节点。但是Obsservver不不参加投投票过程程,只是是同步领领导者(Leader)的状态。 Observer为系统扩展提供了一种方法。DMQ 的的核心是是原子广广播这个机机制保证证了各个个 erer 之间的的同步有两种种模 式式,它们们分别是是恢复模模式和广广播模式式。恢复模式:一般是是在服务务刚启动动或者在在领导者者(Le

51、eadeer)崩崩溃后,开开始进入入 恢复模模式此时先先就会开开始选举举领导者(Leader当领导导(Leader被选举举出 来且者oor成当导Ld的及同 后,恢恢复模式式就结束束了。:模束即者ee已追 进行了状态同步以后,他就可以开始广播消息了,即进入广播状态。分布布式消息息数据架架构图:上图的 MM(Messsagees aager消息数数据管理理者通过嵌嵌入式 sqql内核完完 成上上百万并并发量的的缓存数数据来提提供异步步发布和和订阅。应应用程序序通过 JDBBC/RRESTT/Meemcaacheed等符合合业界标标准接口口完成集集群中的的消息缓缓存数据据的操作作, 集群成成员之间间

52、也通过过该接口口完成成成员之间间的数据据同步,状状探测步步。典型型分布式式消息平平台比较较:由于常见的的 RaabbiitMQQ、AcctivveMQQ 和 ZerroMQQ 消息息中间件件不具备备分布式式功能, 所以不不在比较较之列。数数据采集集中心面面对的是是高并发发海量数数据上传传,所以以分布式式消息平平台必须须在数数据接收收数据据缓存数数据发布布整个个过程保保证数据据的高性性能吞吐吐、高可可靠性、高高扩展性性、可维维护性等等属性。多越3 大数据据计算平平台 需求概概述根据应用,这这个项目目数据量量30TT,企业数数据量非非常大,需需要大量量并发,网络爬虫爬取的企业数据信息存储在数据中心

53、此数据量跟跟企业记录录相关。 同时需要对对清洗后后的记录录和计算算好的推推荐结果果进行存存储但是这这些数据据不放在在数据中中心此项目目之后会会做成实实时计算算需要用用到流式式计算的的相关计计算和调调度。计计算量很很大,可可以多部部署 DCSS 进程,提提高计算算并发度度,作业业调度也也要采用用分部署署调度架架构。 总体设设计云数据采集集中心与大数数据计算算平台的的关系是是云数据据采集中中心提供存存储和计计 算资资源通过 PI的方式式访问资资源大数据据计算平平台主要要实现核核心算法法包括图图 像匹匹配算法法,挖掘掘算法,智智能推荐荐算法,知知识学习习算法等等等,也也能够通通过 APII的方式式建

54、立统统计应用用智能推推荐应用用等等大数据据计算平平台 的的需要的的数据:包括网网上实时时爬取得得二次计计算分析析而获取取的等等等都通过过通用接接口存储储在云数据据采集中中心的分布布式存储储平台中(分布布式文件件 系统统(DF、分布式数据库(DB计算时候,通过接口发起作业,由云 数数据采集集中心的作业业调度服服务进程(J负责调调度由数据据计算服服务进程(D) 负负责计算算处理并把结结果反馈馈给大数数据计算算平台的的各个应应用根据.22小节对对DFS分布式式文件系系统的详详细介绍绍本章节节就不重重复叙述述, 由由于要增增加新的的存储设设备,对对于新设设备上安安装分布布式文件件系统是是否继续续选用

55、D 还是 HDFFS,我我们需要要回答以以下几个个问题:第一,预算算增加及及扩展问问题要部署署 DF还得单单独购买买两台高高性能设设备 作作为 HDFS的元数数据库服服务(注两台设设备构成主主备配置不不能 比比我们现现在选择择的设备备配置差差,不然然就会成成为瓶颈颈,如果果差了,数数据 节节点就扩扩展不了了几台第二,学习习成本及及进度问问题:要要使用 HDFFS,必必须熟悉悉它的 I及 带来的的整个 DFS集群部部署维护护等工作作这个与与可利用用的团队队资源相相 突2S 提供标标准的 S 协议接接口,应应用程序序代码不不需作任任 变以如用 F为证系透那 么统一一接口的的底层必必须要写写两种代代

56、码第一是对面 DF第二是是面 对对 HDDFS。新新增加了了开发、维维护、测测试的时时间。第三,空间间浪费及及孤岛问问题:SS2DFFS与 HDDFS 是两套套不同体体系的文文件系统统, 他们之之间设备备及存储储空间是是不能共共用的后面增增加的66台,设设备存储储与前面面部署的的 0台设备备通过对原始始数据处理压压缩后,存存储空间间还有多多余。二二者构成成了孤岛岛,同时时造成空空间浪费费。第四,应用用场景问问题DFS对存储储网页等等文件比比较友好好毕竟它的基基因就 互搜开来。 数据模模型设计计数据模型主主要主企企业数据据模型与与投资商商数据模模型两个个部分。3.3.11 企业数数据模型型字段名

57、备注name公司名称econ_kinnd企业类型regisst_ccapii注册资本scopee经营范围term_staart营业开始日日期term_endd营业结束日日期belonng_oorg所属工商局局oper_namme法人startt_daate成立日期statuus在业emplooyeees.jjob_tittle主要人员职职位emplooyeees.ssex主要人员性性别emplooyeees.nnamee主要人员姓姓名brancchess.naame分支机构名名称changgereecorrds.chaangee_ittem变更项目changgereecorrds.chaang

58、ee_daate变更日期changgereecorrds.befforee_coonteent变更前内容容changgereecorrds.aftter_conntennt变更后内容容partnnerss.stoock_namme股东姓名partnnerss.stoock_typpe股东类型partnnerss.ideentiify_typpe证照/证件件类型partnnerss.ideentiify_no证照/证件件号码partnnerss.shoouldd_caapi_iteems.shooud_cappi认缴出资额额partnnerss.shoouldd_caapi_iteems.inv

59、vestt_tyype出资方式partnnerss.shoouldd_caapi_iteems.shoouldd_caapi_datte出资时间partnnerss.reaal_ccapii_ittemss.reaal_ccapii实缴出资额额partnnerss.reaal_ccapii_ittemss.invvestt_tyype出资方式partnnerss.reaal_ccapii_ittemss.reaal_ccapii_daate实缴时间3.3.22 投资商商数据模模型字段名备注name投资商名称称econ_kinnd企业类型regisst_ccapii注册资本scopee经营范围t

60、erm_staart营业开始日日期term_endd营业结束日日期belonng_oorg所属工商局局oper_namme法人startt_daate成立日期statuus在业emplooyeees.jjob_tittle主要人员职职位emplooyeees.ssex主要人员性性别emplooyeees.nnamee主要人员姓姓名brancchess.naame分支机构名名称changgereecorrds.chaangee_ittem变更项目changgereecorrds.chaangee_daate变更日期changgereecorrds.befforee_coonteent变更前内容容

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论