数据采集处理项目-技术方案

上传人：翰*** IP属地：广西上传时间：2024-02-24 格式：DOC 页数：37 大小：297KB 积分：12 举报 版权申诉

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

xxx大数据库中心数据库投资商和企业数据采集处理工程工程编号：I006技术方案xxx二○一七年六月目录1引言3工程背景3工程目标3建设原那么3参考标准4名词解释52云数据采集中心7需求概述7总体设计7103大数据计算平台34需求概述34总体设计34数据模型设计354数据运营39数据挖掘分析39数据分析处理的主要工作39数据分析团队组织和管理405平安设计436风险分析477部署方案488实施方案499技术规格偏离表5010售后效劳承诺5311关于运行维护的承诺5512保密措施及承诺5613培训方案581引言工程背景XXX大数据中心建设出发点考虑从投资者角度涵盖招商全流程，尽可能为投资者解决工程实施过程中的困难和问题，便于招商部门准确掌握全省招商数据，到达全省招商工程数据共享，形成全省招商工作“一盘棋、一张网、一体化”格局。大数据中心将充分发挥大数据优势，加强对企业投资工程、投资轨迹分析，评估出其到XX投资的可行性，为招商过程留下痕迹、找到规律、明辨方向、提供“粮食”、提高效率，实现数据寻商、数据引商、数据助商，实现数据资源实时共享、集中管理、随时查询，实现工程可统计、可监管、可协调、可管理、可配对、可跟踪、可考核。本次数据运营效劳主要是为大数据平台制定数据运营标准及管理方法，同时为“企业数据库”提供数据采集、存储与分析效劳，并根据运营标准要求持续开展数据运营效劳。工程目标制定招商大数据运营标准及管理方法。制定招商大数据相关元数据标准，完成相关数据的采集、整理与存储。根据业务需求，研发招商大数据招商业务分析模型，并投入应用。根据运营标准及管理方法的要求持续开展数据运营工作。建设原那么基于本工程的建设要求，本工程将遵循以下建设原那么：前瞻性经济性和用软件应提供完备的整合方案。先进性和成熟性务需求。高性能和平安性攻击或崩溃时能快速恢复，确保重要数据的机密性和完整性。参考标准GB/T信息平安技术—信息系统平安管理要求GB/T信息平安技术—信息平安风险评估标准GB/T信息平安技术—信息系统平安等级保护根本要求GB/T信息平安技术—信息系统平安等级保护定级指南 GA/T计算机信息系统平安等级保护管理要求GB/T计算机软件产品开发文件编制指GB/T软件工程术语GB/T信息技术软件工程术语GB/T软件工程产品质量第1GB/T软件工程产品质量第2GB/T软件工程产品质量第3GB/T软件工程产品质量第4GB/T计算机软件可靠性和可维护性管理GB/T信息技术软件包质量要求和测试名词解释DF简单存储分布式文件系〔metrageDstrutedFeystem〕Database〕DCS：数据计算效劳〔DataMPS：消息处理效劳〔MessageDataDMQ：分布式消息队列〔DistributedQueue〕：超文本传输协定〔HyperTextTransferMessage2云数据采集中心需求概述根据1至2年内的数据存储和计算规模，需要满足：数据采集范围包括但不限于世界500强、全国500强、行业20强企业相关数据。总数据容量至少到达30T。总体设计整个云数据采集中心分为三局部：硬件资源层、软件平台层、软件应用层。硬件资源层主要指实体硬件设备包括用来存储数据的光纤阵列柜和存储服务器用来作统计分析以及搜索用的计算效劳器用来部署分布式消〔DMQ〕/WEB/APP软件的及消息效劳器，用来部署用PostgreSQL关系数据库软件的应用数据库效劳器用来部署作业调度效劳进〔J的作业调度效劳器。作为数据通信用的全千兆三层交换机等等其中光纤阵列柜主要用来存储统计分析后的粗颗粒度数据存储效劳器用来部署分布式文件系统和分布式数据库同存储非结构化和结构〔台标图片电商图片等等和结构化数〔行为数据，索引数据g数据清理后的细颗粒度数据等等计算效劳器主要用来完成数器和计算效劳器合二为一所以该效劳器同时具有计算和存储数据的功能前云数据采集中心需要面对多种宽带用户〔电信、移动、联通，所以，数据中心的对外的网络需要直连上电信移动联通三家公司的网络保证以上三家公司间的通信性能高速和可靠。软件平台层是云数据采集中心的核心支撑层，也是我们这次方案设计和实施的主体局部，在核心技术章节会对“分布式文件系统〔S2DFS〕”、“分布式数据库〔D2B〕”、“分布式消息效劳〔DMQ〕”“作业调度效劳进程〔JSS〕、数据计算效劳进程〔DCS〕”主要局部加以详细的描述。软件平台层的所有效劳器都统一部署的64位操作系统CentOS〔也可以选择RHELx64〕；其核心软件或者进程有：分布式文件系统〔S2DFS〕、分布式数据库〔D2B〕、作业调度服务进程〔JSS〕、数据计算效劳进程〔DCS〕、作业生成效劳进程〔JGS〕、消息处理效劳进程〔MPS〕、流数据处理进程〔SDS〕等等。WEB及应用效劳器软件Apache&Tomcat，消息队列软件分布式消息〔DMQ〕。还要实现整个云数据采集中心的资源管理及监控管理系统。软件应用层是云数据采集中心的功能实现及UI表达层，功能实现需要基于软件平台层的支撑后期设计和实施的主体该层的主要功能应用有数据采集。本图片数据以及用户行为数据存储在云数据采集中心里以供后期分析计算用。云数据采集中心整体架构图云数据采集中心网络结构图分布式文件存储技术传统存储技术面临的问题：构建本钱高：大容量及高网络带宽的高端存储系统架构昂贵。文件系统功能和性能差强人意：难以实现全局命名空间的文件共享、文件系统难以扩展，容易形成瓶颈。扩展性困难：技术存在瓶颈〔cae-up架构决定的、扩展本钱无法控制。应用目标差异：主要面临运营商、金融行业的OLTP应用、很少针对海量的流数据，或者非结构化数据进行设计和优化。异构设备繁杂：不同时期、不同公司、不同操作系统的异构设备纷繁复杂，无法整合，资源利用率极低。分布式文件系统主要为解决以上问题而出现的一种新型大规模数据存储技术架构主要为非结构化数〔视频/文件/文档图像/音频等非结构化数据提供海量的存储平台，以集群的方式提供线性横向扩展能力。分布式文件系统是一种构建于通用x6部件之上的高可用高可靠高可扩展的新型分布式文件系统应用分布式文件系统用户可以采用廉价可靠的通用硬盘以及以太网络来构建媲美企业级存储产品的存储系统。分布式文件系统应对的数据特性和访问特性：数据量巨大，数百TB或PB级，增长迅速；类型多样化，包括图像、文本、语音、视频等文件数据；按时间有序生成，数据均带有时间标志；前端数据写入速度很高，每秒钟写入数据可达几万甚至几十万条记录或者上GB量数据；更新操作极少：追加方式写入，一旦写入，几乎没有数据修改，查询涉及大量的磁盘读操作，查询处理产生大量的临时结果，不同类型的数据存在联合分析查询；分布式文件系统的根本原理是采用集群方式来整合物理上独立的多个存储资源以软件方式提供单一的名字空间采用多副本的方式保证数据的高可用性，任意单一节点失效均不会导致数据丧失和数据效劳的正常运行同时分布式文件系统通过良好设计的系统结构和数据分布策略可保证系统性能的高可扩展性，并支持存储容量/性能的在线扩展。相比拟于D〔直连存储、N〔存储区域网络〕和N〔网络存储，应用分布式文件系统构建的网络存储系统更像是一个N提供类似于传统NS的文件级访问接口〔N和DS都是块设备级别的访问接口。分布式文件系统与传统设备的比拟：比拟项高端分布式文件系统性能一般双端口，性能受机头影响，难以扩展，出口带宽是瓶颈一般双端口，性能受机头影响难以扩展，较好性能随节点数的增加成线性增长扩展能力性能及容量无法扩展，或者有限扩展能较好扩展，但本钱高昂性能及容量按需扩展，动态均衡可用性方式保护，双机保护停机Debi时D方式保护双机保护，停机基于灵活的多副本机制，自动检测自动故障恢复，无需停机数据管理企业级功能需要单独购置企业级功能需要单独购置〔还需要单独的文件系统100多万一套〕内嵌多种企业级应用：快照、镜像、回收站本钱专有的硬件平台，软件拥有本钱高，扩展本钱高专有的硬件平台，软件拥有本钱高，扩展本钱高开发通用的硬件平台，一体化的软件，本钱低，扩展本钱低可维护性专门的技术支持效劳，需要培训结构异常复杂，需要大量培训，厂商效劳昂贵内嵌多种自动化的故障检测和恢复功能国内开发，技术支持快速用户使用分布式文件系统如同使用本地文件系统。所不同的是，传统NAS通常以单一节点的方式实现容量和性能的扩展能力有限易于成为性能瓶颈和单一故障点而分布式文件系统那么有多个节点集合地提供效劳由于其结构特征，分布式文件系统的性能和容量均可在线线性扩展并且系统内不存在单一故障点。比照参看下面两幅示意图：传统存储架构图分布式文件系统架构图分布式文件系统的设计应用特别适合海量非结构化数据存储大量客户端并发的密集型应用。目前，分布式文件系统已经被应用于政府、医疗影像、勘查数据计算、视频效劳以及动画制作等领域。这些领域的数据访问特征均为：的实际生产环境使用，分布式文件系统已被证明是该类型应用的有效解决方案。布式文件系统的效劳器端程序运行于Luxx4系统之上支持多种Lux位发行版，包括Redhat、CentOS等。分布式文件系统客户端那么支持Linux和和NFS接口，可以兼容大多数应用。分布式文件系统的核心技术及特征：扩展性和高性能：分布式文件系统利用双重特性来提供几TB至数PB的高扩展存储解决方案cae-Out架构允许通过简单地增加资源来提高存储容量和性能，磁盘、计算和资源都可以独立增加，支持和等高速网络互联。分布式文件系统弹性哈Hash〕解除了分布式文件系统对元数据效劳器的需求，消除了单点故障和性能瓶颈，真正实现了并行化数据访问。高可用性：分布式文件系统可以对文件进行自动复制，如镜像或屡次复制，从而确保数据总是可以访问，甚至是在硬件故障的情况下也能正常访问。自我修复功能能够把数据恢复到正确的状态，而且修复是以增量的方式在后台执行，几乎不会产生性能负载。分布式文件系统没有设计自己的私有数据文件格式，而是采用操作系统中主流标准的磁盘文件系统〔如数据可以使用各种标准工具进行复制和访问。全局统一命名空间：全局统一命名空间将磁盘和内存资源聚集成一个单一的虚拟存储池，对上层用户和应用屏蔽了底层的物理硬件。存储资源可以根据需要在虚拟存储池中进行弹性扩展，比方扩容或收缩。当存储虚拟机映像时，存储的虚拟映像文件没有数量限制，成千虚拟机均通过单一挂载点进行数据共享。虚拟机可在命名环境中经常发生的访问热点和性能瓶颈问题。弹性哈希算法：分布式文件系统采用弹性哈希算法在存储池中定位数据，而不是采用集中式或分布式元数据效劳器索引。在其他的存储系统中，元数据效劳器通常会导致性能瓶颈和单点故障问题。分布式文件系统中，所有在存储配置中的存储系统都可以智能地定位任意数据分片，不需要查看索引或者向其他效劳器查询。这种设计机制完全并行化了数据访问，实现了真正的线性性能扩展。弹性卷管理：数据储存在逻辑卷中，逻辑卷可以从虚拟化的物理存，不会导致应用中断。逻辑卷可以在所有配置效劳器中增长和缩减，可以在不同效劳器迁移进行容量均衡，或者增加和移除系统，这些操作都可在线进行。文件系统配置更改也可以实时在线进行并应用，从而可以适应工作负载条件变化或在线性能调优。完全软件实现〔ftwareOy：分布式文件系统认为存储是软件问题，不能够把用户局限于使用特定的供给商或硬件配置来解决。分布式文件系统采用开放式设计，广泛支持工业标准的存储、网络和计算机设备，而非与定制化的专用硬件设备捆绑。对于商业客户，分布式文件系统可以以虚拟装置的形式交付，也可以与虚拟机容器打包，或者是公有云中部署的映像。开源社区中，分布式文件系统被大量部署在基于廉价闲置硬件的各种操作系统上，构成集中统一的虚拟存储资源池。简而言之，分布式文件系统是开放的全软件实现，完全独立于硬件和操作系统。布式文件系统不仅提供了一个分布式文件系统，而且还提供了许多RAID和自我修复等。分布式文件系统汲取了微内核架构的经验教训，借鉴了GNU/Hurd操作系统的设计思想，在用户空间实现了完整的存储操作系统栈。用户空间实〔Userace与传统的文件系统不同分布式文件系统在用户空间实现，这使得其安装和升级特别简便。模块化堆栈式架〔Mduartacaberchtecture分布式文件系统采用模块化、堆栈式的架构，可通过灵活的配置支持高度定制化的应用环境，比方大文件存储、海量小文件存储、分布式文件系统、多传输协议应用等。每个功能以模块形式实现，然后以积木方式进行简单的组合，即可实现复杂的功能。比方，Replicate模块可实现模块可实现和原始数据格式存〔DatatrednNateFrmats分布式文件系统多种数据自动修复机制。因此，系统极具弹性，即使离线情形下文件也可以通过其他标准工具进行访问。如果用户需要从分布式文件系统中迁移数据，不需要作任何修改仍然可以完全使用这些数据。无元数据效劳设计〔NoMetadatawthteEastcashgrtm：对存储系统而言，最大的挑战之一就是记录数据逻辑与物理位置的映像关系，即数据元数据，可能还包括诸如属性和访问权限等信息。传统分布式存储系统使用集中式或分布式元数据效劳来维护元数据，集中式元数据效劳会导致单点故障和性能瓶颈问题，而分布式元数据效劳存在性能负载和元数据同步一致性问题。特别是对于海量小文件的应用，元数据问题是个非常大的挑战。分布式文件系统独特地采用无元数据效劳的设计，取而代之使用算法来定位，效劳器都可以智能地对文件数据分片进行定位，仅仅根据文件名和路径并运用算法即可，而不需要查询索引或者其他效劳器。这使得数据访问完全并行化，从而实现真正的线性性能扩展。无元数据效劳器极大提高了分布式文件系统的性能、可靠性和稳定性。基于标准协议分布式文件系统存储效劳支持NF,F,,FTP以及分布式文件系统原生协议，完全与标准兼容。分布式文件系统技术及性能指标：支持设备数量：最大百万台以上支持存储容量：最大以上客户端的数量：最大支持上亿并发网络支持以太网GsGs/NFNBNDGsGs 文件副本数量：任意(缺省1份)协议：标准支持文件数量：最大上亿个文件与HDFS的比拟比照项架构类型带元数据库中心架构全分布式去中心架构存在方式分布式文件系统软件，基于x86平台使用方式标准协议〔应用代码与平台无关性便于移植和维护〕系统可用性低高数据可用性复制类数据定位方式Hash同步方式异步同步负载均衡自动自动支持网络千兆以太网网约约读〔1*20GB〕〔万兆〕约125s约25s写〔1*20GB〕〔万兆〕约200s约20s差距不大分布式并行计算技术概述并行计算技术真正将传统运算转化为并行运算从而更加充分的利用广泛部署的普通计算资源实现大规模的运算和应用的目的在此根底上为第三方开发者提供通用平台，为客户提供并行效劳。这里主要为门户网站提供作业调度平台，实现日志分析，性能优化，全文检索，视频处理，用为分析等等的支撑平台。用户通过统一计算平台把任务分派给系统内的多个节点调度节点资源执行任务发挥多核并行处理优势提升运算效率充分运用网络内的计算资源到达解决大规模计算问题的目的。分布式并行计算架构图分布式并行计算架构图作业调度及计算过程分布式并行计算技术特点池化资源管理利用池化技术，任何一台联在互联网上的普通PC机从硬件到软件，可通过池化技术参加效劳器池中，等待任务分配,系统能充分利用现有效劳器资源，将所有运算子任务分配给节点效劳器，有效防止计算资源闲置现象的发生。无中心系统架构在平台管理下的单节点能力一致，使节点在部署上和使用上具备无差异性，任一节点功能可由其他节点替代或强化，可以最大程度确保平台资源使用的灵活性以及在灾备环境下的可靠性系统架构。通道式工作机制平台为用户提供一个并行任务处理通道，处理过程对用户来说完全透明，由平台自动进行负载均衡、资源匹配、任务传输等，使用户专注于自身任务管理，将执行过程交由平台完成。D2B是一个具有高性能的高性能，可扩展，无模式，面向文档(dcumet-reted)的数据库其内存储的是一种JON-e结构化数据的分布式数据库软件尤其具有高扩展性和高可靠性支持大表水平折分以及分区镜像。提供内存缓存数据，所以数据存取速度非常快，主要是由于它处理写入的方式：它们存储在内存中，然后通过后台线程写入磁盘。的bjson比拟复杂的数据类型DB另外的最大的特点是他支持的查询语言非常强大其语法有点类似于面向对象的查询语言几乎可以实现类似关系数据库单表查询的用，存储数据非常方便。主要功能特性：面向集合存储，易存储对象类型的数据“面向集合〔oecto-Oreted意思是数据被分组存储在数据集中被称为一个集〔ecti)每个集合在数据库中都有一个唯一〔RDBM里的〔tae不同的是它不需要定义任何模〔scema)。模式自由模式自〔scema-free)意味着对于存储在DB数据库中的文件我们的文件存储在同一个数据库里。自动分片以支持云级别的伸缩性：自动分片功能支持水平的数据库集群，可动态添加额外的机器。支持动态查询支持完全索引，包含内部对象。自动处理碎片，以支持云计算层次的扩展性。可通过网络访问可用于OSX、Linux®和的官方二进制版本。可用于C、C#、C++、Haskell、Java™、JavaScript、Perl、PHP、Python、Ruby和Scala的官方驱动程序，以及广泛可用于其他语言的社区支持的驱动程序。Ad-hocJavaScript查询让您能够使用基于任何文档属性的任何条件来查找数据。这些查询对应于SQL查询的功能，使SQL开发人员能够很直观地编写D2B查询。支持查询中的正那么表达式。D2B查询结果存储在提供过滤、聚合和排序等一系列功能的游标中，包括limit()、skip()、sort()、count()、distinct()和group()等等高级特性。高级聚合的map/reduce实现。类似于RDBMS的属性索引支持，可以直接在文档的选定属性上创立索引。使用提示、解释方案和分析的查询优化特性。类似于的主/从复制，支持复制和故障恢复。基于集合的对象存储，在需要标准化数据时允许参考查询。通过自动分片功能水平扩展。高性能无争用并发机制的即时更新。D2B效劳端可运行在或OSX平台，支持位应用。推荐运行在位平台，因为在位模式运行时支持的最大文件尺寸为2GB。分布式数据库〔D2B〕集群例如图D2B与关系型数据库的逻辑结构比照:D2B关系型数据库数据库(database)数据库(database)文档(document)D2B的性能指标：10亿约600GB以上〔与每条记录大小有关系，这里的数据：1Kb/条〕写〔1亿,无索引〕约写〔1亿,有索引〕约10000写〔1亿：Replica+Sharding模式〕约6000-8000读〔1亿〕约读〔1亿〕8000-10000统计一个值〔10亿〕<3s〔复杂查询〕最大节点数量>1024〔理论上〕Xeon2路16核心,256GB内存，15k12的架构模式：Replica+Sharding。负载均衡1)开源负载均衡软件比拟Server〕可以实提供虚拟效劳器软件S基于内容请求分发的内核yer-交换机We效劳软件及反向代理软件于〔第七层〕应用代理效劳器在国内大型的互联网公司都有使用。HAProxy是一款提供高可用性的七层应用的代理软件在国内大型的互联网公司都有使用。抗负载能力强是工作在网络4层之上仅作分发之用没有流量的产生这个特点也决定了它在负载均衡软件里的性能最强的；也是一个优点因为没有可太多配置的东西，所以并不需要太多接触，大大减少了人为出错的几率；能不会收到大流量的影响；能做动静别离；工作在网络的层之上可以针如针对域名目录结构它的正那么N对网络的依赖非常小理能；单；可以承当高的负载压力且稳定，一般能支撑超过几万次的并发量；N可以通过端口检测到效劳器内部的故障，不支持url来检测；存器；能够补充N的一些缺点比方作；功能；是一款负载均衡软件单纯从效率出色，在并发处理上也是优于较简单；可以承当高的负载压力且稳定，一般能支撑超过几万次的并发量；建议用载均衡使用。究竟选择Nginx还是HAProxy要看团队对这两种软件的熟悉程度，越熟悉，就能容易掌控，减少风险，我们团队对Nginx非常熟悉，所以，这里我们推荐用Nginx作为软件的反向代理工具。数据采集概述数据采集功能主要完成海量数采集上传。数据采集的来源有：、企业网站、百度、谷歌等。根据特定的数据源，不同应用，不同类型的数据进行收集，并提供统一的数据采集方式，方便后台数据集成、数据存储。数据采集结构图：数据采集主要是由采集效劳器，通过协议和技术把数据上传并缓存在EB及消息效劳器上EB及消息效劳器可以缓存一周的数据上传式并最终入库存储台标等非结构化数据存储在分布式文件系〔DF中，或者行为等结构化数据存储在分布式数据库〔MongonDB〕中。参见如下数据采集/存储流程图：DMQ是一个分布式的消息效劳平台，提供的功能包括：配置维护、名字效劳分布式同步组效劳等能提供一种高性能可靠的可扩展的分布式的、可配置关键特性，DMQ的核心技术特点：大容量堆内存和高可用性：假设你有台效劳器,并且每个节点有2GB某台效劳器崩溃了,网格只需要简单地创立一份丧失数据的新副本，并将它们放到另一台效劳器上应用也无需再借助于一个巨大的独立数据库来获取数据以追求最大性能的-这是80%以上的企业应用中的瓶颈所在!扩展性：由于数据是均匀分布的，所以除了考虑到网络上的组通讯，根本就没有必要来限制网格的大小网络上的组通讯只要能够发现一个新的节点即可.所有的数据获取方式都是通过点对点通信，即节点之间直接进行通信非常容易控制。DMQ的增加或者减少不需要关闭整个效劳。简单的添加删除集群中的机器不会引发任何效劳中断。数据分布DMQ使用一致性哈希算法来决定集群中键值的存储位置。一致性哈希算法本钱低速度快并且最重要的是不需要额外的元数据或者网络通信就能确定键值的位置。数据分布的目的是为了在集群环境下保持足够的状态副本以使其具备可持续性和容错性但是又不会有过多的副本而阻碍DMQ的可扩展性。原子性一个Udate操作不是成功就是失败不会有第三种状态出现。顺序性：在一个DMQ效劳器上的消息a在消息b之前发布，那么在所有的DMQ效劳器上的消息a都会在消息b之前被发布，DMQ会保持一致顺序。实时性对于每个etDMQ集群中的所有效劳器都会保持实时更新制度，使得所有的效劳视图都会是最新的。无论连接到集群中的哪一个DMQ集群节点效劳，都是得到同样的镜像视图。可靠性：数据在内存中缓存了2成数据的丧失。分布式消息管理架构图：DMQ有以下几种关键较色，每类较色的职责如下表格描述角色名称职责就是DMQ集群的老大，它不接受Client的请求，是管理其他DMQ效劳的，只负责进行投票的发起和决议，最终更新状态.追随者(Follower)发起的投票，向下是面向客户端的交互，用于接收客户端的请求和反馈客户端的结果。参与领导者〔Leader〕发起的投票。观察者(Observer)观察者可以接收客户端连接，将写请求转发给领导者〔Leader〕节点。但是Observer不参加投票过程，只是同步领导者〔Leader〕的状态。Observer为系统扩展提供了一种方法。DMQ的核心是原子播送这个机制保证了各个erer之间的同步有两种模式，它们分别是恢复模式和播送模式。恢复模式：一般是在效劳刚启动或者在领导者〔Leader〕崩溃后，开始进入恢复模式此时先就会开始选举领导〔Leader当领导〔Leader被选举出后，恢复模式就结束了。进行了状态同步以后，他就可以开始播送消息了，即进入播送状态。分布式消息数据架构图：上图的M〔Messagesaager消息数据管理者通过嵌入式sql内核完成上百万并发量的缓存数据来提供异步发布和订阅。应用程序通过JDBC/REST/Memcached等符合业界标准接口完成集群中的消息缓存数据的操作，集群成员之间也通过该接口完成成员之间的数据同步，状探测步。典型分布式消息平台比拟：由于常见的RabbitMQ、ActiveMQ和ZeroMQ消息中间件不具备分布式功能，所以不在比拟之列。数据采集中心面对的是高并发海量数据上传，所以分布式消息平台必须在‘数据接收数据缓存数据发布’整个过程保证数据的高性能吞吐、高可靠性、高扩展性、可维护性等属性。3大数据计算平台需求概述根据应用，这个工程数据量30T，企业数据量非常大，需要大量并发，网络爬虫爬取的企业数据信息存储在数据中心此数据量跟企业记录相关。同时需要对清洗后的记录和计算好的推荐结果进行存储但是这些数据不放在数据中心此工程之后会做成实时计算需要用到流式计算的相关计算和调度。计算量很大，可以多部署DCS进程，提高计算并发度，作业调度也要采用分部署调度架构。总体设计云数据采集中心与大数据计算平台的关系是云数据采集中心提供存储和计算资源通过PI的方式访问资源大数据计算平台主要实现核心算法包括图像匹配算法，挖掘算法，智能推荐算法，知识学习算法等等，也能够通过API的方式建立统计应用智能推荐应用等等大数据计算平台的需要的数据包括网上实时爬取得二次计算分析而获取的等等都通过通用接口存储在云数据采集中心的分布式存储平台〔分布式文件系统〔DF、分布式数据库〔DB计算时候，通过接口发起作业，由云数据采集中心的作业调度效劳进〔J负责调度由数据计算效劳进〔D〕负责计算处理并把结果反应给大数据计算平台的各个应用根据小节对DFS分布式文件系统的详细介绍本章节就不重复表达，由于要增加新的存储设备，对于新设备上安装分布式文件系统是否继续选用还是HDFS，我们需要答复以下几个问题：第一，预算增加及扩展问题要部署DF还得单独购置两台高性能设备作为DFS的元数据库效劳〔注两台设备构成主备配置不能比我们现在选择的设备配置差，不然就会成为瓶颈，如果差了，数据节点就扩展不了几台第二，学习本钱及进度问题：要使用HDFS，必须熟悉它的带来的整个DFS集群部署维护等工作这个与可利用的团队资源相提供标准的协议接口，应用程序代码不需作任么统一接口的底层必须要写两种代码第一是对面DF第二是面对HDFS。新增加了开发、维护、测试的时间。第三，空间浪费及孤岛问题：S2DFS与HDFS是两套不同体系的文件系统，他们之间设备及存储空间是不能共用的后面增加的6台，设备存储与前面部署的0台设备通过对原始数据处理压缩后，存储空间还有多余。二者构成了孤岛，同时造成空间浪费。第四，应用场景问题DFS对存储网页等文件比拟友好毕竟它的基因就。数据模型设计数据模型主要主企业数据模型与投资商数据模型两个局部。企业数据模型字段名备注name公司名称econ_kind企业类型regist_capi注册资本scope经营范围term_start营业开始日期term_end营业结束日期belong_org所属工商局oper_name法人start_date成立日期status在业主要人员职位主要人员性别主要人员姓名分支机构名称变更工程变更日期变更前内容变更后内容股东姓名股东类型证照/证件类型证照/证件号码认缴出资额出资方式出资时间实缴出资额出资方式实缴时间投资商数据模型字段名备注name投资商名称econ_kind企业类型regist_capi注册资本scope经营范围term_start营业开始日期term_end营业结束日期belong_org所属工商局oper_name法人start_date成立日期status在业主要人员职位主要人员性别主要人员姓名分支机构名称变更工程变更日期变更前内容变更后内容股东姓名股东类型证照/证件类型证照/证件号码认缴出资额出资方式出资时间实缴出资额出资方式实缴时间Investment_industry投资行业investment投资金额4数据运营数据挖掘分析行业数据挖掘分析普遍采用CRISP-DM方法论。CRISP-DM将一个数据挖掘工程的生命周期定义为六个阶段：业务理解〔也称为商业理解〕、数据理解、数据准备、建立模型、模型评估、模型发布。1.业务理解：从业务的角度理解工程目标和需求，然后将这种需求转换成一种数据挖掘的问题定义，并设计出到达目标的一个初步方案。2.数据理解：收集初始数据，识别数据的质量问题，找到对数据的根本观察、或假设隐含的信息来监测出感兴趣的数据子集。3.数据准备：对可用的原始数据进行一系列的组织以及清洗,使之到达建模需求。4.建立模型：选择各种建模技术，并将其参数校正到优化值。常常要退回到数据准备阶段。5.模型评估：对建立的模型进行评估，重点具体考虑得出的结果是否符合第一步的商业目的。6.模型发布：将发现的结果进行总结与应用。数据分析处理的主要工作首先，是数据仓库或数据集市的建立，对数据进行预处理。数据分析处理以企业经营管理需求为根底，根据不同分析主题，从企业许多来自不同的运作系统的数据中提取出有用的数据，以保证数据的正确性，然后经过抽取、转换和装载，即ETL过程，合并到一个企业级的数据仓库里，得到企业数据的一个全局视图。其次，是联机分析处理和数据挖掘，进而将数据转化为信息和知识。联机分析处理是在数据仓库的根底上，对商业问题进行建模和数据进行多维分析。而数据挖掘通过分析每个数据，从大量数据中寻找其规律的技术。即使用诸如神经网络、规那么归纳等技术，用来发现数据间的联系，做出基于数据的推断。通过联机分析处理和数据挖掘，决策人员和高层管理能从多维角度准确掌控企业的经营状况和了解不同数据之间的相关关系，以便制定正确的决策。最后，是知识结论的可视化展示，实现知识向智慧转变。通过借助信息化系统，以简单、丰富和直观的形式，将查询报表、统计分析、多维联机分析和数据开掘的结论展现企业管理者和决策者的面前。而随着管理者对知识的不断积累和更新，会进一步将知识转化为企业管理者的智慧。最终成果为：根据招商大数据平台数据运营标准相关要求至少进行三个月的数据运营效劳，并提供数据运营报告。验证数据运营标准的流程、优化数据模板，并形成特定的数据运营操作指南。数据分析团队组织和管理数据分析团队负责开展数据采集、数据处理、数据管理和数据综合分析等工作。分析专家做的是预测建模、数据挖掘以及其他一些高级分析工作，而不是像定制报表和电子表格这样程序化的工作。他们解决问题的环境，使用的方法，甚至需要参加的各类培训都有很大的不同。因此在数据分析团队建设和组织管理上有其非常特殊的要求。1、数据分析团队建设〔一〕合理组建数据分析团队。整合客服中心人才资源，组建数据分析团队，负责开展数据采集、数据处理、数据管理和数据综合分析等工作。〔二〕强调共同价值表达。数据分析团队成员在目标、到达这些目标的路径和所需的合作上要努力达成一致，这样可以增强团队的认同感。强调数据分析团队的整体利益，确定共同的目标，鼓励分析团队共享信息和思想，互相帮助实现共同目标。〔三〕引入过程分析会议。过程分析会议是数据分析团队内部充分讨论的平台，通过过程分析会议，增强彼此的沟通，要求每个数据分析人员都提出实现共同目标的方法、思路。〔四〕鼓励和促进团队内部相互交流。提供数据分析团队的定期交流时机，鼓励每个数据分析人员在完成某个大数据挖掘分析课题后，进行充分的交流与总结，增强数据分析团队能力与水平，提炼数据分析经验。〔五〕公开数据挖掘分析成果形成鼓励。及时将数据分析分析团队的应用情况向办内发布，使数据分析分析团队成员增强使感。2、团队组织建设〔一〕为分析团队树立典范。要让数据分析团队发挥作用，首先是要在团队中突出一个或多个优秀的团队成员，成为数据分析团队成员的表率，将优良的工作作风带入团队中，影响团队中的每一位成员。〔二〕传授经验培养团队精英。要在数据分析团队中做好培训、培养工作，把数据分析思路的形成方法传授给团队成员，团队组织要培养团队精英，发挥团队精英的作用，成为团队的主力。〔三〕灵活授权。随着数据分析团队的逐渐形成与开展，团队组织要通过合理授权让团队成员分担责任，使团队成员更多的参与团队工作中，允许团队成员灵活的开展工作，给予团队成员信任，让他们更积极的为开展挖掘数据价值效劳，也给予团队成员学习与成长空间，实现团队成员自我价值的表达。〔四〕发挥团队凝聚力。数据分析团队的凝聚力是团队精神的表达，高凝聚力会带来高绩效。团队组织要让团队成员形成共同目标，并且增强团队的融合度，形成高昂的团队士气，提高团队绩效。〔五〕形成有效的团队指挥。数据分析团队的成员在工作不可防止的会出现各种无法应付的问题，团队组织的管理者，最重要的职责就是做好指挥工作，要和团队成员形成良好的沟通，及时了解团队成员面临的问题，团队管理者通过个人的工作经验、阅历，以及与相关部门或上级的沟通给出良好的解决方案，处理好团队工作问题。5平安设计云数据采集中心的平安分为两大局部一个是应用数据的平安一个是平台运行的平安。如果租用成熟的DC机房那么机房本身的平安就可以不管防火安防，门禁等统统可以忽略，外接的路由器和防火墙也可以不采购。平台平安平台本身的运行平安我们采用分布式集群技术完成每个业务处理群都是以集群方式存在，保证冗余度，每个集群中效劳进程都是主/主、主/备方式运行，承载设备都保证在2台以上。按照此设计思路，方案划分了存储/计算效劳器集群〔共8台设备、EB/消息效劳器集群〔共4台设备、应用数据效劳器集群〔共两台设备负载均衡效劳器集〔共2台设备专门的数据备份效劳器设备。数据平安应用数据的平安采用实时或者定时备份方式完成备份设备可以在一定时期内把数据备份到专门的数据备份效劳器上试实际情况而定也可以采用己构建平台，把数据同步到绵阳或者其他地方的数据中心中同样以分布式文件系统先期方案我们建议把数据备份到数据备份效劳器上，存储在分布式文件系统〔S2DFS〕由于数据量大，容量大，不建议再做备份，因为分布式文件系统〔S2DFS〕可以建立RAID1架构模式。我们会把分布式数据库〔D2B〕除了架构构建为Master-Slave、ReplicaSets模式外，另外通过BackUp/Restore工具完成数据备份及恢复，第一次完成冷备份，后面我们就可以通过增量备份方式完成。参考下面的备份及恢复架构：备份策略一个好的备份恢复系统除了配备有好的软硬件之外更需要有良好的备份策略进行保证对于备份系统必须根据各种应用和业务的处理类型来分别制定具体的备份策略。对于备份系统备份策略的规划，建议按照以下流程进行：备份任务指定专用的介质集；划定可以进行数据备份的时段。份方式时要在业务系统性能需求许可的情况下最大程度的降低数据恢复时的复杂程度。建议：对于数据量较大的系统为降低数据备份对业务系统运行的影响减少对备份介质的需求，可采用全备份＋增量备份的方式进行，建议每周进行一次全备，一周内其他时间每天进行一次增量备份；对于数据量较小的备份任务或较为关键的业务那么建议每天进行一次全备份，以降低恢复时的复杂程度；在每次业务数据做大调整后应立即做一次全备份；对于相关业务系统的数据为保证数据一致性尽量安排在同一天进行备份；首先保证关键业务的数据备份；尽量使备份数量在一周内的每天平均分布，可以采用大小数据量相搭配，或关键业务与非关键业务相搭配等方式进行；置应以保证每一次全备份完成以前，都有可用介质供数据恢复使用为准。下表给出了一个备份策略定制的例如：星期一星期二星期三星期四星期五星期六星期日备份任务组一FIIIIII备份任务组二IFIIIII备份任务组三IIFIIII备份任务组四IIIFIII备份任务组五IIIIFII备份任务组六IIIIIFI备份任务组七IIIIIIF……体策略根据用户的要求来定。6风险分析序号风险内容严重程度应对方法1.能否在公司规定的较短时间内完成公司这次要求建设的内容aaS平台建设包括软件硬件平台的构建高采用成熟的经过验证的方案，包括在生产环境中已经验证的核心软件平台。2.负责该工程的设计和实施的团队是否能够很快的掌握涉及到的核心技术〔分布式文件系统、分布式数据库、作业调度及并行计算等等〕高与熟悉这些核心技术的团队合作，保证在公司规定的期限内完成该工程。7部署方案1. 软件配置表序号名称配置描述部署硬件效劳器数量用途分布式文件系统存储及计算效劳器用来存储非结构化和结构化数据，文档等富媒体文件JSS作业调度效劳进程存储及计算效劳器2作〔任务的调度程序是计算任务的发起者和调度者数据计算效劳进程存储及计算效劳器作业〔任务〕的具体负责计算的程序，接受JSS的分配任务，处理任务，比方：图片特征批评，视频的分析等等JGS作业自动生成进程存储及计算效劳器2作〔任务的自动生成主要用来生成固定规那么的任务比方台标数据清理任务自动清理效劳进程存储及计算效劳器2自动定时去除没有利用价值的历史数据垃圾数据消息处理效劳进程WEB及消息效劳器6获取分布式消息队列中的数据并对获取的数据进行既定规那么的业务处理最后把数据存储在或者中SDS实时流数据处理效劳进程WEB及消息效劳器6能够实时持续的完成流式数据的计算处理具有实时性，低延迟特点与批计算相对应分布式数据库〔开源〕分布式数据库效劳器分布式noSQL数据库完成海量结构化数据的存储，具有容量大分布式易扩展性能好的特点8实施方案序号工作内容完成时间1.实施启动2017－7－25前2.部署并联调硬件〔安装操作系统〕及局域网网络，包括外接三线光纤网络2017－8－10前3.部署并联调x64forLinuxApache&Tomcat2017－9－15前4.部署并联调分布式文件系统〔S2DFS〕、部署分布2017－9－30前5.企业数据采集效劳、投资商数据采集效劳、采集任务管理、云数据存储、云中心监控功能开发2017-10-31前6.企业数据采购、投资商数据采购2017-10-31前7.试运行完成，工程验收2017-12-31前9技术规格偏离表名称序号磋商文件技术标准、要求响应文件中对应条款内容偏离技术支持资料索引xx大数据中心数据运营标准制定结合xxx的业务需要，根据招商大数据平台建设内容及招商业务的应用目标，参照业界大数据平台数据运营成功案例，制定招商大数据平台数据运营标准及相关管理规定，并详细提供标准所涉及业务表单、报告模板等资料。4.数据运营无偏离相关元数据标准制定及数据的采集、整理与存储根据招商局大数据平台数据分析的需要，制定相关数据的元数据标准，并完成与当前大数据平台的对接。根据所定义的元数据标准，完成数据源的定义与数据的采集，并整理形成标准数据。同时，结合招商大数据平台的数据分析特点，提出数据存储方案并实施。供给商需要对所采集数据的数据源进行可信度验证。数据采集范围包括但不限于世界500强、全国500强、行业20强企业相关数据。要求总数据容量至少到达30个T。其数据采集与存储必须满足海量数据处理的要求，其架构需要能够根据数据规模的增大而快速扩展。并根据数据采集、整理与存储管理的特点，提取形成数据运营要点。2.云数据采集中心3.大数据计算平台无偏离招商业务数据分析模型根据招商业务的需要，设计招商数据分析模型，并完成系统实现。该模型需要在招商大数据平台的数据集上进行测试与验证。企业数据模型投资商数据模型无偏离数据运营根据招商大数据平台数据运营标准相关要求至少进行三个月的数据运营效劳，并提供数据运营报告。验证数据运营标准的流程、优化数据模板，并形成特定的数据运营操作指南。数据分析处理的主要工作无偏离工程运维要求提供系统运维整体方案，包括运维效劳支持方案、针对不同问题的运维管理过程及运维支持人员信息。10售后效劳承诺11关于运行维护的承诺无偏离10售后效劳承诺〔1〕本工程应用系统从工程总体验收合格之日〔从双方代表终验签字之日起计算〕起，我公司提供所开发系统免费维护12个月。〔2〕在质量保证期内，我方提供技术效劳、升级效劳并负责对运行中出现软件故障进行处理，根据实际故障情况我方派员负责查找故障原因并将系统恢复到正常运行状态。在质量保证期内，我方向业主方提供7*24小时的效劳响应，保证业主方可以随时找到相应的技术人员，我方在接到用户、通知后，30分钟内响应，一般问题一天内解决，重大问题三天内解决。特殊情况无法修复的，质保期内我方无条件更换新软件；或采取使系统可正常运转的措施。〔3〕我方将长期提供优良的技术支持，保修期间的维护效劳不收取任何额外费用，保证期后，我方承诺仍根据合同要求向业主方提供技术效劳，并以合理价格提供软件功能改系统维护与支持的具体内容如下：支持我公司提供对应用系统的运行、维护提供24小时的实时技术支持。我公司提供热线或Email、等方式随时答复用户各种技术问题并在24小时内提出解决方案。故障响应7X24小时的实时故障响应。我公司在出现系统软件及应用软件等系统故障的2小时内给予响应，12小时内恢复运行。远程技术支持当系统出现故障，经用户许可后，我公司远程登录用户系统，进行故障分析、问题定位并提供解决方案。对系统进行的任何配置、数据改动及其它可能对系统和业务造成不良影响的操作，确保经用户确认后进行。定期跟踪工程验收完毕后，我公司将定期、现场跟踪系统使用情况，听取意见和建议，及时分析系统存在的问题，并随时给予解决。必要时，我公司将派遣技术人员去现场解决存在的问题。系统软件升级我公司将及时向用户通报系统软件升级情况，假设用户需要对系统软件升级，我公司会提供升级版本和相应的支持效劳。现场效劳当系统运行环境出现严重故障，或因更换效劳器等原因需要重新搭建系统时，我公司将及时提供切实可行的建议，通过远程支持不能及时解决问题时，派技术支持人员赶赴现场，协助用户完成故障排除、升级或迁移操作，对系统进行完整性检查并跟踪运行。11关于运行维护的承诺我公司承诺如假设我公司为成交供给商，在工程验收合格交付采购人使用后，1、为采购人免费提供运行维护的期限为：12个月；2、免费维护期过后每年对运行维护的收费比例为系统建设经费的15%；3、免费维护期过后，继续向工程单位提供产品维护、技术支持、产品升级等效劳，效劳价格双方根据具体情况进行协商。12保密措施及承诺一、相关信息和资料的定义本承诺书所称的“相关信息和技术资料”是指XXX大数据库中心数据库投资商和企业数据采集处理工程目的招投标向我公司提供的招标文件内容以及有关本工程实施过

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据采集处理项目-技术方案

文档简介

温馨提示

最新文档

评论

数据采集处理项目-技术方案

文档简介

温馨提示

最新文档

评论

相关文档