科研大数据平台项目_第1页
科研大数据平台项目_第2页
科研大数据平台项目_第3页
科研大数据平台项目_第4页
科研大数据平台项目_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、科研大数据平台项目技术建议书1 .概述1.1. 项目背景1.2. 需求分析1.3. 方案简述1.4. 方案价值2 .设计方案2.1. 设计原则2.2. 系统架构2.3. 分布式数据库系统 架构核心组件高可用高性能在线扩展高性能数据加载函数2.4. HADOOP 集群企业版分布式内存分析引擎 ASE分布式实时在线数据处理引擎流处理引擎2.5. 服务器虚拟化设计理念系统结构服务器虚拟化系统组成 2.6. 云管理平台 错误!未指定书签。浪潮云海OS架构图浪潮云海OS实现的功能2.7. 爬一虫软件13建设网络爬虫私有云 高效的分布式、协同化数据采集模式 爬虫路线规划能力14爬虫调度和负荷规划能力极致的

2、开放兼容平台 为什么需要开放的可集成的网页抓取软件 22集搜客网络爬虫的开放接口 3 .方案优势3.1. 浪潮MPP数据库优势 16高性能高性价比高易用性3.2. 浪潮 Hadoop优势3.3. 浪潮云计算优势运营效率提升服务水平提高实现数据中心的绿色节能 分工细化使得终端用户只需专注自身业务 降低总体拥有成本(TCO)可靠性提高性能弓虽大扩展性好可管理性4 .推荐配置1. 概述1.1. 项目背景通过本项目的实施与建设,在以服务科研工作为主导的原则下,基于高性能大数据软硬件设施,构建多样化、专业化、柔性化的科研数据服务应用平台。利用大数据技术, 满足不同层级用户的需求,达到改善我校的科学研究环

3、境与学科建设、提升我校的科研管理水平、提升我校针对物流行业的科研服务能力等目标。本项目分阶段实施,初期重点在于建立一个能满足业务需求的基于大数据的计算、存储以及通讯的硬件环境平台和数据管理架构。1.2. 需求分析要构建多样化、专业化、 柔性化的科研数据服务应用平台,现有架构很难承担日益增长的数据分析需求。迫切需要寻求一种全新的系统架构帮助我校满足日常业务及数据分析。并有效利用数据的价值,提高系统安全、系统高可用等。需求分析如下:? 寻求新的系统架构,从物理架构、数据架构、业务模型架构及应用架构等几方面满足业务需求。? 从全局及用户长远利益考虑,规划先进的大数据平台底层架构,满足大数据时代的业务

4、需求。? 保护用户现有资源,考虑系统现状以及现有资源利用等,在系统建设中,充分考虑现有资源利旧。? 系统多平台整合,建设统一的底层平台,提高系统安全等保级别,规避系统单点风险。1.3. 方案简述根据对背景及需求的分析,为了帮助我校能够更好地在大数据时代支撑大规模数据的应用,分别从物理架构及数据架构建设科研大数据平台系统。?物理架构:采用虚拟化技术,为客户打造 IaaS底层系统架构。? 数据架构:采用与客户习惯使用的SQL 这种更易于理解的、交互性更好的访问接口, 架构需要以MPP 数据库及计算框架为核心,将 MPP 运算调度引擎完全融入非关系型运算调度框架,实现可以同时调度关系运算和非关系运算

5、的调度引擎,构建统一的结构化信息提取和数据类型转换框架,将非结构化数据映射为关系模型,实现面向关系模型的全数据统一视图,从而平滑的实现MPP数据库和Hadoop的统一调 度和处理,为新型的基础软件平台和上层应用提供数据服务。1.4. 方案价值弹性扩展采用虚拟化技术做为底层资源抽象技术,为科研大数据平台动态提供基础计算、存储、 网络资源,同时运用云平台计算技术为云数据中心提供统一的管理和运维平台,实现资源弹性服务、流转和管理。动态资源分配云计算被认为是分布式处理、并行处理以及网络计算的进一步发展,其使用虚拟机力度方式,根据应用的动态对资源进行增删。快速响应以并行计算为核心,按需调度计算任务分配和

6、计算资源,并提供从数据导入整合处理、 计算模型设定到计算结果输出、多形式展现、应用 API 等完整的数据处理服务。高可用采用分布式存储系统,数据互备,快速备份和恢复。支持各种数据处理、计算模型,满足不同领域、不同特点的计算需求。多副本容错,数据安全无忧。数据分析构建大数据存储应用平台,围绕大数据应用构建大数据处理基础软件平台的关键问题是如何解决结构化和非结构化不同类型的数据融合,以及实现不同类型数据处理模式的整合。单一的MPP数据库或Hadoop产品已经很难满足研究所对结构化和非结构化数据融合的业务需求。应用云云计算并不是一个突兀全新的理念,云计算的快速发展,是需求驱动、技术进步和商业模式转变

7、共同发展和促进的结果。随着我校大规模计算和海量数据存储需求的出现, 使得科研大数据平台对IT 基础设施的需求也随之增长。云计算技术的应用能够给我校在节约投资、节省空间、简化管理、数据高度共享和系统高度可靠等方面提供帮助。因此, 本方案的核心价值在于将这两种方式的界限在实际应用部署中打破,形成以全数据处理为核心,垂直整合操作系统、MPP数据库、Hadoop、统一数据服务的基础软件平台解决方案。2. 设计方案2.1. 设计原则为保证科研大数据平台项目建设的成功,在技术方案中我们主要遵循了以下几个原则:? 先进性与成熟技术的集合:在设备选型设计中,我们要考虑采用当今业界的主流技术,同时要选用在众多关

8、键领域中已经得到充分验证的产品,以保证系统的更高的可靠性和可用性;? 高效的可管理性:对于日益复杂的IT 系统架构,对系统的管理要求越来越重,浪潮所推荐的解决方案整体的设计思想是利于以后的管理;? 性能价格比:保证充分满足用户的性能的同时,考虑最优的性价比;坚持系统建设投资经济合理性的原则;? 高可靠性:全冗余设计,避免任何的单点故障,以保证系统的可靠性,同时便于维护,减少计划内停机次数;? 高安全性:保证系统数据的安全,做到重要数据冗余存储,提供备份、容灾及应急设计;? 平滑扩展性:基于统一标准设计的硬件平台架构,具有平滑扩展的能力,可在未来方便的根据客户需求增添新的硬件;? 开放性与标准化

9、:采用标准的技术以保证与其他厂家的产品相兼容;? 产品利用率:考虑现有设备的使用情况,提高产品的利用率。降低总体拥有成本、提升服务水平、管理系统风险是整个硬件平台方案的设计战略思想。 本次设计满足当前阶段应用需求的同时,具备升级扩容能力,继续满足下一阶段的应用需求。2.2. 系统架构2.3. 分布式数据库系统2.3.1. MPP + Share Nothing 架构分布式数据库采用完全并行的MPP + Share Nothing 的分布式扁平架构,这种架构中的每一个节点(Node )都是独立的、自给的、节点之间对等,而且整个系统中不存在单点瓶颈,具有非常强的扩展性。2.3.2. 核心组件分布式

10、数据库产品总共包含三大核心组件,即GCluster、GCware和GNode。GCWare用于各节点GCluster和GNode实例间共享信息,GCluster负责集群调度, 每个GNode就是最基本的存储和计算单元。GCluster:GCluster负责SQL的解析、SQL优化、分布式执行计划生成、执行调度。GCWare:GCWare用于各节点GCluster和GNode实例间共享信息(包括集群结构,节点状态,节点资源状态等信息),以及控制多副本数据操作时,提供可操作节点,并在多副本操作中,控制各节点数据一致性状态。GCWare对于集群的管理工作是以节点为基本单位的。GNode:GNode是

11、GCluster中最基本的存储和计算单元。GNode是由GCWare管理的一个8a实例,每个 GCluster节点上有一个 GNode实例运行。GNode负责集群数据在节点上的实际存储,并从 GCluster接收和执行经分解的SQL 执行计划,执行结果返回给GCluster。数据加载时,GNode直接从集群加载服务接收数据,写入本地存储空间。2.3.3. 高可用分布式数据库通过SafeGroup组内冗余机制来保证集群的高可用特性:?每个SafeGroup可提供1个或2个副本数据冗余;? SafeGroup 内数据副本自动同步;? 复制引擎自动管理数据同步;?采用扁平架构,每一个节点都可以充当主

12、控节点,避免了Master节点产生的瓶颈以及当Master与Stand-by宕机产生的整个集群不可用。2.3.4. 高性能在线扩展分布式数据库具备在线扩展技术:通过SafeGroup动态扩展集群节点,实际可扩展到 64(192)个节点;每个节点可以处理100 TB 有效数据,同时提供计算和存储能力;GCware 负责新节点的数据同步。因为浪潮分布式数据库采用高性能单节点的MPP 扁平架构,因此进行集群扩展时,可以保证平滑扩展和性能的线性增长特性。2.3.5. 高性能数据加载数据加载功能作为浪潮分布式数据库的一部分而存在,目的是将用户从其他数据源得到的原始数据文件,按照某种加载规则分发至集群节点

13、,集群各节点接收数据入库保存到本地磁盘。分布式数据库支持数据高效并行加载,数据加载速度随节点的扩展而呈现线性增加。集群加载采用C/S 架构,包括数据分发服务器和数据分发客户端两个应用程序。数据分发服务器接收到客户端的数据加载请求后,服务器端负责原始数据文件切分和数据文件的下发;各节点调用本地的集群加载服务接收数据入库并保存到本地磁盘。2.3.6. OLAP 函数分布式数据库提供OLAP 函数, 用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。可根据分析人员的要求,快速灵活地进行大数据量的复杂查询处理,以便他们准确掌握企业的经营状况,了解被服务对象的需求,制定正确的方案。2.4.

14、 Hadoop 集群Hadoop技术给客户提供稳定的、可靠的、易用的大数据设计架构,其组件包括:: Hadoop企业版,HIVE分布式内存分析引擎,HBASE分布式实时在线数据处理引擎 和Stream流处理引擎。其特点如下:2.4.1. Hadoop 企业版Hadoop企业版具有高模块化和松耦合的五层架构,针对不同的应用领域通过组件之间的灵活组合与高效协作来提供定制化的支撑。? 数据存储层:基于HDFS 2.2的大数据存储和在线服务体系,支持 Erasure Code在副本数降低至 1.5倍的情况下,提高了可靠性,可同时容忍四个数据块丢失,支持可靠存储TB级到数十PB 级的数据量。? 资源管理

15、层:缺省采用下一代资源管理框架YARN 进行资源的分配和调度,支持同时运行多个计算框架。? 计算引擎层:采用Map/Reduce 2完成大部分离线批处理计算任务。? 数据分析与挖掘层:支持离线批量SQL 统计,支持R 语言以及机器学习算法库Mahout。? 数据集成层:Sqoop支持从DB到Hadoop的数据迁移,Flume支持从日志系统采集数据。2.4.2. HIVE 分布式内存分析引擎HIVE 内存分析引擎提供大数据的交互式SQL 统计和 R 语言挖掘能力。它具有以下一些特点:? 高性能:HIVE 支持将二维数据表缓存入独立的分布式内存(或SSD) 中, 建立列式存储、分区/分块和索引,采

16、用改进后的Apache Spark作为执彳T引擎,SQL执行性能比Apache Hadoop/Hive 快 10100 倍左右。? 更强的 SQL 支持:HIVE 同时兼容Oracle PL/SQL 和 HiveQL 语法,自动识别不同语法,支持存储过程和函数,支持常用 Oracle扩展函数。完整的SQL支持帮助用户平滑地从原有关系数据库迁移到大数据平台。? 更强的统计分析能力:用户可以通过RStudio或者R命令行访问存储在分布式内存中的数据,R语言中数千个统计算法可以和浪潮HIVE 提供的分布式并行数据挖掘算法交替混合使用,为各行业进行大数据挖掘提供了易用而强大的分析工具。? 支持广泛的B

17、I 和报表工具:HIVE 可以和常用的BI 工具对接,包括Tableau, SAP Business Objects, OracleOBIEE 等,用户无需编程就可以方便地为大数据创建美丽的报表,通过浪潮HIVE提供的高速大数据统计分析能力提高决策效率;? 高扩展能力:Inceptor可以随着集群规模的扩展,线性扩展处理能力,可以支持从 GB到数百 TB 的数据处理。2.4.3. HBASE 分布式实时在线数据处理引擎HBASE实时在线数据处理引擎以 Apache HBase为基础,是企业建立高并发的在 线业务系统的最佳选择。它有以下特点:? 多种数据类型支持:HBASE 支持从 GB 到数十

18、 PB 数据的处理,支持广泛的数据类型,包括对结构化记录、半结构化文本、图数据、非结构化数据(图片、音频、二进制文档等)的存 储、搜索、统计和分析。? 高速数据处理能力:HBASE 支持高速的数据检索、搜索和统计;根据索引进行检索的延时在数毫秒到数百毫秒量级;支持上亿的并发用户同时进行数据插入、修改、查询和检索;支持对文本建立增量全文索引并且支持秒级的全文关键字搜索。? 高效 OLAP 和批量统计:HBASE 为 HIVE 引擎提供高效数据扫描接口,通过HIVE 的扩展 SQL 语法,充分利用浪潮HBASE 的内部数据结构以及全局/辅助索引进行SQL 执行加速,可以满足高速的OLAP 数据分析

19、应用需求;同时也支持高速的SQL 离线批处理,性能接近于存储在HDFS 上的相同数据的统计。? 高效图计算:HBASE提供构造图形的API,帮助用户构造由上亿顶点组成的复杂大图,同时 提供专有的高效图算法,包括关联网络的高速分析。2.4.4. Stream 流处理引擎Stream实时流处理引擎以 Spark Streaming为基础。Spark Streaming提供了强大的流计算(Streaming)表达能力,支持DAG (有向无环图)计算模型;而 Hadoop类的批处理系统只能通过外围组件连接多个批次的作业完成复杂多阶段作业处理,系统复杂而低效。Streaming中的复杂应用逻辑以DAG形

20、式的服务常驻在集群内存中,生产系统的消息通过实时消息队列进入计算集群,在集群内以Pipeline 方式被依次处理,完成ETL、特征提取、策略检查、分析告警等复杂服务计算,最终输出到HBase等存储集群、告警页面、实时展示页面等。系统具备强扩展性、强容错、低延迟、高吞吐等特点,成熟应用于传感器网络数据处理、服务监控、反作弊、实时报表系统等业务。Streaming支持Kafka, Flume等常见消息队列或采集工具。2.5. 服务器虚拟化2.5.1. 设计理念浪潮云海?服务器虚拟化系统是浪潮云计算解决方案的核心基础,主要负责完成底层物理资源的虚拟融合、按需分配与高效管理,可以显着提高资源交付的敏捷

21、性和灵活性, 提升资源的使用效率,为上层业务提供不间断地资源保障与可伸缩的资源供给。浪潮云海?服务器虚拟化系统为计算、存储和网络提供了完整的虚拟化解决方案,支持资源的灵活分配、动态组合、在线调整与智能调度,并以虚拟机或虚拟集群的形式将最终资源呈现给用户。该系统既可以单独使用,也可以配合浪潮云计算管理平台来构建更大范围的云数据中心或者IaaS系统,同时本系统还提供了开放接口,支持二次开发,方便与其他管理平台整合。在设计理念上,整个系统遵循了以下几个原则:? 命令查询职责分离(CQRS)CQRS 原则基于一个简单的事实:资源(对象)的行为只有两种,即命令(Command)和查询(Query)。命令

22、可以改变资源的状态,而查询不会。基于这一原则, 系统可以分为两个部分,命令部分和查询部分,并采用不同的技术加以实现和优化,简化整个系统的设计,提升整个系统的性能和可维护性。 ? 独立的认证服务 服务器虚拟化是一个复杂的软件系统,由多个不同功能的模块组合而成,安全认证是每个模块必须的逻辑。独立的认证服务从系统层面划分出来一个切面,实现集中式的认证管理,其他模块只需与认证服务交互,将复杂的认证过程交由认证服务处理,这一过程对模块而言是透明的。独立的认证服务对于实现SSO和系统集成具有重要的意义。? 独立的监控服务系统状态是进行决策的数据基础,这些数据多数是由监控服务提供的,监控服务几乎存在于任何大

23、型的软件系统之中。浪潮服务器虚拟化系统将监控服务剥离出来,以易复用、易扩展、 轻量级为目标独立发展,使其可以在不同的系统中提供监控服务。监控服务为服务器虚拟化系统监控资源状态提供了极高的灵活性和扩展性,大大缩短了系统故障的排查时间。? 业务数据与监控数据分离业务数据与监控数据的分离,主要体现在存储、UI 显示以及持久化三个方面。从存储方面来说,业务数据和监控数据的分离主要体现在存储方式,前者存到关系数据库,后者存到NOSQL 数据库。从UI 显示来说,UI 显示的主要是业务数据,通过查询关系数据库获取,而对于监控数据,则通过查询NOSQL 数据库中获取告警信息。从持久化方面的讲,业务数据具有关

24、系性强和逻辑紧密,体现用户的业务需求,需要较高的可靠性和稳定性,因此需要持久化到关系型数据库中较为合适,这样既保证了业务关系又确保了数据的稳定性;而监控数据强调实时性,体现被监控对象的当前状况,数据关系性不强,结构单一,而且不需要进行持久化,因此使用易扩展、可用性高的内存型数据库来存储这类数据比较合适,以最大程度保证数据的实时性。? 资源操作与资源状态维护分离资源操作与资源状态维护分离主要体现在虚拟机的管理上,资源操作基于业务流程,而资源状态维护基于事务的原子操作实现,例如通过监控数据更新虚拟机状态,并维护数据的一致性。这种机制在虚拟机管理中体现最为明显,主要包括状态切换和虚拟机并发操作处理。

25、首先, 对于状态切换失败处理,如果当前存在其他工作流正在处理当前虚拟机,将终止整个工作流并记录失败原因;否则强制同步业务状态,使之与监控状态相同,然后终止整个工作流并记录失败原因。其次, 阻止对同一个虚拟机的并发操作,以避免上述的第一个可能分支出现。2.5.2. 系统结构服务器虚拟化系统可分为四个层次,分别为虚拟层、应用层、展示层、运维层,虚拟层是整个系统的基础,在虚拟层之上构建了应用层,实现高级的业务逻辑,展示层用于对外交互,为了便于系统运维,专门划分了运维层,涵盖系统的安装、部署和安全管理。虚拟层直接构建在物理硬件之上,在功能上主要是完成物理资源的池化与重新组合:基于Hypervisor

26、实现计算资源的池化,基于分布式存储/集中式存储实现存储资源的池化,基于虚拟交换机和虚拟路由器实现网络资源的池化,经由这几种技术形成了统一的计算池、存储池和网络池,在此基础之上通过按需组合构建虚拟主机和虚拟集群对外提供服务。虚拟层同时提供了资源调度(DRS/DPM/HA) 、镜像管理和资源管理等功能,为上层实现高级功能提供支持。应用层基于虚拟层构建高级功能,通过组合虚拟层的功能模块支撑系统的业务逻辑实现, 这些主要的业务逻辑包括系统任务管理、物理资源管理(主机、 存储、 网络) 、系统配置、虚机、模板管理以及容灾备份等,这些高级功能全部封装在应用层实现。展示层是系统对外的交互接口,提供 WEB

27、GUI 界面和 API 接口两种形式,方便系统集成和二次开发;在运维层,提供资源访问控制、PXE 安装和在线升级等功能,简化系统运维。2.5.3. 服务器虚拟化系统组成上图中计算资源和存储资源均由控制中心统一控制与管理。服务器虚拟化系统包括三条通信链路:控制网,用于控制中心与各计算节点、存储节点及文件系统主控间传输资源信息与控制指令;数据网, 连接计算节点与存储系统,用于传输虚拟机正常所需的存储数据;业务网,资源租户及云业务用户通过此网访问虚拟机及部署在虚拟机里的业务,业务网通过VLAN 等技术实现隔离。2.6. 云管理平台浪潮云海OS 是浪潮自主设计的系统架构,自主研发的国产云资源管理平台,

28、支持底层VMWare vSphere平台及浪潮自研虚拟化产品iVirtual的异构虚拟资源池,对 已部署的vSphere环境无需停机即可被云海 OS接管,实现对现有vSphere环境的无 缝兼容,实现安全可控。浪潮云海OS 的架构秉承模块化设计理念,结合浪潮对云数据中心客户需求的理解,以超越用户所想,提供超值的用户体验而完成的系统设计。2.6.1. 浪潮云海OS 架构图2.6.2. 浪潮云海OS 实现的功能云资源管理( 1) 资源池管理:通过添加vCenter/iVirtual 将多个异构资源池整合成一个更大的资源池,进行统一管理和资源分配。资源池管理包括对资源池的扩充和缩减,暂停使用某些资源

29、等操作。( 2) 资源池集群管理:集群是云资源的载体,是资源池分配的组成单位。通过集群管理功能实现为不同用户提供不同等级的资源服务,扩充资源池容量。可重新导入资源池的新增集群,也可暂停在某些集群上新建虚拟数据中心及应用服务。( 3) 虚拟数据中心管理:虚拟数据中心(vdc)界定了组织能够使用资源的范围,组织管理员可将vdc 资源分配给组织内用户。虚拟数据中心管理包括创建、导入,暂停使用、重新启用等操作。( 4) 虚拟网络管理:虚拟网络允许组织及组织用户像定义物理网络一样定义组织自己内部的网络,以及与组织外网络的连接方式,包括直连、NAT 等,组织内部网络的地址分配、VLAN 划分等。( 5)

30、应用服务管理:应用服务(vApp)是指提供某种服务的一个或多个通过特定网络连接在一起的虚拟机集合。可通过服务模板、新建虚拟机2 种方式创建应用服务。操作包括开启、关闭、重启、删除、复制、更改所有者、导出为模板等操作。( 6) 虚拟机管理:单独对组成vApp 的虚拟机操作。功能包括虚拟机控制台、开启、关闭、重启、挂起、恢复、删除、快照、复制、移动至其他应用服务中、导出 为模板等操作。( 7) 模板/镜像管理:通过 FTP 方式将应用服务模板或操作系统安装镜像上传至组织存储空间下,用于部署应用服务和安装操作系统,也可将服务模板和镜像文件共享给其他组织使用。业务管理(1) 业务审批:审批系统用户提交

31、的虚拟数据中心 (vdc)、虚拟网络、虚拟应 用(vApp)申请。( 2) 业务流程管理:审批流程引擎实现虚拟数据中心、虚拟网络、虚拟应用服务审批流程的自定义。( 3) 审批历史查询:查询每个订单的详细信息,包括订单内容,审批流程上的各节点的审批情况,包括审批人、审批时间和是否通过等。计费管理( 1) 计费设置:设置用户帐户余额的提醒周期及提醒方式(邮件、短信);定义资源单价(元/资源度量单位/小时)。( 2) 计费等级:资源按一定标准分为不同的等级,各等级的资源计费系数不同, 组织分为不同的等级,不同等级的组织计费系数也不同;系统可自行设置资源等级、组织等级对应的折扣率,从而为不同的用户提供

32、不同的等级的服务。( 3) 组织账户充值:为组织账户充值,并可查询充值历史。( 4) 查询组织账户余额:查询各组织的帐户余额。( 5) 询组织账单:查询组织每月的消费金额及费用明细。管理监控( 1) 监控视图:显示服务器、网络设备、数据库、操作系统、web 服务、虚拟化资源组及组内各节点的状态统计信息。( 2) 资源管理:开启、关闭、重启服务器组内所有机器或某些服务器;配置服务器BMC信息;获取并显示网络设备、数据库、 web服务、操作系统、虚拟化资 源的相关状态参数信息。( 3) 节能管理:节能管理在不影响正常业务的情况下,通过降低服务器CPU频率来降低服务器组或服务器的能耗。功能包括节能策

33、略制定及服务器组或服务器的能耗曲线显示。( 4) 告警分析:分时段显示服务器、网络设备、数据库、操作系统、web 服务、虚拟化资源等的各监测器返回的异常告警信息。( 5) 报表中心:图表显示服务器、网络设备、数据库、操作系统、web 服务、虚拟化资源等的资源状态统计、各监测项状态。( 6) 系统配置:监控管理功能模块的基础性配置。如添加资源(服务器、网络设备、操作系统、web 服务、数据库、虚拟化资源、) ,为资源选择添加监测项,通知时间表设置,告警通知联系人设置,备份与恢复当前的监控管理配置信息。系统管理(1) 组织管理:组织是用户的集合,是虚拟数据中心(VDC)及vApp的所有者,也是资源

34、使用费用的承担者。组织管理功能包括添加组织、编辑、启用、禁用、 删除等操作。( 2) 用户管理:系统管理员管理各组织的组织管理员,各组织管理员管理其组织内部的组织用户。用户管理操作包括:添加、删除、修改基础信息、重置密码、启用、禁用等操作。( 3) 角色管理:角色是系统操作的集合,界定了相同角色的用户拥有的操作权限范围。角色管理包括:添加、编辑、删除等操作。4)日志查询:根据时间、组织、用户、操作对象等条件查询相关联的操作记 录。(5) 系统设置:配置系统发送提醒、告警类信息的邮件、短信信息。导出、 删除日志,设置日志停留时长。(6) 序列号管理:系统序列号分为正式序列号和试用期序列号,序列号

35、到期 后,系统将无法使用,需重新注册。(7) LDAP管理:云管理平台可与用户现有的LDAP系统集成,实现基于LDAP 的身份验证访问机制,LDAP的用户可作为云平台的用户来管理或使用云资源。云管理平台为客户带来的收益使用浪潮云海?云数据中心操作系统,客户可以获得以下收益:?节约软件采购及服务成本浪潮提供云数据中心整体解决方案,减少项目集成费用。全国产的云管理平台, 相对于国外产品价格相对较低,相对于基于开源的云管理平台,浪潮云海云数据中心 管理平台更加安全、稳定。?管理运营效率提升云数据中心管理平台集成虚拟化管理及服务器、网络设备等硬件设备和操作系 统、web服务、数据库等中间件的监控与管理

36、功能,几乎涵盖了数据中心所有的可管 理对象范畴,一套系统即可运营整个云数据中心。云数据中心管理平台能够实现对多虚拟化平台的统一管理。通过将多虚拟化平台 集中到统一管理门户,形成一个大的资源池,有效解决异构资源池管理问题。?服务水平提高浪潮云海云数据中心管理平台实现基础设施资源的服务化 (IaaS),以应用服务形 式对外提供服务,利用服务模板可实现业务的快速部署,显着缩短应用系统上线时间, 帮助客户快速实现自身价值。2.7.爬虫软件2.7.1. 建设网络爬虫私有云GooSeeker网络爬虫软件由两部分组成:网络爬虫云服务器、网络爬虫执行单元。2.7.2. 高效的分布式、协同化数据采集模式集搜客G

37、ooSeeker用户无论分布在哪里,都可以享受集搜客网络爬虫的服务,在 线版用户可以创立一个工作组,邀请其他在线版用户加入工作组,为相同的采集目的协同完成数据采集任务。企业版将这个能力完全开放,可以完全控制和管理分布式和协同化数据采集模 式。在企业内部可以划分成多个工作组工作组可以用后台管理程序随时根据工作目标直接创建工作组大小不受限制工作组的划分和管理完全受控GooSeeker网络爬虫可以由服务器统一调度,企业版可以用定制开发的更周密的 负荷分担算法控制每个网络爬虫的运行,而且根据网络爬虫的运行状态合理调配工作 量,对于失败的网络爬虫可以及时予以隔离,甚至在其他网管系统的辅助下,监控网 络爬

38、虫计算机各个层面的运行状况。2.7.3. 爬虫路线规划能力集搜客GooSeeker网络爬虫沿着线索扩展爬行范围,而且不限广度和深度。免费 在线版用户在MS谋数台的爬虫路线工作台上规划爬虫路线,主要能力就是:从抓取 到的网址上建立下一级线索,这是深度方向,同时抓取到的下级线索不只一个, 那么 就是在广度方向进行扩展。总之,网络爬虫抓取网页数据的时候,把一些网址作为广度或者深度方向扩展的 线索。免费在线版只能在定义抓取规则的时候规划爬虫路线;而企业版可以有更多规划爬虫路线的选择。在抓取结果清洗和入库的时候在深度和广度方向生成线索,这是企业版常用的方式,此时,企业版GooSeeker具有最大的灵活性

39、和控制力,比如,可以用入库脚本程 序任意控制爬虫路线的生成,可以替换URL中的参数,可以根据URL地址规律批量 生成网址,可以在一批网址中根据一定规则进行筛选等等。最大的灵活性在于爬虫路线的生成时间。 当网页抓取用于探索性研究的时候, 可 以根据需要随时延伸爬虫深度和广度范围,不必在第一次数据清洗过程就把所有线索 都生成好了,其实那时可能还不知道是否有必要做爬行范围延展。而且也容易实现同 一个网址用于多个抓取主题,分别为不同的研究目的服务。2.7.4. 爬虫调度和负荷规划能力集搜客GooSeeker网络爬虫是一款高性能网络爬虫软件,多台计算机可为同一目标协同工作,同一台计算机上能运行多个线程并

40、行抓取网页。那么就需要规划每个网络爬虫线程的工作内容和工作负荷,以及启动和停止时间等等。免费在线版GooSeeker网络爬虫主要依赖周期Tt网页抓取调度文件crontab.xml管理网络爬虫,比如,一台计算机上启动多少个线程,每个线程在什么时间启动,每 一批包含多少网页,抓取什么主题,按照什么顺序等等。crontab.xml文件是预先生成 好的,比如,使用crontab.xml生成器。预先生成的缺点是调度爬虫不够灵活,如果 爬几十个网站,这个缺点并不显着,如果要爬几百上千个网站,要把所有的网站目标 都编制到crontab文件,将是十分繁琐的。企业版GooSeeker网络爬虫可以接受服务器下发的

41、任务安排,也就是 crontab文 件中的每个step都可以通过云服务器下发下来,那么在云服务器上可以实现一个复杂 的调度和负荷规划程序,配以爬虫管理程序,能够细致地为每个爬虫安排合适的抓取 任务。2.7.5. 极致的开放兼容平台. 为什么需要开放的可集成的网页抓取软件如果网络爬虫只是大型IT系统的一个模块,集搜客GooSeeker网络爬虫能否无 缝地集成到各种IT系统中?此类IT系统对网络爬虫的需求主要包括: IT系统可以控制网络爬虫的爬行范围 IT系统可以控制网络爬虫什么时候启动,每次抓取的批次大小等 IT系统需要及时获得爬取结果,由IT系统负责内容管理、数据挖掘等信息处理过

42、程 IT系统能够监控爬虫的成功率,可及时修正失败状态,比如,重新启动抓取失败的线索. 集搜客网络爬虫的开放接口显然,一个封闭的网络爬虫软件不能满足上述需求,而集搜客网络爬虫提供标准的开放的API接口,也可以直接从数据库层面进行对接,完美解决无缝集成问题。3. 方案优势3.1. 浪潮 MPP 数据库优势3.1.1. 高性能? 列存储技术在大大减少I/O 的同时 ,能显着提高查询性能;? 智能索引大幅提高查询性能;? 高速的数据加载性能;? 高效的并行SQL 执行计划。3.1.2. 高性价比采用多种压缩技术,减少存储数据所需的空间,可以将所用空间减少1 20倍,并相应地提高了I/O

43、性能;采用高压缩技术,能显着减少存储开销,从而帮助客户减少了数据库整体投入成本。3.1.3. 高易用性易于实施和管理,只需要传统数据库1/10 的管理成本,与主要商业智能工具兼容,如Cognos、 SAP BO、 BIEE、 SAS、 SPSS。3.2. 浪潮 Hadoop 优势? 支持高性能交互式数据分析,无需等待,实时生成统计结果。性能比开源Hadoop产品快10到100倍;? 提供 PL/SQL 以及 R 语言,支持更强的统计分析能力,应用迁移非常方便;? 支持广泛的BI 和报表工具,无需编程,方便应用迁移。3.3. 浪潮云计算优势方案中虚拟化软件采用浪潮云海Incloud Sphere

44、,国产自主研发,并具备当下最主流先进的虚拟化功能。云管理平台部分采用浪潮云海Incloud Manager, 全自主知识产权,突破了云数据中心资源管理、调度、多资源池融合等多项核心技术,实现了真正的安全可控。3.3.1. 运营效率提升通过云海实现系统的搭建与部署,大大提高运营效率。其工作效率的提升不是以百分之多少来衡量的,而是几倍甚至数十倍的提升。传统的一个操作系统的准备物理环境可能需要几个小时甚至几天,而虚拟化的环境只需要十几分钟。事实上, 只需要人工的几个鼠标点击。其余的时间都是系统自动工作而不需要人工的干预。最快的时候,搭建一个数百操作系统的应用人工也只需要配置十几分钟。虚拟层会自动的根

45、据模版生成你需要的工作环境。3.3.2. 服务水平提高云计算环境可以很容易的帮助企业建立业务和IT 资源之间的关系,使各种应用和企业的苛刻的业务条件能一一对应。从整个数据中心的视图来看,云数据中心管理平台可以将所有的物理服务器作为一个大的资源池进行统一的管理,并可以按需的自动进行所有运算资源的人工或自动调度。因为所有的硬件资源与客户的应用及操作系统隔离,今后不论是物理主机的更换还是存储的升级,均可以实现应用的零宕机。也许以前的维护需要几天甚至几周的时间变更管理准备。但现在这个时间被大大的缩减甚至不需要了,我们所有的资源都可以无中断的按需扩容。3.3.3. 实现数据中心的绿色节能云海的节能控制功能,能够根据业务负载,自动调整虚拟资源在物理资源上的分布, 实现物理资源的动态伸缩,有效降低数据中心的能耗,实现数据中心的绿色低碳和节能环保。3.3.4. 分工细化使得终端用户只需专注自身业务云海使得普通用户无

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论