河南省农村信用社_第1页
河南省农村信用社_第2页
河南省农村信用社_第3页
河南省农村信用社_第4页
河南省农村信用社_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 河南省农村信用社河南省农村信用社扩容扩容大数据平台大数据平台扩容扩容相关节点授权相关节点授权项目项目大数据平台扩容大数据平台扩容节点节点授权授权联合社应用系统监控(二期)联合社应用系统监控(二期)单一来源采购单一来源采购采采 购购 文文 件件项目项目采购编号:采购编号:YXZ-2019-3122 号2 采购人:采购人: 河南省农村信用社联合社河南省农村信用社联合社招标代理:招标代理:河南豫信招标有限责任公司河南豫信招标有限责任公司日期:日期:二二一九年元月一九年元月二二一九年三月一九年三月目目 录录第一章第一章 单一来源采购邀请函第二章第二章 单一来源采购须知及须知前附表3第三章第三章 采

2、购内容与要求第四章第四章 附件4第一章第一章 单一来源采购邀请函单一来源采购邀请函河南省农村信用社大数据平台河南省农村信用社大数据平台扩容扩容相关节点授权相关节点授权扩容扩容项目项目项目项目单一来源采购邀请函单一来源采购邀请函采购编号:YXZ-2019-3122_ _星环信息科技(上海)有限公司星环信息科技(上海)有限公司_:河南省农村信用社联合社拟就河南省农村信用社大数据平台扩容相关节点授权扩容项目扩容项目进行采购,现委托河南豫信招标有限责任公司对该项目进行单一来源采购,现诚邀贵公司参与该项目单一来源采购商务谈判。请贵公司收到本邀请后,认真阅读本邀请的各项内容,进行必要的准备,准时参加会议。

3、一、采购内容河南农信大数据平台生产环境 90 个节点的授权。包括星环极速大数据平台软件TDH5.0(含 TOS)所有产品组件和工具,以及实施技术服务(包括但不限于根据双方约定要求在该软件基础上进行客户化开发、测试、试运行上线,并提供安装调试、升级、投产支持等服务) ,具体包含 90 个节点生产环境 TDH5.0(含 TOS)企业版产品组件和相关工具,包括核心产品Inceptor、Slipstream、Hyperbase、Discover、Search、Sophon,大数据开发工具集Studio(元数据管理 Governor、工作流 Workflow、数据整合工具 Transporter、Cub

4、e设计工具 Rubik、报表工具 Pilot、日志处理工具 Milano) ,安全管控平台 Guardian 和管理服务平台 Manager。此次采购节点授权数量内 Waterdrop 和 Midas 产品组件和工具的使用不受 LICENSE限制。实施及技术服务。在保证原有平台的兼容和稳定性的前提下完成对新增 90 台节点的部署,并保证兼容性和稳定性,使原大数据平台平稳扩容。技术服务包括但不限于根据双方约定要求在原有大数据平台基础上进行客户化开发、测试,试运行上线,并提供安装调试、升级、投产支持等服务。4.版本更新。供应商承诺免费升级为 TDH6.0 版本。一、采购内容5河南农信大数据平台生产

5、环境新增的 90 个节点的授权。包括星环极速大数据平台软件 TDH5.0(含 TOS)所有产品组件和工具,以及实施技术服务(包括但不限于根据双方约定要求在该软件基础上进行客户化开发、测试、试运行上线,并提供安装调试、升级、投产支持等服务) ,具体包含 90 个节点生产环境 TDH5.0(含 TOS)企业版产品组件和相关工具,包括 Inceptor、Slipstream、Hyperbase、Discover、Guardian 和Manager,Waterdrop、Transporter 、Milano 等组件,提供全套大数据平台产品TOS。 本项目通过建立面向服务质量的监控,以部分关键业务流程为

6、监控目标,通过监控采样业务执行数据流、响应情况,对业务系统可用性和运行健康情况进行监控和预警,主要包括将新增的 16 个系统纳入应用系统监控系统及一期项目的迁移、优化工作,具体内容见第三章项目内容和要求 。二、响应文件内容受邀人应仔细阅读本次单一来源采购文件的所有内容,按单一来源采购文件的要求提供响应文件,并保证所提供的全部资料的真实性。任何对单一来源采购文件的忽略或误解不能作为响应文件没有完全响应单一来源采购文件的有效理由。响应文件由以下文件组成:报价表(格式见附件一)法定代表人授权书(格式见附件二) ;公司一般情况(格式见附件三) ;营业执照、组织机构代码证、税务登记证的正、副本复印件(加

7、盖公章) ;。法定代表人身份证复印件、授权代表身份证复印件。三、领取采购文件的时间及地点:时间:2019 年 13 月 xx20 日起,每天上午 8:3012:00,下午 15:0017:00 地点:河南豫信招标有限责任公司(郑州市郑东新区 CBD 外环商务西七街 3 号中华大厦 19 层 1907 房间)采购文件 500 元/份。四、单采响应文件的递交及协商时间及地点递交单采响应文件及协商的地址:河南豫信招标有限责任公司 1625 会议室(郑州市郑东新区商务外环西七街 3 号中华大厦 16 楼 ) 。6递交单采响应文件及协商的截止时间:2019 年 13 月 6XX27 日上午 9:0030

8、(北京时间) 。五、联系方式采购人:河南省农村信用社联合社单位地址:郑州市郑东新区农业东路 99 号。 联系人:王老师联系电话标代理机构:河南豫信招标有限责任公司联系人:王品 联系电话:037163911057电子邮箱: 2019 年 13 月 203 日第二章第二章 单一来源采购须知及须知前附表单一来源采购须知及须知前附表一、单一来源采购须知前附表一、单一来源采购须知前附表序号内 容说明与要求1项目名称:河南省农村信用社大数据平台扩容相关节点授权扩容项目项目72采购人采购人:河南省农村信用社联合社地 址:郑州市郑东新区农业东路 99 号。 联系人:王老师联系电话:1

9、58381059273采购代理机构名称:河南豫信招标有限责任公司地址:郑东新区商务外环 3 号(商务西七街)中华大厦19 楼 1907 室联系人:王女士电话:0371-639110574采购编号YXZ-2019-31225资金来源自筹资金6采购预算553.5 万元 130560 万元7采购范围河南农信大数据平台生产环境新增的 90 个节点的授权。本项目通过建立面向服务质量的监控,以部分关键业务流程为监控目标,通过监控采样业务执行数据流、响应情况,对业务系统可用性和运行健康情况进行监控和预警,主要包括将新增的 16 个系统纳入应用系统监控系统及一期项目的迁移、优化工作,具体内容见第三章项目内容和

10、要求 。8响应文件份数正本 1 份,副本 2 份。9响应文件的装订响应文件应装订成册,不得采用活页夹。10响应文件的签字或盖章响应文件应由供应商加盖单位公章,法定代表人盖章或签字或经法定代表人委托的代理人盖章或签字。11响应文件的密封1、供应商应将单采响应文件正本和副本密封在一个包装内。2、包封上应写明:项目名称:河南省农村信用社大数据平台相关节点授权扩容项目河南省农村信用社联合社大数据平台扩容项目供应商名称:(加盖企业公章)响应文件递交截止时间前不得启封812递交响应文件地点河南豫信招标有限责任公司 16 楼 1625 会议室(郑州市郑东新区商务外环西七街 3 号中华大厦 16 楼)13响应

11、文件递交截止时间2019 年 93 月 627 日上午 9:0030 时(北京时间)14评审时间和地点时间:2019 年 93 月 627 日上午 9:0030 时(北京时间)地点:河南豫信招标有限责任公司 16 楼 1625 会议室(郑州市郑东新区商务外环西七街 3 号中华大厦 16 楼)15评审小组评的组建评标委员会构成评审小组构成: 3 人,其中采购人代表 1 人(限采购人在职人员) ,专家 2 人;评标专家确定方式评审专家确定方式:随机从依法设立的河南省综合评标专家库中抽取 。16投标保证金的缴纳投标保证金:人民币 36 万元交纳形式:转帐(必须从其公司基本帐户转出)交纳时间:于投标截

12、止时间前交至河南豫信招标有限责任公司(若为转帐形式时,此时间为到帐时间) 。收款单位:河南豫信招标有限责任公司开 户 行:上海浦东发展银行郑州分行帐 号: 7 6010 1548 0000 1876 (郑州市金水西路与玉凤路交叉口299号浦发大厦)汇款时在备注栏或附言栏中注明*项目*投标保证金。附:投标保证金转帐凭证和开户许可证的复印件。附:投标保证金转帐凭证和开户许可证的复印件。17代理服务费中标人按照【发改价格2011534 号】招标代理收费规定向代理机构交纳招标代理服务费 6 万元。9二、评审程序二、评审程序1.受邀人提交建设方案及报价;2.评审小组审阅建设方案及报价;3.评审小组与受邀

13、人进行商务谈判,确定最终的方案及报价。三、评审原则及方法三、评审原则及方法1认真贯彻国家有关法律、法规、维护国家利益。2评审严格按照单一来源采购文件的要求和条件进行。3单一来源采购文件是评审的依据。4评审小组与供应商就本次采购的项目的所涉及服务质量、价格及实质性内容进行协商谈判。5在协商过程中,在响应采购文件的前提下,供应商可以对响应文件的实质内容进行修改。6单一来源采购的任何一方在未征得另一方同意的情况下,不得向第三方透露与协商有关的一切技术资料、价格或其他信息。7在协商过程中,凡遇到采购文件中无界定或界定不清、前后不一致使采购小组意见有分歧且又难于协商一致的问题,均由采购小组予以表决,获半

14、数以上同意的即为通过,未获半数同意的即为否决。8 响应文件的澄清:为便于对响应文件的审查、评价和比较,采购小组可要求供应商对响应文件中含义不清的内容进行澄清。有关澄清的要求和答复均须以书面形式,但协商商定的价格和实质性的内容不得更改。四、成交准则四、成交准则在建设方案及报价符合邀请人要求的前提下,确定成交供应商。否则,重新组织采购或终止采购。五、签订合同五、签订合同1成交供应商按邀请人指定的时间、地点与邀请人签订合同。2.单一来源采购文件、成交供应商的响应文件等均为签订合同的依据。103.成交供应商应当按照合同约定履行义务,完成本项目。成交供应商不得向他方转让本项目,也不得将本项目分包后分别向

15、他方转让。4.若成交供应商无法按要求签订合同,则邀请人有权终止成交供应商资格。六、终止采购活动六、终止采购活动出现下列情形之一的,采购人或者采购代理机构应当终止采购活动,发布项目终止公告并说明原因,重新开展采购活动:1. 因情况变化,不再符合规定的单一来源采购方式适用情形的;2. 出现影响采购公正的违法、违规行为的;3. 报价超过采购预算的。11第三章第三章 采购内容与要求采购内容与要求一、采购内容河南农信大数据平台生产环境 90 个节点的授权。包括星环极速大数据平台软件TDH5.0(含 TOS)所有产品组件和工具,以及实施技术服务(包括但不限于根据双方约定要求在该软件基础上进行客户化开发、测

16、试、试运行上线,并提供安装调试、升级、投产支持等服务) ,具体包含 90 个节点生产环境 TDH5.0(含 TOS)企业版产品组件和相关工具,包括核心产品Inceptor、Slipstream、Hyperbase、Discover、Search、Sophon,大数据开发工具集Studio(元数据管理 Governor、工作流 Workflow、数据整合工具 Transporter、Cube设计工具 Rubik、报表工具 Pilot、日志处理工具 Milano) ,安全管控平台 Guardian 和管理服务平台 Manager。此次采购节点授权数量内 Waterdrop 和 Midas 产品组件

17、和工具的使用不受 LICENSE 限制。实施及技术服务。在保证原有平台的兼容和稳定性的前提下完成对新增 90 台节点的部署,并保证兼容性和稳定性,使原大数据平台平稳扩容。技术服务包括但不限于根据双方约定要求在原有大数据平台基础上进行客户化开发、测试,试运行上线,并提供安装调试、升级、投产支持等服务。4. 版本更新。供应商承诺免费升级为 TDH6.0 版本。二、二、采购要求技术标准的要求1.1 术语与定义下列术语和定义适用于本招标文件。1.1.1 脏数据脏数据(Dirty Read)是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的

18、业务逻辑。121.1.2 数据稽核根据规则将脏数据写入指定的脏数据表,并标明每一条脏数据的剔除原因,并在数据导入完成后,返回总共记录数,导入记录数的接口,或者数据质量报告,方便监控程序判断以及处理。1.1.3 SLA服务等级协议(Service-Level Agreement,SLA)是在一定开销下为保障服务的性能和可靠性,服务提供商与用户间定义的一种双方认可的协定。SLA 定义了作业的执行优先级和对数据以及资源的访问使用权限。通过调度策略保证 SLA 的服务。不同数据库在 SQL 上对数据库功能的各自不同的实现。1.1.4 全文检索全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个

19、词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。1.1.5 词库词库是词语资料的集合,存贮于数据库中以备特定的程序检索调用。1.1.6 分词器搜索引擎对入库数据进行分词的时候会用某种算法对要建索引的文档进行分析,从文档中提取出若干词条,这些算法称为分词器。1.1.7 流式机器学习实时数据作为机器学习模型的输入,通过编程 api 或 SQL 的形式实现流式地机器学习。输出结果存储在分布式存储中,以便高速地检索与查询。1.1.8 实时计算实时计算基于一套低延时性、高吞吐、高可用、可扩展、易用性、安全性的实时流

20、计算框架,内置支持从多种数据源中读取数据,支持将数据处理生成的结果保存到文件系统、数据库或者推送到应用系统等,最终可以帮助用户对实时数据实现简单数据比对、时间窗口统计,复杂逻辑分析以及在线数据挖掘等业务。131.1.9 数据流数据流是一组顺序、大量、快速、连续到达的数据序列。一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。1.1.10 事件驱动在持续的数据流管理过程中,进行决策的一种策略,即跟随当前时间点上出现的事件,调动可用资源,执行相关任务,使持续不断的事件立即得到处理,降低处理延时。实时计算引擎支持逐条读取数据源流入的每条记录进行处理。1.1.11 微批处理针对持续性数

21、据流的抽象称为离散化数据流,一个离散数据流对应一个微批处理(micro-batching)的弹性分布式数据集,在细微时间间隔内对数据集进行一次批处理。 1.2 总体技术架构招标方大数据平台整理技术架构蓝图,主要部分简要介绍如下:1.2.1 数据接入层数据接入层能够满足数据接入多样性,能够接入各种实时数据、结构化数据、半结构化数据、非结构化数据,面对不同的数据接入需求可提供针对性的方案和工具。1.2.2 数据存储层数据存储层底层为统一分布式存储 HDFS,并且提供分布式 NOSQL 数据库和分布式全文搜索分析引擎。1.2.3 数据计算层数据计算层供统一的资源管理调度,提供分布式计算引擎、兼顾批量

22、处理和事件触发的流处理引擎、数据挖掘引擎等,进行统计检索分析、数据挖掘等,满足大数据分析计算需求。1.2.4 数据接口层数据接口层对上层提供编程接口、访问接口、标准 ODBC/JDBC 接口、命令接口等,满足平台开放性,方便传统业务迁移。通过平台提供的接口,封装后提供多种数据服务14能力,包括实时处理、报表展现、统计分析、智能推送、信息检索等。1.2.5 安全管控提供可视化的平台管理界面,方便日常运维与监控工作。平台通过完整的安全管控确保数据与系统安全。1.3 软件架构采购产品需支持在各类 x86 PC 服务器上安装运行。是基于 Hadoop 的商业发行版本,提供支持包括 Redhat、Cen

23、tOS、SUSE Linux 等类 Linux 操作系统的软件版本。支持主流的网络通信协议,如:TCP/IP、DECnet、SPX/IPX、SNMP、X.25 及混合协议等;支持局域网内的客户端通过 NFS/CIFS 等标准协议访问。支持易用并具有广泛适应性的开发语言和工具,如 C、JAVA 等开发语言和工具等。1.3.1 企业级数据仓库 InceptorTranswarp Inceptor 是针对于批量处理及分析的数据库,被广泛应用于数据仓库和数据集市的构建。Inceptor 基于 Hadoop 和 Spark 技术平台打造,加上自主开发的创新功能组件,有效解决了企业级大数据数据处理和分析的

24、各种技术难题,帮助企业快速构建和推广数据业务。1.3.2 实时流处理引 SlipstreamTranswarp Slipstream 是企业级的流计算引擎,主要应用于流数据加工,具体特点如下:有高性能、高可用、稳定性好等特征支持准实时处理具有高吞吐量,能够灵活扩展及高容错提供简单丰富的编程接口、易开发易维护。支持多种数据源1.3.3 大规模搜索引擎 SearchSearch 用于在企业内部构建大数据搜索引擎。它能够在 PB 数据量级上实现秒级延迟15的搜索功能;在开发接口方面,Search 提供了完整 的 SQL 语法支持并提供了搜索语法SQL 扩展,通过和 Inceptor 优化器有效结合,

25、使开发者无需了解底层架构就可以开发出高效的搜索引擎。Search 创新的使用了堆外内存管理技术来提高系统的健壮性,避免了GC 问题对系统的影响;此外,Search 还支持混合存储,通过将热数据存储在 SSD 上来提升查询速度。1.3.4 NewSQL 数据库 HyperbaseHyperbase 实时在线数据处理引擎以开源 Apache HBase 为基础,具备与传统数据库相近的接口以及开发方式,以减少系统迁移和新应用开发成本,支持 SQL2003 以及PL/SQL,星环的 Hyperbase 集 OLTP、OLAP、批处理和搜索引擎于一体,满足企业高并发的在线业务需求。1.3.5 数据挖掘机

26、器学习 Discover针对海量数据平台提供的分布式机器学习引擎,主要由开源 R 语言、Spark 分布式内存计算框架以及 MapReduce 分布式计算框架构成。Discover 支持 R 语言引擎,用户可以通过 R 访问 HDFS 或者 Inceptor 分布式内存中的数据。在 Discover 中,用户既可以通过R 命令行,也可以使用图形化的 RStudio 执行 R 语言程序来对 TDH 中的数据进行分析挖掘,易用性极高。1.3.6 云平台系统 TOSTranswarp Operating System 云平台系统是为大数据应用量身订做的云操作系统,基于 Docker 和 Kubern

27、etes 开发。TOS 支持一键部署 TDH,基于优先级的抢占式资源调度和细粒度资源分配,让大数据应用轻松拥抱云服务。未来企业对于构建统一的企业大数据平台(Data Hub)来驱动各种业务具有强烈需求,统一的企业大数据平台需要提供以下功能:资源弹性共享提高资源利用率灵活部署:支持灵活部署大数据应用和其他常规应用资源调度:具备自动扩容和自动修复功能服务发现:具备集中式的仓库隔离性保障服务质量和安全性16数据隔离:包括数据源、访问模式等计算隔离:隔离 CPU、内存、网络、磁盘 IO 等1.3.7 监控运维 ManagerManager 是负责配置、 管理和运维 TDH 集群的图形工具。 用户只需通

28、过几个手动步骤, 就可以在 x86 服务器上或基于 Docker 的云端平台上部署一个 TDH 集群。 Manager的运维模块提供告警、 健康检测、 监控和度量这四项服务。 用户可以轻松的浏览各服务的状态, 并且在告警出现时采取恰当的措施以处理应对。 此外, Manager 还提供了一些便捷的运维功能, 例如, 磁盘管理、 软件升级和服务迁移等。Waterdrop 是 TDH 中一个 SQL IDE 工具。 它包含的子模块有 SQL 编辑器、 元数据管理器、 SQL 执行器、 以及数据导入/导出。 Waterdrop 提供语法检测、 SQL 格式化和开发助手等功能, 可帮助开发者极大地提高开

29、发效率。1.3.8 多租户管理 Guardian大数据平台通过安全通信协议和角色权限管理功能,在软件层面提供通信安全和数据安全的双重保障,有效的对来自外部和非信任角色的数据访问进行控制和安全管理,实现数据平台 4A 级统一安全管理解决方案。4A 包括认证 Authentication、账号Account、授权 Authorization、审计 Audit,即将身份认证、授权、审计和账号。通过LDAP 管理用户账号,Kerberos 作为用户身份认证 Identity Store,同时大数据平台配合 LDAP 实现角色访问权限控制(Role Based Access Control) ,最后所有

30、的安全访问审计都会记录在数据平台的日志中。大数据平台中各个组件都支持安全管理,包括Zookeeper,HDFS,YARN,Kafka,Hyperbase, Inceptor 以及 Slipstream。1.3.9 大数据开发工具集 Studio 是 TDH 中的大数据开发工具集,包括元数据管理 Governor、工作流 Workflow、数据整合工具 Transporter, Cube 设计工具 Rubik、报表工具 Pilot、日志处理工具Milano。用户可以使用这些图形化工具来提高大数据的开发效率,降低技术门槛。Transporter 是一款用于设计和创建 ETL 任务的可视化工具。它支

31、持从 RDBMS 到 TDH的近实时数据同步功能,用户可以利用 Transporter 数据从 RDBMS 迁移到 Hadoop,再进行数据分析和挖掘工作。Transporter 提供完整的数据整合功能,源系统支持多种格式的数据源,包括 CSV、JDBC、XML、JSON 以及关系数据库;支持多种常用的数据转换操作,17例如,连接、聚合、清洗等。由于数据迁移过程中产生 的数据处理任务都在 Inceptor中完成,且受完整的 ACID 支持,因此用户不必为了 ETL 任务建立单独集群,也不用担心数据一致性问题。Workflow 是一个图形化的工作流设计、调试、调度和分析的服务平台,它支持Shel

32、l、SQL、JDBC、HTTP 等任务类型,也可以写自定 义 Java 任务。它还提供丰富的分析能力,如依赖关系、执行历史、甘特图等,可以帮助用户诊断工作流的执行状况。Rubik 是一款用于设计 OLAP Cube 的可视化工具,所建 Cube 可以实例化于HDFS。Rubik 支持雪花模型和星形模型两种 Cube 设计模型,并支持多种格式的数据源(包括 HDFS 和远程 RDBMS)。实验显示,在数据立方体的加速下,分析查询的速度可提高10 倍。 Rubik 通过可视化方式提供服务,使数据分析师得到更友好的交互体验。Governor 是 TDH 中的元数据管理和数据治理工具。用户可以用它来管

33、理元数据(包括表和存储过程),监控所有数据和程序的更改历 史,进行数据血缘分析和影响分析。开发者可以利用 Governor 调试数据问题,追踪问题来源,并帮助数据管理者预测计划进行的元数 据更改会造成哪些影响,因此 Governor 能够帮助用户提高大数据的数据质量。Pilot 是基于 Web 的报表展现工具,轻量、灵活,可以快速部署。它支持多维度的分析和自助分析,提供数十种报表样式,对时序数据 也有很好的展现。此外,Pilot 还支持团队协作和共享,支持导入和导出报表。Milano 是一套基于 Elasticsearch 的日志收集、存储和分析平台,不仅可以用于应用于大数据平台的日志聚集,同

34、时也可以用于满足其他应用或者平台的日志处理需求。Milano 做到了全链路高吞吐、全链路安全可用以及全链路高可用,可以适应绝大部分场景的日志分析业务。1.3.10 数据挖掘图形工具 Midas是一种拖拽式图形界面工具。使用 Midas 可以很快且很简单地创建被称为流程的分析工作流来挖掘数据,只需通过将数据连接到用户构建模型的算子上,实现分析和预测功能。用户可以根据所获得的预测结果提高洞察力,实施对应活动。 1.4 大数据平台开放性181.4.1 平台开放性大数据平台软件应基于 Apache 开源社区,保持开放性,并在可靠性、安全性、管理性、高效性方面进行了增强。1.4.2 接口开放性大数据平台

35、应提供标准 JDBC(包括 JDBC type 4 driver) 、ODBC 驱动,ODBC 驱动至少兼容 linux、windows(64 位) 。1.5 大数据平台兼容性1.5.1 兼容通用硬件大数据平台应支持运行在 X86 架构的通用 PC 服务器上;支持运行在基于 Power 芯片的 Power Linux 服务器上。1.5.2 兼容通用操作系统大数据平台应兼容主流的 Linux 操作系统(SuSe、RedHat、CentOS) 。1.5.3 兼容接口大数据平台组件需要兼容对应开源组件开发接口。大数据平台需要兼容标准 JDBC、ODBC 接口。大数据平台需要兼容标准 SQL/存储过程

36、语法,降低迁移成本,方便平滑迁移。1.6 大数据平台功能需求1.6.1 分布式分析性数据库大数据平台应具备分布式数据仓库支持能力,满足企业数仓需求,并且开发方式应与传统数据库相接近,减少系统迁移和新应用开发成本。具体要求如下:兼容 SQL 99 标准语法和 SQL 2003 标准语句,支持标准的 SQL 形式访问数据,提供系统平滑迁移的能力。SQL 与存储过程支持 Oracle、DB2、Teradata、HiveSQL 等多种数据库方言,可以根据需求选择 Oracle、DB2 以及 Teradata 方言。兼容 Oracle PL/SQL、IBM DB2 SQL PL、Teradata 宏,包

37、括数据类型、函数、流程控19制、Package、游标、异常处理以及动态 SQL 等语法。支持系统接入数据方式多样化,包括关系型数据库数据、文本数据、图片数据、日志数据、音频视频等,支持多种数据格式。结构化数据,包含 csv、text 等半结构化数据,包括 json/bson、xml、日志、文档(pdf、word)等非结构化数据,包括图片、音频、视频等支持常见字符集(如 gbk、utf8)和编码制(如二进制、十进制、十六进制)的数据整合。支持 text、sequencefile、rcfile、orc、parquet、hfile 等多种数据格式支持多种压缩类型(snappy、gzip、lzo 等)

38、提供多种数据加载方式,包括:批量模式:可通过 Sqoop 等 ETL 工具将数据导入到分布式文件系统和数据库表中;也支持通过 FTP/HTTP 将数据直接传入文件系统。增量模式:可通过 Sqoop 的增量导入模式导入指定周期时间间隔(如每天,每小时或每 5 分钟)内的数据。准实时接入模式:支持与 Oracle 等关系型数据库的实时同步,提供可视化 ETL 同步工具实现基于 ORACLE GOLDEN GATE 等产生的数据库变更记录提供分钟级准实时数据接入。实时接入模式:支持通过 Flume 分布式日志实时采集工具和流计算引擎加载实时产生的数据,包括结构化日志、socket 报文消息或者消息队

39、列等。数据库直连:可以使用 DB-LINK 的方式进行实时连接将关系型数据库中的数据抽取到离线数据库,同时支持过滤条件下推,在关系型数据库上进行过滤以后再进行抽取,加速抽取和计算的效率。提供数据稽核能力,数据稽核支持根据规则将脏数据写入指定的脏数据表,并标明每一条脏数据为何非法,在数据导入完成后,将返回总共记录数、导入记录数的接口、或者数据质量报告,以方便监控程序判断以及处理,也可以仅打印出报错信息。数据入库20时自动将不符合表结构定义的脏数据写入指定的脏数据表,并记录脏数据对应信息以及剔除原因。提供海量数据的统一存储管理,提供统一的计算引擎和各种数据存储引擎的连接能力,通过统一的计算引擎对接

40、多种不同数据存储引擎进行计算。基于统一数据存储管理让多种数据存储引擎的差异透明化,提高不同存储引擎之间的数据流转效率,同时开发人员无需根据数据存储引擎的变更编写对应程序,能够更加方便高效地对多种存储引擎的数据进行交叉查询、关联分析。统一数据存储管理应当支持多种分布式存储系统/引擎,包括分布式文件系统、基于内存或固态硬盘的分布式列式存储、分布式搜索引擎、分布式NoSQL 数据库。支持数据联邦 Database Federation 功能,具备接入Oracle、DB2、MySQL、Teradata 以及 PostgreSQL 等关系型数据库和大数据内部数据进行统一 SQL 层面的查询、聚合以及关联

41、操作等能力。支持 DB-Link 语法,通过创建 DB-LINK 来预先建立和其他数据源的连接池,支持在SQL 中通过 DB-LINK 接口实时访问该数据源的数据,通过算子下推将查询计算任务下推至其他数据源进行本地计算后再将数据汇合传送到离线数据库。通过预先建立的连接从其他数据源中抽取需要的数据,输入执行引擎层参与 SQL 计算。在计算完成后,释放相关的数据库连接以及对应的资源。支持分布式事务处理,满足事务处理 ACID 原则。能够支持自治事务。支持单条、批量增删改查、Merge into 等语法。提供对表进行分区,至少提供日期、区间等分区功能,并支持表空间功能。提供表分桶功能,控制数据的分布

42、方式,并且能够查询结果桶内排序。提供多存储层级支持,能够将应用表建立在不同 IO 读写速度的不同介质上,包括磁盘、固态硬盘和内存,其中建立的非易失存储上的数据表在整个系统重启后能保证数据不丢失,能在 SSD 上提供与内存相近的性能。分布式数据仓库支持用户 SLA 控制的调度,支持多层次的任务调度和资源借用,对分布式数据仓库资源进行全局的调度及优化。提供统一元数据管理,各个组件均提供元数据信息,通过提供的接口可以快速查询各个组件的元数据,方便上层应用的操作人员调用。提供数据字典接口,支持对元数据进21行 SQL 语法查询和全文检索。具备批处理能力,提供稳定高效引擎,保证 7*24 小时在企业的生

43、产环境运行,并能在 TB 级规模数据上高效进行各种稳定的统计分析。支持国际通用标准 TPC-DS 全部 99 个标准,同时提供第三方证明材料,并具备 TPC-DS 100TB 数据全部场景测试能力。支持国际通用标准 TPC-H 全部 99 个标准,同时提供第三方证明材料。性能方面,需要达到:具备在 100 个节点以内的 x86 服务器组成的集群上,在 12 小时内完成整个 100TB TPC-DS 的 99 个场景的能力。平均每个 CPU core 不低于每秒 1000 万记录的扫描速度,不低于每秒 100 万记录的聚合速度。1.6.2 NewSQL 数据库大数据平台应提供分布式 NewSQL

44、 数据库,可以在开源的基础上进行自主创新和优化,可对海量数据进行存储和检索。具体要求如下:支持 SQL2003 语法,支持存储过程。支持对数据库数据按给定字段建立辅助索引(Secondary Index)和全文索引,并支持智能索引技术,无需在查询语句中显示指定索引。提供对大量小文件的高效存储,支持对大量小文件的自动合并,支持对小文件的高效计算。支持半结构化(JSON/BSON 形式存储)和非结构化数据的高效存取,其中半结构化数据支持字段内部建立索引。提供全文索引功能,支撑内容管理,实现文本数据等非结构化数据的提取和处理。支持使用 SQL 接口进行半结构化数据(JSON/BSON 形式存储)的查

45、询、更新与删除。支持海量影像数据或文件数据等大对象数据的存储与检索,提供稳定高效的入库和检索能力。性能方面需要达到:按关键字检索单表记录延时小于 200ms,单个节点并发度超过 1000。22按关键字检索多表关联记录延时小于 1s, 单个节点并发度超过 1000。1.6.3 综合搜索平台大数据平台应提供分布式综合搜索平台,满足分布式实时文件存储以及搜索,具体要求如下:支持标准 SQL 接口,兼容 Oracle 扩展标准的全文检索的 SQL 扩展,通过 SQL 对文本数据进行关键词搜索,并按照匹配程度排序输出。支持聚合算子下推,将聚合过程下推到各任务计算节点,降低网络传输(shuffle)损耗,

46、提升搜索聚合分析性能。支持单表 PB 级数据存储搜索能力,支持分区表。提升单机数据存储能力,单台节点有效数据存储大于 20T。支持分层存储,满足冷热数据分级存储,支持 SSD/SATA 混合存储,提供毫秒级实时关键字检索性能。数据入库后,无需额外建立索引,支持通过 SQL 进行综合搜索,任意条件组合灵活查询,秒级返回。支持分词器和词库的自定义扩展,支持第三方或者自定义分词器,满足个性化全文检索需求。性能方面需要达到:简单条件的综合搜索毫秒级响应。模糊搜索秒级响应。关键字搜索毫秒级响应。并发上百。1.6.4 数据挖掘平台大数据平台应提供针对海量数据的分布式数据挖掘引擎,满足招标方数据分析和挖掘的

47、需求。具体要求如下:提供分布式数据挖掘框架,在分布式数据挖掘框架中能够实现:提供丰富的分布式统计算法以及机器学习基础算法库,包括数据预处理,数值分析,23特征工程相关分布式算法以及基础的分类、聚类、预测等机器学习算法,方便数据分析人员进行数据分析与挖掘的相关工作。提供流数据实时分析预测能力,进行流式机器学习,支持在实时计算过程进行统计学习和数据挖掘。支持自定义分布式数据挖掘算法,用户可以根据生产需求自定义开发分布式数据挖掘算法。提供 R 语言、Python、API 交互接口,方便开发人员选用不同方式进行数据挖掘。提供数据挖掘 IDE 工具如 Zeppelin、Rstudio 类数据分析和可视化

48、工具,方便数据科学家进行交互式数据挖掘模型探索与交互。1.6.5 实时计算平台大数据平台应提供针对实时性场景的流计算引擎,具备实时性、高吞吐量、高可用性、易用性等特点。具体要求如下:提供 SQL 交互接口,包括 SQL 2003 标准、存储过程、用户自定义函数(UDF)以及实时计算扩展语法,满足 SQL 易用性和迁移成本低等特点。支持数据输入管理,适配多种数据源,包括各生产系统应用日志、渠道与交易系统的WebSocket 信息流、外部系统的 XML 等。支持数据输出管理,适配多种存储,支持多种流数据持久化场景。支持事件驱动处理模型和微批处理模型的混合计算引擎,可灵活切换计算模式以适应多种复杂的

49、流处理场景。支持复杂逻辑处理 CEP(Complex Event Processing),满足对流数据进行事件模式的过滤,模式包含逻辑控制、事件顺序操作以及生命周期等。支持通过 SQL 完成关联比对(包括流数据与历史数据、流数据与流数据) 。可结合机器学习算法对流数据进行模型训练或异常检测,提供对流数据进行复杂应用开发的能力。支持时间窗口统计,满足对一定的时间窗口区间做多表关联、聚合或者统计。支持会话窗口功能,可以按照用户的行为将一个流切分为多个会话窗口,对不同的会24话支持时间窗口内数据保序。在容错性方面保证消息不丢不重(exacltly-once)数据处理能力。支持运行时应用和资源的管理和

50、隔离。抽离出运行时隔离概念,保证用户启动、查看和停止流处理应用的操作只能针对当前所在隔离层进行,避免任务互相干扰和资源占用。支持动态添加、删除流处理作业,以及动态启停流处理作业而不影响整个流处理平台其他作业运行。提供 RESTful 接口查询流任务的实时指标,支持持久化流任务的历史指标,并提供RESTful 接口查询。支持查询流任务的状态,并提供可视化监控界面,可以监控物理资源使用情况,同时查看流任务的处理性能。性能方面需要达到:简单过滤业务,支持单节点单颗 CPU CORE 20MB/s 的处理能力;时间窗口统计业务,如流上的统计分析,支持单节点单颗 CPU CORE 10MB/s 的处理能

51、力;复杂逻辑业务,如流和表关联,支持单节点单颗 CPU CORE 2MB/s 的处理能力。1.7 大数据平台开发易用性1.7.1 标准 SQL 开发工具大数据平台软件支持便捷的图形化 SQL、PL/SQL 开发调试辅助工具。实现数据库管理、SQL 编辑、SQL 执行、数据操作这四项基本需求。数据库导航栏,提供查看当前存在的连接,以及各个连接所提供的的内容,包括了哪些元数据对象,如数据库、表、列、分区、桶、视图、存储过程、包等,并通过层级反映元信息结构。SQL 编辑器,主要用于 SQL 语句的编辑。功能包括:支持 SQL 单步调试与异常告警功能25支持 SQL 代码语法高亮、语法检查支持 SQL

52、 代码缩进支持计算结果输出展示支持界面编辑修改数据支持命令行SQL 执行器是用于执行 SQL 语句的功能模块。数据显示窗口,主要提供数据管理窗口,方便对数据进行查看和编辑。增量构建以及多种优化策略。1.7.2 交互式数据挖掘分析工具大数据平台提供数据挖掘 IDE 开发工具对接,如 Rstudio,Zeppelin 等,提供数据分析可视化工具;可接入不同的数据处理引擎,包括 spark, hive, tajo 等,支持 scala, java, shell 等;支持 Spark SQL 的可视化工作。支持 R 语言进行数据挖掘和建模,提供 python 接口。1.8 大数据平台高可用性1.8.1

53、 可靠性系统中不允许存在单点故障,任何一个角色故障后都应有备份机器承担原失效节点工作,并在监控页面上对错误状态进行显示标识。1.8.2 故障处理发生硬件故障时,系统能够自动检测错误并修复数据,无需人工干预,即使机器未修复,系统仍然能够不间断正常运行。1.8.3 异地灾备支持分布式数据库表异地远程复制,支持双向复制,实现异地灾备。1.9 大数据平台安全性需求大数据平台需提供资源管理控制和数据访问权限安全的能力,实现离线数据库 4A 级(账号 Account、认证 Authentication、授权 Authorization、审计 Audit)统一控制管26理多租户方案,有效的对各个部门以及下级

54、单位的用户数据提供多租户的开发平台服务。支持使用 LDAP 协议做用户访问控制,支持 Kerberos 协议用作底层访问控制。提供独立服务、统一控制、可视化操作的多租户管理体系。提供用户认证管理,包括:支持 LDAP 进行用户管理,并支持 HA 高可用。支持 Kerberos 进行用户身份认证,并提供 HA 高可用。提供完整的用户、用户组以及角色的管理体系,提供超级管理员、用户组管理员的管理机制。支持设置密码策略,包括密码强度、使用期限、密码保护。提供完整的数据访问权限控制,在数据库、数据仓库方面可以做到行级别、列级别的访问权限控制,对其中表进行列级别权限控制,包括读权限、写权限、执行权限、创

55、建表权限以及管理员权限,同时支持实现基于角色的访问权限控制(Role Based Access Control) ,方便权限的授予与管理。支持数据权限管控,包括:Hive 权限控制、HBase权限控制、数据挖掘权限控制、实时计算权限控制、图分析权限控制。提供资源管理能力,包括计算资源、存储资源、数据资源。通过队列以及资源池进行计算资源划分,队列之间的资源隔离与共享通过资源调度算法实现,在队列中限制每个用户的使用权限以及资源最大使用限额。支持对 Spark 集群以及 MapReduce 集群进行计算资源和内存资源的管理能力,避免占用内存资源多的Spark 或 MapReduce 集群之间争抢内存

56、资源。支持容器化资源管理,计算集群可以按需创建,按需销毁;创建集群时只需要指定所需计算资源,无需指定具体物理机。混合负载管理,不同类型的作业配置参数定义不同的优先级;支持用户/作业级别的服务等级协议 SLA 保证。对分布式文件系统以及数据仓库中配置用户/租户的存储空间使用配额 Quota。具备完整的数据资源管控机制。所有的操作内容都会记录在数据平台的日志中,包括权限管理操作、数据访问以及资27源使用。同时为了重要数据的安全考虑,HDFS 提供加密存储。提供图形化界面和 API 交互接口,方便用户操作。1.10 大数据平台运维管理易用性大数据平台需提供统一的具有可视化操作界面的运维管理平台,方便

57、平台运维人员对大数据平台的运维与监控需求。具体需求如下:1.10.1 运维监控集群管理软件需要支持集群服务器上分布式系统状态监控和服务器状态监控。获取数据库服务的健康状态(healthy/warning/error) ,以及数据库整体信息,包括CPU 使用情况、内存使用情况、网络吞吐、网络延迟、磁盘空间、磁盘 IO。查看数据库任务执行状态(执行失败、执行中、执行结束)和执行计划策略,支持手动停止数据库任务。1.10.3 自定义告警集群管理软件支持用户自定义告警。允许将告警内容推送至第三方工具,如邮件提醒、短信通知。告警内容包括数据库服务异常、服务器损坏、磁盘空间不足、网络延迟过高等。1.10.

58、4 在线扩容大数据平台支持在线不停机情况下,进行水平节点扩容。系统的存储容量能够动态不停机扩容,扩容时现有系统可以不间断正常运行,不受扩容影响。扩容时无需迁移数据,无需要求用户对数据进行重新分区(partition),避免硬盘和数据损坏。1.10.5 运维工具大数据平台软件支持自动化环境健康检查工具,能够对网络端口、网络延时、网络吞吐量、Jar 包一致性、权限、文件残留等进行自动化检查功能。1.10.6 REST 接口集群管理平台提供 REST API 供第三方运维平台集成,获取集群状态信息,查看集群任务执行情况等。1.10.7 统一磁盘管理28能够做到集群内所有组件的计算资源(CPU/内存)

59、和 IO 资源(磁盘)的管理。1.10.8 应用市场提供应用市场,可以获取最新的产品信息,支持一键式升级以及滚动升级,支持多版本的应用安装等。项目服务要求2.1 现场服务与支持2.1.1 受邀供应商必须服从采购人的统一协调,在采购人要求的时间内保质保量完成本次采购的新增节点的扩容工作,并保证原有大数据平台的兼容及稳定性。2.1.2 受邀供应商为采购人提供的产品必须完整,各种介质和文档齐全。此次项目由采购人与受邀供应商合作,软件所有权归采购人所有。受邀供应商必须提供平台软件全部源程序及相应开发工具、自有产品及开发平台等,并保证其合法性,由此产生的所有争议和法律问题由受邀供应商负责,由此产生的全部

60、费用由受邀供应商负责。2.1.3 受邀供应商必须对项目方案选择的合理性和技术可行性进行确认和保证。2.1.4 项目实施期间如遇到影响进度问题及难题,受邀供应商须按采购人要求提供现场支持服务。2.2 业务分析团队培训2.2.1 大数据技术与数据处理基础知识2.2.2 R 语言开发基础与 RStudio 工具使用基础2.2.3 数据挖掘算法与数据可视化基础知识2.2.4 数据探索与数据建模实际应用案例2.3 技术开发团队培训2.3.1 数据技术基础知识2.3.2 大数据产品软件架构、功能特性2.3.3 MapReduce 与 Spark 计算编程范型2.3.4 日常运维管理、监控与故障诊断292.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论