版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目概述项目名称项目名称:XX项目承担单位项目承担单位:XX项目负责人:编制依据本报告的编制依据主要包括以下内容:《国务院关于积极推进“互联网+”行动的指导意见》(国发〔2015〕40号);《促进大数据发展行动纲要》(国发〔2015〕50号);《北京市大数据和云计算发展行动计划(2016—2020年)》;《计算机信息网络国际联网保密管理规定》国家保密局;《计算机软件产品开发文件编制指南》(GB8567-88);《计算机软件开发规范》(GB8566-88);《计算机软件质量保证计划规范》(GB/T12504-90);《计算机病毒防治管理办法》中华人民共和国公安部令第51号;其他法律法规、相关文件等。项目建设内容本项目行业大数据平台主要建设内容为:项目建设原则系统的总体设计应遵循高标准严要求的原则,具备技术的稳定性和业务系统的实用、方便性。1.先进性和前瞻性在应用系统实用、高效的基础上,采用先进的信息技术,适应未来6-8年技术发展趋势,具备一定的前瞻性,并保证系统管理、维护、升级和扩展的方便性。2.开放性及可扩展性由于本项目中建设的平台将为今后几年全国XX相关数据收集分析工作提供支撑,因此要求软件平台应具有良好的可扩充、扩展能力,能够方便进行系统升级和更新,以适应今后业务的不断发展。安全可靠性选用的主机服务器要求能够支持高可用的持续服务技术,能够连续7×24小时不间断工作,出现故障及时告警,具有完整的操作权限管理功能和完善的系统安全机制,保证系统正常可靠运行。保护投资保护既往投资、整合现有资源。系统建设立足对已有业务应用系统和数据库等资源的完善与整合,重视业务流与信息流的结合和重组优化,使既往投资和现有资源发挥更大作用。5.易于管理维护建设时充分考虑到管理维护的需要,保证系统建成后易于管理和维护。投资估算主要依据原国家发展计划委员会、信息产业部:《电信建设管理办法》信息产业部《通信建设工程投资估算指标》(试行)《关于认真开展电子工程监理的通知》信息产业部信规(2000第206号文件)《信息系统工程造价指导书》中国市场出版社项目需求及市场调研。投资估算根据项目建设的内容和规模,依据国家有关部门的相关规定,在市场调研的基础上,综合考虑需求分析费、系统设计费、应用软件开发费、系统集成和调试费等,XX行业大数据平台建设总投资估算为XX万元,各分项价格如下表所示:序号分项分项描述金额(万元)1需求分析项目需求调研,解决方案讨论,产品原型图设计与确认2UI、UE设计所有页面、交互设计、UI效果图设计与确认3系统开发系统程序开发4数据移植现有数据移植5项目管理、测试与发布项目管理、集成测试、部署与培训、产品发布GrandTotal总计:项目总投资估算表效益目标绩效目标质量目标:系统建设之前,项目组会充分研究讨论,并广泛收集专家意见制定出最适合本项目的质量控制标准,保证承建方严格按照质量要求建设。时效目标:与系统建设之前相比,系统建设投入使用以后可提高工作效率70%以上。成本目标:软件及实施、培训等投入控制在XXX万元人民币以内。效果目标经济效益目标:系统不直接产生经济效益。但系统运行以后可增加中心影响力,提高服务能力,为XX行业发展等提供数据支撑,为各单相关企业节省支出,按照目前行业发展水平及相关服务费用计算,每年可增加收入约XX万元。社会效益目标:提高管理水平,降低管理层管理难度,提高用户满意度,促进行业发展。环境效益目标:本项目作为信息化建设的重要组成部分,在提高数字化水平,改善管理环境中起到至关重要的作用。可持续目标:经过充分的系统论证,前瞻性的建设规划,开放式的平台接口,在国家相关政策下本系统使用期限在6-8年以上。满意度目标:项目建设完成投入使用以后,要达到所有使用者满意度不低于80%。建设背景及可行性建设背景时代背景当今人类社会已经进入数字化和信息化时代,主要特征就表现在高效性、多样性、综合性等,在这样的时代背景之下,人们的生活质量显著提高,计算机技术的发展是数字化和信息化时代出现的根本原因,在社会的各行各业之中,由于计算机技术的广泛应用,企事业单位开始建立计算机网络平台,实现了信息的数字化管理,同时各企事业单位之间可利用互联网进行信息的交流与沟通,进一步扩展了数字化和信息化的普及范围,数字化和信息化在世界范围内迅速普及,正在对经济、政治、文化、科技、军事等各个领域产生重大影响,深刻改变着人们的生产、工作和生活方式,并将继续对人类精神文明和物质文明产生深远影响,引发人类社会生活层面的各种变革。政策背景2015年9月5日,经李克强总理签批,国务院印发《促进大数据发展行动纲要》(以下简称《纲要》),系统部署大数据发展工作。《纲要》是到目前为止我国促进大数据发展的第一份权威性、系统性文件,从国家大数据发展战略全局的高度,提出了我国大数据发展的顶层设计,是指导我国未来大数据发展的纲领性文件。《纲要》提出,要加强顶层设计和统筹协调,加大大数据关键技术研发、产业发展和人才培养力度,着力推进数据汇集和发掘,深化大数据在各行业创新应用,促进大数据产业健康发展;完善法规制度和标准体系,科学规范利用大数据,切实保障数据安全。2017年1月17日工业和信息化部印发《大数据产业发展规划(2016-2020年)》,规划指出创新大数据技术服务模式。加快大数据服务模式创新,培育数据即服务新模式和新业态,提升大数据服务能力,降低大数据应用门槛和成本。围绕数据全生命周期各阶段需求,发展数据采集、清洗、分析、交易、安全防护等技术服务。推进大数据与云计算服务模式融合,促进海量数据、大规模分布式计算和智能数据分析等公共云计算服务发展,提升第三方大数据技术服务能力。推动大数据技术服务与行业深度结合,培育面向垂直领域的大数据服务模式。业务背景XX是现代经济的核心之一,国务院印发的《XX业发展中长期规划(2014~2020年)》明确提出要以提高XX效率、降低XX成本为重点。因此,在大数据时代背景下,XX行业也必须高度重视统计数据。
XX大数据可以划分为三类:第一是微观层面,包括运输、仓储、配送、包装、流通加工等,第二是中观层面,最显著的影响是横向流程延拓,纵向流程压缩简化;从供需平衡角度出发,为供方(XX企业)提供最大化的利润,为需方提供最佳的服务;第三是顶层设计,利用大数据技术把握行业动态,预测发展趋势,实现行业顶层规划设计。XX大数据发展比较缓慢。从细分市场来看,医药XX、冷链XX、电商XX等都在尝试赶乘大数据这辆高速列车,大数据在XX中的应用贯穿了整个XX的各个环节。主要表现在XX决策、XX企业行政管理、XX客户管理及智能预警等过程中。XX业务具有突发性、随机性、不均衡性等特点,通过大数据分析,可以有效了解用户偏好,市场情况,预判可能,提前做好准备,从而为行业健康快速发展奠定基础。XX现行网站及相关业务系统建设时间较早,在当前使用过程中,存在诸多问题,包含如下:业务边界较窄:中心工作任务相对系统建设初期有了较大变化,现有系统所支撑业务范围较窄,如政策信息、XX数据的采集、统计分析等,现有信息系统已无法满足新的需求;业务模式不足:中心工作任务涵盖省市级、地市级、地方社团三级体系相关数据报送,现有系统所支撑业务的业务流程相对单一,已无法更快更准确的对用户需求做出响应;业务规模较小:现有信息系统所支撑业务的业务量、用户量较小,并发量达到一定规模时系统会发生卡顿甚至崩溃;数据安全无法保障:由于系统建设时间较长,为数据处理系统建立和采用的技术和管理的安全保护手段已无法更新维护,计算机硬件、软件和数据会有遭到破坏、更改和泄露的危险,其中数据包含各企业详细信息、统计数据及相关保密数据等,发生泄漏后会造成不可预估的损失。综上所述,在当前背景下,为了强化经济、XX等数据监测分析,建立规范化指标体系,推进数据共享和业务协同,为决策提供及时、准确、可靠的信息依据,提高工作的前瞻性和针对性,加大宏观调控力度,XX中心行业大数据平台建设显的非常必要和迫切。项目可行性政策环境可行性2015年9月,经李克强总理签批,国务院印发《促进大数据发展行动纲要》,自此“大数据”“云平台”等政策措施密集出台,自“大数据”上升为国家战略以来,国家部委和地方政府纷纷发布“大数据”领域的政策文件。2017年1月工业和信息化部印发《大数据产业发展规划(2016-2020年)》,提出全面提升我国大数据的资源掌控能力、技术支撑能力和价值挖掘能力,“大数据”环境愈加坚实,为XX行业大数据平台建设指明了方向。技术可行性目前,XX行业大数据平台的核心是对数据的收集、处理与分析,通过整合数据和业务流程流转控制实现业务系统相关功能,架构一个能够提供数据采集、流程控制和挖掘分析服务的大数据技术处理平台,并具有健壮性、可扩展性和技术先进性,目前国内相关技术已达到实用水平,并有了相对成熟的产品,为上述实现提供了可能。本平台建成后与现有系统比较主要优越性有:简单性:在实现平台的功能的同时,尽量让平台操作简单易懂,这对于一个平台来说是非常重要的。针对性:该平台设计包含网上数据报送及后台管理等定向开发设计,具有专业突出和很强的针对性。实用性:该平台能完成相关数据采集、调查、报送等,具有良好的实用性。经济可行性XX行业大数据平台建设将本着减少重复建设、节约投资、充分利用已有资源、协调利用已有互联网管理系统资源的原则进行建设。本项目作为信息中心的主要保障条件建设项目,建成后可提升中心的服务环境、提高工作效率和科学管理水平,直接和间接地产生效益。一次性收益缩短各业务人员数据报送、审核周期,提高工作效率,可以依据缩短时间的天数和工作量的减少,酌情不再新增办公人员,使劳动力资源得到更合理的利用,从而降低了信息化建设项目成本,避免了消耗,减少了管理费用的支出等。不可定量收益使管理人员决策及时、准确、更科学化;使信息中心上下级的信息流通结构更趋合理;提高中心公信力,扩大影响力,增强竞争力;提高用户满意度等。以上这些方面的效益一般不能通过定量计算得到,具有一定的隐含性质和延迟性,但对于XX的管理以及发展、壮大都具有不可定量的收益。需求分析非功能性需求灵活性需求本部分主要说明XX行业大数据平台要具备适应需求发生变化(业务变化及机构变化)的能力。(1)平台在设计时,应充分考虑XX业务需求的变化和功能整合的可扩展性、方便性、快捷性,以适应可能的各种变化和发展。(2)应充分考虑系统与机构的无关性、与硬件的无关性及处理存储分布性,当业务需求发生变化时,能快速修改业务过程,对已有系统的影响尽可能小,对程序的改变只涉及相对独立的局部,而不会对其他部分或整体造成影响。(3)平台应具有独立性,应充分考虑使用开放性标准来确保相对独立于硬件和软件产品厂商,同时易于实现软硬件系统集成。安全性需求数据安全(1)数据在传输过程中,对敏感数据进行加密;(2)所有对敏感数据的存取权限应该严格控制,并利用日志进行全程记录跟踪;(3)对登录过程进行监管、记录以控制对敏感数据的存取。应用安全(1)为开发、测试、培训和运行提供各自独立的环境,以便软件集成的维护和版本的有效控制;(2)建立程序改进过程,以便加强软件版本控制;(3)在控制和审计状态下完成计算机设备和软件的安装;(4)在确认测试成功后运行系统。系统存取权限控制(1)定义与登录系统活动相关的日志文件,比如成功登录和不成功登录活动、授权用户账号活动、用户存取权限变更、软件密码的改变和修改等活动;(2)系统保存的日志可以提供充分的信息以支持审计和安全度量;(3)日志需要保存一定的时间;(4)采取严格的密码设定策略,比如:最小的密码长度、最初的任务、限制词和格式、密码声明周期、用户密码指南等;(5)用户在授权下访问网络资源;(6)对远程系统的连接进行验证;(7)实施严格的系统监管,以确保各类操作满足存取权限标准。数据保密需求XX行业大数据平台中包含大量企业数据和敏感信息。因此系统在设计时要求制定一套有效的保密措施以确保这些信息的保密性,同时需要预防外部侵扰的破坏,防止信息泄露。(1)系统须防止非法访问、修改数据。除根据有关法律、法规而进行的数据披露外,这些数据不能被泄露;(2)系统须采取“录入—复核”双人操作,确保变更的准确性和有效性,所有的历史信息必须被保存并能够被查询,同时要采用详细的日志记载修改的操作。灾难恢复需求XX行业大数据平台包含敏感信息,所以必须有较高的健壮性,有完整的数据备份及灾难恢复机制。这里所说的灾难,是指计算机系统受火灾、水灾或人为破坏而产生的严重的后果,灾难恢复是指灾难产生后迅速采取措施恢复计算机系统的正常运行。(1)本系统中的重要网络和计算机设备、以及重要的通信线路,需要采用冗余备份措施(冷备份、热备份和负载均衡相结合);(2)本系统中的数据,除了要采取各种备份措施之外,还必须设立一整套完善的灾难恢复机制;(3)在数据备份过程系统应对数据进行压缩,以便使数据量尽可能小,减少存储空间;(4)数据在恢复时要指定介质、时间、数据类型、机构等相关信息,经过确认后才可以恢复,以避免错误覆盖现象;(5)备份的介质要编写序号,归档管理,专人负责保管。系统集成需求平台数据吞吐量大,计算密集度高。在系统集成里,要充分考虑整个系统数据量大小、数据流量和处理量的大小,在此基础上对整个系统的基础设施、业务系统和安全体系进行集成,涵盖了总体技术架构设计、主机和存储设计、各种系统的选型与集成、已有系统及数据的迁移、各种硬件设备配置和报价、所提供的各种服务等。基础设施类集成基础设施类的集成包括:网络系统集成、计算设备安装调试、系统软件或工具的部署调试。基础设施的集成主要体现在设备的采购、物理连接、安装、部署、调试、验收等方面。网络连接可分解成内网连接、外网连接、网络设备安装调试等。计算设备集成可分解成主机系统、存储系统、备份系统的安装和调试。软件开发工具和支撑环境可分解成数据库管理系统、智能检索系统等。建设XX行业大数据平台局域网,进行软硬件系统集成,系统应该具有平台独立性,应充分考虑使用开放性标准来确保相对独立于硬件和软件产品厂商,同时易于实现软硬件系统集成。业务应用类集成应用集成是在不同的应用系统之间实现功能的调用,通过应用集成实现不同系统功能和信息共享;还有一类应用集成是具有数据分析应用的子项系统需要调用支撑平台上面部署的统计分析工具提供的功能,实现工具的集中部署,分布应用。这些功能的调用需要按照不同工具提供的访问模式和信息交换格式进行。安全体系集成安全体系涉及系统的所有层面,集成时要通盘考虑。其中,网络的安全管理和网络建设息息相关。应用安全体系和应用系统的建设和集成关系紧密。XX行业大数据平台要实现稳定、持续运行,实现用户认证、权限管理、数据安全备份和灾难性恢复等安全保障功能。功能性需求整体用例图建设内容通过对XX业务的梳理,本项目主要建设内容分为以下几个模块:一体化网站:数据报送:网络信息采集:整合企业资源灵活可控的统计指标体系管理;依据数据挖掘、机器学习平台等实现对XX数据、仓储数据的深度挖掘统计,实现数据统计可视化展示等。数据迁移:已有数据库(包括数据库和文件)完整移植(导入、校验)等。方案设计建设目标项目以“技术引领,应用为本”为核心导向,以政企用户为主要服务对象,以分布式并行计算框架为基础,充分应用多元数据存储、大规模数据检索和智能文本挖掘、机器学习等先进技术,构建XX行业大数据平台。大数据平台包括数据预处理系统、海量数据存储检索、数据智能挖掘分析。数据预处理系统实现对多源数据的接入、预处理和数据入库等功能;数据统一存储在海量数据存储检索系统中,实现数据的统一存储、管理、检索等功能;同时,为应用层提供数据智能挖掘分析服务,及对数据进行准确分析,提供潜在的有价值的信息。设计理念XX行业大数据平台的建设应当采取:“制定规范——搭建框架——业务开发——集成”的模式,其中“制定规范、搭建框架”最为重要。具体的开发模式如下图所示:开发模式示意图采用这种模式是出于以下几点考虑:项目设计和建设过程中,必须加强标准化建设,发挥标准化的指导、协调和优化作用,少走弯路,提高效率,确保系统运行安全,发挥预期效能。平台建设任务重、业务专业性强,要想高效地完成实施,必然要并行展开,分步实施。为此需要首先搭建整体框架。各个子系统的实施必须在整体框架中进行。行业大数据平台面临集成问题,包括新建各个业务系统的集成、与现有地方协会系统和其它部门的数据交换等。为此,采用首先搭建框架,在框架解决集成接口的问题,各个业务系统也通过框架接口与外部交互,从而统一了要集成系统与平台的交互界面,简化了业务系统的接口工作。大数据平台建设是个不断发展完善的过程,功能将会不断修改、扩充,一个好的框架可以确保系统在修改、扩充时,影响范围最小。设计原则大数据平台建设要做到“两结合一兼顾”。首先是技术先进性与成熟性相结合,既要保持一定时期内技术领先性,又要实现系统运行的稳定性。其次是应用需求和客观条件相结合,设计低成本高效用的建设方案,同时兼顾系统的可扩展性、可靠性、安全性等要求。实用性与可行性:根据业务需求,既要最大限度地满足业务上的各项功能要求,又要确保实用性,具有良好的性能价格比;先进性:采用先进、成熟、实用的技术,既要实现各业务部门的功能,又要确保在未来几年内其技术仍能满足应用发展的需求;开放性:采用的各种设备(软、硬件)均应符合通用标准,符合开放设计原则,使用的技术要与技术发展的潮流吻合,具有良好的开放性、技术延伸性、技术亲合性,要充分考虑后期工程的需要。能够满足业务不断增长的需求。在软件、协议、服务和传输方面提供更多选择,使用模块化设计、集群分布方案,可根据需求变动适当取舍;安全性:保证数据的高安全性,从设备和技术上采取必要的防范措施(物理隔离、防火墙和防毒墙技术),使整个网站在受到有意、无意的非法侵入时,被破坏的可能达到最小程度;可靠性和容错性:在设计中要考虑整体的可靠性,根据设备的功能、重要性等分别采用冗余、容错等技术,以保证局部的错误不影响整体运行;可伸缩性:支持多种硬件平台以及不断发展的业务和用户需求;灵活性:易于修改,并可在软件、协议、服务和传输方面提供更多选择,使用模块化设计方案,可根据需求变动适当取舍。可管理性:能够实时地管理网站运行,动态配置资源,构成高效安全的运行环境,监视系统中的错误,及时排除故障,使整个系统能够坚持长时间的无故障运行;易维护性:系统的管理、维护和维修应具有简易性和可行性。总体架构设计根据大数据处理技术平台项目的建设要求,总体架构图如下图所示:系统架构图数据源:包括各子系统应用数据、报送数据、网络信息采集数据及系统运行数据等。大数据计算:包括数据清洗、数据入库、数据计算、数据挖掘等。服务接口:web服务、rest服务、标准接口(包括API、HTTP、WebService、微服务等)。业务应用:根据权限模型对各用户(各业务部门、服务使用者及决策者等)提供高效完善的系统应用服务。技术架构设计技术架构技术架构主要包括数据集成、数据存储、数据处理计算、数据智能挖掘分析。数据集成采用sqoop、flume、kettle等实现数据的接入、转换、入库等操作,同时采用文本挖掘系统对数据进行预处理操作。数据存储采用Hadoop分布式文件系统(HDFS),分布式数据库HBase进行数据存储,并通过rdbms关系数据库管理系统对关系型数据库进行管理,支持海量数据存储、高效索引和检索等服务。数据处理计算基于yarn、zookeeper的Hadoop集群安装,通过ooize、spark、hive等提供数据处理计算服务。数据智能挖掘分析主要是实现大规模数据的挖掘分析功能,由实时计算框架(SparkStreaming)、离线计算框架(MapReduce)以分布式消息队列(Kafka)、数据挖掘引擎(Mahout)构成。针对数据特点,智能分析模型系统结合了业界最领先的技术提供丰富的数据挖掘、机器学习服务,可以满足各种数据处理存储的应用场景。整个系统中的各个分系统都提供接口服务,接口方式包括包括API、HTTP、WebService、微服务等,通过接口的调用,可以灵活构建丰富的上层系统功能应用。网络拓扑设计平台通过数据接收服务器接收不同数据源的数据,接收到的数据会临时落地,再经由数据推送服务器创建数据推送任务,调用预处理服务器的数据预处理子系统和智能分析服务器的智能分析子系统进行数据推送、数据处理及数据入库服务,数据入库后进行数据存储、索引,并可对外提供检索服务和智能分析服务。各服务平台均提供对外接口,供系统间及第三方平台调用,接口详细设计系统接口设计。系统非功能性设计跨平台性大数据处理技术平台具有跨平台性,可以运行在常见操作系统(Windows或Linux)和应用服务器中间件平台上,支持私有云和公有云平台部署。系统安全设计数据层安全数据层的安全主要是指保护数据库以防止不合法使用造成的数据泄露更改或者破坏,用来保证数据库中数据的完整性,一致性以及数据库备份与恢复。数据库的安全性和计算机系统的安全性(包括操作系统、网络系统的安全性)相互联系,相互支持,只有各个环节都安全,才能保证数据库的安全性。当前对数据库安全的威胁主要分为物理上的威胁和逻辑上的威胁。物理上的威胁指水灾火灾等造成的硬件故障,从而导致数据的损坏和丢失等。为了消除物理上的威胁通常采用备份和恢复的策略。逻辑上的威胁主要是指对信息的未被授权的存取。为了消除逻辑上的威胁,DBMS必须提供可靠地安全侧罗,以确保数据库的安全性。当前所采用的数据库安全技术主要有标志和鉴别、访问控制、信息流控制、推理控制、审计和加密等,其中目前应用最广也最为有效的是访问控制技术。访问控制就是当主体请求对客体访问时,系统根据主体(进程)的用户和组的标识符、安全级和权限,客体的安全级、访问权限以及存取访问的检查规则,决定是否允许主体对客体请求的存取访问方式(读、写、修改、删除、加入记录等)的访问。Web层安全Web层安全致力于解决诸如如何有效进行介入控制,以及如何保证数据传输的安全性的技术手段,防护方法包括四个方面:防火墙、VPN、反病毒软件,以及入侵检测系统(IDS)。防火墙(作为阻塞点、控制点)能极大地提高一个内部网络的安全性,并通过过滤不安全的服务而降低风险。通过以防火墙为中心的安全方案配置,能将所有安全软件(如口令、加密、身份认证、审计等)配置在防火墙上。与将网络安全问题分散到各个主机上相比,防火墙的集中安全管理更经济。例如在网络访问时,一次一密口令系统和其它的身份认证系统完全可以不必分散在各个主机上,而集中在防火墙一身上。VPN是利用开放的公共网络建立一个安全的专用数据传输通道,采用加密和认证技术,利用公共通信网络设施的一部分来发送专用信息,为相互通信的节点建立一个相对封闭的、逻辑的专用网络。目前VPN主要采用4项技术,分别是隧道技术、加解密技术、密钥管理技术、使用者与设备身份鉴别技术。入侵检测系统通过网络上的所有报文,分析处理后,报告异常和重要的数据模式和行为模式。应用层安全应用层是开放系统的最高层,是直接为应用进程提供服务的。其作用是在实现多个系统应用进程相互通信的同时,完成一系列业务处理所需的服务。保障应用层的安全包括使用FTP、SMTP、HTTP、DNS等协议。平台开发及应用安全防护设计采用分层的体系架构,使得Web层、应用层、数据层有效地分离,用户不会直接访问到核心数据库系统。全文检索、分析和发布系统基于EJB/J2EE技术平台进行开发,通过跨平台的应用服务保证系统能够进行稳定地部署,提高系统安全性。为了保证数据实时更新,以及符合动态权限管理要求,系统采用动态发布的方式,在系统后台提供应用程序。辅助提供密码加密措施,即用户信息、密码等私密数据需要以密文方式存储,即使黑客访问到后台数据库,也无法获得私人信息。提供用户身份标识唯一和鉴别信息复杂度检查功能,保证应用系统中不存在重复用户身份标识,身份鉴别信息不易被冒用。提供登录失败处理功能,可采取结束会话、限制非法登录次数和自动退出等措施。启用身份鉴别,用户身份标识唯一性检查、用户身份鉴别信复杂度检查以及登录失败处理功能,并根据安全策略配置相关参数。建立完整的系统管理、栏目授权认证体系、数据审核机制。采用权限管理机制,使得只有有权限的用户才能对相关信息进行操作。并且,将操作的权限进行细分,可以对浏览、编辑、管理单独授权同时,在数据量增大的情况下,为了保证平台能够提供优异的访问性能,在系统设计中采用了自动分库的手段,不同类型的分析数据分库进行存放,这样的设计模式一方面保证了分析工具不至于承担很大的分析负荷,另一方面数据分库存储,也减少了数据库被破坏的风险。备份和恢复根据数据要求及运行情况,提供本地数据备份与恢复功能,完全数据备份至少每天一次,备份介质场外存放。本项目在不降低业务系统性能的条件下保证数据完整性、业务连续性、运行不间断性和快速恢复性。备份方式:逻辑备份简述:逻辑备份包括读一个数据库记录集和将记录集写入一个文件中。这些记录的读出与其物理位置无关。备份模式:完全备份模式逻辑备份分为三种模式:表备份、用户备份和完全备份。完全备份模式3种导出方式1.完全增量导出(CompleteExport)把整个数据库文件导出备份。2.增量型增量导出(IncrementalExport)只备份上一次备份后改变的结果。3.累积型增量导出(CumulateExport)导出自上次完全增量导出后数据库变化的信息。(三)备份方案采用下面的方式进行每天的增量备份。周一:完全备份(A);周二:增量导出(B);周三:增量导出(C);周四:增量导出(D);周五:累计导出(E);周六:增量导出(F);周日:增量导出(G);这样可以保证每周数据的完整性,以及恢复时的快捷和最大限度的数据损失。系统稳定性和高可用性设计系统的稳定性、高可用性即数据报送子系统、数据采集子系统、数据预处理子系统、海量数据存储检索子系统、数据智能挖掘分析子系统等,各系统满足7×24小时不间断工作,不存在单点故障。数据预处理系统稳定性和高可用性设计数据预处理服务器支持双机备份,当主机发生宕机时,备机自动接管该服务器管理的数据处理任务,以及远程执行引擎列表。由此保证了数据接入、转换、入库等操作的稳定性和高可用性。接入数据后对数据进行预处理时使用文本挖掘系统,同时对服务器进行任务的调度,当某一个服务器发生故障时,调度器会启动另外一个服务器进行数据的预处理操作,实现了热备,保证数据预处理环节的稳定性和高可用性。海量数据存储检索系统稳定性和高可用性设计海量数据存储检索系统采用多副本机制,一个索引可由多个子集组成,分布在不同的节点上,实现分布式检索;索引的各个子集可在不同的节点上存储多个副本,索引子集多副本实现了容灾备份,避免单点故障,同时也实现了负载均衡,提高并发检索能力。由此保证海量数据存储检索系统的稳定性和高可用性。数据智能挖掘分析系统稳定性和高可用性设计数据智能挖掘分析系统采用CKMSTA架构对CKM服务器进行任务的调度,当某一个CKM服务器发生故障时,STA调度器会启动另外一个CKM服务器进行数据的挖掘分析,实现了热备,保证数据智能挖掘分析环节的稳定性和高可用性。系统扩展性设计系统需要满足至少6-8年使用需求,扩展性要求是系统设计需要首要考虑的问题,我们按照以下原则进行系统设计,以达到系统可灵活扩展满足随着时间推移和技术进步等出现的新需求。1. 高效管理服务器的数量、性能系统提供自动管理机制满足高效管理服务器数量灵活增加及性能控制。2. 快速提高存储容量,加快响应速度系统存储容量可根据实际情况便捷、灵活扩展,以满足要求和提高响应速度。3. 保证功能模块的独立性,可根据用户需求自由增删模块各模块间采取松耦合方式运作,更有利于系统维护管理,相互间互不影响,并且可提高灵活配置和自由增删模块的便捷性。4. 与现行系统进行数据对接,实现数据的共享与交换系统提供二次开发接口,可灵活定制与其他系统进行数据对接和数据共享和交换。能够将其他系统数据接入大数据平台。低耦合设计平台总体软件体系结构遵循J2EE标准,运行在J2EE应用服务器平台上;采用面向服务体系结构设计;系统采用三层架构的体系结构,具有灵活的扩展性和良好的移植性。业务开发和建设遵循XML、WebService标准规范。大数据处理技术平台各个系统都提供接口,以便于二次开发。各模块间采取松耦合方式运作,更有利于系统维护管理,相互间互不影响,并且可提高灵活配置和自由增删模块的便捷性。系统的实用性该系统能达到好用、易用和实用的标准。实用性包括当前实用性和未来实用性。因此需要最大限度地满足当前的业务需求,同时又要兼顾未来发展的需求。因此,应采取总体设计、分步实施的技术路线,在总体设计的指导下,首先实现带有普遍意义和具有核心价值的(用户急需的)系统功能,并优先实施系统可靠性设计。最终能与用户的实际需求紧密联系,同时也保障了系统扩充和升级的连贯性和平滑性。技术路线和关键技术平台总体软件体系结构遵循J2EE标准,运行在J2EE应用服务器平台上;采用面向服务体系结构设计;系统采用三层架构的体系结构,具有灵活的扩展性和良好的移植性。业务开发和建设遵循XML、WebService标准规范。面向服务(SOA)的架构本项目总体应用框架采用SAO架构,SOA是一种面向企业级服务的系统架构,简单来说,SOA就是一种进行系统开发的新的体系架构,在基于SOA架构的系统中,具体应用程序的功能是由一些松耦合并且具有统一接口定义方式的组件(也就是service)组合构建起来的。因此,基于SOA的架构也一定是从企业的具体需求开始构建的。但是,SOA和其它企业架构的不同之处就在于SOA提供的业务灵活性。业务灵活性是指企业能对业务变更快速和有效地进行响应、并且利用业务变更来得到竞争优势的能力。对企业级架构设计师来说,创建一个业务灵活的架构意味着创建一个可以满足当前还未知的业务需求的IT架构。利用基于SOA的系统构建方法,一个基于SOA架构的系统中的所有的程序功能都被封装在一些功能模块中,我们就是利用这些已经封装好的功能模块组装构建我们所需要的程序或者系统,而这些功能模块就是SOA架构中的不同的服务(services)。从面向服务的架构(SOA)示意图来看,SOA是一个典型的MVC模式的架构。但是,与传统方法相比,SOA更加强调以下优势:基于标准、松散耦合、共享服务、粗粒度和联合控制。通过不断地构筑业务需要的各种标准服务,实实在在地形成一个“服务仓库“,按需服务,最终实现业务自主。遵循XML数据标准内容整合系统要求数据采用统一规范的标准,目前通常采用XML规范标准。可扩展标记语言(XML)是Web上的数据通用语言。XML是一种开放的标准,XML语言不受任何实体的控制也不归任何实体所有。XML可以扩展,XML标签可以被任何人创建并被其他人所采用。它使开发人员能够将结构化数据,从许多不同的应用程序传递到桌面,进行本地计算和演示。XML允许为特定应用程序创建唯一的数据格式。它还是在服务器之间传输结构化数据的理想格式。在系统应用中使用XML技术有以下的优势:提供用于本地计算的数据传递到桌面的数据可以进行本地计算。XML分析器可以读取数据,并将它递交给本地应用程序(例如浏览器)进一步查看或处理。数据也可以由使用XML对象模型的脚本或其他编程语言来处理。向用户提供正确的结构化数据视图传递到桌面的数据可以以多种方式表示。本地数据集,可以根据用户喜好和配置等因素,以适当的形式,在视图中动态表现给用户。允许集成不同来源的结构化数据一般情况下,使用代理,在中间层服务器上集成来自后端数据库和其他应用程序的数据,使该数据能够传递给桌面或者其他服务器,做进一步聚合、处理和分布。描述来自多种应用程序的数据由于XML是可扩展的,因此它可以用于描述来自多种应用程序的数据,从描述Web页面集合到数据记录。由于数据是自描述的,因此不需要数据的内置描述,也能够接收和处理数据。通过粒度更新来提高性能XML允许粒度更新。开发人员不必在每次有改动时都发送整个结构化数据集。有了粒度更新后,只有改变的元素才必须从服务器发送到客户机。改变的数据可以在不必刷新整个页面或表的情况下显示。基于WebService技术WebService技术可以让地理上分布在不同区域的计算机和设备一起工作,以便为用户提供各种各样的服务。用户可以控制要获取信息的内容、时间、方式,而不必像现在这样在无数个信息孤岛中浏览,去寻找自己所需要的信息。从发展趋势上看毫无疑问,WebService将成为下一代Web的主流技术。选择WebService技术还基于如下的技术优点:WebService是创建可互操作的分布式应用程序的新平台。WebService的主要目标是跨平台的可互操作性。为了达到这一目标,WebService是完全基于XML、XSD等独立于平台、独立于软件供应商的标准的。WebService在应用程序跨平台和跨网络进行通信的时候是非常有用的。WebService非常适用于应用程序集成、B2B和G2G集成、代码和数据重用,以及通过Web进行客户端和服务器的通信的场合即WebService技术对新一代因特网协议标准的支持是其他技术不能望其项背的,这也是WebService技术倍受推崇,并取得成功的原因所在。组件技术和模块化构造组件是独立于特定的程序设计语言和应用系统、可重用和自包含的软件成分,这些软件成分可以很容易的被组合到更大的程序当中而不用考虑其本身的实现细节。在一个系统中,组件是一个可替换单元,因此,软件系统更易于开发且具有更大的灵活性。组件技术是在面向对象的开发技术基础上发展起来的,可以说是面向对象技术在系统设计级别上的延伸。与面向对象技术相比,组件技术继承了面向对象的封装性,而忽略了继承性和多态性。组件是对象有机结合,不需要关心组件中的对象和实现细节。组件有其固定的特征,即软件重用和互操作性、可扩展性、组件接口的稳定性和组件基础设施稳固性而且无论是静态还是动态的引用都可以稳定的提供组件的功能和接口。同时系统采用模块化构造,具有良好的开放性、可扩展性,可以根据业务拓展需求不断进行调整、组合、开拓新功能。反爬虫机制网络爬虫,从功能上讲一般分为数据采集,处理,储存三个部分,是一个自动提取网页的程序,它为搜索引擎从网上下载网页,是搜索引擎的重要组成。但是当网络爬虫被滥用后,互联网上就出现太多同质的东西,原创得不到保护。由于本系统及网站涉及大量行业、统计信息,为最大程度保护数据,需建立反爬虫机制,可根据ip访问频率,浏览网页速度,flash封装,ajax混淆,js加密等技术来反对网络爬虫。网络反爬虫手段可分为两种:一是从客户端的角度进行反爬,二是从服务端进行反爬。从客户端的角度进行反爬虫,常见的如微博、QQ空间等复杂登陆流程和ajax动态加载,会让爬虫工程师的工作量增加,同时配合动态生成url,主要是动态生成构成该url的key阻止爬虫爬取。从服务器的角度进行反爬虫可分为两类。一类是实时反爬虫方式,另外一种是非实时反爬虫方式。实时的反爬虫方式可以直接通过requestheaders头信息阻挡一些简单小爬虫,配合通用的采用滑动时间窗口验证,增加爬取成本。非实时的反爬虫方式即在Nginx等WebServer中获取所有IP的访问记录,或根据页面嵌入的JS统计流量的数据,基于这两点拿流量统计记录的IP和服务器日志记录的IP进行比较,如果服务器日志里面某个IP发起了大量请求,但是流量统计里没有,或者访问量只有很少几个,那么来源于该IP的请求则是爬虫。爬虫与反爬虫是一个博弈的过程。爬虫不能绝对的禁掉,只能尽可能的增加爬取成本,避免爬虫对于正常业务的影响。反爬虫的效果取决于使用的策略的复杂度,但是策略越复杂可能对于接口或者页面的性能影响越大,因此需掌握好平衡度后实施。反反爬虫采集行业信息、统计信息等采集是系统服务的基础,为更好的解放劳动力,实现信息的自动化采集是重要的手段,然而在采集过程中,目标网站大都设置反爬虫策略,爬取难度增大,故需对此设置反反爬虫策略以更好的爬取相关内容。常见的反爬虫策略及应对方法如下:通过Headers反爬虫从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer)。遇到此反爬虫机制时可以直接在爬虫中添加Headers,将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫,在爬虫中修改或者添加Headers即可绕过。基于用户行为反爬虫部分网站是通过检测用户行为,例如同一IP短时间内多次访问同一页面,或者同一账户短时间内多次进行相同操作。对于第一种情况,使用IP代理即可解决。首先需写一个爬虫程序,爬取网上公开的代理ip,检测后保存起来,然后可以每请求几次更换一个ip,这样就能绕过第一种反爬虫。对于第二种情况,可以在每次请求后随机间隔几秒再进行下一次请求。有些有逻辑漏洞的网站,可以通过请求几次,退出登录,重新登录,继续请求来绕过同一账号短时间内不能多次进行相同请求的限制。动态页面的反爬虫部分网站需要爬取的数据是通过ajax请求得到,或者通过JavaScript生成的。针对这种反爬虫,首先用Firebug或者HttpFox对网络请求进行分析,找到ajax请求,分析出具体的参数和响应的具体含义,然后采用上面的方法,利用requests或者urllib2模拟ajax请求,对响应的json进行分析得到需要的数据。部分网站会将ajax请求的所有参数全部加密以应对爬虫,造成无法构造所需要的数据的请求,遇到此种网站,可采用selenium+phantomJS框架,调用浏览器内核,并利用phantomJS执行js来模拟人为操作以及触发页面中的js脚本。从填写表单到点击按钮再到滚动页面,全部都可以模拟,不考虑具体的请求和响应过程,只是完完整整的把人浏览页面获取数据的过程模拟一遍。因为phantomJS就是一个没有界面的浏览器,只是操控这个浏览器的不是人。利用selenium+phantomJS即可完成识别点触式(12306)或者滑动式的验证码,对页面表单进行暴力破解等,已完成数据的采集。业务流程控制建立灵活的业务流程控制,使信息中心可以随着商业环境的变化而方便迅速的改变自身的业务流程。系统在配置阶段,定义的流程在基于流程的信息系统中实施;在流程运行实施阶段,业务流程开始利用在配置阶段的内容开始实施;在诊断阶段,系统开始分析业务流程以发现其中的问题和需要改进的地方,在流程设计阶段重新定义,往返循环不断的优化业务流程。业务流程的定义充分利用硬件环境的优势,将任务合理分配到User端和Server端来实现,在流程定义阶段,用户只需定义组织结构,流程和表单就能够完成流程的设计,流程页面主要有两种:1.表单页表单页的流程是根据信息中心的实际情况制定,流程表单也是根据实际情况进行后台表的设计和前台界面的绘制,这也是工作流的基本使用。2.接口页接口页是对于已有的页面提供接口,使页面在工作流系统中流转,使用接口页真正实现了业务的随需应变,可以随意的对于信息管理系统进行流程的按需设计按需管理。工作流配置流程模板管理工作流配置流程模板管理流程节点模板管理节点候选人管理节点场景配置异常流程处理发起流程根据模板初始化初始化表单数据初始化场景临时保存流程保存代办任务流程转初始化场景节点候选人管理修改并保存流程采用业务流程控制达到以下目标:实现可视化流程自定义功能,可以无限量的去添加流程,流程以列表的形式显示,在流程列表中,可以修改、删除所选定流程。实现工作流分类的增加、删除和修改。针对审批表单的项目进行统计,包含按照时间段、业务类型、表单状态等。系统支持纯WEB的管理监控工具,对于当前流程的审批状态进行监控。通过对流程的监控可以让用户了解当前流程的进度。可以自定义的流程设定,使系统在易用性上有所增强,工作流引擎的引入加大了系统的实用性,用户不需要再为变动的申请流程特意改变系统架构。大数据处理分析技术云存储系统设计云存储系统(分布式存储系统)采用通用X86架构或ARM架构存储服务器作为硬件载体,而非自身定制化硬件实体,通过在其上部署自身的分布式软件以实现分布式云存储的功能。所有硬件设备,如存储服务器、交换机、磁盘以及相应的附件,均可在市场上采购,且不限于特定厂家或必须使用某种特定专有设备。分布式存储软件支持通过X86架构或者ARM架构的硬件,但又独立于特定的硬件,而不是和特定硬件平台或者设备绑定。云存储系统具有高度可靠、性能优异、无限容量、在线伸缩等特点。分布式存储服务在性能和容量上需具备具有高扩展性和线性增长能力。支持多种扩容方式,可通过增加磁盘、服务节点以及磁盘柜等多种灵活的方式,实时对云存储容量进行扩充,并且在动态扩容期间服务不中断。分布式数据库系统设计数据库服务包括传统的关系型数据库服务和分布式数据库。分布式数据库系统使用计算机网络将物理位置分散而管理和控制又需要不同程度集中的多个逻辑单位(通常是集中式数据库系统)连接起来,共同组成一个统一的数据库系统,因此,分布式数据库系统可以看成是计算机网络与数据库系统的有机结合。结合大数据系统的特点,分布式数据库服务主要可分为2种:第一种主要面向的是采用结构化数据的关系型数据库系统。第二种主要面向的是采用非结构化或半结构化数据的非关系型数据库系统。分布式计算架构设计分布式计算框架为用户提供容易使用的并行编程模式、处理海量数据的处理框架,用于对大规模数据集的并行处理。处理能力可以通过增加或减少机器达到动态调整。分布式计算框架采用先进的容错技术,确保处理任务的可靠性,即使在异常情况下,如机器宕机、断网的情况下,确保处理任务的实时性和准确性。分布式处理框架是建立在分布式存储和分布式数据库的基础之上。安全保障体系设计大数据基础平台从数据、应用和虚拟化三个层面对传输安全、存储安全、恢复安全和审计安全进行控制,通过对流量的清洗和监控以及基于计算、存储和网络的虚拟化技术,实现多用户之间的资源隔离,明晰安全边界,降低系统的安全风险,确保用户的隐私保护。与此同时,制定标准规范体系,提高标准化意识,发挥标准化的导向作用,在确保技术协调一致和整体效能实现的前提下,增强系统的扩展性、数据共享性和互联互通性。HDFS分布式文件系统分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。分布式文件系统HDFS(HadoopDistributedFileSystem)是一个开源云处理平台Hadoop框架的底层实现部分,适合运行在通用硬件上的分布式文件系统,具有高容错性,能提高吞吐量的数据访问,非常适合于大规模数据集上的应用。HDFS对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件等。但是HDFS的架构是基于一组特定的节点构建的,这些节点包括NameNode(仅一个),它在HDFS内部提供元数据服务;DataNode,它为HDFS提供存储块。由于仅存在一个NameNode,因此这是HDFS的一个缺点(单点失败)。存储在HDFS中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的RAID架构大不相同。块的大小(通常为64MB)和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的TCP/IP协议。MAP/REDUCE分布式并行数据处理MapReduce在HDFS的基础上实现的并行框架,为用户提供容易使用的并行编程模式,MapReduce处理包括两个阶段,Map(映射)阶段和Reduce(规范)阶段。首先,Map函数把一组(Key,Value)输入,映射为一组中间结果(Key,Value),然后通过Reduce函数把具有相同Key值的中间结果,进行合并化简。MapReduce将处理作业分成许多小的单元,同时数据也会被HDFS分为多个Block,并且每个数据块被复制多份,保证系统的可靠性,HDFS按照一定的规则将数据块放置在集群中的不同机器上,以便MapReduce在数据宿主机器上进行处理。Spark实时计算框架Spark是专为大规模数据处理而设计的快速通用的计算引擎,Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。SparkStreaming构建在Spark上,基本原理是将Stream数据分成小的时间片断(几秒),以类似批量处理的方式来处理这小部分数据。优点在于,第一Spark可以低延迟执行(100ms+),另一方面相比基于Record的其它处理框架(如Storm),一部分窄依赖的RDD数据集可以从源数据重新计算达到容错处理目的。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。ZOOKEEPER协调调度系统ZOOKEEPER是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Zookeeper分为2个部分:服务器端和客户端,客户端只连接到整个ZooKeeper服务的某个服务器上。客户端使用并维护一个TCP连接,通过这个连接发送请求、接受响应、获取观察的事件以及发送心跳。启动Zookeeper服务器集群环境后,多个Zookeeper服务器在工作前会选举出一个Leader,在接下来的工作中这个被选举出来的Leader死了,而剩下的Zookeeper服务器会知道这个Leader死掉了,在活着的Zookeeper集群中会继续选出一个Leader,选举出leader的目的是为了可以在分布式的环境中保证数据的一致性。如图所示:另外,ZooKeeper支持watch(观察)的概念。客户端可以在每个znode结点上设置一个观察。如果被观察服务端的znode结点有变更,那么watch就会被触发,这个watch所属的客户端将接收到一个通知包被告知结点已经发生变化。若客户端和所连接的ZooKeeper服务器断开连接时,其他客户端也会收到一个通知,也就说一个Zookeeper服务器端可以对于多个客户端,当然也可以多个Zookeeper服务器端可以对于多个客户端。大数据分析大数据分析需建立相应的统计分析模型,大数据建模是通过多个学科技术融合,实现数据的抽取、管理和分析,达到发现新知识和规律的目的,其步骤包含模型建立、模型训练、模型验证、模型预测,利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。分类:分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到用户的分类、用户的属性和特征分析、用户满意度分析等,如一个XX企业将用户按照对XX的速度、价格等因素划分成不同的类,这样营销人员就可以将广告手册直接邮寄到相关用户手中,从而大大增加了商业机会。回归分析:回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。聚类:聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、市场的细分等。关联规则:关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场的关键因素,为决策支持提供参考依据。特征:特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。变化和偏差分析:偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。Web页挖掘:随着Internet的迅速发展及Web的全球普及,使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web的海量数据进行分析,收集政治、经济、科技、金融、市场等有关的信息,集中精力分析和处理对行业有重大或潜在重大影响的外部环境信息和内部信息,并根据分析结果找出管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。模型的建立是一个反复的过程,需要仔细考察不同的模型及分析方法以判断哪个模型对问题研究最有利,此部分工作需结合各部门业务及应用需要。机器学习机器学习的主旨是使用计算机模拟人类的学习活动,它是研究计算机识别现有知识、获取新知识、不断改善性能和实现自身完善的方法。学习意味着从数据中学习,通过对已知的样本进行训练得到算法模型,然后对未知样本的度量结果(或者标签)进行预测。机器学习处理过程基于大数据的机器学习传统的机器学习算法,由于技术和单机存储的限制,只能在少量数据上使用,机器学习依赖于数据抽样,而实际中样本往往很难做好随机,导致学习模型不是很准确,在测试数据上效果存在偏差。随着HDFS等分布式文件系统出现,存储海量数据成为可能。XX行业大数据平台采用sparkmllib及TensorFlow实现机器学习。Spark机器学习库MLLibSpark提供了一个基于海量数据的ML库(MLLib),MLLib提供了常用机器学习算法的分布式实现,可以通过调用相应的API来实现基于海量数据的ML过程。其次,Spark-Shell的即席查询使得工程师可以边写代码,边运行,边看结果。MLlib(Spark的机器学习库)旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。具体来说,其主要包括以下几方面的内容:算法工具:常用的学习算法,如分类、回归、聚类和协同过滤;特征化公交:特征提取、转化、降维和选择公交;管道(Pipeline):用于构建、评估和调整机器学习管道的工具;持久性:保存和加载算法,模型和管道;实用工具:线性代数,统计,数据处理等工具。使用MLPipelineAPI可以很方便的把数据处理,特征转换,正则化,以及多个机器学习算法联合起来,构建一个单一完整的机器学习流水线。TensorFlowTensorFlow是基于DistBelief进行研发的人工智能学习系统,Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。其使用方式包含:使用图(graph)
来表示计算任务使用
tensor
表示数据通过变量(Variable)
维护状态使用
feed
和
fetch
可以为任意的操作(arbitraryoperation)赋值或者从其中获取数据自然语言处理基于大数据分析、机器学习技术,对采集数据、行业数据等进行文本处理,包括自动分词、关键词提取、文本摘要、命名实体识别、自动分类、拼音检索、短语检索等。自动分词系统在接入数据后进行预处理时可采用分词技术对文本内容进行分词,分词是指将文本切分成词语,在词语切分的基础上可以方便地进行各种文本挖掘工作。采用基于规则与统计相结合的分词技术,将中文的汉字序列切分成有意义的词,能够支持多种词典,并保证分词的快速性、准确性与实用性;可应用于文献检索、搜索引擎等诸多领域,提高检索的相关性排序的准确度等。主要功能还包括:1.将文本进行切割形成分词效果2.用户可自行定义分词的分隔符3.分词结果可以连同词性一起作为结果显示关键词提取在接入数据后进行预处理时可采用关键词提取技术对文本的关键词进行提取等操作,可自定义关键词个数,保证关键词提取的快速性和准确性。文本摘要在接入数据后进行预处理时可采用摘要技术对文本的摘要进行提取等操作,通过调节摘要百分比控制摘要占文章的长度的百分比,保证文本摘要的快速性和准确性。命名实体识别实体识别技术主要是对文本的实体词进行识别操作,对文本抽取出其中包含的人名、地名、组织机构名、身份证号码、电话、时间、Email、车牌号、专有名词等实体信息。基于规则与统计相结合的技术,从非结构的文本信息中抽取有意义的实体信息,保证命名实体识别的快速性和准确性,被抽取的实体信息以结构化的形式进行描述,并可以存入结构化数据库中,供分析和利用。自动分类文本自动分类技术支持两种分类方式:基于内容的文本自动分类和基于规则的文本分类。自动分类支持置信度限制,可根据置信度对分类的结果进行过滤,支持分类结果和置信度共同输出。基于规则的文本分类可输入相关分类规则,如按行业、地域等,系统能基于规则实现类别的划分。分类可同时使用,满足自动分类的快速性、准确性。文本内容抽取文本内容抽取可将doc、pdf等文档文件中的文字内容进行抽取,即提取文档的纯文本数据。支持多种抽取服务,并可以进行扩展,适应在不同条件下,使用不同的抽取服务,也可以轮询多种服务,直到成功为止。数据入库数据经过接入、处理后对数据进行入库操作,为后续的统计分析及可视化提供基础的数据源。支持多线程装库,保证数据入库快速高效、数据完整性、一致性。支持数据入库到多种关系型数据库中,包括MySQL、SQLServer、DB2、Oracle、Sybase等常见数据库类型。数据可视化基本概念数据可视化,是关于数据视觉表现形式的科学技术研究。可视化技术是利用计算机图形学及图像处理技术,将数据转换为图形或图像形式显示到屏幕上,并进行交互处理的理论、方法和技术。它涉及计算机视觉、图像处理、计算机辅助设计、计算机图形学等多个领域,成为一项研究数据表示、数据处理、决策分析等问题的综合技术。其基本概念包含以下维度:1)数据空间。由n维属性、m个元素共同组成的数据集构成的多维信息空间。2)数据开发。利用一定的工具及算法对数据进行定量推演及计算。3)数据分析。对多维数据进行切片、块、旋转等动作剖析数据,从而可以多角度多侧面的观察数据。4)数据可视化。将大型数据集中的数据通过图形图像方式表示,并利用数据分析和开发工具发现其中未知信息。数据可视化标准为实现信息的有效传达,数据可视化应兼顾美学与功能,直观的传达出关键的特征,便于挖掘数据背后隐藏的价值。可视化技术应用标准应该包含以下4个方面:1)直观化。将数据直观、形象的呈现出来。2)关联化。突出的呈现出数据之间的关联性。3)艺术性。使数据的呈现更具有艺术性,更加符合审美规则。4)交互性。实现用户与数据的交互,方便用户控制数据。数据可视化数据可视化允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。数据可视化技术的基本思想,是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。可视化数据通常分为:一维数据、二维数据、三维数据、高维数据、时态数据、层次数据和网络数据。其中一维数据较为简单,为直观的展示,二维数据、三维数据应用最为广泛,高维数据、层次数据、网络数据、时态数据则处于发展前期。一维数据就是一条线,线上的每个点可以用一个数值来表示。如:a1:A99,B:B(A1:A99就如同数学里的线段,它是直线的一段,B:B就是直线化的数据)。二维数据就是一组平面化的数据,平面中的某个点的位置可以用两个坐标值来表示,如:A1:E5,A:D。常见的二维数据表示方法如柱形图、条形图等。三维数据是一个立方体,立方体内的某个位置需要三个坐标值来表示,是多个二维平面数据的层叠,就如同若干张纸(二维的面)形成一本书(立体三维),常见的如气泡图、热力图等。高维数据是指每一个样本数据包含p(p≥4)维空间特征。如果单从高维数据的抽象数据值上进行分析很难得到有用的信息。相对于对数据的高维模拟,低维空间的可视化技术显得更简单、直截。而且高维空间包含的元素相对于低维空间来说更加更复杂,容易造成人们的分析混乱。将高维数据信息映射到二三维空间上,方便高维数据进行人与数据的交互,有助于对数据进行聚类以及分类。层次数据具有等级或层级关系。层次数据的可视化方法主要包括节点链接图和树图。其中树图(treemap)由一系列的嵌套环、块来展示层次数据,主要技术包括“鱼眼”技术、几何变形、语义缩放、远离焦点的节点聚类技术等。网络数据表现为更加自由、更加复杂的关系网络。分析网络数据的核心是挖掘关系网络中的重要结构性质,如节点相似性、关系传递性、网络中心性等,网络数据可视化方法应清晰表达个体间关系以及个体的聚类关系。主要布局策略包含结点链接法和相邻矩阵法。时间序列数据是指具有时间属性的数据集,针对时间序列数据的可视化方法包含:线形图、动画、堆积图、时间线、地平线图。集群部署基于系统功能、数据量及安全性要求,采用服务器集群部署关键应用,集群(Cluster)是由多个节点构成的一种松散耦合的节点集合,协同起来对外提供服务,要求7*24小时不间断连续提供服务并且不能表现出故障切换。集群存储系统具有Scale-Out横向高扩展能力,实现容量和性能线性扩展。集群存储现有技术方案主要通过被冗余技术解决可用性问题,包括副本技术、纠删码技术、主备或全活HA技术。
副本技术
副本(Replication)就是对原始数据的完全拷贝。通过为系统中的文件增加各种不同形式的副本,保存冗余的文件数据,有效地提高文件的可用性,避免在地理上广泛分布的系统节点由网络断开或机器故障等动态不可测因素而引起的数据丢失或不可获取。一般而言,副本数量越多,文件的可靠性就越高,但是如果为所有文件都保存较多的副本数量,将消耗大量的系统存储资源,并增加文件管理的复杂度。
副本还可以起到提高系统性能的作用。通过合理的选择存储节点放置副本,并与适当的路由协议配合,可以实现数据的就近访问,减少访问延迟,提高系统性能。另外,通过增加副本数量,将集中地文件访问合理地分布到不同的节点和网络路径,利用其他节点和网络路径平衡节点和网络的负载,可以有效地解决热点问题。对于数据量较大的文件,还可以通过对多个副本的并行读取,进一步分散和平衡节点负载,提高文件读取的效率,提高系统的I/O性能。典型的副本案例包括RAID1、GFS/HDFS副本(默认三个)和Glusterfs复制卷。纠删码技术
纠删码(ErasureCode)作为一种前向错误纠正技术主要应用在网络传输中避免包的丢失,存储系统利用它来提高存储可靠性。将要存储在系统中的文件分割成k块,然后对其编码得到的n个文件分片并进行分布存储,则只需存在k’个可用的文件分片,就可以重构出原始文件。纠删码的空间复杂度和数据冗余度较低,若文件分为k块,编码得到后得到的n个分块,需要存放在n个系统节点上,消耗n/k倍的存储资源。纠删码能提供很高的容错性和很低的空间复杂度,但编码方式较复杂,需要大量计算。
HA技术
高可用(HA,HighAvailability)集群通过一组计算机系统提供透明的冗余处理能力,从而实现不间断应用的目标。高可用集群是共同为客户机提供网络资源的一组计算机系统,其中每一台提供服务的计算机称为节点(Node)。当一个节点不可用或者不能处理客户的请求时,该请求会及时转到另外的可用节点来处理,而这一过程对于客户端是透明的,客户不必关心要使用资源的具体位置,集群系统会自动完成。HA集群是为了提高系统的可用性,以便在单个节点出现故障的时候,持续满足用户的需求的集群系统。
HA集群系统构成主要包括主服务器(Master节点)、从服务器(Slave节点)、共享数据系统(SAN存储或数据同步系统)和心跳网络,HA集群的容错备援过程主要包括故障侦测、自动切换和自动恢复,其工作方式主要分为主备方式、全活方式和N+M方式。主备(Active/Standby)方式HA集群提供了最大的可用性,以及对性能的最小影响。该模型需要一个节点在正常工作时处于备用状态,主节点处理客户机的请求,而备用节点处于空闲状态。当主节点出现故障时,备用节点会接管主节点的工作,继续为客户机提供服务,并且不会有任何性能上的影响。全活(Active/Active)HA集群是最常用的集群模型,它提供了高可用性,并且在只有一个节点在线时提供可以接受的性能。
该模型允许最大程度利用硬件资源,每个节点都通过网络对客户机提供资源,每个节点的容量被定义好,使得性能达到最优,并且每个节点都可以在故障转移时临时接管另一个节点的工作。所有的服务在故障转移后仍保持可用,但是性能通常都会下降。N+M模式HA集群系统由多个主节点、若干个从节点以及一些辅助设备(存储阵列、交换机)等组成。根据应用的级别,调整从节点的数量,可以为一个,也可以为多个。主节点的数量可以为一个或者多个,根据应用需要随时调整搭配,但主节点为多个并不是同一个应用的“并行处理”,而是不同的应用。SAN架构集群存储HA方法
基于SAN架构的集群存储系统,后端存储采用中高端磁盘阵列子系统,支持RAID0、1、5、6、10等不同级别RAID等级,并通过光纤FC接口连接到各个集群节点。SAN磁盘阵列通过不同RAID等级对数据进行保护,通过冗余机制提供高可用性,同时降低了一定程度的存储利用率。当集群节点服务器发生故障时,后端SAN存储通常仍然处于正常工作状态,存储在其上面的数据也是完整一致的。因此,完全可以从正常工作的其他集群节点中选择一个节点来接管故障节点的资源和服务,继续对外提供数据服务,保证业务的连续性。面向基于SAN架构的集群存储系统,可以采用全活HA架构技术,不仅接管故障节点的IP和服务进程资源,而且接管故障节点的存储软件服务进程和物理存储资源,支持NFS/CIFS/HTTP/FTP/ISCSI等协议协议。利用TCP/IP协议的连接重连技术,还可以实现类似CTDB对故障节点的透明接管,不会产生接管期间的业务中断。这些方法保证集群存储系统的存储利用率以及系统性能不会受到影响,并且可以透明接管完整的系统资源,提供更高的系统可用性。其基本设计原则如下:
当某个节点由于停机,或者系统出现异常,不能再向上层的应用提供数据存储服务时,则需要由备份节点接管连接到该节点上的SAN存储设备,并启动相应的服务,以保证前端应用仍然可以正常地进行数据存储操作。为平衡系统中各节点的负载,避免备份节点的负载过重,当出现故障的节点修复后,需要将被接管的SAN存储重新恢复。在上述的接管与恢复过程中,需要保证对前端的数据存储没有明显影响,CIFS、NFS等服务不中断,做到透明接管和恢复。
备份节点的选择,采用Round-Robin轮询法,在当前正常工作的节点中选择其中之一作为备份节点。
SAN架构的集群存储系统,数据可用性主要由
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年个人行李托运合同-国际旅行专用
- 2024年度钢质门供应合同3篇
- 2024年产品生产加工承包协议样本版B版
- 食堂人力资源服务合同(2024版)
- 幼儿园节日装饰用品订购合同
- 国内采购合同范本样式
- 夏季大米购销合同
- 管道维修劳务分包合同
- 合同管理制度在建筑施工中的价值
- 房屋买卖合同中的担保人角色
- 手工-超轻黏土-课件
- 直埋光缆施工规范
- 道路照度计算公式-如下
- 六年级上册英语课件-Unit2 What a day!第3课时 |译林版(三起) (共17张PPT)
- 四年级下册英语教案-Unit 4 There are seven days in a week Lesson 23 |人教精通版
- (新版)脊柱按摩师中级理论考试题库(含答案)
- 房屋建筑装饰磷石膏手工抹灰施工方案
- 工会工作总结汇报课件
- 中考作文之布局谋篇课件(共69张)
- 国家开放大学电大兽医基础(一村一)期末题库及答案
- 川仪热电偶热电阻选型手册
评论
0/150
提交评论