版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
11XX 市旅游大数据平台解决方案XX 有限责任公司XX市旅游大数据平台解决方案目录旅游大数据平台项目概述 6建设背景 6旅游大数据带了的新的挑战 61.2.1数据挖掘搜集复杂61.2.2经验与数据的结合61.2.3分析与优化的结合71.2.4数据开放与隐私的权衡 7建设目标 7建设原则 7旅游大数据平台优势 9旅游大数据平台需求分析 11大数据在业务需求分析 11省旅游局和5a景区的应用 11旅行社和OTA的应用 11大数据有助于精确旅游行业市场定位 11大数据成为旅游行业市场营销的利器 12大数据支撑旅游行业收益管理 12大数据创新旅游行业需求开发 13旅游舆情监测服务: 132.2总体建设需求 14旅游大数据平台总体规划设计 15第1页市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE7第页PAGE7整体建设思想 15整体系统结构 15计算资源和存储资源配置估算 18旅游大数据平台资源层规划设计 19旅游大数据平台基础架构体系 19设计原则 19系统总体架构 20虚拟化拓扑的结构 23旅游大数据平台虚拟化组件 244.2.1迁移 244.2.2高可靠性(HA) 244.2.3容错 25动态资源分配 25分布式电源管理 26分布式集群存储平台 27方案拓扑图 27方案描述 27系统软件 28旅游大数据平台系统管理支撑系统 28产品定位 29云应用 29产品架构 30产品体系31产品功能32集群存储系统 33集群存储系统的特点 33系统功能及特点 36海量数据高效管理 36数据读写性能 36数据全局共享 37数据安全性38系统可扩展性 38与现有环境无缝兼容 39系统的整体拥有成本 39使用分布式提高投资回报率 40降低管理及运行成本——简易存储 40提高用户应用的生产力 41基于大数据的旅游数据管理与分析系统 42大数据平台介绍 43平台功能框架 43分布式存储功能 43分布式计算功能 44NoSQL功能 44数据仓库功能 4.1.6分式协调功能 4.1.7旅工作数据流管理功能 4.1.8维管理功能 46旅游中心分析系统架构 4.2.1非式数据的分类存储 4.2.2对格式化数据的全文检索合多线索加权检索 4.2.3完的旅游中心分析报表系统 4.2.3.1国内旅游形势分析 48按照全国地域分析各地方旅游 48按照全国人文风情数据技术分析民俗旅游的趋向; 48用户可以定制所关心的数据统计图 4.2.3.2数据分类存储与自动化数据引擎 4.2.4旅数据存储管理分析系统架构 4.2.4.1数据按照旅游分类存储 50.2.4.2数据按照信息分类趋势分析 50大数据统一平台 50.3.1采集 5.3.2数据接入 5.3.3规则过滤 5.3.4数据存储 5.3.5计算引擎 5.3.5.1 功能 5.3.5.2组成 5.3.5.3 基本算子集5.3.6 业务处理5.3.7业务管理 5.3.8用权限管理 5.3.9 业务管理58旅游大数据平台安全层规划设计 6.1大数据平台安全建设需求 6.2旅游大数据平台安全建设思路 6.3旅游大数据平台安全系统总体设计 6.4旅游大数据平台安全防护详细设计 6.4.1平终端接入安全设计 6.4.2主机层安全 6.4.3 服务器负载均衡6.4.4虚机VM之间访问安全 6.5旅游大数据平台层安全 6.6数据层安全 74旅游大数据平台备份设计 75逻辑架构75方案实现设计 75旅游大数据平台项目概述建设背景随着大数据的应用热潮,在旅游行业也得到了业界的高度重视,大数据更加贴近消费者、深刻理解需求、高效分析信息并作出预判。如今的数据已经成为一种重要的战略资产,极富开采价值。并在未来的商业竞争中占据会占得先机。1、提高服务质量利用旅游行业数据库进行分析,建立纵向和横向的纬度进行分析建模,依托行业数据分析推演,可以有效的知道旅游政府部门和景区的公共服务体系建设,真正提高旅游公共服务满意度2、改善经营管理通过对大量数据的挖掘和分析,有效指导旅游局和景区企业的管理工作。根据游客的特征和偏好,提供有力的旅游产品和服务,利用大数据进行产业运行状况分析,有效的运行监测,对产业实施有效的管理,是推动旅游产业建设的必要手段3、改变营销策略通过大数据可以了解用户画像数据、掌握游客的行为和偏好,真正的实现"投其所好",以实现推广资源效率和效果最大化。旅游大数据带了的新的挑战数据挖掘搜集复杂大数据收集必须要明确业务所需,再对自已有价值的数据进行收集整合,才能合理收集运用大数据。市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE9第页PAGE9经验与数据的结合有了数据还要做判断,把这种杂乱无章整理成我们能实际能应用的。通过我们以往的经验,再与数据结合,从而分析确定目标客户。分析与优化的结合分析的目的是优化,还要做决策上的改变和调整。优化则是会玩数据,科学的做好统计并加以分析,。数据开放与隐私的权衡随着公众对于隐私泄露担忧的加剧,政府也必将出台相应的管理法案,对企业的数据挖据和分享行为进行规范,这也将是必然的。建设目标依托大数据云计算技术,为旅游转型升级提供了绝好的契机。对旅游平台业务数据管理、数据分析、数据采集、数据分类、产业规范,实行统一规划和建设。所有资源整合后在逻辑上以单一整体的形式呈现,并可按需进行动态扩展和配置。按照分阶段可升级的标准要求,为多级单位提供应用支撑基础平台服务和数据存储、备份、交换等服务,实现基础软硬件资源的统一管理、按需分配、综合利用,增强数据中心的可管理性,提高应用的兼容性和可用性,加速业务系统的部署,提升硬件资源的利用率;建设原则结合本项目的实际应用和发展要求,在进行旅游大数据平台方案设计过程中,应始终坚持以下原则:可扩展性原则为了保证不断增长的旅游市场需求,系统必须具有灵活的结构并留有合理的扩充余地,以便根据需要进行适当的变动和扩充;主要平台系统应采用开放的结构,符合旅游标准,适应技术的发展和变化。我们把主要精力放在满足现有旅游需求和对未来的系统扩展的支持性上,展。合理性原则在一定的资金条件下,以适当的投入,建立性能价格比高的、先进的、完善的旅游系统。所有软硬件的选型和配置要坚持性能价格比最优原则。在满足系统性能、功能以及考虑到在可预见的未来不失去先进性的条件下,尽量取得整个系统的投入合理性,以构成一个性能价格比优化的应用系统。系统架构的设计应尽可能地运用虚拟化、云计算等新技术,以符合未来的技术发展方向。这种设计方法可以最大化地利用投资,并在利用率、管理、能源等各方面提高用户投资的效率,降低总体拥有成本,减少浪费的发生。结合新技术的运用,也可以让各应用系统更好地融入未来整体IT建设规划中,避免发生推到重建的现象,从而减少旅游信息建设上的投入。可靠性原则系统要具有高可靠性及强大的容错能力。该系统必须保证7×24全天候不间断地工作,核心设备比如数据库服务器和存储设备具有全容错结构,并具有热插拔功能,可带电修复有关故障而不影响整个系统的工作,设计应保持一定数量的冗余以保证整体系统的高可靠性和高可用性。即便是在系统建设初期也要着重考虑系统可用性、可靠性问题,防止出现系统停顿等问题造成信息系统的中断服务。通过结合云计算等新技术,可以更好地提高系统的可靠性和可用性。可管理性原则选择基于开放的技术,采用标准化、规范化设计;同时采用先进的设备,易于日后扩展,便于向更新技术的升级与衔接,实现系统较长的生命力;保证后期在系统上进行有效的开发和使用,并为今后的发展提供一个良好的环境;在设计、组建中心机房系统时,采用先进的、标准的设备;在选购服务器、存储和连接设市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第PAGE11第PAGE11备时,确保系统部件间的严密配合和无缝联接,并获得良好的售后服务和技术支持;整个系统建成后按照整理一套完整的文档资料,以便提高整个系统的可管理性与可维护性。安全性原则严格按照关于信息安全的规定和要求,规划和部署中心机房的业务系统和备份系统;采用安全服务器、备份还原系统、来防止内外部的网络安全威协和数据丢失窃取威胁等;所有软硬件采用国产、自主研发的产品,从根本上保障系统的安全性。旅游大数据平台优势通过建立旅游大数据平台,通过服务的方式交付对物理硬件的需求,代替传统硬件设备跟随着应有系统的增加而增加的模式,对现有应用系统进行整合,实现IT服务的快速交付,节能响应国家号召,提升业务系统安全。海量数据高效管理随着地理信息处理业务的增多,数据中心存储大量的数据,这就需要存储系统能够容纳海量的数据。同时,存储系统里面的文件数量也会快速增长,当文件数量增长到数千万以上时,文件的检索查找等操作将会给文件系统带来巨大的压力,特别是一个目录下面存放的文件超过一定数量甚至会造成文件查找效率急剧下降。采用的分布式存储系统单卷可支持300PB以上的存储空间,高效的管理上千亿个文件,单目录可以高效支持千万级的文件数量。分布式存储系统拥有高效的多元数据服务器集群技术和高效的海量文件检索技术,在存放上千亿文件的同时保持极高的文件检索效率。统能够在单个目录下高效管理上千万个文件的存储系统,在单目录下存放上千万数量文件时,仍然能够提供每秒数万的文件检索效率。合理利用硬件资源,减少运行消耗旅游大数据平台可将服务器物理资源转换成池化的可动态分配的计算单元,从旅游大数据平台具体需求出发,在资源池中划分出适合具体业务需要的服务计算单元,不再受限于物理上的界限,从而提高资源的利用率,简化系统管理,让信息化建设对旅游的变化更具适应力,从而构建出信息系统平台的基础。旅游大数据平台建成后,可减少物理服务器数量至原有数量的一半以上,机房空间占用面积大大减少,机房相应配套设施建设也可能够相应减少,在实际工作中预计可节省能源达到70%以上,响应国家节能减排的要求。完善应急安全机制旅游大数据平台可以自动监控资源池中计算单元和应用单元的可用性,检测物理服务器故障,如果检测到故障,可重新在资源池中其他物理服务器上重新启动相关业务,整个过程无需人工干预。通过云安全平台,可快速部署网络安全应用防火墙、IPS、WEB应用防火墙等。提供便捷的管理运维方式。可以通过一个统一的管理平台,来进行对平台中运行的各项功能设立不同权限的管理账号,根据工作需要设置不同的管理权限,并可通过其管理日志追溯操作过程。市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE16第页PAGE16旅游大数据平台需求分析2.1.1 大数据在业务需求分析省旅游局和5a景区的应用旅游大数据发展带动了旅游产业的全面升级,通过大数据深挖游客的心理研究分析和旅游产品体验,一切以游客的需求为关注点,通过数据分析反映旅游客源地域、哪些产品是消费者关注的,关注些什么,从中提取新的深刻见解,为旅游目的地品牌的提升、营销推广和舆情监测等提供可视化的数据服务旅行社和OTA的应用通过大数据的分析,准确的掌握到旅游客源来自哪些地区,可以了解游客喜欢什么样的产品,从而开发迎合市场需求的产品线路,大数据有助于精确旅游行业市场定位大数据应用,其真正的核心在于挖掘数据中蕴藏的情报价值,那么,对于旅游行业来说,如何来借助大数据为旅游行业中的创新性应用,以下几个方面来概述:旅游品牌市场定位个性化:一个成功的品牌离不开精准的市场定位,能够使品牌快速成长,而基于市场数据分析和调研是进行品牌定位的第一步。在旅游行业中充分挖局品牌价值,需要架构大数据战略,拓宽旅游行业调研数据的广度和深度,从数据中了解旅游行业市场构成、细分市场特征、消费者需求和竞争者状况等众多因素,在科学系统的信息数据收集、管理、分析的基础上,提出更好的解决问题的方案和建议,保证旅游品牌市场定位独具个性化。项目评估和可行性分析:旅游局和企业想开拓某一区域旅游行业市场,首先要进行项目评估和可行性分析,才能最终决定开拓这块市场的必要性。如果适合,那么这个区域人口是多少?游客水平怎么样?客户的消费习惯是什么?市场对旅游品牌和旅游产品的认知度怎么样?当前的市场情况是怎么样的?游客的消费喜好是什么等等。构建满足市场需求的旅游产品:通过项目评估报告,收集海量信息构成了旅游行业市场调研的大数据,对这些大数据的分析就是市场定位过程。只有定位准确才能构建出满足市场需求的旅游产品,使旅游品牌在竞争中立于不败之地。大数据成为旅游行业市场营销的利器信息总量暴涨,隐藏的是旅游行业的市场需求、竞争情报每天在Facebook、Twitter、微博、微信、论坛、新闻评论、电商平台等等上分享各种文本、照片、视频、音频、数据等信息高达的几百亿甚至几千亿条,这些信息涵盖着、商家信息、个人信息、行业资讯、产品使用体验、浏览记录、成交记录等海量的动态信息。这些数据通过聚类,可以形成行业大数据,其背后隐藏的是行业的市场需求、竞争情报,闪现着巨大的财富价值。从两个方面来阐述旅游行业市场营销工作中的重中之重。一是数据获取及分析:通过获取数据统计和分析,来充分了解市场信息,掌握竞争者的动态,知晓产品在竞争群中所处的市场地位,来达到“知彼知己,百战不殆”的目的;二是数据积累及挖掘:企业通过积累和挖掘旅游行业消费者档案数据,有助于分析游客的消费行为和价值趣向,便于更好地引导潜在目标游客,以及让游客得到更好的旅游体验。以旅游行业在对顾客的消费行为和趣向分析方面为例,收集和整理游客的消费行为方面的信息数据,如:游客的以往购买旅游产品的花费、选择的产品渠道、旅游产品的类型和偏好、游客对旅游目的地的品牌印象等。收集到了这些数据,建立游客大数据库,便可通过统计和分析来掌握消费者的消费行为、兴趣偏好和产品的市场口碑现状,再根据这些总结出来的行为、兴趣爱好和产品口碑现状,制定有针对性的营销方案和营销战略,投消费者所好,那么其带来的营销效应是可想而知的。大数据支撑旅游行业收益管理要达到收益管理的目标,需求预测、细分市场和敏感度分析是此项工作的三个重要环节,而这三个的环节推进的基础就是大数据。需求预测:是通过对建构的大数据统计与分析,采取科学的预测推演方法,通过建立数学模型,了解旅游行业潜在的市场需求,未来一段时间每个细分市场的产品销售量和产品价格走势等,在不同的市场波动周期以合适的产品和价格投放市场,获得潜在的收益。细分市场:为企业预测销售量和实行差别定价提供了条件,其科学性体现在通过旅游行业市场需求预测来制定和更新价格,最大化各个细分市场的收益。敏感度分析:是通过需求价格弹性分析技术,对不同细分市场的价格进行优化,最大限度地挖掘市场潜在的收入。大数据创新旅游行业需求开发互联网交互性大数据蕴藏巨大的价值:随着论坛、博客、微博、微信、电商平台、点评网等媒介在PC 端和移动端的创新和发展,公众分享信息变得更加便捷自由,而公众分享信息的主动性促使了“网络评论”这一新型舆论形式的发展。成千上亿的网络评论形成了交互大数据,其中蕴藏了巨大的旅游行业需求开发价值。对互联网评论数据的搜集和分析,能有效提高市场竞争力和收益能力,也是大数据价值所在:消费者对旅游服务及产品简单表扬与评批演变得更加的客观真实,游客的评价内容也更趋于专业化和理性化,发布的渠道也更加广泛。作为旅游局和企业,如果能对网上旅游行业的评论数据进行收集,建立网评大数据库,然后再利用分词、聚类、情感分析了解消费者的消费行为、价值趣向、评论中体现的新消费需求和旅游品质中存在问题,以此来改进和创新产品,制订合理的价格及提高服务质量,都会有效地提高市场竞争力和收益能力。旅游舆情监测服务:舆情监测:基于全球领先的互联网采集监控技术而研发,具有发现快,信息全,分析准的优势。可让用户眼观六路耳听八方,在第一时间发现负面舆情,第一时间全面了解民意民情动态,平台及时反映最新舆情信息自动收集呈现口碑监测:论坛、微博、博客、新闻评论作是目前网民在网络上发表个人意见,由于网民的数量庞大,发表信息没有门槛,相关信息传播速度极快,其形成的舆论力量正深刻改变着网民的思想形态和社会面貌。2.2总体建设需求建立一个统一的超过300TB大数据平台;建立统一的旅游大数据平台系统,可以快速管理、扩展、配置期货公司内部的各种业务服务和数据存储服务,并能够提供相应服务冗余性;建立基于云平台的大数据存储管理与分析系统,可以管理旅游平台时实数据,并能根据数据情况和IP数据报文情况进行综合分析;建立基于云平台的大数据旅游管理与分析系统,可以方便的把市的旅游信息数据分析汇总,进行问题筛选评估,制定规范的旅游制度;通过建立统一的旅游大数据平台运维管理系统,可以快速提高技术人员对所有IT资源的管理应用能力,保障公司实际的设备资源、网络资源能够得到充分的使用,同时也能够提高公司能效节约的能力。旅游大数据平台总体规划设计整体建设思想旅游大数据平台将利用云计算相关技术,结合绿色数据中心建设的目标和需求,以战略支持型信息化建设为导向,以支持保障信息化业务发展为建设思路,构造一个功能齐全、设备先进、运行高效、使用灵活、维护方便、易于扩展、投资省、高安全可靠的全局性基于旅游大数据资源中心。整体系统结构本次旅游大数据平台解决方案将针对计算服务整体架构中的云计算服务区,通过对底层服务器硬件及存储资源实现虚拟化聚合部署,配合以云计算管理平台,实现云计算中基础架构即服务(IaaS)部分,同时该IaaS平台也为旅游信息发布平台、大数据分析平台、web发布平台等(Paas)层提供更高层次的云计算服务,通过Paas层平台提供数据汇集管理、数据处理、数据服务、数据应用功能(Saas层),户提供服务,总体逻辑架构如下:市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE第页PAGE18旅游管理部门旅游景点旅行社其他用户旅游管理部门旅游景点旅行社其他用户统一管理统一门户系统门户统一管理门户应用功能区数据汇集管理数据处理数据服务数据应用业务运营资源发放日志管理运维管理监控管理资源池存储资源池(含容灾备份)虚拟机资源池虚拟机管理集群存储管理旅游大数据平台基础架构:提供了一个功能完整的、标准开放的方便集成的IaaS服务层。这层提供的动态基础架构是整个旅游大数据平台的核心支撑层,其最核心的部分包括采用了国产服务器、国产存储存储系统和虚拟化软件构建的云计算服务基础架构。该基础架构具备良好的性能、可用性和可靠性。通过部署虚拟化软件、服务器、存储设备、网络设备,内部搭建虚拟化环境,通过虚拟化技术构建新一代的数据中心,形成统一的云计算旅游信息系统平台。在数据中心,这些资源根据需要进行动态扩展和配置,各单位最终信息系统业务按需使用资源。通过虚拟化技术,增强数据中心的可管理性,提高应用的兼容性和可用性,加速应用的部署,提升硬件资源的利用率,降低能源消耗。旅游大数据平台层:通过大数据分析平台、办公OA系统、财务管理系统、svn管理系统、web等功能。旅游大数据平台服务门户:为用户提供统一的服务门户,用以支撑整个旅游大数据平台的日常运营。包括用户登录、服务加载、下载、审批、叠加显示、拼接请市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE22第页PAGE22求等功能。旅游大数据平台服务数据安全保护:通过部署云安全平台,可以帮助用户建立起一个既能充分利用云计算优势,同时又不牺牲安全性、控制力和遵从性的环境,其为虚拟数据中心和云计算环境提供了支持虚拟化的保护,使用户可以加强应用程序和数据安全,提高可见性和控制力,以及加快整个旅游大数据平台的遵从性举措。旅游大数据平台服务运维管理体系:为整个旅游大数据平台搭建一套长期运维管理的体系,为旅游大数据平台的长期有效运行提供保障。云计算运维管理体系包括组织管理模式、制度规范体系、技术支撑体系等多个层面的内容,采用云计算技术手段和云计算管理制度结合的方式保障整个政务云平台的平稳运行。图3-3 数据中心组件逻辑架构3.3计算资源和存储资源配置估算3.3计算资源和存储资源是云中心的两大类核心资源。对计算资源和存储资源的合理估算和配置,是建设先进、高效云平台的必要条件。以下给出我们根据旅游大数据平台现有业务应用和数据资源所作出的云中心计算资源、存储资源、基础网络和安全设施的初步估算。经详细调研计算资源需要cpu计算单元320核内存5120G存储空间300TB。拟新增10台高性能服务器,供云计算、云存储使用,新增2台高性能服务器器供云安全平台使用。旅游大数据平台资源层规划设计旅游大数据平台基础架构体系设计原则方案设计遵循以下几个原则:先进性、标准性、实用性、可扩展性、兼容性、易用性、安全性、可靠性和前瞻性:据存储等技术。符合最新的技术发展潮流,且各系统设计切实可行、并容易实现。具体包括:遵循标准的整体协议框架、提供标准接口、使用标准的数据传输协议等。的实际需要。方便地实现系统的平滑扩展和升级。便,操作简单,管理方便。应用以及管理上全面的保障系统的安全。可靠性系统设计注重可靠性,能够长期稳定工作,保证7*24小时不间断地稳定可靠运行,适应工作环境能力强,故障率低,维护维修方便。前瞻性系统设计具有前瞻性,整个系统的硬件配置,应符合长远的规划和设计,保证3年内系统的需要。通过需求分析我们可以得知,本次项目建设项目的设计目标是构造一个功能齐全、设备先进、运行高效、使用灵活、维护方便、易于扩展、投资省、高安全可靠的信息系统。云计算技术的出现却给我们一最佳的选择,随着数据信息的增长,技术也需要随之变化。这些变化常常实施在运行关键业务应用的复杂系统内。通常会对共享硬件和软件资源有越来越多的需求,虚拟环境下有效的管理和控制了这种需求。虚拟化是通过对IT硬件资源整合、优化、共享的成熟高新技术,是实现云计算最基础的支撑技术。它可以有效增加组织的灵活性和效率,同时又可以降低其成本。虚拟化技术以其系统的先进性、高可用性、系统的灵活扩展能力、开放性以及高可管理性等可完全满足当前和未来几年内云数据平台信息系统的发展需求。4.1.2 系统总体架构通过部署虚拟化软件、服务器、存储设备、网络设备,内部搭建虚拟化环境,通过虚拟化技术构建新一代的数据中心,形成统一的旅游大数据信息系统平台。在数据中心,所有资源整合后在逻辑上以单一整体的形式呈现,这些资源根据需要进行动态扩展和配置,各单位最终信息系统业务按需使用资源。通过虚拟化技术,增强数据中心的可管理性,提高应用的兼容性和可用性,加速应用的部署,提升硬件资源的利用率,降低能源消耗。虚拟化是云计算的基础,在数据中心,通过虚拟化技术将物理服务器进行虚拟化,具体为CPU虚拟化、内存虚拟化、设备I/O虚拟化等,实现在单一物理服务器上运行多个虚拟服务器(虚拟机),把应用程序对底层的系统和硬件的依赖抽象出来,从而解除应用与市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE24第页PAGE24操作系统和硬件的耦合关系,使得物理设备的差异性与兼容性与上层应用透明,不同的虚拟机之间相互隔离、互不影响,可以运行不同的操作系统,并提供不同的应用服务。什么是服务器虚拟化服务器虚拟化将硬件、操作系统和应用程序一同装入一个可迁移的虚拟机档案文件中如图所示:图3-4服务器虚拟化在单台服务器虚拟化基础上,通过虚拟化管理中心(vCenter)将多台服务器、存储硬件基础资源进行整合,构建硬件(CPU、内存、I/O)资源池,实现数据中心整体硬件资源的按需分配。虚拟化结构如图所示:图3-5服务器虚拟化结构将服务器物理资源抽象成逻辑资源,让一台服务器变成几台甚至上百台相互隔离的虚拟服务器,或者让几台服务器变成一台服务器来用,我们不再受限于物理上的界限,而是让CPU、内存、磁盘、I/O简化系统管理,实现服务器整合,让IT对业务的变化更具适应力,从而构建出数据中心系统平台的基础。市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE26第页PAGE264.1.3虚拟化拓扑的结构图3-6 虚拟化拓扑结针对上面的拓扑图,详细说明如下:整体架构可以分为三层,最底层为存储网络层,中间层为虚拟化系统,最上层为虚拟服务器层;其中,下面的两层为资源提供方,最上层为资源用户;而中间层的虚拟化系统又起到了资源分配调度的作用。部署虚拟化系统之后的整体架构和传统架构下是没很大区别的,利用共享存储实现数据集中和共享,结合管理中心实现应用系统的统一管理;虚拟化集群的形成,直接为应用系统提供了高可用和负载均衡的功能。旅游大数据平台虚拟化组件迁移使运行中的虚拟机从一台物理服务器实时迁移到另一台物理服务器,同时保持业务的连续运行。实现了零停机时间和连续可用的服务,并能全面保证事务的完整性。是用于创建动态、自动化、自我优化的数据中心的关键促成技术。图3-7拟机迁移高可靠性(HA)自动监控物理服务器的可用性。可检测物理服务器故障,如果检测到故障,可重新在资源池中其他物理服务器上启动虚拟机,整个过程无需人工干预。该功能组件比传统的双机冷备更具有自动启动的优势。图3-8高可靠性(HA)市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE第页PAGE36容错功能相当于双机热备,但是比传统的双机热备更具有优势,它可以时刻在两个不同的物理服务器上保持两个相同的镜像,其中一台出现故障时,不影响业务的运行,同时自动在另一台物理服务器上建立以特相同的镜像,物理服务器不受硬件型号配置的限制。
图3-9容错跨资源池不间断地监控利用率,并在多台虚拟机之间智能地分配可用资源,使资源优先用于最重要的应用程序,以便让资源与业务目标相协调。自动、不间断地优化硬件利用率,以响应不断变化的情况。为业务部门提供专用的虚拟基础结构,同时让IT部门能够集中、全面地控制硬件。图4-1动态资源分配(DRS)4.2.5 分布式电源管理可用管理系统中,为了在虚拟化环境中能达到节能减排放的作用,设置了DPM的功能。这是一个高级电源管理功能它可以提供当虚拟化环境中不需要那么大的运算资源的的时候同过统一管理平台功能管理模块相结合。可以是实现当我们的业务系统在不需要云平台提供那么大的计算能力的时候,为了节能减排放.通过自动调度将某些服务器上的虚拟机通过在线迁移的方式自动迁移到平台中的其它物理服务器中运行,将空闲服务器进行下电。当业务重新增长后,需要平台提供大规模计算的时候,会重新启动该服务器加入到平台中,为虚拟服务器提供运算支持。图4-2 分布式电源管理分布式集群存储平台方案拓扑图
图4-3分布式集群存储架构图分布式存储系统主要由云平台下的应用服务器集群、智能存储服务器集群、元数据服务器集群三大部分组成,配置存储服务器10台,元数据服务器2台。等。应用服务器上需要安装分布式的应用服务器模块高效的访问存储。智能存储服务器集群:由万兆存储服务器组成。存储用户的实际数据,是整个分布式存储系统的存储资源提供者。当应用服务器进行数据访问时,存储服务器集群提供实际的数据IO服务。数据IO压力能够非常均衡的分布在存储服务器集群之间。元数据服务器集群:由万兆元数据存储服务器组成。管理文件系统的元数据(包括文件目录树组织、属性维护、文件操作日志记录、授权访问等),管理整个存储系统的命名空间,对外提供单一的系统映像,并负责整个存储集群的管理监控。元数据服务器协调指挥应用服务器和存储服务器之间的活动,并且元数据服务器集群能够均衡的负担整个分布式集群存储系统的相关元数据访问负载。市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE38第页PAGE38本期项目配置10台存储服务器2提供高性能共享存储系统;计算节点均通过以太网交换机与存储系统能共享存储系统连接。工作机通过以太网与存储系统相连。计算节点均安装集群系统客户端,可根据权限以本地盘符的方式访问文件级统一命名空间,对存储系统进行并发访问,而且所有计算节点均通过光纤直接共享存储系统中数据,充分发挥光纤高带宽,低延迟的特点,提高了效率。系统具有良好的可靠性和冗余措施,元数据服务器成对配置,当其中1台发生故障后,另1台会自动接替系统服务,最大程度保证业务时效性。随着规模、容量的不断增加可以通过在线添加扩展柜的方式,扩展系统的容量、 IO宽和负载能力。4.3.3 系统软件旅游大数据平台系统管理支撑系统旅游大数据平台系统支撑系统是数据中心的核心系统,在此系统上可以快速配置和部署各种营运支持系统(OA办公系统、财务系统、CRM客户关系系统、交易支撑系统、大数据交易数据管理系统与分析系统、大数据情报数据管理系统与分析系统)等;云系统面向旅游大数据平台,如大型企业私有数据中心、公有云平台、行业云服务平台等,提供从底层资源,到上层应用和数据管理的一体化管理平台,支持云基础架构以及各类物理资源、虚拟资源的管理,为网络应用提供安全、可靠的运行支撑环境,并面向大数据应用提供多源异构大数据的存储与处理。产品定位管资源:快速地构建起跨地域的云平台基础架构,对其中的物理资源和虚拟资源进行灵活的管理,对用户的IT需求实现快速的交付,并且支持资源弹性动态扩展。管应用:支撑业务应用的开发、测试、部署和维护等整个生命周期过程,并全方位监控应用的运行情况,及时对应用资源进行弹性伸缩,确保最大的应用稳定性和可靠性。管数据:对结构化、非结构化、半结构化数据提供统一存储,并且为应用提供相应的接口,并可以进行大数据分析和可视化展现。支撑大数据应用开发。用软件:支持软件服务化接入,实现软件服务的上线、订购、开通、使用、下线等全生命周期管理。云应用希望以云计算的模式对本单位的信息化平台进行管理和运营的金融、期货等行业望对数据中心进行云化并提供弹性云主机服务的服务商需要快速完成开发、测试和部署运行,简化应用开发和发布流程的软件企业致力于行业软件开发,并希望搭建行业 SaaS云服务平台的软件服务提供商需要采集、存储、处理来自物联网、互联网的大数据并进行分析的企事业单位市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE第页PAGE40产品架构物理资源层。物理资源层包括支撑云系统自身运行和提供服务所需的物理基础设施,云系统可对分布在旅游大数据平台的各类物理资源进行统一集中管理与运维,提供数据中心、物理资源两级资源管理,支持多数据中心管理。基础架构层。基础架构层是云系统的核心技术支撑层,由一个虚拟化管理平台、三大管理组件和四大核心引擎组成。该层的核心支撑是虚拟化管理平台,基于虚拟化管理平台,将支撑资源、数据和应用管理的核心技术封装为资源管理、大数据管理和运行平台管理三大管理组件,并将云管理平台的共性支撑技术封装为调度、服务、数据、监控四大引擎服务,为上层服务和应用提供基础支撑。服务层。服务层是云系统提供服务的核心支撑层,除资源、数据、应用三大核心服务组件外,服务层还兼容第三方服务。服务层还为支撑服务开发与管理提供了服务目录、服务封装、服务集成和服务质量组件,通过通用接口规范对外提供服务。应用层。应用层主要为应用开发与自动化部署提供技术支撑,包括开发、测试、生产环境的流程化定制与自动化部署,对应用运行环境的监控,对应用所需资源的弹性伸缩调度。通过应用层的技术支撑,用户可基于云系统平台快速开发并部署应用,同时可直接发布到云系统云平台提供云应用。门户层。门户层包括两部分:用户自服务门户和运营管理门户,用户自服务门户集成了用户所需的虚拟数据中心管理运维以及应用部署等功能;运营管理门户则集成了云平台运营所需的资源管理、服务管理以及计量计费等功能。平台管理体系。平台管理体系包括三部分:运维管理体系、安全体系和标准规范体系。运维管理体系针对云系统的资源管理架构规范了各种监控、报警、日志等日常运维管理机制;安全体系针对云系统提供的资源、数据和应用服务提供了一系列安全管理机制;标准规范体系则对云系统的资源管理、数据管理、服务管理提供了一系列开发与管理的技术规范和操作规程。市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE44第页PAGE44产品体系云系统是一套由多个软件构成的软件套装,有多个软件或者模块组成。云系统采用分布式部署方式,各个软件或模块之间采用松耦合的架构进行交互,易于扩展,易于根据用户需求进行定制和实施。产品架构图如下图所示。核心架构平台。采用业内先进的云计算技术构建的自主可控的虚拟化、资源调度以及服务管理平台,支持KVM、Xen、VMware等主流虚拟化技术。运维管理系统。平台运维管理员使用该系统,对计算、存储、网络等各类云资源以及整个平台的基础架构进行管理,支持资源的全方位监控和应用集群的弹性伸缩。运营管理系统。平台运营管理员使用该系统,对平台服务进行发布、计费、受理等运营管理,对所有平台租户及其订单进行管理。服务管理系统。基于平台基础服务,形成整个平台的服务目录,并可按照一定的策略对服务进行组装和编排。另外对服务的使用情况进行计量;提供开放接口,支持服务集成。自服务系统。云平台租户使用该系统,申请云主机、云硬盘等各类虚拟资源,部署、运行并监控业务系统。云安全保障。身份认证、访问控制、容灾等,另外还包括从物理层、虚拟层到服务层、应用层的安全保障体系。产品功能融合管理的云基础架构将多地传统数据中心快速整合并虚拟化,兼容各种异构的x86服务器、各种品牌的存储设备及网络设备。按需交付、弹性扩展的IaaS服务云主机:Windows、Linux全系列虚拟机,并可根据用户需求进行定制。云硬盘:各种规格的云硬盘的快速挂载和使用。私有网络:构建独立的虚拟路由器、虚拟交换机和子网,良好的网络隔离。负载均衡:构建负载均衡集群,某节点宕机不影响业务系统运行。云集群:弹性应用集群,自定义弹性策略,根据集群负载自动伸缩。数据备份:支持主机备份、硬盘备份、异地灾备等多种备份方式。无需配置、一键即用的PaaS服务云数据库:快速创建MySQL、SQLServer、MangoDB数据库URL并访问使用,无需安装配置。运行时:快速创建Tomcat、IIS、Apache等主流运行时服务。互联互通、数据的大数据服务大数据存储:对象存储,企业级非结构化数据存储服务,打造专属私有“云盘”;物联数据存储,来自传感器的海量半结构数据存储服务。大数据分析:定制数据挖掘算法和模型,支持海量数据的分析、挖掘和可视化展现。数据整合共享:无障碍获取业务系统数据,实现数据共享和交换,打通“信息孤岛”。信息资源中心:抽取、清洗、转换业务系统数据,建立企业级信息资源中心,形成信息资源目录,开放数据规范接口,支持新应用开发。一处安装、多租户共用的SaaS服务SaaS管理服务平台:构建SaaS用,打造一站式办公门户。SaaS服务化改造和标准化接入:将传统BS应用进行服务化改造为多租户模式,按照统一接口规范集成至SaaS服务平台,全面支持SaaS服务运营。全方位、多方式的监控预警服务监控预警:对物理资源、虚拟资源以及应用的全方位监控和多方式预警,可自定义资源监控指标,100多种指标任意组合集群存储系统集群存储系统的特点(1)数据负载能力现有的诸多存储方案一般都不具备存储容量动态扩展的能力,而且经过动态扩展之后如果没有数据动态负载均衡的功能,即使存储系统的容量增长,性能不会随之增长。负载均衡模块是专门针对存储扩展性需求较高的应用环境而提供。当存储系统按需在线动态扩展容量之后,管理员可以选择在合适的时间启动或者停止负载均衡软件,该功能将数据在存储服务器之间迁移,直到数据分布较为均衡停止。通过负载均衡模块的数据迁移工作,分布式集群存储系统的性能能够随着容量的增长而线性增长。图3-2图4-4自动均衡数据分布示意图(2)灵活冗余能力灵活冗余模块是一种高效的数据保护方式,通过将冗余数据同时存放到不同的存储服务器上来对数据进行保护,不但消除了单点故障,还能够提高数据并发访问性能。冗余数据存放在不同的服务器上防止数据丢失和存储服务中断。而且用户可以将不同的数据设置不同的冗余数据等级,当冗余等级越高,数据就能够在极端恶劣的情况保证数据的完整性和服务的连续性。(3)故障自动恢复能力故障自动恢复模块内置有一整套完整的故障恢复流程,能够自动探测集群存储系统内各类可能出现的故障,如磁盘损坏、系统宕机、网络中断等。该软件一旦发现了软硬件故障就会立刻启动相应的故障处理恢复流程对数据进行相应的恢复保护,确保数据的完整性,并且整个恢复过程完全不影响业务连续运行。而且由于故障自动恢复软件能够提供的是整个集群全局的数据恢复,充分的利用了集群内的空闲资源进行相应的处理,能够高出RAID据恢复速度确保数据完整性,为业务长期稳定运行打下基础。市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE第页PAGE45图图4-5硬件故障恢复示意图(4)大目录支持能力传统的存储方案都存在着文件数量、单目录下文件数量等诸多限制,并且当存储系统内文件数量到达一定数量时,文件的检索效率就会急剧下降,从而影响了业务的运行效率。图4-6集群存数文件市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE48第页PAGE48集群系统大目录支持软件打破了存储系统在面向海量小文件时的种种限制,提供了几乎无限的单目录文件数量支持、高效的文件检索效率支持,帮助企业解决海量小文件存储带来的烦恼。系统功能及特点海量数据高效管理随着资料处理业务的增多,存储系统中将积累大量的数据,这就需要存储系统能够容纳海量的数据。同时,存储系统里面的文件数量也会快速增长,当文件数量增长到数千万以上时,文件的检索查找等操作将会给文件系统带来巨大的压力,特别是一个目录下面存放的文件超过一定数量甚至会造成文件查找效率急剧下降。分布式集群存储系统单卷可支持300PB以上的存储空间,高效的管理上千亿个文件,单目录可以高效支持千万级的文件数量。分布式集群存储系统拥有高效的多元数据服务器集群技术和高效的海量文件检索技术,在存放上千亿文件的同时保持极高的文件检索效率。分布式集群存储系统能够在单个目录下高效管理上千万个文件的存储系统,在单目录下存放上千万数量文件时,仍然能够提供每秒数万的文件检索效率。单目录下高达千万级的文件,单一文件系统文件数量支持超过千亿(实际案例:260文件);单个共享文件系统支持上百PB级(4500TB、1024应用节点支持实际案例);不停机在线扩展系统容量;数据读写性能分布式集群存储系统通过多台存储服务器提供同时数据存取服务的方法以满足大量应用服务器的并发访问需求。在应用服务器端,当应用程序往存储系统上写文件时,文件将会被根据一定大小进行分片存放到多台存储服务器上;在应用程序读文件时,则并发的从多个服务器上读取数据。由于大量的数据IO请求都被分散到多台存储服务器上,使得所有的存储服务器上的磁盘性能和网络带宽都可以同时得到充分的利用,这样分布式集群存储系统的聚合带宽由多台的存储服务器上的IO带宽相加而成,从而克服了NAS的单一出口点所造成性能瓶颈,可以满足多台应用节点并发访问的带宽需求。通过实现多存储服务器的并发数据访问支持,消除了传统存储方案中常见的负载不均导致的热点数据问题。分布式通过数据在存储服务器集群中的条带化分布实现高效、全面的负载均衡功能,充分利用硬件和网络的性能,发挥出最高IO吞吐量。提供高达数百GB/s的IO带宽和上百万的单套存储系统支撑数千个应用节点并发访问数据;不停机在线扩展IO带宽;系统故障自动恢复和负载均衡,保证性能随规模线性增长;数据全局共享分布式大规模集群存储系统采用文件系统全局命名空间,所有计算节点都可看到一致文件系统视图。数据的全局共享可以加强各计算节点之间的协作,提高了作业的运行效率。而且数据的统一管理也方便用户数据的统一管理,并简化应用系统的开发。
图4-7多用户访问示意图基于数据安全性方面的考虑,用户可以通过分布式配置工具设置数据相应的安全等级,选择将数据和校验数据分别存放在不同的存储服务器上。分布式存储系统可以同时使用多条高速数据通道,可消除网络层的单点故障,进一步提高系统的高可用性。在这样的情况下,即使出现存储服务器宕机、网络中断、磁盘损坏时,仍然能够保障数据完整性和数据服务的持续运系统将会立刻发现该异常并自发的启动数据恢复流程,利用存放于其它存储服务器中该部分数据的校验数据重新生成一份以保证数据仍有一定的冗余度。由于分布式的数据恢复是基于真实丢失的数据,并且数据恢复是通过整个存储集群同时并发进行,所以相对于传统的RAID具备更快的数据重建速度,这也能够有效提升数据的安全性。通过将数据和校验数据存放在不同存储服务器的方法可以对一系列的软硬件故障(网络、主机、磁盘等)进行自动的隔离,消除了存储系统的任何单点故障,而且也无需配置任何复杂的配置。用数据全局冗余技术取代Raid,提供了史无前例的可靠性;可根据不同数据定制的数据安全性保证;系统自动探测故障并恢复,实现最高的业务连续性保证;系统可扩展性需中断应用的运行。用户可以通过分布式的配置工具动态添加存储服务器以扩大系统的容量和规模,而且随着存储服务器数据的增多,整套系统的聚合带宽也会线性的增长,完全可以满足业务不断发展所产生的容量和性能需求。而工业标准的通用硬件良好的兼容性和可获得性方便了整套存储系统将来的使用和扩展,分布式支持在1小时内部署上百TB的存储系统,无缝的在线增加存储容量。市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE第页PAGE54图4-8传统与分布式扩展对比与现有环境无缝兼容环境,如使用通用的以太网络作为数据传输通道可以确保充分利用现有的环境,并且可以无需对环境做出任何修改。另外分布式能够直接支持Linux、Windows、Mac等常用的操作系统之间进行数据共享,无需对操作系统做任何修改,所以能够无缝的接入到企业现有的软硬件环境。系统的整体拥有成本分布式大规模集群存储系统能够极大的降低构建和运维成本,主要有以下几点:极大地提高了数据可用性:通过分布式内置的高可用和故障自动恢复功能等卓越的功能,无需任何第三方软件,极大减少了系统由于维护或备份恢复所需的大量时间,从而彻底提高了企业的生产效率。数据的充分共享:数据可以被前端的各种类型的主机共享,无需在Linux和Windows、Mac系统之间进行数据迁移。这允许一个数据拷贝被所有人员与进程共享,大大减少了对不同环境下相同的数据的多种形式的管理费用。存储的运维成本:由于分布式采用了通用、企业级的硬件构建,具有极高的性价比和兼容性。管理员可以轻易的掌握分布式的运维管理,使得培训支出上的费用大大减少。使用分布式提高投资回报率真正的按需购买分布式存储系统的动态可扩展技术,使得用户可以按需扩展存储容量,无需一次性投入大量成本来构建存储系统,有效降低了用户投资的风险。内置的高可用架构在传统的NAS和SAN系统中,高可用意味着价格高昂的软件和冗余硬件。高存储空间利用率分布式存储系统将所有的存储设备聚合成单一的存储池,提供给所有的前端应用服务器集群共享访问,克服了使用传统的DAS和SAN时所出现的存储设备利用率不均衡的情况。安全应用隔离分布式存储系统可以将不同的应用在逻辑上进行隔离,不同应用之间的存储内容相互独立,有效降低人为因素造成的数据损坏,大幅度提升了存储内容的安全性和数据的完整性。降低管理及运行成本——简易存储更低的存储架构规划成本分布式存储系统可与用户的现有应用环境无缝连接,便捷地加入到用户的应用环境中,并即时对外提供存储服务。无需像传统存储系统一样对大量复杂的硬件设备进行长期的分析、规划和配置,大大节约了前期的规划成本,极大提高了存储系统部署的效率。快速的安装及配置用户可在极短时间内为分布式存储系统部署上百TB存储空间和上千台应用服务器。无需像SAN那样对光纤交换机、光纤适配器等大量的专用硬件进行配置,极大简化了配置流程。简易管理分布式存储系统简单灵活的管理模块极大降低了管理员对系统管理的参与程度,减化了管理员操作出错风险,有效降低了系统的管理成本。减少培训费用分布式存储系统采用图形化管理工具,极大简化了对系统使用的复杂度,减短了对管理员的培训时间。提高用户应用的生产力提高应用服务器之间的协作效率分布式存储系统对外提供单一的系统映像,所有的应用服务器都看到相同的文件视图。集中的数据共享存储,方便用户各业务部门之间进行数据协同处理,极大提高了用户的整体生产效率。图4-9应用协作对比图快速的数据交付市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE58第页PAGE58分布式存储系统提供的数据读写加速技术极大缩短了对应用程序的响应时间,每秒高达几十万个的文件检索速度轻易的满足互联网等文件密集型应用的需求。快速的故障恢复分布式存储系统高效的自动数据恢复技术,使得故障恢复时间是通用RAID之一,恢复过程不影响相应业务的运行,保证业务的连续性。基于大数据的旅游数据管理与分析系统大数据经济情报综合分析平台和大数据交易数据管理与分析系统分别是两款大数据平台软件产品,都是集成海量数据的采集、过滤、转换、存储、检索、查询、统计、分析、可视化与安全管理等全生命周期管理的综合系统,但对数的关注点和管理方式有很大的不同。系统不仅提供了常用的数据采集,检索,分析功能,而且还提供了基本的检索,分析功能单元,可以根据各种行业应用和最终用户的需求,进行不同的组合,适应用户的不同业务场景,完成大规模行业数据的挖掘分析和应用对接。作为大数据分析平台,系统具有如下特点:软硬件国产自主可控多源异构数据接入数据关联融合、统一访问大规模、高性能、可扩展高可靠、高可用大数据平台介绍平台功能框架大数据平台必须是一个开放的体系,相关软件系统和硬件设备应是业界主流产品,遵循国家标准、行业标准,保证平台、设备、管理系统能够随时无障碍地进行更新和移植。大数据管理平台还应遵循统一的标准规范,充分考虑与外部系统(务系统等)的接口。
4A及其它网管系统、业支撑数据挖掘、数据实时存储和访问、ETL计算平台这三类业务应用。分布式存储功能基于XX布式KV存数据库,以及面向用户业务的各类工具软件和库支持。基于分布式存储平台,用户可以以非常低的时间代价构建大规模企业大数据一体化解决方案。文档数据库图片音视频邮件消息关系型数据关系型数据非关系型数据流式数据多维数据Hbase
HDFS
DB DSQLGraphDB龙威集群存储(申威国产平台)图4-1存储组件的结构图图是存储组件的结构图,主要包括如下功能组件:分布式集群存储:基于对象的高性能分布式文件存储系统。DFS:分布式文件系统。HBase:分布式Key-Value数据库。DSQL:分布式关系数据库。GraphDB:并行图数据库。DB:传统数据库。集群存储系统基于自主可控的XX硬件平台,采用带外分布式架构,隔离元数据信息与数据信息,降低二者之间的性能干扰,采用对象存储技术将文件切片分布式存储在存储服务器集群上,充分利用所有存储服务器硬件性能,并且同时对客户端提供访问服务,形成高效聚合带宽,增加业务读写效率。Hadoop分布式文件系统HDFS(HadoopDistributedFileSystem)能提供高吞吐量的数据访问,适合大规模数据集方面的应用。通过聚合数十上百台,甚至数千台服务器本地文件系统的吞吐能力,HDFS提供同时对超大数据文件的访问能力。分布式计算功能MapReduce是一种简化并行计算的编程模型,名字源于该模型中的两项核心操作:Map和Reduce。Map将一个任务分解成为多个任务,Reduce来,得出最终的分析结果。MapReduce适合于半结构化数据或非结构化数据的挖掘和分析。NoSQL功能HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,其设计目标是用来解决关系型数据库在处理海量数据时的局限性。HBase使用场景有如下几个特点:海量数据(TB或PB级别以上);需要很高的吞吐量;需要在海量数据中实现高效的随机读取;需要很好的伸缩能力;能够同时处理结构化和非结构化的数据;不需要完全拥有传统关系型数据库所具备的ACID特性。UnitedHadoopHBase支持地理容灾、二级索引等高级特性,满足极高可靠性和开发易用性要求。HBase询、详单查询等业务。数据仓库功能Hive是一个建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务,从而完成对Hadoop储的海量数据进行查询和分析。Hive主要特点如下:通过HQL语言非常容易的完成数据提取、转换和加载(通过HQL完成海量结构化数据分析;灵活的数据存储格式,支持 JSON,CSV,TEXTFILE,RCFILE,SEQUENCEFIL等E存储格式,并支持自定义扩展;Hive的主要应用于海量数据的离线分析(如日志分析,集群状态分析)、大规模的数据挖掘(区域展示)等场景下。为保证Hive服务的高可用性、用户数据的安全及访问服务的可控制,UnitedHadoop的Hive具有如下特性:基于kerberos技术的安全认证机制;数据文件加密机制;双机热备;完善的权限管理。Hive适合于结构化数据或半结构化数据的挖掘和分析。分布式协调功能ZooKeeper是一个分布式、高可用性的协调服务。在Hadoop系统中主要提供两个功能:一个功能是帮助系统避免单点故障,建立可靠的应用程序,另一个功能是提供分布式协作服务和维护配置信息。ZooKeeper主要特点:顺序一致性:按照客户端发送请求的顺序更新数据。原子性:更新要么成功,要么失败,不会出现部分更新。单一性:无论客户端连接哪个server,都会看到同一个视图。可靠性:一旦数据更新成功,将一直保持,直到新的更新。及时性:客户端会在一个确定的时间内得到最新的数据。旅游工作数据流管理功能Oozie是一个用来管理Hadoopjob任务的工作流引擎,Oozie流程基于有向无环图(DirectedAcyclicalGraph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。Oozie主要特点:支持分发、聚合、选择等工作流流程模式;与Hadoop生态系统各组第页PAGE59第页PAGE59XX市旅游大数据平台解决方案件紧密结合;流程变量支持参数化;支持流程定时触发;提供了HA机制;自带一个WebConsole,提供了流程查看、流程监控、日志查看等功能。维护管理功能提供的维护管理功能是Hadoop平台的维护管理系统,是Hadoop系统操作和维护的统一入口,提供操作的定义和流程引导,并对于系统中的各项资源运行情况和操作进行监控记录,为系统的日常维护提供依据;运维管理包括升级向导、日常向导、日志收集与分析、告警、监控、安装向导、配置管理、审计管理、用户管理等。备份和容灾、用户和应用接入安全、集群组件HA和数据私密性。集群管理系统负责整个系统的管理,包括北向接口、南向接口和本地管理GUI北向接口包括OM类的Syslog、SNMP,以及安全管理对接接口LDAP。本地管理GUI界面提供系统中各类软硬件的图形化维护入口,包括日常维护,以及安装、升级和扩容向导等。旅游中心分析系统架构系统管理设备管理软件管理报表统计设备管理软件管理报表统计自定义业务模型授权流程业务定义授权流程业务定义日志审计报表统计检索消息中心用户权限业务管理数据库WEB服务器基本算子分类聚类图形算子文件提取信令提取内容分析信令提取内容分析数据汇聚协议还原重点业务数据海量普通数据基础数据分布式文件分布式数据库采集 存储、分析图4-2旅游中心分析系统架构图
业务管理如上图所示,作为一款综合分析平台,平台可以分为四个大的子系统。包括:采集子系统、存储分析子系统、业务管理子系统、系统管理子系统。市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE62第页PAGE62存储分析子系统又自下而上可以分三层,情报来源方式、数据类型存储方式、关联分析模型算法以及业务跟踪与各种类型报表。非格式数据的分类存储系统采用分布式文件、分布式数据库、分布式集群计算等多种分布式技术作为构建系统的基础平台,使得整个系统平台具有了高扩展、高容错、高性能、高可用的能力。采集子系统提供多种接口,支持对不同数据源的采集,支持对多种数据类型的提取信息,同时对采集的数据进行分析提取,对数据内容进行匹配过滤,将各种类型的数据分门别类的存储到存储分析子系统中,供后者分析使用。子系统提供对多种文档类型的导入功能,包括word,ppt,execl,pdf,rtf,txt等多种文件类型;以及各种视频、图片格式的支持。对格式化数据的全文检索合多线索加权检索业务管理子系统管理客户的大数据分析业务,系统提供用户权限、业务管理、数据全文检索、业务定义等功能模块,满足客户业务分析的管理需求,通过全文检索和加权检索,可以把不同的旅游内容针对一个时间、事件进行关联起来,并形成事件发展趋势的分析图表,用来提供领导层对旅游项目的决策和分析。4-3旅游中心数据分析统计图完善的旅游中心分析报表系统系统运维子系统管理整个系统的设定运行,实现系统的高可用性,高扩展性。存储分析子系统是整个系统的核心部分。实现海量数据的存储、检索、分析等功能。实现对目标数据、图像信息、声音信息、视频等各种文件类型的海量存储,实现对这些类型的文件的关键字快速检索结果,并形成各种形式的业务报表系统。国内旅游形势分析事件、非物质旅游、民俗旅游数据,分析每个地区的旅游发展趋势;按照全国地域分析各地方旅游根据旅游名称可以方便把各个地方旅游趋势图、经济热点分布图分析出来;按照全国人文风情数据技术分析民俗旅游的趋向;根据各个旅游部门每天的公开的信息数据,可以分析各种活动的趋势图(技术分析)用户可以定制所关心的数据统计图根据存在的数据和定义的算法,用户可以定义自己关心的数据统计图;数据分类存储与自动化数据引擎据的统一可靠的存储管理,对外提供统一的分布式调用接口,提供文件、数据库、索引等多种存储形式。基本算法模块层:提供大数据分析的各种基本算法模块,支持多种计算模型的分布式计算框架,为上层业务系统提供专业的计算处理库。业务处理层:基于底层提供的算法模块和基础数据,完成各种业务分析处理,同时支持对基本算法的组合定义,实现客户自定义的业务处理任务。数据总线是系统运行的一个重要基础架构,整个系统中,包括子系统之间,子系统内部均采用数据总线技术,实现子系统之间和子系统内部的数据和消息传递。数据总线支持数据和消息的缓存、中转、分发、调度等。数据总线是计算与存储的枢纽,同时是内外数据交换的通道,完成数据在组件间及层次间中转、缓冲及调度。产品特点:各种异构数据接入海量数据存储,高可用,高扩展提供各种基本算法,可以组合业务模型基于权限管理业务,控制用户访问业务和数据.2.4 旅游数据存储管理分析系统架构旅游大数据平台通过运行在单独的服务器上的云操作系统对服务器、存储、网络等资源进行虚拟化管理,提供可以自定义的虚拟机,在虚拟机上安装 Hadoop、hbase等分布式数据库集群,对现有的数据ETL采集、清洗、转换、汇总进来,使用海量数据分布存储技术,用spark、storm等大数据处理软件对hbase中的数据进行分析处理,挖掘数据价值。还可以在虚拟机上运行业务应用系统,提供负载均衡和冗余备份,达到系统的稳定、高可用和方便的扩展性。主要用来储存旅游数据的格式化数据系统,通过把大量的格式化旅游数据,通过数据采集量、采集时间段、采集算法、采集方式、采集内容、采集性质、采集IP址等关注的内容,用来分析中国民俗旅游、非物质旅游等他们的趋势;市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE第页PAGE64图4-4旅游中心数据交互传输图如上图所示;从用户访问到数据信息交互、应用、传输、分析、存储、身份验证;这些机制大大的提高了数据的应用和安全;用户层到应用层再从数据库中调取查询信息,大数据分析并进行统计再反馈给查询者,统一的身份认证层以及分析决策层面分布规律多节点集成方便用户访问。
(移动端pc端)、应用层和数据数据按照旅游分类存储系统根据各种民俗、人文领域的特性,分类存储各种数据和其关联的其他信息数据;数据按照信息分类趋势分析根据活动数据的大数据分析,系统能够快速的分析出每种旅游领域的走势图,并根据技术分析,可以预测未来的发展趋向。.3大数据统一平台分布式数据总线是分析系统的数据通路,其基于分布式内存实现,可实现高速的数据交换、缓冲及转换、迁移等。各子系统之间和子系统内部的各个组件之间通过分布式数据总线互联,实现数据在组件间的交换及同步;外部数据源接入内部存储组件前也要先经过数据总线进行缓冲、交换等预处理操作;此外为支持一体机对异构数据的关联融合,提供对异构数据的关联加载,并可利用数据总线的高速缓冲区进行多集合数据的join统一格式转换等处市旅游大数据平台解决方案XX市旅游大数据平台解决方案XX第页PAGE72第页PAGE72理;此外数据总线还可完成对异构存储组件内数据联合的功能,可支持上层一次操作对异构数据集的联合查询。数据总线处于数据传输的关键路径上,因而对数据传输流起到控制作用,可完成对数据的分发和调度。同时还可根据上层存储访问的不同需求自动将数据分发到相应的存储组件,同时做到对上层透明。提供如下关键特性:各组件间数据融合、缓存、交换提供异构数据接入、分发及数据关联操作的内存融合数据流高速路由/分发基于配置策略的数据分发MQ/Buf/Mcache同时提供分布式消息队列(MessageQueue分布式内存管理提供逻辑统一视图,同时支持高可靠基于流池的动态均载基于流粒度的均载策略,保证流内一致性可定制分发策略动态可定制、基于数据特点、类型及标签的分发策略内存互备/硬盘同步支持节点间内存互备以及内存与硬盘的持久化动态扩展支持Broker节点的动态在线添加数据采集数据采集子系统的主要功能包括:实现多源数据的快速汇入、解析,分析,过滤等功能。提供便捷的数据交换API,支持多种方式接入数据。多样化的协同代理,支持多种常用的数据获取形式,并能根据需求快速增加新类型协同代理。支持多种常见的文档数据格式导入:包括图像数据、矢量实录、目标数据、声音数据、视频数据等。数据采集子系统分为多源数据接入模块、数据总线模块、分析过滤模块三部分。系统入口通过多个协同代理agent对接不同数据源,并在对数据进行格式统一转换,封装后以统一的格式发送到数据总线中。分析过滤模块通过统一数据获取接口从数据总线中订阅数据。数据接入数据预处理模块主要功能包括:实现多业务数据的分布式抽取,数据过滤,数据转换,数据加载等 ETL操作对海量实时数据的规范化处理;数据接入模块提供对多种接入数据的处理。对海量流式数据可提供过滤、识别、检测、业务识别等预处理操作,同时可与后续流处理引擎对接;对web抓取数据可提供URL查重、实体抽取、数据格式封装、数据清洗等预处理功能,处理完的数据进入数据总线,由分析模块分析提取数据中的信息,为数据入库做好准备。规则过滤据。模块完成以下功能:任务轮询模块负责轮询任务并加载规则。如果任务符合重建条件,则加载所有任务的规则,并出发规则重建。规则解析解析规则内容。规则过滤获取实时流文档,并通过规则热切换获取最新的多模匹配状态机。规则重建模块根据任务轮询获取的任务列表,建立多模匹配状态机。任务轮询不断查询数据库以获取更新的任务列表,实时过滤轮询定期轮询任务数据库,查时过滤模块。规则重建主要是将任务轮询获取的所有有效任务进行规则解析,提取关键词,构建多模匹配状态机。则,对文档进行实时过滤。数据存储数据存储层提供企业级大数据平台软件一体化解决方案;并支持储层不仅提供统一、稳定、高效的存储子系统,还整合了先进的分布式集群资源管理和进程调度方案、高性能数据总线技术、全并行架构分布式关系数据库、分布式KV存数据库,以及面向上层业务的各类工具软件和库支持。数据存储层采用了存储服务器集群和元数据服务器集群通过千兆以太网络/万兆以太网络构建,具备极高的扩展性和可靠性。消除集群内的单点故障,避免因为故障而导致服务中断或者数据丢失等影响,并且打破了传统存储系统架构上的限制。分布式列数据库可支持大于几十个节点,PB存储规模的scale-out;性能上其针对具体大数据应用场景进行深度定制和调优,尤其对于高吞吐率入库和实时检索场景;功能上除了支持标准的K-V访问接口之外,还可较好的兼容SQL标准及JDBC接口,可以很好的与既有数据分析业务对接。尤其在索引性能优化及对后缀和全文索引的支持上都有显著优势。在应用场景方面,分布式列数据库常被用作全量基础数据的组织和存储(包括结构化及半结构化数据),同时提供对此全量数据的实时查询;可兼容传统数据仓库OLAP场景,对复杂SQL分析可提供近实时的分析性能。从而可同时支持对大数据的实时查询和复杂离线分析。计算引擎功能计算引擎是大数据综合分析平台中进行数据处理分析的基础。其主要包括分布式计算框架及数据分析算子两大部分。统一计算引擎系统满足如下功能需求:提供支持大数据分析的计算框架,包括MapReduce、内存计算等并行计算框架,具备灵活定制型、弹性扩展等特性。提供面向大规模异构数据源的抽取功能和异构数据源统一组织模型,具备异构数据的融合能力。基于分布式计算框架的机器学习与数据挖掘、文本检索、数值分析、地理位置计算、检索统计等通用算子集;对海量实时数据的统计特征的快速提取(如max,min,average,sum等)。组成图4-6:计算引擎结构图如上图所示,计算引擎分两个层次:分布式计算框架和其上的各种基本计算模型。分布式计算框架提供对主流计算框架的支持以及编程接口,包括MapReduce存计算框架等,分布式计算框架负责管理整个系统中的计算资源和数据资源,合理调度各个计算节点上的计算任务。计算框架提供一下功能:计算资源管理。计算任务跟踪。计算任务容错处理计算结果汇聚计算节点负载监控.3.5.3 基本算子集基本算子集提供了数据分析中所需要的通用和基本的算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三年级上册科学教科版课件第5课 一袋空气的质量是多少
- 幼儿园过敏协议书(2篇)
- 坟墓拆除协议书范本
- 特种设备安全管理人员培训课件(基础知识)
- 2022年广西壮族自治区柳州市公开招聘警务辅助人员(辅警)笔试专项训练卷(2)含答案
- 2022年辽宁省辽阳市公开招聘警务辅助人员(辅警)笔试自考练习卷二含答案
- 2024年欧盟数据保护与跨境电商合同
- 2024年湖南省郴州市公开招聘警务辅助人员(辅警)笔试摸底测试(1)卷含答案
- 2024年广西壮族自治区钦州市公开招聘警务辅助人员(辅警)笔试专项训练题试卷(3)含答案
- 《电机学期末复习》课件
- 白内障术后干眼症的护理
- 全国自然教育中长期发展规划
- 农民素质提升培训
- 冬季驾驶安全培训避免车辆失控和翻车的技巧
- 2024年考研政治真题与答案解析(完整版)
- 第四章-国防动员
- 护患沟通技巧培训课件让护患沟通更有温度
- 乡土中国差序格局
- 高中生物科组教研活动总结
- 社工站工作总结汇报
- 2024年度医院内科呼吸科述职报告课件
评论
0/150
提交评论