【大数据】多源异构通用大数据处理服务平台_第1页
【大数据】多源异构通用大数据处理服务平台_第2页
【大数据】多源异构通用大数据处理服务平台_第3页
【大数据】多源异构通用大数据处理服务平台_第4页
【大数据】多源异构通用大数据处理服务平台_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目背景及必要性国内外现状和技术发展趋势大数据是指海量的数据加上复杂的数据类型。从产业的发展角度看,我们对数据的利用经历了传输、传播、处理三个阶段,而今眼目下,对数据的利用正处在处理这个阶段,即如何处理、如何管理、如何应用,如何优化是现阶段的主要工作。大数据的具体特点主要表现为四个“V”:一是体量浩大(Volume),数据集合的规模已从GB到TB再到PB级,甚至已经开始以EB和ZB来计算。著名咨询公司IDC的研究报告称,未来10年全球大数据将增加50倍,管理数据仓库的服务器的数量将增加10倍。二是类型复杂(Variety),大数据类型包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点,到20152年末非结构化数据将达到整个数据量的75%以上。三是生成迅速(Velocity),大数据通常以数据流的形式动态、快速地产生,具有很强的时效性。数据自身的状态与价值也随时空变化而发生演变,数据的涌现特征明显。四是价值巨大但利用密度低(Value),基于传统思维与技术让人们在实际环境中面临信息泛滥而知识匮乏的窘态。当今社会,新摩尔定律得到验证,大数据以成为各行各业的焦点。数据的来源多样化:以多源异构数据为代表的非结构化数据占世界上信息总量的95%以上,剩下的5%为结构化数据,包括网页、文本、交易数据、邮件、高清视频、3D视频、语音、图片、地质勘测数据、多源异构数据探测数据等等,这些数亿TB的数据正以超乎人们想象的速度增长,这对数据的存储系统的容量和实时计算速度提出了空前的要求。同时,大到智慧地球,小到智慧城市的数字化建设,使其越来越多的人、设备和传感器通过数字网络连接起来,产生、传送、分享和访问数据的能力也得到彻底变革。这些行业包括:互联网、制造业、医疗行业、媒体行业、零售销售行业、金融业、能源业、航空航天等等。预计2015年,超过40亿人(世界人口的60%)在使用各种智能终端,以全方位的方式与各行各业发生交互融合。其中大约12%拥有智能终端——其渗透率以每年20%以上的速度增长。如今,3000多万联网传感器节点分布在互联网、交通、汽车、工业、公用事业和零售部门,其数量正以每年30%以上的速度增长。预计到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35.2ZB也就是说全球大概需要376亿个1TB硬盘来存储数据。人们对数据日益广泛的需求导致存储系统的规模变得越来越庞大,管理越来越复杂,数据的爆炸性增长和管理能力的相对不足之间的矛盾日益尖锐。同时,数据的高速增长也对存储系统的可靠性和扩展性提出了挑战,海量数据的共享、分析、搜索也显得越来越重要,充分挖掘海量数据中的有效价值。这就要求我们得实现一种有别于传统系统而全新的存储管理平台,该平台必须具备高扩展性、高可靠性、高时效性,同时也需要具备高经济性,只有这样才能更好的为国民经济和生活服务。国外的大数据发展现状,以GOOGLE/FACEBOOK为代表的互联网巨头,正以全方位方式影响我们的生活和工作,他们所有的软件及服务都是在线的,免费的,人们在免费使用这些软件及服务后,会把个人的行为和喜好免费送递给这些软件及服务提供商,这些软件及服务提供商用自己创新的大数据处理分析平台,完成用户行为分析,精准的投递广告,从而获取利益,这是正向的循环,GOOGLE/FACEBOOK的软件及服务用户体验越好,使用的人越多,数据越多,分析更精准,在该平台上打广告的公司越多,这些软件及服务提供商盈利越好。这种方式完全颠覆了以微软为代表的卖软件拷贝的赚钱模式。而以IBM/微软/Oracle/EMC等等公司,也正在大数据领域全面发力,完善自己的产品线,提供更多的大数据解决方案。与此同时,2012年,奥巴马宣布美国政府投资2亿美元启动“大数据研究和发展计划”,这个计划可以同美国上世纪90年代初的“信息高速公路”相比拟。美国政府认为,大数据是“未来的新石油”,并将大数据的研究上升为国家意志。通过这个计划,以提高美国从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究。通过提高美国从大型复杂的数字数据集中提取知识和观点的能力,加强国家安全,并改变教学研究。这个计划里,六个联邦政府的部门和机构宣布新的2亿美元的投资,提高从大量数字数据中访问、组织、收集发现信息的工具和技术水平。了解更多正在进行的联邦政府的计划,解决所大数据所带来的机遇和挑战,可通过大数据表来了解大数据革命。美国政府还计划与工业界、大学研究界、非营利性机构与管理者一起利用大数据所创造的机会。由于中国人口多、市场大、数据量大,所以中国大数据发展的动力非常强劲,大数据的应用需求丝毫不亚于国外。因为在桌面计算机(PC),技术掌握在英特尔和微软手里,这就形成了它们的事实标准,必须用它们的平台来做,而我们创新的多源异构数据很小。通信也是这样,2G和3G的无线通信专利掌握在高通为代表的公司手里。这两个大产业,虽然我国花了很大力气,但在平台上受制于人,创新多源异构数据一直很小。所以,大数据的发展,代表了新的创新方式,生态方式,盈利方式,机会非常多。国内的大数据代表性企业是百度、腾讯、阿里巴巴、华为等等,奋起直追,但是还是有不少差距,虽然都使用开源的HADOOP代表的基础平台,但HADOOP的维护和核心代码都由国外的组织在维护更新,国家的数据安全受到严重威胁。所以开发一套完全自足知识产权、通用的、适用于多源异构的大数据处理服务平台迫在眉睫。项目对相关产业发展的作用与影响大数据时代,数据的管理、存储的平台是基础,数据的挖掘和应用是核心。大数据产业链参与者众多,覆盖面广。按照产品形态分,分为硬件、基础软件、应用软件。硬件主要指为数据提供存储和计算服务的基础设备和设施,基础软件主要指对大数据完成管理和提供计算服务的支撑平台,应用软件指在基础软件基础上构建的分析、挖掘等商业智能应用。硬件包括有万国、世纪互联、电信、中立等为代表的数据中心基础设施提供商,以华为、H3C、中兴、曙光、浪潮、联想等为代表的提供网络设备、存储设备、服务器、安全设备等提供商;基础软件无代表性,75%以上都是用的HADOOP开源平台;智能应用有用友、金蝶、华神天成、神州数码、中软、东软等为代表的应用提供商,无通用大数据支撑平台,并且他们的应用都跟行业捆绑很紧密,开放性不强。大数据正在影响与我们生活密切相关的各行各业,这些行业组织和企业,正在被动的,或者主动的改变传统的经营和商务模式,对数据进行有效的分析和优化是提高核心竞争力的有效方式。同时,同时,围绕如何应用、挖掘数据,已催生出新的商业模式:比如卖数据也已成为直接的盈利手段,这也充分体现了数据的战略资产特性:对数据的洞察力进一步体现在组织和企业的战略和行动上,并形成正反馈,有组于组织和企业改善生产过程,积累竞争优势。最终要求数据具有有效性,数据的有效性包括:数据质量、可用性、智能性、远程访问、支持移动访问。而数据的有效性必须要求对数据的挖掘和分析手段多样化、智能化、高效。具体从大数据的商业用途方面来看,社会和企业的智能分析和商务决策的本质即在改变:越来越实时、多源异构数据、访问不受地点和设备的限制、杠杆式开发客户洞察能力和驱动策略、将数据视之为货币化的资产。高质量数据应用可以显著的提供组织和企业的服务和商业表现。从大数据平台和技术提供商来看,更大的数据集(PB规模)、更多更智能的算法(例如:预测模型、关联算法、机器学习、用户行为分析等等)、不断创新的新的技术平台(不同于传统SQL/MAPREDUCE)、基于云的交互和服务方式。市场分析市场前景大数据的爆炸性增长,带动硬件、软件等全线产品的飞跃发展。大数据将在政府公共服务、医疗服务、零售业、制造业、以及涉及个人服务等领域得到广泛应用,并产生巨大的社会价值和产业多源异构数据。同时专家也表示,大数据的挖掘利用对提升政府管理职能和企业的决策能力、创新发展模式都将产生深远影响,企业应加快大数据的战略部署,抢占大数据应用的先机。以麦肯锡评估西方产业数据为例,美国医疗服务业价值约3000亿美元,欧洲公共部门管理支出约为3500亿欧元,多源异构数据服务商收入将在1000亿没有左右,而位臵服务中个人最终的价值将达到7000亿美元。大数据将使得美国零售业净利润增长水平可达到60%。降低制造业产品开发、组装成本达50%。而在国内,国家和各级地方政府重视应用大数据技术,盘活各地大数据中心资产。把原来大规模投资产业园,物联网产业园从政绩工程,改造成智慧工程,从政绩工程变为实用工程。在安防领域,应用大数据技术,提高应急处臵能力和安全防范能力。在民生领域,应用大数据技术,提升服务能力和运作效率,以及个性化的服务。如医疗、卫生、教育等部门。在金融、电信领域,数据分析一直得到极大的重视。但由于存储能力和计算能力的限制,局限在交易型数据的统计分析。据我们了解,部分运营商和银行已经开始用户行为分析。无疑,这两个领域将是大数据施展拳脚的舞台。同时政府投入将形成示范效应,大大推动大数据的发展。绝大多数的大数据没经过有效的价值挖掘,正处于起步阶段,正是基于国内的现实情况,由于各个行业都存在大数据应用需求,潜在市场多源异构数据非常可观。据计世资讯统计预测,中国大数据市场规模统计:2013年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额,2013年大数据市场将迎来增速为138.3%的飞跃,达到10亿规模,到2016年,整个市场规模逼近百亿。因此,构建“多源异构通用大数据处理服务平台”的应用前景广阔。竞争分析国外竞争对手相对于国外竞争对手,本项目产品在政策、成本和服务方面有明显的优势。(1)政策优势“十二五”规划明确规定,在税收和融资等方面给以大数据产业各种优惠政策鼓励。另外,特别在涉及国家安全等领域是不允许国外公司进入的,比如航空航天、公安系统的海量数据处理项目、人口管理项目,也包括国家能源、国家电力、智慧城市、智能交通等等涉及国家命脉的相关项目和应用。(2)成本优势与国外竞争对手同等技术水平的产品相比较,本项目产品具有较大的成本优势。在硬件配置与系统性能相同的情况下,本项目产品软件成本可以控制在国外产品的1/2左右,市场价格可以控制在引进产品价格的60%~70%,有很强的竞争优势。(3)服务优势国外竞争对手的总部都在欧美,距离亚洲和中国都比较遥远。虽然一般在中国都设立了分支机构。但是,由于国外厂商都面向全球市场,不可能在每个国家都建立一支庞大的技术和服务队伍,其技术和服务力量还必须借助总部来完成。因此,服务质量低,服务不及时,服务收费昂贵就成为了国外竞争对手的通病。比如,一个国内系统一般只需要几万元人民币就可以完成的技术支持,但是国外系统一般要价达数十万美元。这还算好的,有的国外系统,由于厂商之间的兼并重组,原厂商已经退出市场,那就花钱都找不到服务了。与国外竞争对手相反,我们公司非常重视客户服务工作,公司设立了专门的客户服务部,服务响应时间小于2小时。公司的服务得到了我们客户的高度评价,使本项目产品在服务上占有较大优势。国外代表公司及产品有IBM的大数据管理和分析一体机、EMC的自服大数据分析平台:GreenplumChorus是EMC的数据云平台,堆栈了各种大数据分析工具(业务分析、BI、统计等)。SAP的内存计算+开放平台:SAP已经提出了开放的内存计算平台HANA,HANA将成为SAP未来的平台,未来所有的应用都会发布在HANA平台之上,并且用作实时分析。Oracle的Exadata+大数据机+Exalytics:Oracle的大数据平台解决方案可以简单地理解为Exadata+大数据机+Exalytics的组合,利用这“三驾马车”来分别应对数据捕获、组织、分析和决策四个部分。国内竞争对手主要以曙光、浪潮等为代表的公司,所建立的“大数据”平台的宣传性质、实验性质多于实用性质,更多的提供以硬件为主的市场模式。另外,而以华为等为代表的民营企业也在拓展自己的“大数据”服务产品和市场,但也是以他们自己的“存储、网络等硬件设备”为基础作产品进行有限外延,无法提供“大数据”的核心:通用大数据处理服务平台。以用友、金蝶、中软等集成公司,多以应用为主,无大数据处理的基础平台做支撑,所以只能利用传统关系数据库作为支持来完成分析处理服务。总之,以上为代表的公司的硬件平台如果没有“通用大数据处理服务服务平台”作为支撑,用户是无法享受到真正支持多源异构的“大数据”服务的。(1)技术优势目前,公司已积累有159项知识产权,且本项目已申请并受理专利5项,为本项目奠定了坚实的技术基础。基于影像的内容搜索技术、分布式虚拟化存储技术、并行计算技术、智能终端技术、移动大数据处理及服务平台技术、统一搜索及轨迹跟踪技术等等,这些关键技术解决需要多年的技术积累和实际应用经验,以及强大科研实力为基础才能完成的,技术门槛高,技术涉及面广,技术复杂,产品成熟周期长。但是我们公司有长期的航空航天系统建设经验,应用客户对象都是大部级用户,积累了大量的应用建设经验,产品平台也得到了成熟和稳定,这些都是竞争对手短时间难以赶上的。(2)品牌优势公司自成立以来,一直高度重视品牌建设和公司品牌保护工作。公司建立了严格的管理规章制度,从各个方面保证公司产品质量以及服务质量,并以优质的服务,赢得了客户的一致认可与好评。此外,公司已申请并取得商标12项,以从法律角度,将公司的品牌形象得到严格的保护。同时,公司与航天科工集团、成都电子科技大学、四川大学等高等院校建立有良好的长期合作关系,为公司的长远发展做好了充足的人才储备。与国内竞争对手相比,本项目产品在行业应用、技术积累、品牌、资金支持等方面具有明显优势。市场定位及策略公司优势本项目以公司为主体,联合航空航天研究所、地区院校优势科研力量,具备比较强的区域竞争力,我们具备“人才优势、行业集成优势、产学研用结合优势”。利用我们公司的品牌优势、科研实力、资金实力,结合国家的政策导向,以及市场导向和信息技术发展的方向,我们公司将来会规划两大重点产品线,一是:多源异构通用大数据基础平台;二是多源异构通用大数据智能分析平台。对这两大产品线我们公司会结合实际情况持续的完善和创新目标客户行业应用为主,政府政务应用为辅。包括多源异构数据探测数据处理分析、电子商务数据处理分析、用户行为数据处理分析、地质勘测数据处理分析、金融交易数据处理分析、智能交通数据处理分析、智慧城市数据处理分析等等。从产品角度来看,本项目研发的产品“多源异构通用大数据处理服务平台”,通过建设信息集成、资源共享的系统,位于产品运营的顶端和系统建设产业链的下游。通过本项目的研发和实施,可以带动相关的供应商、开发商和集成商共同发展。从服务角度来看,本项目形成的“异构数据资源中心”则位于服务运营的底层和信息服务产业链的上游,通过本项目建设和应用示范,可以催生和推进以“多源异构”为关键特点的综合信息服务、用户行为信息服务、传统结构化分类数据、非结构化数据(视频、音频、文件等等)的大数据平台服务产业,并进一步推动以异构数据的智能处理和服务请求要求。市场策略直接销售、新建免费服务平台培育市场、工程项目合作开发、增值服务开发。立足西部,围绕公司传统航天、公安等客户,可重点进行行业应用直接销售。按照区域划分,以成都为中心新建免费服务平台培育引导市场消费,建设城市级综合信息云平台服务。围绕新型智慧城市,可以重点打造以多源异构数据相关数据为骨架,整合音视频、内容服务数据,实现数据融合服务发布,并和城市内的各个行业相关信息系统深度融合,切实为智慧城市提供强大的大数据一体化支撑。按照行业划分,重点以航空、公安为主要推广目标,以政府投资为主,建设公共安全领域区域性服务中心,提供移动大数据处理及服务平台、云搜索等多种服务。目前,随着刑侦、安防等领域的信息革命深化,建设区域性移动大数据处理中心,并提供基于身份特征(含图像特征)的身份验证、生物特征比对、实时联网核查、身份轨迹跟踪、大范围搜索、实时布控等服务,意义十分重大。依托政府部分和公共安全领域的建设需要,建设涵盖各重点的监控网络,同时联动城市天网,实现对网上追逃的实时布控,实现对敏感人物的实施及历史轨迹(含图像特征)的快速获取。该服务将极大加强城市及区域级安全防范水平,对维稳和民生相关应用,极具价值。应该可以得到政府的大力支持。支持保障及风险应对措施公司从人管人的创业期已经过渡到现在的制度管人的稳步发展期。公司根据自身发展经验,建立了全面的内控机制和管理制度,包括人力资源管理、财务管理、营销管理、研发管理、项目管理、保密管理、客户服务管理,质量管理体系等制度。全面使用了办公自动化系统,管理实现流程化、网路化、科学化、规范化。在讲求规范的同时,强调制度必须保证企业的高效运作和持续发展,并且更加重视制度的不断创新。人事管理根据公司战略和业务安排,定期制定公司人力资源规划和岗位标准;实行核心骨干员工持股计划和全员职业发展计划,建立长效激励机制;实行全员绩效考核,每月工资与绩效考核挂钩。每年实行年终考核评估,奖优劣汰。财务管理完善的财务管理制度;遵循谨慎的财务原则;全面推行预算管理和定期财务诊断制度;实行部门和项目全成本核算和考核。营销管理在销售队伍建设方面,实行分区域、分级别配置市场人员、分配任务,强调行业背景、技术能力、营销专长三位一体的能力结构;在激励政策方面,实行销售额同工资挂钩、贡献利润同奖金挂钩,按业绩分段加重权重的奖励机制。研发管理严格按照国家有关科技项目管理办法实行攻关课题的财务管理和技术管理,公司技术开发的投入长期稳定,每年研发费大于同期销售额的10%;科研项目与市场应用相结合,科研立项时必须同时具备销售合同或推广应用计划。质量管理按计算机软件质量保证计划规范,落实设计、开发、实施全过程质量保证体系;按GB/T17544严格进行软件平台上线前的测试;建立全面的诊断制度,保证项目严格遵守质量标准。项目负责制生产采购小组:负责项目的软、硬件通用货架产品的采购以及自制产品的检测等,保证采购、自制件的质量;软件小组:负责系统应用软件及其相关系统软件、硬件的配置和齐套等,对应用成效提供保障;集成小组:负责中心系统软、硬件设备的安装/调试、网络通信的实现及系统集成;系统测试小组:负责系统测试、系统联调和试运行,并配合用户进行项目系统的验收等;技术支持和售后服务小组:负责系统的技术支持、人员培训、系统维护和维修等。项目的技术基础项目相关技术成果的来源及知识产权情况应用案例应用示范一:2012年公安部居民身份证密钥管理中心芯片化安全模块的测试工作。我公司参与了公安部居民身份证密钥管理中心启动的芯片化安全模块规模化测试工作(移动大数据处理及服务平台在身份轨迹跟踪项目中的成功应用),自2011年11月7日开始,我公司经过约3个月的时间,对每个芯片化安全模块均进行了入厂检测、整机生产检测、市场反馈、持续性数据收集四个阶段的测试工作,于2012年1月31日正式完成。(1)在芯片化安全模块的入厂检测中,采用了变化读卡距离、变化不同场强、采用四个厂家的样卡进行测试的方式,共进行了22,397,616次测试,其中显示错误次数总计为3,630次,成功率为99.999%;(2)基于芯片化安全模块的第二居民身份证阅读器市场反馈阶段一:出厂前数据采集阶段,共采集了9,979,307条数据,其中异常数据为99,645条,成功率为99.002%。说明基于芯片化安全模块的第二代居民身份证阅读器在出厂状态下工作稳定可靠。(3)基于芯片化安全模块的第二居民身份证阅读器市场反馈阶段二:产品销售后数据采集阶段,共采集数据1,516,905条,其中异常数据为14,471条,成功率为99.046%。说明基于芯片化安全模块的第二代居民身份证阅读器在实用环境中工作稳定可靠。基于新一代移动大数据处理及服务平台技术的身份轨迹跟踪技术应用在芯片化安全模块测试网络拓扑图应用示范二:警务监督信息平台系统示范。我公司应用新一代移动大数据处理及服务平台技术为云南省昆明市建设了“警务监督信息平台”。平台建设从公安信息化的整体应用出发,充分体现平台的综合性、关联性、灵活性、实用性、安全性、简便性,依托公安网络和市局现有公安业务系统,组织全市公安机关纪检监督部门开展平台建设,并经层级整合后形成全市“警务监督信息平台”。平台主要包括十三个系统、市局纪委警务监督中心、各区市县局警务监督室的建设。警务监督信息平台系统拓扑图软件著作权序号软件名称编号非结构化数据共享灾备平台2012SR058412分布式计算任务调度及执行软件2012SR058450分布式虚拟化存储软件2012SR071539数字视频、语音分布式索引与检索软件2012SR071537数字影像内容云搜索软件2012SR071531数字语音内容云搜索软件2012SR071535专利技术序号专利名称专利号专利类型非结构化数据共享灾备平台201220228282.7实用新型分布式计算任务调度及执行系统201220228061.5实用新型分布式虚拟化存储系统201220228293.5实用新型数字视频、语音分布式索引与检索系统201220228281.2实用新型数字影像内容云搜索系统201220228286.5实用新型已完成的研究开发工作及鉴定年限本项目正处于研发过程中,目前已解决项目核心技术问题。下面都是已验证并成熟的关键技术。多源异构通用大数据处理技术,包括分布式存储及计算技术、多源异构设备虚拟化技术、基于影像内容识别的并行搜索技术、多源数据融合数据技术等等;分布式存储技及计算技术整个技术架构由任务调度、数据处理、数据推送、消息传递、数据交换、集群心跳、数据存储等功能模块构成,每类功能模块也能单独集群形式存在,集群的规模可根据用户的业务量进行动态构建和配置。不同功能模块之间或者功能模块内部间通过SOA、标准的IP(Socket/FTP)或者MQ等协议方式进行数据和控制信息的交换。多源异构设备虚拟化技术利用我们自主开发的虚拟代理软件,配合池化算法,我们能够将应用程序和用户所需要的数据存储操作和具体的存储控制分离。有了该技术,可以接入不同类型的存储设备,比如NAS/SAN/DAS等,也可以是基于不同操作系统(Windows、Linux、Unix)的设备。生物特征识别和模式识别技术能够完成对指纹、人脸的快速高效识别,能够对车牌、颜色、形状等特征的模式快速识别。身份实时识别并行搜索和轨迹跟踪技术在海量信息中完成并行搜索,根据身份信息(指纹、人脸、身份证信息等)、网上追逃库、车辆库、人口库、位置信息等信息,以时间、多源异构数据为轴快速形成海量个人活动轨迹。其定位技术采用先进的以北斗导航卫星为主体的定位导航技术平台。基于影像内容识别的并行搜索技术依托分布式计算和网格技术,各种异构智能移动终端提交搜索任务,“大数据处理及服务平台中心”的任务调度平台分配搜索任务,对搜索任务内容进行解析,根据算法(指纹识别算法,人脸识别算法,车牌识别算法,特征匹配算法,视频特征动态跟踪识别算法)进行并行搜索计算,保存并智能移动终端返回搜索结果。多源异构数据融合服务建设需要结合海量异构多源异构数据特点,对国内外现有标准规范进行评估和改进,形成一种新的面向多源异构数据共享的数据交换规范,为实现多源数据融合提供基础。数据交换规范以XML为基础,针对多源异构数据应用中的海量多源异构数据进行设计,主要建设内容分为两部分:多源异构数据交换规范HGML(HyperGeographicMarkupLanguage)和行业数据交换规范XXML。行业数据交换规范XXML建设,针对专业领域、专业术语,及各种数据资源,建立能够实现用户行为数据、电商交易数据、影像数据、实时采集数据、网络舆情数据、社交位置数据等行业应用数据融合的数据共享与交换规范。多源异构数据交换规范HGML(HyperGeographicMarkupLanguage)建设,需要针对多源异构数据海量、异构、非结构化、多源异构数据、实时等特点,利用半结构化数据的灵活性,建立支持遥感影像、电子地图、基础地形图、地图图片、三维全景图、DEM模型等多源异构数据的数据交换格式,为实现多种多源异构数据融合提供基础。技术特点以及与现有技术比较所具有的优势序号对比项我们公司多源异构通用大数据处理服务平台其他公司的产品或者应用1平台架构元数据、存储节点、计算节点部分有产品只有存储或者只有计算,同时具备多源异构数据存储和计算暂时没有2平台来源自主开发国外(开源)3开发语言及性能C++/高JAVA/低4存储虚拟化支持不支持5计算并行模式N*N,支持单机并行,也支持多机并行,多机多实例并行1*N,不支持单机并行,只支持多机单实例并行6存储及计算节点可分离支持不支持7数据存储容量缺省支持1000PB以上基本上再1PB左右8分布式任务及计算调度支持支持9存储计算节点横向扩展支持支持10构建超大规模数据中心支持支持11构建分布式多数据中心支持不支持12存储设备兼容性DAS/NAS/SANDAS13数据一致性一份成功即可,同步由后台镜像服务完成同时多份成功才算成功14元数据库支持支持支持15元数据存储方式RDB(关系数据库)内存K/V16元数据存储容量16TB与NameNode的内存大小相关17数据副本数量自定义(缺省1份)自定义(缺省3份)18数据异地存储支持不支持19数据存储方式对象存储分块存储20数据分级存储支持(在线、近线、离线)不支持(只支持在线)21数据计算方式流计算/批计算批计算22处理数据类型视频、语音、图片、地理、文本、多源异构数据文本23处理数据大小自适应强制64MB24NameNode的可靠性多节点,热备单节点25NameNode启动速度10-30秒几分钟至几十分钟26调度器可靠性多节点,热备单节点27计算调度算法计算节点性能调度算法FIFO、CapacityScheduler、FairScheduler等4个28系统软硬件兼容性支持x86、龙芯MIPS硬件平台Windows、Linux只支持x86硬件平台Linux29复杂计算流程可定制,可配置支持不支持30单位时间计算次数1亿次/秒1000万/秒31平台技术支持有没有技术突破对行业技术进步的重要意义和作用大数据处理服务平台在本项目方面的优势弹性的计算和存储能力:大数据处理及服务平台的服务器端由成千上万的服务器组成云,扩展性强,可以为用户提供近乎无限的存储多源异构数据和超强的计算能力。高性价比:大数据处理及服务平台对用户端的硬件设备要求很低,软件也不用购买和升级,只需定制即可。服务器端通过在大数据处理及服务平台中利用虚拟化技术可大大降低维护成本和提高资源的利用率。可靠的存储:大数据处理及服务平台服务器端利用一些技术可以提供更加安全可靠高效的数据存储。用户不用担心被病毒攻击,不用担心数据被损坏。方便灵活:用户可以根据需要定制相应的服务,使用方便。大数据处理及服务平台可以按照用户的需求来部署相应的资源、计算能力、服务及应用。数据的共享:通过将数据存放在云中,用户可以方便的同步自己不同设备中的数据,不同的用户之间也可以方便的共享数据。项目的社会效益分析整合资源,为国家的行业竞争能力得以提高;维护国家信息安全,推动国家在各个行业中的命脉数据掌握在我们自己的手中;扩展大数据处理及服务平台应用领域的发展,推进行业、政府信息化进程;让海量的信息终端与海量的行业数据在大数据处理及服务平台上实现结合。促进大数据处理及服务平台技术的落地,真正应用到行业中。有利于改善相关行业的信息化水平。建设方案项目实施内容项目总体概述我们对该平台的统一定义为:是一能够完成“海量”多源异构数据的“分布式存储和并行计算”的“通用”的“纯软件基础平台”;海量:指数据量很大,一般数据容量以“TB或者PB”为单位。异构多源数据:通常指多个行业的数据,包括多源异构数据探测数据、影像、交易数据、图片、文档、地理、离散的文本等数据;分布式存储和并行计算:指数据能够分散存储在多台存储设备上,并能够对任意数据完成多实例并行计算处理,快速给出计算结果;通用:指该平台能够适应多种行业产生的数据,包括运营商、能源(电力、石油、石化)、政府、公安、医疗等数据产生大户;纯软件基础平台:该平台为一通用软件平台,不受限于任何硬件设备,即可以部署在x86、龙芯MIPS或者Windows/Linux/Unix等常见软硬件平台上;本项目在“多源异构通用大数据处理基础平台”的基础上完成多源异构通用大数据智能分析产品的开发,“多源异构通用大数据处理基础平台”在“云服务模型”中,属于“PaaS层”,“多源异构通用大数据处理基础平台”属于“SaaS层”,PaaS平台层提供RestfulWebService等多种API接口,当然任何单位都可以在该软件平台上完成面向业务的应用软件二次开发。大数据处理分析中心分层示意图大数据处理分析中心逻辑架构图大数据处理分析中心互联逻辑图核心服务功能多源异构数据存储服务数据存储是信息服务的基础,在多源异构数据领域如何合理的对海量多源异构数据进行分布式存储,使之具有较高的可用性和可扩展性,是建设多源异构数据共享服务系统的必然需求。本系统将建设一种针对海量多源异构多源异构数据的分散存储服务,将数据按照其多源异构数据特征进行合理的切片分块,再把分块数据按照多源异构数据逻辑关系均匀分布到多个服务器中,从而实现多源异构数据的高效分布式存储。分散存储服务不仅是本系统的应用支撑服务,也是一种面向大众的基础服务,将其投入市场能够产生一定的经济效益。多源异构数据挖掘服务目前,以城市为中心的智慧城市和智慧地球的创新和发展,海量的各个行业的异构数据纷繁复杂,同时社会大众的广泛参与也将使得复杂多变的多源异构数据日益膨胀,随着多源异构数据库包含越来越多的各种信息(如影像、社交、交易、地理、时间、气象、商业、市政等),其蕴含的海量信息已大大超出人类所能理解的范围。因此通过传统异构关联智能分析技术来实现对如此庞大、异构的多源异构数据库的处理越来越显得力不从心。虽然异构关联智能分析中常用的统计方法可以很好地处理数字型数据,但是难以处理相互关联的多源异构数据对象;此外,对于及海量异构数据库,统计方法的计算代价将会非常高,导致其海量数据处理效率极低。因此,本项目拟采用多源异构数据挖掘方法,通过对高效多源异构数据聚类算法,多源异构数据维度异构数据源在线分析处理技术、多隶属度多源异构数据分类算法等关键方法和技术的研究,较好地实现从海量异构的多源异构数据库中提取隐含的、用户感兴趣的多源异构数据和非多源异构数据模式与普遍特征,为本项目平台系统的应用提供可靠的数据支撑。按需处理动态分发服务按需处理动态和主动分发服务是本系统的信息汇聚和服务聚合接口,用于实现基于多源异构数据的多种应用服务在多源异构数据共享服务系统的聚合。本服务的建设,需要从数据-信息-服务的转化、增值过程入手,建立基于“请求-聚合-服务”的客户端聚合服务工作机制。按照客户端需求,通过数据交换规范HGML/XXML将多种信息汇聚到客户端,从而实现服务的按需聚合。本服务建设内容还包括实时数据推送,建立客户端与服务器以及多个客户端之间的数据同步和资源共享,实现数据的主动分发,保证信息的时效性。多源异构数据融合服务由于国内多源异构数据产业缺乏相关标准,导致各种产品、平台之间难以实现信息共享和数据交互,成为阻碍我国多源异构数据产业发展的重要问题。而本项目中多源数据融合服务的建设,正是为了解决这一关键问题,可以在一定程度上起到推动我国多源异构数据产业数据标准发展的作用。多源数据融合服务建设需要结合海量异构多源异构数据特点,对国内外现有标准规范进行评估和改进,形成一种新的面向多源异构数据共享的数据交换规范,为实现多源数据融合提供基础。数据交换规范以XML为基础,针对多源异构数据应用中的海量多源异构数据进行设计,主要建设内容分为两部分:多源异构数据交换规范HGML(HyperGeographicMarkupLanguage)和行业数据交换规范XXML。多源异构数据交换规范HGML(HyperGeographicMarkupLanguage)建设,需要针对多源异构数据海量、异构、非结构化、多源异构数据、实时等特点,利用半结构化数据的灵活性,建立支持如影像、社交、交易、地理、时间、气象、商业、市政等等多源异构数据的数据交换格式,为实现多种多源异构数据的数据融合提供坚实的理论基础。行业数据交换规范XXML建设,针对专业领域、专业术语,及各种数据资源,建立能够实现视频地缘数据、实时采集数据、网络舆情数据、社交位置数据等行业应用数据融合的数据共享与交换规范。一体化统一管理本项目提出的多源异构数据共享服务系统是一种基础支撑的聚合服务平台,其上可以提供多种面向行业应用的服务模式,为了管理各种应用中纷繁复杂的数据,需要建立一种一体化的数据管理服务。一体化管理服务建设要以数据交换规范为基础,首先建立数据注册中心,运用HGML/XXML对数据进行结构化封装;再建立一体化的服务体系架构对封装后的数据进行管理,从而实现动态数据与静态数据的一体化管理,历史数据与实时数据的一体化管理,以及各类异构数据的一体化管理。数据注册中心能通过HGML/XXML对数据进行注册和登记,并建立元数据库,将各种数据的管理统一为对元数据的组织与管理。一体化的服务体系架构,能够根据元数据对数据的注册、组织、应用、注销等进行统一管理,实现诸如非结构化数据和结构化数据的融合、关联、展现,真正体现“一体化”的管理特点。项目应用示范本项目面向西部,选择成都市作为重要试点和应用示范城市。着眼西部,力推空间探测数据分析、电信用户行为分析、智慧城市的智能交通服务、智慧园区信息多源异构数据共享平台推广。面向中西部大中型城市建立统一的大数据处理服务支撑平台,满足智慧城市、公共安全、应急调度、资源环境等重点行业应用及普通大众的多源异构数据应用需求。技术经济指标(数据须与附表1一致);技术指标支持用户自主上传多源异构数据并整合到服务系统,并交换给其他用户使用,支持数据格式转换、数据抽取、模型简化等后台处理功能。至少包含2种以上的数据智能分析算法。具备联机的数据保密处理、数据编辑、交互处理等功能。支持面向服务的多源异构数据共享访问和统一显示,支持包括视频、语音、图片、文本等主要数据类型的存储访问。提供服务器软件、组件、各种技术标准的接口(含WebService/Java/NET/C++)开发SDK、桌面软件和Web浏览器插件、移动设备(Android/IPhone)浏览软件,具备完整的服务接口和开发API。支持对视频数据内容的并行搜索功能。支持分布式存储和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论