版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据、云计算及分布式浅析先进性技术专题报告目录1大数据31.1 数据挖掘(DataMining)41.2 机器学习(MachineLearning)52云计算62.1虚拟技术73分布式83.1分布式数据库88摘要:大数据(bigdatascience)和云计算(cloudcomputing)是当今信息时代下,最具发展前景的热门领域,无疑是信息工业革命中的又一次令人兴奋的技术浪潮,该领域的迅猛发展将会在相关的项目领域带来概念以及技术上的颠覆性改变,同时也会对人类的生活方式和对信息的认知模式带来巨大的冲击。分布式(distributedsystem)的发展为大数据与云计算在技术上奠定了实现的基础
2、,大数据的处理分析需要庞大的计算能力,云计算为此提供强有力的支持,而云计算的本质就是分布式系统,将无数在空间上分离的计算机资源汇聚到一起,形成一个巨大的资源池,用户根据自己的需要从中获取所需的云平台资源,这一过程运用到了虚拟化技术(virtualization),将无数物理上隔离的并且计算能力有限的计算机虚拟化成了一个计算能力相当可观的资源池,对于用户而言这些物理计算机是透明的,他们只需要关心自己实际获取到的资源。事实上这也正是阿里巴巴在去10E化过程中应用的技术,采用开源软件在水平方向上进行拆分和分布式部署,具有很强的实际参考意义。1大数据大数据由巨型数据集组成,这些数据集大小常超出人类在可
3、接受时间下的收集、庋用、管理和处理能力。大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。在一份2001年的研究与相关的演讲中,麦塔集团(METAGroup现为高德纳)分析员道格莱尼(DougLaney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强
4、的决策能力、洞察力与最优化处理。”另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点。大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(dataset)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研
5、究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。截至2012年,技术上可在合理时间内分析处理的数据集大小单位为艾字节(exabytes)。在许多领域,由于数据集过度庞大,科学家经常在分析处理上遭遇限制和阻碍;这些领域包括气象学、基因组学、神经网络体学、复杂的物理模拟,以及生物和环境研究。这样的限制也对网络搜索、金融与经济信息学造成影响。数据集大小增长的部分原因来自于信息持续从各种来源被广泛收集,这些来源包括搭载感测设备的移动设备、高空感测科技(遥感)、软件记录、相机、麦克风、无线射频辨识(RFID)和无线感测网络。自1980年代起,现代科技可存储数据的容
6、量每40个月即增加一倍;截至2012年,全世界每天产生2.5艾字节(2.5X1018字节)的数据。大数据几乎无法使用大多数的数据库管理系统处理,而必须使用“在数十、数百甚至数千台服务器上同时平行运行的软件”。大数据的定义取决于持有数据组的机构之能力,以及其平常用来处理分析数据的软件之能力。“对某些组织来说,第一次面对数百GB的数据集可能让他们需要重新思考数据管理的选项。对于其他组织来说,数据集可能需要达到数十或数百兆字节才会对他们造成困扰。”随着大数据被越来越多的提及,有些人惊呼大数据时代已经到来了,2012年纽约时报的一篇专栏中写到,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日
7、益基于数据和分析而作出,而并非基于经验和直觉。但是并不是所有人都对bigdata感兴趣,有些人甚至认为这是商学院或咨询公司用来哗众取宠的buzzword,看起来很新颖,但只是把传统重新包装,之前在学术研究或者政策决策中也有海量数据的支撑,大数据并不是一件新兴事物。1.1数据挖掘(DataMining)数据挖掘(Datamining),又译为资料探勘、数据挖掘、数据采矿。它是数据库知识发现(英文:Knowledge-DiscoveryinDatabases缩写:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Associationrulelearnin
8、g)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘有以下这些不同的定义:“从数据中提取出隐含的过去未知的有价值的潜在信息”“一门从大量数据或者数据库中提取有用信息的科学。”尽管通常数据挖掘应用于数据分析,但是像人工智能一样,它也是一个具有丰富含义的词汇,可用于不同的领域。它与KDD的关系是:KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程;而数据挖掘是KDD通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。事实上,在现今的文献中,这两个术语经常
9、不加区分的使用。数据挖掘的方法包括监督式学习、非监督式学习、关系分组AffinityGrouping,作关系性的分析)与购物篮分析(MarketBasketAnalysis)或者称为关联规则分析、聚类(Clustering)与描述(Description)。监督式学习包括:分类、估计、预测。数据挖掘是因为海量有用数据快速增长的产物。使用计算机进行历史数据分析,1960年代数字方式采集数据已经实现。1980年代,关系数据库随着能够适应动态按需分析数据的结构化查询语言发展起来。数据仓库开始用来存储大量的数据。因为面临处理数据库中大量数据的挑战,于是数据挖掘应运而生,对于这些问题,它的主要方法是数据
10、统计分析和人工智能搜索技术。1.2机器学习(MachineLearning)机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。机器学习已广泛应用于数据挖掘、计算机
11、视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。机器学习有下面几种定义:“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。“机器学习是对能通过经验自动改进的计算机算法的研究”。“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。一种经常引用的英文定义是:AcomputerprogramissaidtolearnfromexperienceEwithrespecttosomeclassoftasksTandperformancemeasu
12、reP,ifitsperformanceattasksinT,asmeasuredbyP,improveswithexperienceE.机器学习可以分成下面几种类别:监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。半监督学习介于监督学习与无监督学习之间。增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境
13、的反馈来做出判断。具体的机器学习算法有:构造条件概率:回归分析和统计分类人工神经网络决策树高斯过程回归线性判别分析最近邻居法感知器径向基函数核支持向量机通过再生模型构造概率密度函数:最大期望算法graphicalmodel:包括贝叶斯网和Markov随机场GenerativeTopographicMapping近似推断技术:马尔可夫链蒙特卡罗方法变分法最优化:大多数以上方法,直接或者间接使用最优化算法2云计算云计算(英语:CloudComputing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。云计算是继1980年代大型计算机到客户端-服
14、务器的大转变之后的又一种巨变。用户不再需要了解“云”中基础设施的细节,不必具有相应的专业知识,也无需直接进行控制。云计算描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。在“软件即服务(SaaS)”的服务模式当中,用户能够访问服务软件及数据。服务提供者则维护基础设施及平台以维持服务正常运作。SaaS常被称为“随选软件”,并且通常是基于使用时数来收费,有时也会有采用订阅制的服务。推广者认为,SaaS使得企业能够借由外包硬件、软件维护及支持服务给服务提供者来降低IT营运费用。另外,由于应用程序是集中供应的,更新可以实时的发布,无需用户
15、手动更新或是安装新的软件。SaaS的缺陷在于用户的数据是存放在服务提供者的服务器之上,使得服务提供者有能力对这些数据进行未经授权的访问。用户通过浏览器、桌面应用程序或是移动应用程序来访问云的服务。推广者认为云计算使得企业能够更迅速的部署应用程序,并降低管理的复杂度及维护成本,及允许IT资源的迅速重新分配以因应企业需求的快速改变。云计算依赖资源的共享以达成规模经济,类似基础设施(如电力网)。服务提供者集成大量的资源供多个用户使用,用户可以轻易的请求(租借)更多资源,并随时调整使用量,将不需要的资源释放回整个架构,因此用户不需要因为短暂尖峰的需求就购买大量的资源,仅需提升租借量,需求降低时便退租。
16、服务提供者得以将目前无人租用的资源重新租给其他用户,甚至依照整体的需求量调整租金。基本特征:互联网上汇聚的计算资源、存储资源、数据资源和应用资源正随着互联网规模的扩大而不断增加,互联网正在从传统意义的通信平台转化为泛在、智能的计算平台。与计算机系统这样的传统计算平台比较,互联网上还没有形成类似计算机操作系统的服务环境,以支持互联网资源的有效管理和综合利用。在传统计算机中已成熟的操作系统技术,已不再能适用于互联网环境,其根本原因在于:互联网资源的自主控制、自治对等、异构多尺度等基本特性,与传统计算机系统的资源特性存在本质上的不同。为了适应互联网资源的基本特性,形成承接互联网资源和互联网应用的一体
17、化服务环境,面向互联网计算的虚拟计算环境(InternetbasedVirtualComputingEnvironmentiVCE)的研究工作,使用户能够方便、有效地共享和利用开放网络上的资源。互联网上的云计算服务特征和自然界的云、水循环具有一定的相似性,因此,云是一个相当贴切的比喻。根据美国国家标准和技术研究院的定义,云计算服务应该具备以下几条特征:随需应变自助服务。随时随地用任何网络设备访问。多人共享资源池。快速重新部署灵活度。可被监控与量测的服务。一般认为还有如下特征:基于虚拟化技术快速部署资源或获得服务。减少用户终端的处理负担。降低了用户对于IT专业知识的依赖。2.1虚拟技术在计算机科
18、学中,虚拟技术是一种通过组合或分区现有的计算机资源(CPU、内存、磁盘空间等),使得这些资源表现为一个或多个操作环境,从而提供优于原有资源配置的访问方式的技术。由于目前信息技术领域的很多企业都曾在宣传中将该企业的某种技术称为虚拟技术,这些技术涵盖的范围可以从Java虚拟机技术到系统管理软件,这就使得准确的界定虚拟技术变得困难。因此各种相关学术论文在谈到虚拟技术时常常提到的便是如前面所提到的那个不严格的定义。应用领域:服务器集成沙盒(Sandboxing)多运行环境多操作系统测试和性能监视应用集成虚拟硬件软件移植系统可管理性测试/质量保证3分布式在计算机科学中,分布式计算(英语:Distributedcomputing),又译为分散式運算。这个研究领域,主要研究分布式系统(Distributedsystem)如何进行计算。分布式系统是一组电脑(computer),通过网络相互链接传
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- (3篇)2024大学辅导员个人工作总结
- 教师政治思想及职业道德方面的考核报告
- 2024年淮南联合大学高职单招职业技能测验历年参考题库(频考版)含答案解析
- 乌鲁木齐市八年级上学期期末地理试题及答案
- 二零二五年旅游开发项目合同2篇
- 2024年陕西省妇幼保健院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 2024年河南艺术职业学院高职单招职业适应性测试历年参考题库含答案解析
- 2024年阜阳市第三人民医院阜阳市中心医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 2024年长春市妇产科医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 2024年江西工商职业技术学院高职单招职业技能测验历年参考题库(频考版)含答案解析
- 健康食品开发及生产协议
- 数字孪生产业发展及轨道交通领域的应用研究
- 2024年中学总务处工作总结
- 手术室各级人员培训
- 教育部中国特色学徒制课题:基于中国特色学徒制的新形态教材建设与应用研究
- 2025年护理质量与安全管理工作计划
- (T8联考)2025届高三部分重点中学12月第一次联考评物理试卷(含答案详解)
- 工程施工扬尘防治教育培训
- 红薯采购合同模板
- 2023年河南省公务员录用考试《行测》真题及答案解析
- 山西省太原市重点中学2025届物理高一第一学期期末统考试题含解析
评论
0/150
提交评论