从大数据热看我国计算机学界的机遇_第1页
从大数据热看我国计算机学界的机遇_第2页
从大数据热看我国计算机学界的机遇_第3页
从大数据热看我国计算机学界的机遇_第4页
从大数据热看我国计算机学界的机遇_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

从大数据热看

我国计算机学界的机遇

周傲英

计算机科科学专业业分类SpecialtiesunderComputerScience科学(Sciences))计算机科科学(CS))人工智能能(ArtificialIntelligence))程序设计计语言(ProgrammingLanguage))系统(Systems)理论(Theory)Engineering---ComputerEngineeringBusiness/Library--InformationSystem大数据意意味着什什么?新的技术术?新的系统统?新的产品??新的平台台(服务务)?新的的机机遇!提纲大数据分类类技术和系系统全景景发展驱动动力中国数据据界的机机遇值得探索索的思路路大数据分分类(Sorting)从应用性质质来分网络空间间大数据据互联网大大数据金融大数数据移动大数数据物理空间间大数据据传感器数数据科学实验验/观测数据据从支撑系系统来分分7分布、高高性能大大数据管管理(海量数数据的““云”管管理)管理分析信息服务务决策支持持科学研究究科学数据据决策数据据WEB数据分类从支撑系统统来分WEB数据决策数据据科学数据据科学实验验科学观测测科学文献献设计数据据8分类/应用的关关系技术和系系统全景景(Landscape)绕不开的的Hadoop别忘了数据库库数据流(CEP)系统科学/统计数据据库CAD//CAM数据库共同的原点:文文件系统统绕不开的的Hadoop需要以低低廉的价价格处理理更大数数据量GFS((2003)),MapReduce((2004)),BigTable((2006)Hadoop在2006年开源随后有了了Pig,,HBase,Hive,Zookeeper,,Sqoop,OozieHadoop史前2003:GFS((Google文件系统统)论文发表表SanjayGhemawat,HowardGobioff,,Shun--TakLeung:TheGooglefilesystem.SOSP2003::29-432004:MapReduce论文发表表JeffreyDean,SanjayGhemawat::MapReduce:SimplifiedDataProcessingonLargeClusters..OSDI2004:137--1502006:BigTable论文发表表FayChang,,JeffreyDean,SanjayGhemawat,etal:Bigtable::ADistributedStorageSystemforStructuredData.OSDI2006:205--218Hadoop诞生2004年:DougCutting和MichaelJ..Cafarella根据GoogleLab论文实施,取取名Hadoop。Cloudera公司,Hadoop商用版(Apache开源版)2005秋天:Hadoop由Apache作为Lucene的子项目目Nutch的一部分分正式引引入。2006年3月:Map//Reduce和NutchDistributedFileSystem((NDFS)分别被纳纳入Hadoop的项目中中2006.1––2008:Web--scaleHadoop!(@Yahoo!)Hadoop生态圈((部分))HadoopCommon:在0.20及以前的的版本中中,包含含HDFS、MapReduce和其他项项目公共共内容,,从0.21开始HDFS和MapReduce成为独立的的子项目目MapReduce:分布式式并行计计算框架架,Hadoop的核心HDFS(HadoopDistributedFileSystem)):所起的的作用就是使得得每个服务务器必须须具备对对数据的的访问能能力Pig:编程语言言,简化化Hadoop常见的工工作任务务,Pig可加载数数据、表表达转换换数据以以及存储储最终结结果Hadoop生态圈((部分))Hbase((BigTable)):分布式式列存储数据库,2006年成为Hadoop子项目,,2010年5月顶级Apache项目Hive(Facebook)):数据仓库库工具,,架构在HDFS之上,增加静态态数据结结构,方方便使用进行行数据分析查询询,2008年9月成为Hadoop子项目Zookeeper((Facebook):分布式式锁设施施,提供类似似GoogleChubby的功能Avro:新的数数据序列列化格式式与传输输工具,2010年5月成为顶顶级Apache项目……Hadoop在数据管管理中的的地位Hadoop是一个可可以更容容易开发发和存储储大规模模数据的的软件平平台,帮帮助用户户快速、、低成本地实现大数据的的存储、、管理及及分析查查询Hadoop的关键构构成:MapReduce++HDFSMapReduce可实现高性能分分布式并并行数据处理理HDFS提供可靠靠数据存存储服务务,低廉MPP,高容错错、高通通量,可可伸缩用户可在在不了解分分布式底底层细节节的情况下下,开发发分布式式程序,,充分利利用MPP的能力Hadoop在数据管管理中的的地位用户对大大数据存存储、管管理和分分析需求求迫切传统数据据库对非结构化化数据几乎无能能为力利用传统统数据库库来对大大数据进进行处理理时,会会面临很很多难以以解决的的问题。。软、硬件件平台的的要求高高,成本本压力成本和收收益不匹匹配的充分发掘掘和利用用非结构构化数据据背后的的商业价价值,用用户希望望能以更经济的的方式、更好的的性能来来处理数数据,从从而推动动业务创创新Hadoop在数据管管理中的的地位Hadoop在处理网页页数据等方面取取得巨大大成功,,经过几几年的发发展,从从一门边边缘技术术成长为为一种事事实上的的标准Hadoop自身的弱弱点Hadoop是一个离离线的、、批量的的数据处处理系统统,实时时在线(严格事务务,高效效分析)仍是数据据库的擅擅长从数据存存储的角角度来看看,HDFS专门针对对大文件件的存储储,等待时间间较长,无法做做到很高高速的随随即读写写把Hadoop和数据库库结合起起来应对对企业大大数据的的挑战,,是目前前值得探探索的方方案Hadoop??=大数据来源于Google,在类似似搜索引引擎的查查询并行行化分析析处理领领域取得得极大成成功针对大规规模数据据密集型型应用的的编程范范式(programmingParadigm)所基于的的BigTable和HDFS是非常质质朴的数数据模型型和存储储系统适用领域域有限,,为大数数据研究究打开了了思路,,但绝不不代表大大数据技技术全部部(仅是一个个case)回到文件件系统来来重新审视视数据管管理之目的别忘了数据库库Data+BaseOracle//DB2/SQLServer//MySQL1974:SystemR1968:IMS((IBMInformationManagementSystem)层次模型型1965:IDS((IntegratedDataStore)网状模型型1965:ListProcessingTaskForceunderCODASYL1967:LPTFDBTG(DataBaseTaskGroup)1959:CODASYL(ConferenceonDataSystemsLanguages))数据库的的基本目目的计算机从从数值计计算转到到数据处处理,OS中的文件件系统发发展成DBMSCOBOL,CODASYLDBTG报告(图灵奖获获得者CharlesBachman))数据库系系统最原原始的目目标是解解决记账(Billing)和订票(Booking)问题商务智能能的雏形形事务处理理(图灵奖获获得者JimGray)数据库发发展伊始始,其目目标应用用简单明确数据库的的三大成成就关系模型型E.F..Codd((数据库领领域第二二个图灵灵奖获得得者)事务处理理JimGray((数据库领领域第三三个图灵灵奖获得得者)查询优化化结构化(模式和实实例分离离)关系数据据库理论论(关系代数数)物理存储储(索引/统计)成功造就了数数百亿美美元的数数据库产业发展驱动动力(DrivingForce)源头:应应用不同的企企业传统的生生产/商业企业业制造业企企业传统的服服务业企企业政府机构构IT企业新型信息息服务业业企业搜索引擎擎、社交交媒体电子商务务、在线线广告……不同的数数据平台台传统的生生产/商业企业业数据平台台由IT企业提供基础础系统和和构建方方案硬件从PC服务器到到小型机机、大型型主机软件包括括操作系系统、网网络、数数据库和和中间件件由专门的的IT部门负责应用用开发和和运行维维护新型信息息服务业业企业数据平台台自行搭搭建硬件主要要是廉价价的PC集群软件主要要利用开开源的技技术和系系统带动了信信息技术术的发展展:云计算、、大数据据等不同的贡贡献传统IT企业的贡贡献有目共睹睹过去的五五十年的的发展信息化社社会的构构建林林总总总的技术术和产品品Enterprise-Oriented互联网企企业的贡贡献作为非IT企业极大大地推动动IT技术的发展Consumer-Oriented一个比喻互联网企企业是开开自助式式茶馆的的市面上板板凳太贵贵,也不不合适自己做了了板凳给给茶客坐坐也可以廉廉价供应应其他的的茶馆、、面馆、、饭馆等等传统IT企业是做做板凳和和买板凳凳的家具企企业设计/制造销售服务观察到的的现象垂直应用用成为IT发展的主主要驱动动力以前的系系统是水水平式的的通用的计算机机系统通用的OS通用的DBMS(OneSizeFitsAll))中间件上面开开发的应应用软件件Google为自己的的应用设设计了GFS和Map//Reduce等(CasebyCase)。被开源了以以后,Hadoop被寄予希希望解决决一类问问题(OneSizeFitsaBunch)带来的变变化思想方面面:破除除了迷信信,人们们不再认认为所有有数据管管理问题题必须依依赖RDBMS市场方面面:数据据库市场场长期以以来形成成的三足足鼎立和和开源系系统MySQL一家独大大的局面发生生松动技术方面面:理论论研究和和技术探探讨进入入“春秋战战国”时时代,应用需需求的变变化和硬硬件技术术的发展展催生了了新的技技术和实实现思路路,数据据库进入入一个蓬蓬勃发展展的时期期中国数据据库界的的机遇KnifeRe-invent现状我国已成成为大数数据开源源技术的的最大试试验场大数据技技术应用用经验交交流大会会Hadoop用户/开发者大大会大多数报报告重点点在于Scale怎么用开开源的技技术搭建建大数据据平台数据条数数很多200亿/天机器个数数很多交易量很大营业额很很高在线客户户很多联想1:开源是是双刃剑剑小偷和强强盗美国WTO谈判代表表:我们们在和小小偷谈判判吴仪副总总理回敬:我我们来和和强盗谈谈判强盗是越越抢越强强,小偷偷是越偷偷越弱制定规则则、划定定势力范范围、引引领方向向开源是双刃刃剑迅速推动动应用发发展习惯性懒懒惰,等等待开源源扼杀创新新能力重利益,,轻责任任,淡使使命联想2:从认可可到敬佩佩2010年3月世界互互联网大大会抵制制中国Greatfirewall如此漠视视我国互互联网发发展原因因何在??最大的用用户群推动了社社会经济济发展主要是用用别人的的,贡献献出来供供别人用用的不多多中国的互互联网企企业和数数据界如如何赢得得尊重认可(Recognition))=》》尊重(Respect)=》敬佩(Admire)联想3:KnifeRe-invent已经有很很多种刀刀剪裁、厨厨房、手手术、理理发、修修脚、…对应于不不同的用用途对于新的的应用,,有三种种做法将就用原原来的刀刀(Onesizefitsall))改造原来来的刀(Extensibledatabase)发明新的的刀(onesizefitsabunch)OneSizeFitsaBunch值得探索索的道路路数据库的的假定前前提数据存在在磁盘上上(内存小,,外存慢慢)多用户共共享OLTP(并发、恢恢复)SPARC体系结构构(三层模式式两级映映射)封闭世界界假设(CWA,DB完备,算子闭包包,说明性语语言)满足1NF((范式理论论,3NF//BCNF,数据库设设计)传统数据据库管理理系统的的问题大量系统统开销(ShoreDBMS上的实验验)各种锁和和恢复机机制用于解决决内外存存的一致性问问题前提条件件的变化化应用需求求的变化化应用环境境变化硬件变化化体系结构构的变化化计算环境境的变化化应用需求求的变化化Web搜索、电电商、极极大规模模(Largescale)淘宝“双十一一”(光棍节)网购前期收藏藏,0点点秒杀收藏夹、、产品数数据库、、购物车车、账户户多个数数据库热热点同时影响响:查询询种类、、负载12306春运流量量流量集中中,售票票逻辑复复杂区间票、、订票、、预留票票1个座位位,25站,有有300种不同同的起点点、终点点组合放票时间间按照始始发站规规定各不不相同应用环境境的变化化硬件的变变化41内存(Memory)处理器(CPU)网络(Network)TimeBandwidthVolume#CoreBandwidth1970’s850ns300MB/s128K12.94Mb/s2010’s100ns32GB/s64GB192100Gb/s

x8.5x100x500Kx192x34K内存足够够大,可可支持即即时性分分析计算机各各组件的的发展不不平衡体系结构构的变化化BigDataApplianceRackServer(broughtin2011)HPDL360×12Memory:384GB(DDR3)Processor:4×4(core)Storage:1TB××4,100GBSSDInfinibandSwitch((20GB)InfinibandSwitchRackServer计算环境境的变化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论