Chaer林子雨大数据技术原理与应用大数据概述月日本_第1页
Chaer林子雨大数据技术原理与应用大数据概述月日本_第2页
Chaer林子雨大数据技术原理与应用大数据概述月日本_第3页
Chaer林子雨大数据技术原理与应用大数据概述月日本_第4页
Chaer林子雨大数据技术原理与应用大数据概述月日本_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

厦门大学计算机科学系2016年版林子雨厦门大学计算机科学系主页:

第一章大数据概述

(PPT版本号:2016年2月17日版本)

《大数据技术原理与应用》温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字提纲1.1大数据时代1.2大数据概念1.3大数据的影响1.4大数据的应用1.5大数据关键技术1.6大数据计算模式1.7大数据产业1.8大数据与云计算、物联网的关系欢迎访问《大数据技术原理与应用》教材官方网站:本PPT是如下教材的配套讲义:21世纪高等教育计算机规划教材《大数据技术原理与应用——概念、存储、处理、分析与应用》(2015年8月第1版)厦门大学林子雨编著,人民邮电出版社ISBN:978-7-115-39287-91.1大数据时代第三次信息化浪潮根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革信息化浪潮发生时间标志解决问题代表企业第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等第三次浪潮2010年前后物联网、云计算和大数据信息爆炸将涌现出一批新的市场标杆企业表1-1三次信息化浪潮1.1.2信息科技为大数据时代提供技术支撑图1-1存储价格随时间变化情况1.存储设备容量不断增加1.2信息科技为大数据时代提供技术支撑来自斯威本科技大学(SwinburneUniversityofTechnology)的研究团队,在2013年6月29日刊出的《自然通讯(NatureCommunications)》杂志的文章中,描述了一种全新的数据存储方式,可将1PB(1024TB)的数据存储到一张仅DVD大小的聚合物碟片上。1.1.2信息科技为大数据时代提供技术支撑图1-3CPU晶体管数目随时间变化情况2.CPU处理能力大幅提升

1.1.2信息科技为大数据时代提供技术支撑图1-4网络带宽随时间变化情况3.网络带宽不断增加1.1.3数据产生方式的变革促成大数据时代的来临图1-5数据产生方式的变革1.丝式1.今4激大数犯据的肤发展哥历程阶段时间内容第一阶段:萌芽期上世纪90年代至本世纪初随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。第二阶段:成熟期本世纪前十年Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道第三阶段:大规模应用期2010年以后大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高表1缴-2陪大郊数据触发展抢的三奥个阶子段1.煮2大近数据密概念1.兆2.塔1叼数据诊量大根据ID超C作出瓶的估塌测,随数据完一直纠都在切以每供年50徐%的速眯度增魔长,性也就慎是说孤每两牺年就毒增长施一倍羽(大晴数据惰摩尔贝定律浴)人类侄在最蹄近两嚼年产些生的盲数据众量相粥当于晚之前铁产生叠的全窑部数弹据量预计恶到20怜20年,际全球乒将总尤共拥限有35愧ZB的数霞据量咏,相扫较于20茧10年,械数据者量将锯增长泄近30倍1.邮2.呜2长数据稀类型隙繁多大数疫据是具由结烧构化申和非陈结构叨化数昏据组建成的10川%的结捉构化需数据软,存悄储在虑数据肌库中90威%的非景结构迟化数遭据,鉴它们侍与人锅类信懒息密造切相看关科学加研究–基因坐组–L枪HC加速输器–地球公与空剖间探欲测企业镜应用–E撒ma真il、文灿档、冶文件–应用排日志–交易续记录We磁b赵1.荐0数据–文本–图像–视频We演b落2.碰0数据–查询栗日志/点击栽流–Tw惜it托te柔r/逃B击lo段g索/尽SN载S–Wi净ki1.桐2.贝3畏处理滋速度久快从数袋据的兼生成圾到消棍耗,言时间池窗口略非常德小,厚可用陷于生千成决然策的旋时间片非常岂少1秒定稍律:辞这一膨点也诸是和馒传统荷的数剃据挖脖掘技妄术有晒着本续质的唤不同1.涛2.忆4竭价值雀密度险低价值配密度乎低,享商业消价值绝高以视写频为钻例,等连续厚不间疏断监著控过箭程中度,可烦能有孝用的牙数据转仅仅特有一延两秒盾,但引是具焦有很忍高的杆商业赠价值继续仙装in炭g1.驴3大雹数据柱的影纱响图灵秀奖获稿得者骆、著精名数孕据库启专家Ji泽m鸭Gr注ay博士促观察生并总嗓结人郊类自躁古以沃来,心在科缝学研意究上使,先贫后历桃经了学实验庸、理赖论、奴计算互和数泥据四广种范咸式实验理论计算数据1.径3大勤数据态的影响响在思掀维方咏式方奴面,翻大数根据完矮全颠戚覆了涨传统借的思笨维方雾式:全样秆而非浓抽样效率牌而非犹精确相关盗而非碗因果1.顷3大原数据男的影右响在社爷会发沉展方斧面,闲大数涝据决肾策逐建渐成泽为一适种新击的决玩策方慨式,拢大数恼据应堵用有闷力促逃进了自信息闭技术悬与各小行业罗的深爬度融卡合,抓大数次据开弓发大疼大推架动了较新技侨术和泛新应掘用的技不断耗涌现在就习业市熄场方聋面,核大数粪据的室兴起网使得著数据搬科学蜘家成敢为热蚊门职奇业在人济才培症养方异面,木大数畅据的恰兴起构,将诉在很闯大程投度上匪改变完中国庆高校男信息长技术湿相关宣专业苏的现举有教段学和薪科研喉体制1.什4大业数据凑的应况用大数擦据无婶处不毅在,下包括怒金融护、汽缎车、旱零售肢、餐熔饮、芬电信傻、能宜源、棉政务桥、医扔疗、昼体育博、娱川乐等瞒在内穗的社易会各俩行各辅业都庙已经准融入忠了大谎数据戚的印户迹典型熊的大阻数据喷应用汽实例Ke狗vi奋n队Sp叙ac的eyDa蔽vi陕d馒Fi洞nc湿he所r英国涝同名偷小说《纸牌池屋》风靡喂全球锄的美闪剧《纸牌誉屋》大数结据分奴析典型咬的大仍数据悄应用珠实例从谷盈歌流送感趋礼势看招大数尼据的搞应用享价值“谷睬歌流兰感趋奸势”趁,通倡过跟糠踪搜逝索词锻相关亮数据险来判坚断全园美地恒区的慌流感统情况1.筑5大伪数据蛙关键怪技术表1-欣5大数坦据技幸术的册不同位层面盯及其企功能技术层面功能数据采集利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析数据存储和管理利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据数据隐私和安全在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全1.亿5大缎数据翅关键乳技术分布程式存忆储分布翁式处抛理GF匀S\熔HD虚FSBi任gT谋ab绞le侦\H椒Ba瞎seNo施SQ弄L(键蚊值、赖列族怕、图从形、偶文档筛数据才库)Ne拦wS删QL(如趁:SQ姓L钥Az朝ur虎e)Ma哭pR悠ed翼uc闹e大数移据两大谣核心湖技术1.场6大钩数据在计算赵模式大数据计算模式解决问题代表产品批处理计算针对大规模数据的批量处理MapReduce、Spark等流计算针对流数据的实时计算Storm、S4、Flume、Streams、Puma、DStream、SuperMario、银河流数据处理平台等图计算针对大规模图结构数据的处理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查询分析计算大规模数据的存储管理和查询分析Dremel、Hive、Cassandra、Impala等表1纯-3模大疗数据练计算食模式缩慧及其谊代表柳产品1.巨7大叉数据绒产业大数研据产避业是床指一暖切与后支撑垃大数柳据组双织管怒理和依价值胃发现园相关脾的企弟业经耗济活偶动的忧集合产业链环节包含内容IT基础设施层包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等数据源层大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信、人人网等)、搜索引擎大数据(百度、谷歌等)等各种数据的来源数据管理层包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、SQLServer、HBase、GreenPlum等)数据分析层包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等数据平台层包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴巴、谷歌、中国电信、百度等数据应用层提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等1.封8大丧数据欲与云夏计算矿、物率联网控的关菌系云计顾算、忆大数泳据和洋物联医网代甘表了IT领域朵最新拼的技红术发窝展趋外势,伞三者园相辅沃相成段,既贫有联税系又雷有区梁别1.僵8.茅1云享计算云计登算实卖现了橡通过窗网络包提供长可伸润缩的吧、廉扭价的求分布只式计军算能甜力,挽用户抬只需仙要在浆具备便网络蜓接入责条件番的地敬方,校就可侵以随歌时随详地获建得所主需的兆各种狠IT娃资源图1-铃7云计哄算的升服务族模式拿和类哨型1.云计睬算概幻玉念1.露8.榴1云做计算In松fr浮as蹈tr印uc锋tu役re寄a宣s螺a恢Se乌rv偶ic赚ePl理at道fo哀rm槐a预s困a质Se猎rv潮ic啊eSo却ft裹wa慢re婆a北s扯a立Se鄙rv蝇ic挎eSa胖aSPa志aSIa稀aSGo厉og宜le录A光pp甲s,冬M泡ic惩ro搭so促ft华“捷So伴ft蓝wa疮re违+S德er刮vi炊ce搭s”IB弃M蹲IT览f偶ac层to倾ry蛾,窄Go贡og锁le掏A留pp遮E疾ng鱼in村e,党Fo扫rc妈e.南co侮mAm顺az惠on浙E我C2毁,誉IB泰M喜Bl很ue流C洁lo似ud宽,斥Su应n删Gr扯idSe确rv耀erSt屯or船ag皮eSe渠rv偏erSt鲜or焦ag挪eVi岩su泉al葵iz汉at富io藏nIn宅fr稍as瞒tr怀uc古tu挨rePl炼at卸fo速rmAp然pl筛ic裁at泡io萝n从一宽个集抱中的牧系统杜部署突软件肺,使她之在寺一台庆本地录计算辞机上(或从严云中碰远程急地)运行靠的一颗个模博型。尸由于闲是计铺量服街务,Sa党aS允许谁出租丛一个毫应用豪程序混,并写计时骨收费Ia秋aS将基轨础设脖施(计算眉资源看和存隙储)作为胡服务楚出租Pa慢aS类似绞于Ia钞aS,但慰是它杏包括蚂操作孙系统退和围丙绕特离定应护用的明必需孙的服颠务Sa谨aS1.照8.府1云旬计算云计租算关哨键技搂术包储括:趟虚拟踢化、申分布筋式存扔储、虾分布龄式计乏算、告多租期户等2.云计它算关杯键技因术1.飞8.迈1云电计算云计梅算数坏据中所心是窑一整辱套复挪杂的特设施伍,包启括刀盲片服遣务器怎、宽血带网伴络连避接、镇环境麻控制挑设备汁、监苦控设唐备以渔及各侍种安凳全装制置等数据筛中心析是云亡计算邀的重左要载妥体,妖为云梯计算沾提供德计算鼓、存桌储、担带宽纠等各够种硬弊件资悔源,嘱为各密种平薯台和竞应用缺提供先运行互支撑量环境全国残各地讯推进法数据腿中心腊建设3.云计鹿算数正据中昂心中国彼国际虫信息寺技术久(福岗建)利产业宫园中国级国际川信息词技术温(福边建)粪产业翼园1.蕉8.普1云惨计算政务始云上互可以敢部署弯公共巩安全益管理拾、容邮灾备钞份、间城市蒙管理惧、应惭急管稼理、盈智能递交通寒、社满会保携障等顷应用与,通帖过集决约化煤建设脱、管花理和食运行盗,可害以实夜现信嘴息资识源整鸟合和弃政务越资源危共享魂,推川动政羊务管剑理创胆新,桃加快余向服和务型材政府培转型教育较云可奥以有医效整剥合幼训儿教尿育、量中小提学教壤育、劈燕高等仆教育论以及渠继续痕教育烛等优夏质教底育资准源,齿逐步衬实现自教育啊信息科共享巧、教赔育资敌源共细享及霜教育片资源居深度需挖掘惧等目寸标中小括企业痕云能维够让棍企业土以低夺廉的蛾成本犹建立羡财务傍、供念应链仆、客密户关划系等挽管理态应用累系统浴,大肆大降裂低企冠业信翼息化社门槛描,迅糠速提透升企粗业信肤息化盗水平俗,增彩强企吹业市乡丰场竞污争力医疗举云可已以推粘动医闭院与吐医院敞、医汇院与俭社区叙、医筐院与动急救扇中心篮、医傅院与哈家庭破之间界的服颜务共便享,大并形捞成一窄套全浇新的克医疗楼健康毁服务角系统摸,从预而有细效地熊提高立医疗饼保健忠的质漠量4.云计母算应建用1.饼8.荣1云稠计算云计江算产畅业作头为战惯略性梢新兴跪产业踏,近革些年扭得到疼了迅棵速发意展,曾形成瓣了成命熟的船产业笑链结胁构,悉产业绕涵盖弹硬件赴与设违备制升造、污基础剥设施悼运营龙、软积件与弟解决由方案今供应均商、驳基础易设施派即服愈务(Ia顺aS)、澡平台醒即服敞务(Pa鸽aS)、吼软件啦即服尖务(Sa热aS)、猜终端区设备歪、云川安全苦、云持计算根交付/咨询/认证跌等环派节图1-候8云计举算产金业链5.云计猛算产筒业1.年8.苍2物雀联网物联鞭网是绘物物妹相连俯的互迁联网遍,是涛互联武网的环延伸枝,它疾利用青局部筛网络腥或互班联网目等通梳信技编术把军传感妙器、夕控制杯器、背机器雹、人煌员和化物等炎通过营新的喷方式肚联在帽一起袋,形铜成人陪与物富、物惧与物翻相联熟,实亦现信何息化泉和远誓程管兔理控须制1.物联狮网概涨念图1虑-9痒物家联网水体系况架构1.屑8.财2物林联网物联护网中智的关鹿键技纹术包救括识猫别和包感知彩技术部(二信维码麦、RF嫂ID、传触感器带等)膝、网沈络与宏通信著技术捐、数类据挖黄掘与扒融合量技术驶等2.物联骗网关佣键技翼术图1止-1奋0端矩阵锈式二鼠维码图1染-1搞1胡采用糖RF贫ID恼芯片攻的公舰交卡图1臣-1辟2菌不同希类型刮的传眉感器1.旱8.栽2物久联网物联差网已忠经广恋泛应饮用于冠智能丝式交通萌、智歌慧医姨疗、踪蝶智能器家居泄、环医保监劲测、爸智能楚安防功、智强能物野流、像智能或电网捷、智寨慧农弃业、弄智能娘工业库等领疗域,剃对国士民经敞济与我社会译发展脊起到刚了重险要的蓝推动静作用3.物联列网应食用1.支8.纽奉2物贪联网完整斥的物纵联网输产业亦链主乱要包疏括核萍心感保应器规件提份供商带、感级知层参末端垃设备侄提供欺商、经网络交提供狐商、刻软件溪与行且业解贴决方它案提塞供商粘、系营统集启成商顶、运气营及企服务耳提供屿商等叹六大鹅环节图1史-8班物炕联网腊产业嘉链4.物联赢网产先业1.换8.役3大牺数据舅与云酱计算保、物洒联网笨的关性系云计航算、敞大数姿据和喊物联访网代凑表了IT领域椒最新钢的技动术发歇展趋攻势,芝三者粘既有剑区别派又有蓄联系图1罪-9吼大启数据兼、云躲计算久和物日联网捧之间担的关迹系本章阔小结本章蓝介绍云了大筹数据火技术浅的发伪展历技程,变并指彻出信慰息科来技的手不断肃进步哲为大价数据傻时代今提供零了技气术支杜撑,役数据疗产生拉方式钩的变康革促颗成了页大数削据时翻代的塘来临大数丽据具植有数腿据量缓大、础数据葵类型誓繁多逼、处熔理速数度快燥、价惹值密花度低求等特克点,灾统称绢“4V下”。大帽数据食对科朵学研圣究、种思维切方式刊、社敌会发剑展、凡就业卡市场巴和人环才培争养等布方面黎,都匙产生得了重险要的溜影响脾,深扔刻理极解大吵数据候的这沾些影匹响,原有助属于我草们更耐好把形握学胞习和港应用秩大数纤据的辜方向大数布据在岸金融降、汽估车、只零售醉、餐跨饮、魄电信蒜、能星源、席政务纵、医架疗、挽体育党、娱挖乐等气在内巧的社虽会各荒行各书业都顾得到国了日仁益广唱泛的退应用剂,深垃刻地中改变桂着我矩们的效社会瞧生产锐和日菊常生械活大数拜据并胖非单坚一的冷数据屋或技剧术,居而是抚数据坝和大职数据痒技术打的综敲合体潜。大有数据从技术凶主要冻包括物数据钳采集逝、数木据存撇储和览管理跳、数厕据处己理与遇分析蚂、数形据安墙全和崖隐私越保护驱等几古个层父面的浪内容大数炊据产凝业包乎括IT基础捕设施正层、仁数据兄源层退、数探据管齐理层雕、数余据分背析层透、数司据平滤台层触和数简据应炮用层途,在厘不同取层面匹,都教已经候形成雀了一薯批引译领市效场的律技术南和企敌业本章竞最后桃介绍型了云愈计算继和物隙联网秩的概苍念和捏关键咳技术换,并疑阐述喘了大丛数据贸、云渔计算嘉和物茅联网秧三者寄之间示的区剑别与呢联系附录轨:主却讲教肯师林拍子雨庭简介单位催:厦涌门大拉学计痰算机局科学奏系个人棋网页私:数据断库实营验室筐网站苹:主讲姥教师积:林共子雨扫一闪扫访错问个弟人主贝页林子弄雨,粉男,19扇78年出毙生,按博士骡(毕艘业于镇北京点大学古),描现为个厦门健大学针计算误机科异学系曲助理懒教授炮(讲稻师)烤,曾心任厦瓶门大兼学信如息科疾学与嗽技术烦学院兽院长议助理宇、晋脾江市究发展归和改热革局翁副局密长。芳中国医高校逆首个益“数纯字教竟师”耻提出岔者和猛建设寒者,悬厦门仙大学外数据雪库实掉验室疯负责贤人,葬厦门精大学沃云计黑算与郊大数锈据研元究中拢心主抢要建岸设者罪和骨摇干成敏员,20守13年度蒙厦门无大学扫奖教差金获滥得者衬。主盛要研损究方疫向为屈数据拆库、蒙数据豆仓库勾、数蹦据挖较掘、舟大数梳据、债云计无算和心物联守网,能并以隙第一咸作者畏身份狮在《软件斥学报》《计算柳机学休报》和《计算巾机研想究与葵发展》等国宾家重颂点期刘刊以据及国宽际学半术会抵议上踏发表纳多篇躺学术评论文惭。作做为项饺目负挡责人案主持够的科彻研项到目包饱括1项国威家自拒然科鸣学青葬年基栽金项柳目(N振o.砍61榆30公30糟04鱼)、1项福作建省心自然岸科学叮青年妹基金更项目(N牵o.呈20舍13增J0攻50法99闻)和1项中谅央高愿校基锯本科背研业细务费泥项目(N菊o.溜20止11音12佛10猫49页),同耍时,亲作为城课题莫负责师人完牢成了预国家贞发改当委城利市信熊息化乒重大致课题浸、国产家物壮联网泛重大炕应用历示范沾工程许区域悼试点挪泉州咳市工敢作方家案、20影15泉州盾市互瘦联网晃经济僵调研篇等课盗题。弊编著躺出版狱中国遇高校傍第一鸭本系婚统介掩绍大品数据伯知识格的专汗业教草材《大数虹据技耕术原新理与广应用》并成胡为畅胃销书该籍,泽编著帜并免显费网步络发绘布40余万脑字中稼国高差校第般一本追闪存轧数据恳库研仅究专册著《闪存嚷数据劫库概京念与破技术》;主庸讲厦令门大吵学计足算机桥系本录科生没课程《数据院库系瓣统原徐理》和研附究生怜课程《分布军式数盖据库》《大数关据技土术基组础》。具聚有丰淘富的醉政府蛋和企献业信文息化邀培训渔经验以,曾文先后冰给

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论