大数据入门普及资料_第1页
大数据入门普及资料_第2页
大数据入门普及资料_第3页
大数据入门普及资料_第4页
大数据入门普及资料_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据入门普及资料不知道BIGDATA?你out了!反对派认认为,我我们现在在处在一一个盲目目的大数数据崇拜拜时代大数据的定义理解大数据相关技术与应用目录facebook社交网络淘宝、ebuy电子商务微博、Apps移动互联21世纪是数数据信息息大发展展的时代代,移动动互联、、社交网网络、电电子商务务等极大拓展了互互联网的的边界和和应用范范围,各种数据据正在迅迅速膨胀胀并变大。互联网((社交、、搜索、、电商))、移动动互联网网(微博博)、物物联网((传感器器,智慧慧地球))、车联联网、GPS、医学影影像、安安全监控控、金融融(银行行、股市市、保险险)、电电信(通通话、短短信)都都在疯狂狂产生着着数据。“大数据据”的诞诞生:半个世纪纪以来,,随着计计算机技技术全面面融入社社会生活活,信息息爆炸已已经积累累到了一一个开始始引发变变革的程程度。它它不仅使使世界充充斥着比比以往更更多的信信息,而而且其增增长速度度也在加加快。信信息爆炸炸的学科科如天文文学和基基因学,,创造出出了“大大数据””这个概概念*。如今,,这个概概念几乎乎应用到到了所有有人类智智力与发发展的领领域中。。大数据时时代的背景GBTBPBEBZB想驾驭这这庞大的的数据,,我们必必须了解解大数据据的特征征。地球上至至今总共共的数据据量:在2006年,个人人用户才才刚刚迈迈进TB时代,全球一一共新产产生了约约180EB的数据;在2011年,这个个数字达达到了1.8ZB。而有市场场研究机构预测测:到2020年,整个个世界的的数据总总量将会会增长44倍,达到到35.2ZB(1ZB==10亿TB)!1PB=2^^50字节1EB=2^^60字节1ZB==2^70字节大数据时时代的爆爆炸增长“大量化化(Volume)、多样化化(Variety)、快速化化(Velocity))、价值密密度低((Value)”就是是“大数数据”的的显著特征,或或者说,,只有具具备这些些特点的的数据,,才是大大数据。。VolumeVelocityValueVariety大数据的的4V特征大数据=海量数据据+复杂类型型的数据据海量交易易数据:企业内部部的经营营交易信信息主要要包括联联机交易易数据和和联机分分析数据据,是结结构化的的、通过过关系数数据库进进行管理理和访问问的静态态、历史史数据。。通过这这些数据据,我们们能了解解过去发发生了什什么。大数据包括:交易数据据和交互互数据集在在内的所所有数据据集海量交互互数据:源于Facebook、Twitter、LinkedIn及其他来来源的社社交媒体体数据构构成。它它包括了了呼叫详详细记录CDR、设备和传传感器信信息、GPS和地理定定位映射射数据、、通过管管理文件件传输ManageFileTransfer协议传送的海海量图像像文件、、Web文本和点点击流数数据、科科学信息息、电子子邮件等等。可可以告诉诉我们未未来会发发生什么么。海量数据处理理:大数据的涌涌现已经经催生出出了设计计用于数数据密集集型处理理的架构。例例如具有开放放源码、、在商品品硬件群群中运行行的ApacheHadoop。大数据的的构成大数据的定义理解大数据相关技术与应用目录1、密不可可分的大大数据与与云计算算商业模式式驱动应用需求求驱动云计算本本身也是是大数据据的一种种业务模模式大数据是是落地的的云云计算的的模式是是业务模模式,本本质是数数据处理理技术。数据是资产,,云为数数据资产产提供存存储、访访问和计计算。当前云计算更更偏重海海量存储储和计算算,以及及提供的的云服务务,运行行云应用,但是缺乏乏盘活数数据资产产的能力力,挖掘掘价值性性信息和和预测性性分析,,为国家家、企业业、个人人提供决决策和服服务,是大数数据核心心议题,,也是云云计算的的最终方方向。2、大数据据不仅仅仅是“大大”多大?至少PB级比大更重重要的是是数据的的复杂性性,有时时甚至大大数据中中的小数数据如一一条微博博就具有有颠覆性性的价值值3、软件是是大数据据的引擎擎和数据中中心(DataCenter)一样,软软件是大大数据的的驱动力力,软件件改变世世界大数据生态态:软件件是引擎擎4、大数据据的应用用不仅仅仅是精准准营销通过用户户行为分分析实现现精准营营销是大大数据的的典型应应用,但但是大数数据在各各行各业业特别是是公共服服务领域域具有广广阔的应应用前景景消费行业业金融服务务食品安全全医疗卫生生军事交通环保保电子商务务气象5、管理大大数据““易”理理解大数数据“难难”虽然大数数据是一一个重大大问题,,真正的的问题是是让大数数据更有有意义目前大数数据管理理多从架架构和并并行等方方面考虑虑,解决决高并发发数据存存取的性性能要求求及数据据存储的的横向扩扩展,但但对非结结构化数数据的内内容理解解仍缺乏乏实质性性的突破破和进展展,这是是实现大大数据资资源化、、知识化化、普适适化的核核心非结构化化海量信信息的智智能化处处理:自自然语言言理解、、多媒体体内容理理解、机机器学习习等大数据的定义理解大数据相关技术与应用目录分析技术术:数据处理理:自然语语言处理理技术统计和分析::A/Btest;topN排行榜;;地域占占比;文文本情感感分析数据挖掘掘:关联联规则分分析;分分类;聚聚类模型预测测:预测测模型;;机器学学习;建建模仿真真大数据技术:数据采集集:ETL工具数据存取:关关系数据据库;NoSQL;SQL等基础架构支持持:云存存储;分分布式文文件系统统等计算结果展现现:云计计算;标标签云;;关系图图等存储结构化数据:海量数据的查查询、统统计、更更新等操操作效率率低非结构化数数据图片、视频、、word、pdf、ppt等文件存存储不利于检索、查查询和存储半结构化数数据转换为结构化化存储按照非结构化化存储解决方案案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)数据采集数据储存数据管理数据分析与挖掘一些相关关技术行业拓展展者,打打造大数数据行业业基石::IBM:IBM大数据提提供的服服务包括括数据分分析,文文本分析析,蓝色色云杉(混搭供供电合作作的网络络平台));业务事件件处理;IBMMashupCenter的计量,,监测,,和商业业化服务务(MMMS)IBM的大数据据产品组组合中的的最新系系列产品品的InfoSpherebigInsights,基于ApacheHadoop。该产品组合合包括:打包的ApacheHadoop的软件和和服务,代代号是bigInsights核心,用用于开始大数数据分析析软件被称为bigsheet,软件目目的是帮帮助从大大量数据据中轻松、简单、、直观的的提取、、批注相相关信息息为金融,风风险管理理,媒体体和娱乐乐等行业业量身定定做的行业解决方案微软:2011年1月与惠普普(具体体而言是是HP数据库综综合应用用部门))合作作目标是是开发了了一系列列能够提提升生产产力和提提高决策策速度的的设备。。EMC:EMC斩获了纽纽交所和和Nasdaq;大数据解决决方案已包包括40多个产品。Oracle:Oracle大数据机与与OracleExalogic中间件云云服务器器、OracleExadata数据库云云服务器器以及OracleExalytics商务智能能云服务务器一起起组成了了甲骨文文最广泛泛、高度度集成化化系统产产品组合。大数据的的应用——企业在投投入政府职能能变革重视应用大数数据技术术,盘活活各地云云计算中中心资产产:把原原来大规规模投资资产业园、物联网网产业园园从政绩绩工程,,改造成成智慧工程;在安防领域域,应用用大数据据技术,,提高应应急处置置能力和和安全防防范能力;在民生领域域,应用用大数据据技术,,提升服服务能力力和运作作效率,,以及个个性化的服务,比如医医疗、卫卫生、教教育等部门;解决在金融,,电信领领域等中中数据分分析的问问题:一一直得到到得极大大的重视视,但受困于存储能能力和计计算能力力的限制制,只局局限在交交易数型型数据的的统计分析析;政府投入将形形成示范范效应,,大大推推动大数数据的发展。大数据的的应用——政府“智慧大脑”智能感知互联互通智能运营协同共享美国奥巴马政政府在白白宫网站站发布《大数据研研究和发发展倡议议》,提出““通过收收集、处处理庞大大而复杂杂的数据据信息,,从中获获得知识识和洞见见,提升升能力,,加快科科学、工工程领域域的创新新步伐,,强化美美国国土土安全,,转变教教育和学学习模式式”;中国工程程院院士邬贺铨说说道,““智慧城市是使使用智能能计算技技术使得得城市的的关键基基础设施施的组成成和服务务更智能能、互联联和有效效,随着着智慧城城市的建建设,社社会将步步入“大大数据””时代。”难点:1、在最初初就合理理规划智智慧城市市(深度度思考哪哪些领域域能够运运用);;2、在城市市发展基基础设施施和“云云产业””的同时时,更多多重视““数据””的价值值;3、在大数据处理理领域的的核心技术不足足,需要要政府更更大的投投入。大数据的的应用——热点:智智慧城市政府、金金融、电电信等行行业投资资建立大大数据的的处理分分析手段段,实现现综合治治理、业业务开拓拓等目标标;应用用到制造造等更多多行业。更多行业业的应用用数据的再再利用::由于在信信息价值值链中的的特殊位位置,有有些公司司可能会会收集到到大量的的数据,,但他们们并不急急需使用用也不擅擅长再次次利用这这些数据据。例如如,移动动电话运运营商手手机用户户的位置置信息来来传输电电话信号号,这对对以他们们来说,,数据只只有狭窄窄的技术术用途。。但当它它被一些些发布个个性化位位置广告告服务和和促销活活动的公公司再次次利用时时,则变变得更有有价值。。大数据价价值链的的3大构成::数据本本身、技技能与思思维其中三者者兼具的的又谷歌歌公司,,谷歌在在刚开始始收集数数据的时时候就已已经有多多次使用用数据的的想法。。比方说说,它的的街景采采集车手手机全球球定位系系统数据据不光是是为了创创建谷歌歌地图,,也是为为了制成成全自动动汽车以以及谷歌歌眼镜等等与实景景交汇的的产品。。未来,企企业会依依靠洞悉悉数据中中的信息息更加了了解自己己,也更更加了解解客户。。《大数据时时代》传统行业业最终都都会转变变为大数数据行业业,无论论是金融融服务也也、医药药还是制制造业。。大数据的的应用——未来,改改变一切大数据赋赋予我们们洞察

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论