




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据大数据引领我们走向数据智能化时代BigData目录大数据的定义理解相关技术与应用机遇与挑战大数据的定义理解一什么是大数据Dada大大数据的构成123大数据的定义理解大数据的“4V”特征大数据时代的背景大数据时代的背景facebook社交网络淘宝、ebuy电子商务微博、Apps移动互联21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。“大数据”的诞生:半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。20世纪90年代,数据仓库之父的BillInmon就经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念BigData名词由来全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有
2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…新的时代,人们从信息的被动接受者变成了主动创造者大数据时代到来TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临..大数据时代到来大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大数据的构成大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。大数据要要解决的的问题Volume海量的数数据规模模Variety多样的数数据类型型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的数数据流转转巨大的数数据价值值相关技术与应用二大数据怎么用大数据时时代的背背景相关技术术云计算与大数据大数据领的应用123相关技术术相关技术术大数据技技术将被被设计用用于在成成本可承承受(economically)的条件件下,通通过非常常快速((velocity)的采集集、发现现和分析析,从大大量化((volumes)、多类类别(variety)的数据据中提取取价值((value),将是IT领域新一一代的技技术与架架构企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合什么是BigData技术分析技术术:数据处理理:自然然语言处处理技术术统计和分分析:A/Btest;topN排行榜;;地域占占比;文文本情感感分析数据挖掘掘:关联联规则分分析;分分类;聚聚类模型预测测:预测测模型;;机器学学习;建建模仿真真大数据技技术:数据采集集:ETL工具数据存取取:关系系数据库库;NoSQL;SQL等基础架构构支持::云存储储;分布布式文件件系统等等计算结果果展现::云计算算;标签签云;关关系图等等一些相关关技术存储结构化数数据:海量数据据的查询询、统计计、更新新等操作作效率低低非结构化化数据图片、视视频、word、pdf、ppt等文件存存储不利于检检索、查查询和存存储半结构化化数据转换为结结构化存存储按照非结结构化存存储解决方案案:Hadoop(MapReduce技术)流计算((twitter的storm和yahoo!的S4)数据采集数据储存数据管理数据分析与挖掘技术领域域的挑战战1、对现有有数据库库管理技技术的挑挑战传统的数数据库部部署不能能处理数数TB级别的数数据,也也不能很很好的支支持高级级别的数数据分析析。急速速膨胀的的数据体体量即将将超越传传统数据据库的管管理能力力。如何构建建全球级级的分布布式数据据库(Globally-DistributedDatabase),可以扩扩展到数数百万的的机器,,数已百百计的数数据中心心,上万万亿的行行数据。。2、经典数数据库技技术并没没有考虑虑数据的的多类别别(variety)SQL(结构化化数据查查询语言言),在在设计的的一开始始是没有有考虑非非结构化化数据的的。3、实时性性的技术术挑战::一般而言言,像数数据仓库库系统、、BI应用,对对处理时时间的要要求并不不高。因因此这类类应用往往往运行行1、2天获得结结果依然然可行的的。但实实时处理理的要求求,是区区别大数数据应用用和传统统数据仓仓库技术术、BI技术的关关键差别别之一。。网络架构构、数据据中心、、运维的的挑战::技术架构构的挑战战:人们每天天创建的的数据量量正呈爆爆炸式增增长,但但就数据据保存来来说,我我们的技技术改进进不大,,而数据据丢失的的可能性性却不断断增加。。如此庞大大的数据据量首先先在存储储上就会会是一个个非常严严重的问问题,硬硬件的更更新速度度将是大大数据发发展的基基石。大数据与与云计算算云计算的的模式是是业务模模式,本本质是数数据处理理技术。。数据是资资产,云云为数据据资产提提供存储储、访问问和计算算。当前云计计算更偏偏重海量量存储和和计算,,以及提提供的云云服务,,运行云云应用,,但是缺缺乏盘活活数据资资产的能能力,挖挖掘价值值性信息息和预测测性分析析,为国国家、企企业、个个人提供供决策和和服务,,是大数数据核心心议题,,也是云云计算的的最终方方向。白云下面面数据跑跑蓝蓝的天天上白云云飘如果数据据是财富富,那么么大数据据就是宝宝藏,而而云计算算就是挖挖掘和利利用宝藏藏的利器器!没有有强大的的计算能能力,数数据宝藏藏终究是是镜中花花;没有有大数据据的积淀淀,云计计算也只只能是杀杀鸡用的的宰牛刀刀!大数据与与云计算算2012云计算,,2013大数据??美国:美国政府府在2012年3月29日宣布投投资两亿亿美元拉拉动大数数据相关关产业发发展,将将“大数数据战略略”上升升为国家家意志。。中国:中国商业业联合会会:副会会长刘建建沪介绍绍说,随随着互联联网的快快速发展展,中国国的电子子商务企企业纷纷纷组建了了数据分分析部门门。2011年10月,工信信部确认认京沪深深杭等5城市为““云计算算中心””试点城城市。而而真正的的问题或或许不在在于怎样样建设““云计算算中心””。国家家信息中中心常务务副主任任杜平直直言不讳讳:“应应对大数数据的到到来,需需要不断断建基础础设施,,但是建建了干什什么,有有些数据据需要存存储,也也有很多多数据可可能不需需要储存存。”大数据据的市市场有有多大大?中中央财财经大大学中中国经经济管管理研研究院院博士士张永永力说说,国国外大大数据据行业业约有有1000亿美元元的市市场,,而且且每年年都以以10%的速度度在增增长,,增速速是软软件行行业的的两倍倍。行业拓拓展者者,打打造大大数据据行业业基石石:大数据据的应应用——企业在在投入入IBM:IBM大数据据提供供的服服务包包括数数据分分析,,文本本分析析,蓝蓝色云云杉((混搭搭供电电合作作的网网络平平台));业务事事件处处理;;IBMMashupCenter的计量量,监监测,,和商商业化化服务务(MMMS)IBM的大数数据产产品组组合中中的最最新系系列产产品的的InfoSpherebigInsights,基于于ApacheHadoop。该产品品组合合包括括:打包的的ApacheHadoop的软件件和服服务,,代号号是bigInsights核心,,用于于开始始大数数据分分析软件被被称为为bigsheet,软件件目的的是帮帮助从从大量量数据据中轻轻松、、简单单、直直观的的提取取、批批注相相关信信息为金融融,风风险管管理,,媒体体和娱娱乐等等行业业量身身定做做的行行业解解决方方案微软::2011年1月与惠惠普((具体体而言言是HP数据库库综合合应用用部门门)合合作作目标标是开开发了了一系系列能能够提提升生生产力力和提提高决决策速速度的的设备备。EMC:EMC斩获了了纽交交所和和Nasdaq;大数据据解决决方案案已包包括40多个产产品。。Oracle:Oracle大数据据机与与OracleExalogic中间件件云服服务器器、OracleExadata数据库库云服服务器器以及及OracleExalytics商务智智能云云服务务器一一起组组成了了甲骨骨文最最广泛泛、高高度集集成化化系统统产品品组合合。政府职职能变变革重视应应用大大数据据技术术,盘盘活各各地云云计算算中心心资产产:把把原来来大规规模投投资产产业园园、物物联网网产业业园从从政绩绩工程程,改改造成成智慧慧工程程;在安防领域域,应用大大数据技术术,提高应应急处置能能力和安全全防范能力力;在民生领域域,应用大大数据技术术,提升服服务能力和和运作效率率,以及个个性化的服服务,比如如医疗、卫卫生、教育育等部门;;解决在金融融,电信领领域等中数数据分析的的问题:一一直得到得得极大的重重视,但受受困于存储储能力和计计算能力的的限制,只只局限在交交易数型数数据的统计计分析;政府投入将将形成示范范效应,大大大推动大大数据的发发展。大数据的应应用——政府“智慧大脑”智能感知互联互通智能运营协同共享大数据的应应用——热点:智慧慧城市美国奥巴马马政府在白白宫网站发发布《大数据研究究和发展倡倡议》,提出“通通过收集、、处理庞大大而复杂的的数据信息息,从中获获得知识和和洞见,提提升能力,,加快科学学、工程领领域的创新新步伐,强强化美国国国土安全,,转变教育育和学习模模式”;;中国工程院院院士邬贺贺铨说道,,“智慧城城市是使用用智能计算算技术使得得城市的关关键基础设设施的组成成和服务更更智能、互互联和有效效,随着智智慧城市的的建设,社社会将步入入“大数据据”时代。。”难点:1、在最初就合合理规划智慧慧城市(深度度思考哪些领领域能够运用用);2、在城市发展展基础设施和和“云产业””的同时,更更多重视“数数据”的价值值;3、在大数据处处理领域的核核心技术不足足,需要政府府更大的投入入。大数据的应用用——未来,改变一一切数据的再利用用:由于在信息价价值链中的特特殊位置,有有些公司可能能会收集到大大量的数据,,但他们并不不急需使用也也不擅长再次次利用这些数数据。例如,,移动电话运运营商手机用用户的位置信信息来传输电电话信号,这这对以他们来来说,数据只只有狭窄的技技术用途。但但当它被一些些发布个性化化位置广告服服务和促销活活动的公司再再次利用时,,则变得更有有价值。大数据价值链链的3大构成:数据据本身、技能能与思维其中三者兼具具的又谷歌公公司,谷歌在在刚开始收集集数据的时候候就已经有多多次使用数据据的想法。比比方说,它的的街景采集车车手机全球定定位系统数据据不光是为了了创建谷歌地地图,也是为为了制成全自自动汽车以及及谷歌眼镜等等与实景交汇汇的产品。未来,企业会会依靠洞悉数数据中的信息息更加了解自自己,也更加加了解客户。。《大数据时代》传统行业最终终都会转变为为大数据行业业,无论是金金融服务也、、医药还是制制造业。机遇与挑战三大数据赋予我我们洞察未来来的能力机遇马云成功预测测2008年经济危机“2008年初,阿里巴巴平台台上整个买家家询盘数急剧剧下滑,欧美美对中国采购购在下滑。海海关是卖了货货,出去以后后再获得数据据;我们提前前半年时间从从询盘上推断断出世界贸易易发生变化了了。”通常常而而言言,,买买家家在在采采购购商商品品前前,,会会比比较较多多家家供供应应商商的的产产品品,,反反映映到到阿阿里里巴巴巴巴网网站站统统计计数数据据中中,,就就是是查查询询点点击击的的数数量量和和购购买买点点击击的的数数量量会会保保持持一一个个相相对对的的数数值值,,综综合合各各个个维维度度的的数数据据可可建建立立用用户户行行为为模模型型。。因因为为数数据据样样本本巨巨大大,保证证用用户户行行为为模模型型的的准准确确性性。。因因此此在在这这个个案案例例中中,,询询盘盘数数据据的的下下降降,,自自然然导导致致买买盘盘的的下下降降。。人类类从从依依靠靠自自身身判判断断做做决决定定到到依依靠靠数数据据做做决决定定的的转转变变,,也也是是大大数数据据作作出出的的最最大大贡贡献献之之一一。。——《《大数据据时代代》挑战诸多领领域的的问题题亟待待解决决,最最重要要的是是每个个人的的信息息都被被互联联网所所记录录和保保留了了下来来,并并且进进行加加工和和利用用,为为人所所用,,而这这正是是我们们所担担忧的的信息息安全全隐患患!更多的的隐私私、安安全性性问题题:我我们的的隐私私被二二次利利用了了多少密密码和和账号号是因因为““社交交网络络”流流出去去的??2011年4月索尼尼的系系统漏漏洞导导致7700万用户户资料料失窃窃2011年4月,iOS被发现现会按按照时时间顺顺序记记录用用户的的位置置坐标标信息息2011年CSDN密码泄泄露事事件…眼下中中国互互联网网热门门的话话题之之一就就是互互联网网实名名制问问题,,我愿愿意相相信这这是个个好事事。毕毕竟我我们如如果明明着亮亮出自自己的的身份份,互互联网网才能能对我我们的的隐私私给予予更好好保护护。数据汇汇集传传统解解决方方案卫生信信息平平台定义接接口联调测测试数据校校验
卫生信息平台医疗机机构设备采采购业务开开发实施部部署医疗机机构业务厂厂商开开发周周期长长标准变变更,,频繁繁调试试无工具具支撑撑,厂厂商能能力有有限,,数据据质量量难以以保证证公共卫生信息平台数据上不不来,建建档率低低活档率低低,数据据质量不不合格异常情况况发现不不及时卫生局的的困惑医疗机构构的无奈奈???面临现状状锐易特数数据采集集与交换换解决方方案服务共享数据交换集中监管
数据同步双向转诊
标准交互
服务部署服务管理
服务维护
核心服务协同服务
外部服务
……发布/订阅
协同医疗……
服务监控安全保障……企业服务务总线((ESB)卫生数据据采集与与交换一一体机(卫生一体机机)软硬件一体机ESB内核安全监管业务模板硬件、网络(有/无线)操作系统、防火墙、中间件信息交换(多协议)数据集成(数据/服务)远程集中管理、多种认证模式安全审计、实时监控统计13大类、67小类3500项全集业务数据功能架构A医院(HIS/LIS/PACS)配置管理数据上报调度中心数据抽取安全认证数据缓存数据集成/交换网关配置管理安全审计消息路由服务监控企业服务总总线(ESB)服务调度规规则业务接口业务校验业务监控数据中心数据转换消息分发发布订阅流程调度流程监控安全认证远程升级业务扩展共享库数据集成/交换网关B医院(HIS/LIS/PACS)WSWSFTPJDBC数据传输通通道(JMS/MQ,FTP,SOAP/HTTP)服务治理配置管理数据上报调度中心数据抽取安全认证数据缓存数据转换远程升级业务扩展综合统计分析库日志采集WSFTPJDBC采集与交换换异构数据源源抓取多厂商应用用适配数据及语义义转换结构映射数据校验安全保障访问安全传输安全数据安全安全审计传输模式手动/自动实时/定时主动/被动统一监管集中管理远程监控流程跟踪卫生一体机机核心功能能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论