大数据时代课件_第1页
大数据时代课件_第2页
大数据时代课件_第3页
大数据时代课件_第4页
大数据时代课件_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章大数据时代Iscoming……第4章大数据时代Iscoming……全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有

2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…在web2.0的时代,人们从信息的被动接受者变成了主动创造者BigData时代到来全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临..BigData时代到来TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化1.Volume2.

Variety3.value4.Velocity结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更高的要求沙里淘金,价值密度低以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合什么是BigData数据量巨大全球在2010年正式进入ZB时代,IDC预计到2020年,全球将总共拥有35ZB的数据量1.Volume2.Variety3.value4.20世纪90年代,数据仓库之父的BillInmon就经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念BigData名词由来20世纪90年代,数据仓库之父的BillInmon就经常提1

并购进行技术整合2

自身提高研发实力相较于“大数据”一词在2011年才开始蹿红不同,在计算机研究领域和产业界,“大数据”早已众人皆知,各大IT巨头纷纷布局大数据业务,通过收购大数据相关厂商来实现技术整合,以图抢占全新的制高点各大IT企业纷纷推出自身的大数据分析产品,包括Google、IBM、EMC、Oracle、微软、惠普、SAP、Teradata,这些企业几乎囊括了目前全球最顶尖的搜索服务、数据库、服务器、存储设备、企业解决方案的主要提供商,足以显示大数据在产业界的汹汹来势BigData名词由来1并购进行技术整合2自身提高研发实力相较于“大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),将是IT领域新一代的技术与架构企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合什么是BigData技术企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分云计算与大数据白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀!云计算与大数据白云下面数据跑蓝蓝的天上白云飘如果数据是财富,分布式“云计算”(CloudComputing)是分布式处理(DistributedComputing)、并行处理(ParallelComputing)和网格计算(GridComputing)的发展,或者说是这些计算机科学概念的商业实现。——百度百科AAvailabilityCAP理论一个分布式系统不可能满足一致性、可用性和分区容错性这三个需求,最多只能同时满足两个——EricBrewerCConsistencyPPartitionTolerance分布式计算是一门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。分布式“云计算”(CloudComputing)是分布式处CAP博弈分区容错性是不能牺牲的AmazonDynamo是一个经典的分布式Key-Value存储系统,具备去中心化,高可用性,高扩展性的特点,但是为了达到这个目标在很多场景中牺牲了一致性。A+P支付宝这样的交易和账务数据则是非常敏感的,通常不能容忍超过秒级的不一致C+PCAP博弈分区容错性是不能牺牲的AmazonDynamo是KeyValue分布式存储系统查询速度快、存放数据量大、支持高并发不能进行复杂的条件查询辅以实时搜索引擎进行复杂条件检索、全文检索,可替代并发性能较低的关系型数据库,节省几十倍服务器数量B+TreeHash算法KeyValue分布式存储系统B+Tree大数据时代下的系统需求Highperformance–高并发读写的需求

高并发、实时动态获取和更新数据HugeStorage–海量数据的高效率存储和访问的需求

类似SNS网站,海量用户信息的高效率实时存储和查询HighScalability&&HighAvailability–高可扩展性和高可用性的需求

需要拥有快速横向扩展能力、提供7*24小时不间断服务大数据时代下的系统需求RDBMSVS.NoSQL高并发读写大数据存储的核心需求高效率存储和访问高可扩展性和高可用性低成本建设运维保证一致性的开销过大,难以实现高并发存储性能受限于控制器,性能难以保证关系型表单存储难以适应不同数据类型上亿行数据的超级达标效率极低传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高许可和维护花费高昂无法简单的通过添加服务节点来扩展数据容量和负载能力,难以进行横向扩展数据库升级需要停机维护和数据迁移,导致服务中断不保证遵循ACID原则,提高并发读写性能

Schema-Free存储适应不同数据类型舍弃SQL标准功能,尽量简化数据操作,提升效率MapReduce实现高效访问基于X86设备,价格低廉开源系统,节省许可费用支持水平扩展,可简单的通过添加服务节点来扩展数据容量和负载能力数据库升级不影响服务持续RDBMSVS.NoSQL高并发读写大数据存储的高效率存NoSQLNoSQL运动两个核心理论基础:Google的BigTable

BigTable提出了一种很有趣的数据模型,它将各列数据进行排序存储。数据值按范围分布在多台机器,数据更新操作有严格的一致性保证。Amazon的Dynamo

Dynamo使用的是另外一种分布式模型。Dynamo的模型更简单,它将数据按key进行hash存储。其数据分片模型有比较强的容灾性,因此它实现的是相对松散的弱一致性:最终一致性。NoSQL是NotOnlySQL的缩写,而不是NotSQL,它不一定遵循传统数据库的一些基本要求,比如说遵循SQL标准、ACID属性、表结构等等。相比传统数据库,叫它分布式数据管理系统更贴切,数据存储被简化更灵活,重点被放在了分布式数据管理上。NoSQLNoSQL是NotOnlySQL的缩写,而不是BigTable为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。Key-Value映射:(row:string,column:string,time:int64)→string

数据模型支撑技术Bigtable的表会根据行键自动划分为片(tablet),片是负载均衡的单元。用GFS来存储日志和数据文件按SSTable文件格式存储数据用Chubby管理元数据参考文献:《TheChubbylockserviceforloosely-coupleddistributedsystems》 ——Google论文BigTable为管理大规模结构化数据而设计的分布式存储BigTable一个供客户端使用的库一个主服务器(masterserver)许多片服务器(tabletserver)

BigTable集群片的定位B+树Chubbyfile:保存roottablet的位置roottablet:元数据表的第一个分片其它的元数据片BigTable一个供客户端使用的库BigTable集NoSQL数据库NoSQL数据库NoSQL数据库使用现状NoSQL数据库使用现状大数据的技术领域-分布式系统大数据的技术领域-分布式系统关键技术之Hadoop/MRHadoop,包括HDFS和其上的MR,被认为是解决大数据中必不可少的一项技术和产品。它能轻易实现各种批量数据处理,而且因为其设计的简化,能轻易分布到海量的X86服务器上,2000、3000节点的Hadoop场景是较为常见的。优点处理各种结构的数据灵活的处理方式,通过Java编写MR框架易于扩展、伸缩,达到3000节点以上(因其非对等节点模型设计)缺点(对原生解决方案而言)对灵活的查询的支持和响应速度流水线操作优化Map和Reduce大量数据交换问题案例:淘宝、支付宝、腾讯产品:BC-ETL/OC-ETL/SmartMiner储备:两期云计算ETL在经分中应用研究,目前在开展四省试点关键技术之Hadoop/MRHadoop,包括HDFS和其上腾讯在天津投资建立亚洲最大的数据中心;新浪推出企业微博产品,提供精准的数据分析服务。商业价值在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么被大数据驱动的新生代商业格局淘汰。标准的虚拟化及分布式存储内存计算技术——SAP中国区企业信息

管理咨询资深顾问

杜韬Hadoop数据应用策略、数据流技术机器学习算法——百度首席科学家威廉.张Hadoop数据采集、数据存储、数据处理——Yahoo!北京全球软件研发中心架构师韩轶平持续创新传统的企业级数据仓库产品线收购AsterDataHadoop、MapReduce——Teradata首席客户官周俊凌腾讯在天津投资建立亚洲最大的数据中心;商业价值在大数据推动的马云的判断来自于数据分析商业价值——淘宝双“十一”背后的技术讨论马云的判断来自于数据分析商业价值——淘宝双“十一”背后的技术系统逻辑架构系统物理架构性能对比OceanBase系统逻辑架构系统物理架构性能对比OceanBase大数据众生态在全球经济的很多领域,大数据在以很多的方式创造价值。事实上,研究表明:随着消费者、公司、各个经济领域不断挖掘大数据的潜力,我们正处在一个巨大的浪潮的尖峰,这个浪潮,就是大数据驱动的创新、生产效率提高、经济增长以及新的竞争形式和新的价值的产生。——《大数据:下一个创新、竞争和生产率的前沿》麦肯锡全球研究所2011年5月在对全球100个国家及地区从事30个行业的3000名高管进行的调查中,有60%的受访者表示无法有效利用所有数据。而近期IBM对64个国家及地区从事19个行业的1700名首席营销官开展的最新调查更是进一步体现了出这个问题的严峻性:调查结果显示,71%的首席营销官表示他们的企业没有做好充分准备来应对大数据的挑战。——《IBM-麻省理工斯隆管理学院评论》2011年大数据不是一个单独的市场,它无处不在,以一切可以想象出的方式影响着商业。大数据的涌入将迫使产品、业务和解决方案发生变化。这种变化非常快,企业可能不得不淘汰要求的现有解决方案。2012年大数据将直接或间接拉动全球960亿美元IT支出,预计这一数据2013年将达到1200亿美元,2016年达到2320亿美元。新支出将流向社交媒体、社交网络分析和内容分析。支持大数据需要使用大量服务,高达软件采购支出的20倍。拥有相应技能的人才非常稀缺,但需求旺盛。——Gartner2012年10月大数据众生态在全球经济的很多领域,大数据在以很多的方式创造价大数据各家看点有人认为大数据是大麻烦,有人认为大数据是大挑战,有人认为大数据是大机遇。还有大知识、大科技、大利润、大发展…麻烦个人隐私,信息安全,各种各样的海量数据,从来不删除数据,对并发读取、写入的要求极高,每次可能访问上PB的数据,真麻烦!挑战传统数据库、小型机、阵列不是为了大数据的业务需求设计的,非常吃力,成本高,根本无法支撑。是一个挑战!机遇在大数据的时代,数据就是直接的财富、就是核心的竞争力,很多行业,都要相继跨入一个数据兴则企业兴、数据强则企业强的竞争时代!大数据各家看点有人认为大数据是大麻烦,有人认为大数据是大挑战大数据已经上升到美国政府国家战略2010年12月,总统行政办公室下属的科技技术顾问委员会,信息技术顾问委员会向奥巴马和国会提交了《规划数据未来》的专门报告,该报告把数据收集和使用的工作,提到了战略的高度。“如何收集、保存、维护、管理、分析、共享正在呈指数级增长的数据是我们必须面对的一个重要挑战。如何保证这些数据现在、将来的完整性和可用性,我们面临着很多的问题和挑战。如何使用这些数据,则是另外一个挑战。。。。应对好这些挑战,将引导我们在科研、医疗、商业和国家安全方面开创新的成功。”2012年3月29日,奥巴马政府又进一步推进了其“大数据战略”。奥巴马的高级顾问、总统科学技术顾问委员会的主席霍尔德伦代表国防部、能源部等6个联邦政府部门宣布,将投入2亿多美元立即启动“大数据发展研究计划”BigDataResearchandDevelopmentInitiative,以推动大数据的提取、存储、分析、共享和可视化。美国政府推出了“大数据”战略,媲美与当年克林顿政府时代的信息高速公路计划。奥巴马希望借助大数据来将美国经济带出泥潭。从基础建设、到IT硬件、软件、网络,最后到数据。大数据已经上升到美国政府国家战略2010年12月,总统行政办“与数俱进”:联合国发布大数据政务白皮书联合国于2012年7月10日在纽约总部发布了一份大数据政务白皮书《大数据促发展:挑战与机遇》,总结了各国政府如何利用大数据更好地服务和保护人民。大数据时代已经到来大数据对于联合国和各国政府来说是一个历史性的机遇,报告解释了大数据如何帮助政府更好地响应社会和经济指标变化,例如收入、失业、食品价格等。以爱尔兰和美国的社交网络活跃度增长可以作为失业率上升的早期征兆为例,表明政府如果能合理分析所掌握的数据资源,将能“与数俱进”,快速应变。该报告是联合国“全球脉搏”项目的产物。“全球脉搏”是联合国发起的一个全新项目,旨在利用消费互联网的数据推动全球发展。利用自然语言解码软件,可以对社交网络和手机短信中的信息进行情绪分析,从而对失业率增加、区域性开支降低或疾病暴发等进行预测。建议联合国成员国建设“脉搏实验室”“PulseLabs”网络开发大数据的潜在价值。“与数俱进”:联合国发布大数据政务白皮书联合国于2012年7驾驭大数据能够改变什么?——传感器、智慧地球2011年3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在各大网站。1962年,经过“圣灰星期三”风暴后,美国陆军工程部和美国国家海洋与大气管理局共同建设了一个传感器监测系统,对兴风作浪的海洋进行监测。2005年,浮标上安装了更高端的传感器,用来监测海浪方向。2009年,系统再次升级,开始着手建立一个覆盖全美海岸线的精确海浪监测网络。这些传感器以分秒为单位,将数据源源不断实时传回。还记得《后天》里面那个场景?驾驭大数据能够改变什么?——传感器、智慧地球2011年3月1驾驭大数据能够改变什么?——情感分析、舆情分析通过对BBS、博客、微博中内容的分析,政府、企业和个人可以了解当前舆论情况,公众对待某一事物的看法。目前围绕这个产业,催生了一大拨的创新公司。通过分析15万条关于刘翔的微博,分词并析取出其中使用的字词。在分析中,我们发现,为刘翔呐喊助威的声音占了统治地位,然而也有微博用户激烈地批评刘翔。这是我们第一次能对如此数量的中国用户进行数据可视化和情感分析在所有关于刘翔的微博中出现的最显著的名词和形容词。结点越大表明越多人使用过这个词。两个结点离得越近表明它们一起出现在同一用户微博中的频率越高。我们在构造出的这个图中,可以非常明显地发现刘翔支持者所用的词语(右下)以及批评者所有的词语(左上)的巨大区别。驾驭大数据能够改变什么?——情感分析、舆情分析通过对BBS、驾驭大数据能够改变什么?——语言、文字分析奥巴马和罗姆尼辩论情况分析。驾驭大数据能够改变什么?——语言、文字分析奥巴马和罗姆尼辩论驾驭大数据能够改变什么?——社会化网络分析分析在社交网络上谈论的情况以及分享的购物情况,来发现失业率变化情况和经济发展状况。驾驭大数据能够改变什么?——社会化网络分析分析在社交网络上谈驾驭大数据能够改变什么?——社交网络分析、微博营销电信行业、传媒业借助社交网络分析,对客户的通话数据、微博连接进行分析,能够识别出这部分“影响者”。社交分析并不是分析单一用户的通话记录和微博信息,而是分析各用户所处的社交网络。圈子识别关键成员识别传播影响分析重入网用户识别双机双卡用户识别六度空间理论关系强度分析驾驭大数据能够改变什么?——社交网络分析、微博营销电信行业、驾驭大数据能够改变什么?——客户特征与交叉销售以及更多今年年初,美国一名男子闯入了他家附近的Target店铺(Target是一家美国零售连锁超市)。“你们怎么能这样!”男人向店铺经理大吼到,“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券,她才17岁啊!”店铺经理不知道发生了什么,立刻向来者道歉,表明那肯定是个误会。然而,经理没有意识到,公司正在运行一套大数据系统。一个月后,这个愤怒的父亲打来电话道歉,因为Target发来的婴儿用品促销广告并不是误发,他的女儿的确怀孕了。——《纽约时报》报道更多:反恐(万维信息触角计划与建言计划),库存管理(沃尔玛的RetailLink)、卖数据!大数据驱动市场营销、驱动成本控制、驱动产品和服务创新、驱动管理和决策的创新、驱动商业模式的创新。驾驭大数据能够改变什么?——客户特征与交叉销售以及更多今年年驾驭大数据能够改变什么?——算法交易、欺诈检测欺诈检测:监控信用卡使用,当检测的信用卡在很短的时间内并且相距甚远的位置已连续被使用,检测到欺诈行为,拒绝卡的使用算法交易:及时发现存在的交易机会,每次一小笔,毫秒级交易,每天进行数量众多的交易。已经成为趋势金融交易是最能体现大数据的Velocity特性的,机会稍纵即逝,甚至券商对连接到交易主机的网线长度都有至关重要的诉求。算法交易成为趋势,但也导致了一次小型的股灾。驾驭大数据能够改变什么?——算法交易、欺诈检测欺诈检测:监控数字竞选团队我们会在此次竞选活动中对每个事件进行数据分析。”团队聘请了一大批分析员,人数规模甚至达到了2008年竞选时数据分析部门的五倍(据了解大概100多人)整合信息资源奥巴马竞选团队的一位官员表示:“我们知道,民主党的问题就在于拥有了大多的数据库,且没有哪两个数据库是相同的”。因此,在总统竞选前的18个月,竞选团队就创建了一个庞大系统,这一系统可以将民调者、注资者、工作人员、消费者、社交媒体以及“摇摆州”主要的民主党投票人的信息进行整合。竞选结果预测奥巴马的数据分析团队此前曾在关键州收集数据,并建立了4条投票数据流,用于拼凑出当地选民的详细数据模型。奥巴马的数据分析团队可以更清楚的了解每类人群和地区选民在任何时刻的投票倾向。开辟第二战场奥巴马竞选团队首次利用Facebook这些社交网络进行大规模的游说,就像此前挨家挨户敲门拉票的方式一样。数据还帮助奥巴马竞选团队更好的作出了广告购买的决策。在选择广告投放渠道时,他们没有依靠外部顾问,而是基于内部数据得出结论。奥巴马连任的机密:“大数据”制胜的四大法宝数字竞选团队我们会在此次竞选活动中对每个事件进行数据分析。”政府、金融、电信等行业投资建立大数据的处理分析手段,实现综合治理、业务开拓等目标;应用到制造等更多行业。商业价值政府、金融、电信等行业投资建立大数据的处理分析手段,实现综合结构化数据向非结构化数据演进,使得未来IT投资重点不再是建系统为核心,而是围绕大数据为核心;海量数据可以在各个部门创造重大的财物价值,未来投资倾斜。商业价值结构化数据向非结构化数据演进,使得未来IT投资重点不再是建系用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析第4章大数据时代Iscoming……第4章大数据时代Iscoming……全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有

2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…在web2.0的时代,人们从信息的被动接受者变成了主动创造者BigData时代到来全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临..BigData时代到来TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化1.Volume2.

Variety3.value4.Velocity结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更高的要求沙里淘金,价值密度低以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合什么是BigData数据量巨大全球在2010年正式进入ZB时代,IDC预计到2020年,全球将总共拥有35ZB的数据量1.Volume2.Variety3.value4.20世纪90年代,数据仓库之父的BillInmon就经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念BigData名词由来20世纪90年代,数据仓库之父的BillInmon就经常提1

并购进行技术整合2

自身提高研发实力相较于“大数据”一词在2011年才开始蹿红不同,在计算机研究领域和产业界,“大数据”早已众人皆知,各大IT巨头纷纷布局大数据业务,通过收购大数据相关厂商来实现技术整合,以图抢占全新的制高点各大IT企业纷纷推出自身的大数据分析产品,包括Google、IBM、EMC、Oracle、微软、惠普、SAP、Teradata,这些企业几乎囊括了目前全球最顶尖的搜索服务、数据库、服务器、存储设备、企业解决方案的主要提供商,足以显示大数据在产业界的汹汹来势BigData名词由来1并购进行技术整合2自身提高研发实力相较于“大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),将是IT领域新一代的技术与架构企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合什么是BigData技术企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分云计算与大数据白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀!云计算与大数据白云下面数据跑蓝蓝的天上白云飘如果数据是财富,分布式“云计算”(CloudComputing)是分布式处理(DistributedComputing)、并行处理(ParallelComputing)和网格计算(GridComputing)的发展,或者说是这些计算机科学概念的商业实现。——百度百科AAvailabilityCAP理论一个分布式系统不可能满足一致性、可用性和分区容错性这三个需求,最多只能同时满足两个——EricBrewerCConsistencyPPartitionTolerance分布式计算是一门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。分布式“云计算”(CloudComputing)是分布式处CAP博弈分区容错性是不能牺牲的AmazonDynamo是一个经典的分布式Key-Value存储系统,具备去中心化,高可用性,高扩展性的特点,但是为了达到这个目标在很多场景中牺牲了一致性。A+P支付宝这样的交易和账务数据则是非常敏感的,通常不能容忍超过秒级的不一致C+PCAP博弈分区容错性是不能牺牲的AmazonDynamo是KeyValue分布式存储系统查询速度快、存放数据量大、支持高并发不能进行复杂的条件查询辅以实时搜索引擎进行复杂条件检索、全文检索,可替代并发性能较低的关系型数据库,节省几十倍服务器数量B+TreeHash算法KeyValue分布式存储系统B+Tree大数据时代下的系统需求Highperformance–高并发读写的需求

高并发、实时动态获取和更新数据HugeStorage–海量数据的高效率存储和访问的需求

类似SNS网站,海量用户信息的高效率实时存储和查询HighScalability&&HighAvailability–高可扩展性和高可用性的需求

需要拥有快速横向扩展能力、提供7*24小时不间断服务大数据时代下的系统需求RDBMSVS.NoSQL高并发读写大数据存储的核心需求高效率存储和访问高可扩展性和高可用性低成本建设运维保证一致性的开销过大,难以实现高并发存储性能受限于控制器,性能难以保证关系型表单存储难以适应不同数据类型上亿行数据的超级达标效率极低传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高许可和维护花费高昂无法简单的通过添加服务节点来扩展数据容量和负载能力,难以进行横向扩展数据库升级需要停机维护和数据迁移,导致服务中断不保证遵循ACID原则,提高并发读写性能

Schema-Free存储适应不同数据类型舍弃SQL标准功能,尽量简化数据操作,提升效率MapReduce实现高效访问基于X86设备,价格低廉开源系统,节省许可费用支持水平扩展,可简单的通过添加服务节点来扩展数据容量和负载能力数据库升级不影响服务持续RDBMSVS.NoSQL高并发读写大数据存储的高效率存NoSQLNoSQL运动两个核心理论基础:Google的BigTable

BigTable提出了一种很有趣的数据模型,它将各列数据进行排序存储。数据值按范围分布在多台机器,数据更新操作有严格的一致性保证。Amazon的Dynamo

Dynamo使用的是另外一种分布式模型。Dynamo的模型更简单,它将数据按key进行hash存储。其数据分片模型有比较强的容灾性,因此它实现的是相对松散的弱一致性:最终一致性。NoSQL是NotOnlySQL的缩写,而不是NotSQL,它不一定遵循传统数据库的一些基本要求,比如说遵循SQL标准、ACID属性、表结构等等。相比传统数据库,叫它分布式数据管理系统更贴切,数据存储被简化更灵活,重点被放在了分布式数据管理上。NoSQLNoSQL是NotOnlySQL的缩写,而不是BigTable为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。Key-Value映射:(row:string,column:string,time:int64)→string

数据模型支撑技术Bigtable的表会根据行键自动划分为片(tablet),片是负载均衡的单元。用GFS来存储日志和数据文件按SSTable文件格式存储数据用Chubby管理元数据参考文献:《TheChubbylockserviceforloosely-coupleddistributedsystems》 ——Google论文BigTable为管理大规模结构化数据而设计的分布式存储BigTable一个供客户端使用的库一个主服务器(masterserver)许多片服务器(tabletserver)

BigTable集群片的定位B+树Chubbyfile:保存roottablet的位置roottablet:元数据表的第一个分片其它的元数据片BigTable一个供客户端使用的库BigTable集NoSQL数据库NoSQL数据库NoSQL数据库使用现状NoSQL数据库使用现状大数据的技术领域-分布式系统大数据的技术领域-分布式系统关键技术之Hadoop/MRHadoop,包括HDFS和其上的MR,被认为是解决大数据中必不可少的一项技术和产品。它能轻易实现各种批量数据处理,而且因为其设计的简化,能轻易分布到海量的X86服务器上,2000、3000节点的Hadoop场景是较为常见的。优点处理各种结构的数据灵活的处理方式,通过Java编写MR框架易于扩展、伸缩,达到3000节点以上(因其非对等节点模型设计)缺点(对原生解决方案而言)对灵活的查询的支持和响应速度流水线操作优化Map和Reduce大量数据交换问题案例:淘宝、支付宝、腾讯产品:BC-ETL/OC-ETL/SmartMiner储备:两期云计算ETL在经分中应用研究,目前在开展四省试点关键技术之Hadoop/MRHadoop,包括HDFS和其上腾讯在天津投资建立亚洲最大的数据中心;新浪推出企业微博产品,提供精准的数据分析服务。商业价值在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么被大数据驱动的新生代商业格局淘汰。标准的虚拟化及分布式存储内存计算技术——SAP中国区企业信息

管理咨询资深顾问

杜韬Hadoop数据应用策略、数据流技术机器学习算法——百度首席科学家威廉.张Hadoop数据采集、数据存储、数据处理——Yahoo!北京全球软件研发中心架构师韩轶平持续创新传统的企业级数据仓库产品线收购AsterDataHadoop、MapReduce——Teradata首席客户官周俊凌腾讯在天津投资建立亚洲最大的数据中心;商业价值在大数据推动的马云的判断来自于数据分析商业价值——淘宝双“十一”背后的技术讨论马云的判断来自于数据分析商业价值——淘宝双“十一”背后的技术系统逻辑架构系统物理架构性能对比OceanBase系统逻辑架构系统物理架构性能对比OceanBase大数据众生态在全球经济的很多领域,大数据在以很多的方式创造价值。事实上,研究表明:随着消费者、公司、各个经济领域不断挖掘大数据的潜力,我们正处在一个巨大的浪潮的尖峰,这个浪潮,就是大数据驱动的创新、生产效率提高、经济增长以及新的竞争形式和新的价值的产生。——《大数据:下一个创新、竞争和生产率的前沿》麦肯锡全球研究所2011年5月在对全球100个国家及地区从事30个行业的3000名高管进行的调查中,有60%的受访者表示无法有效利用所有数据。而近期IBM对64个国家及地区从事19个行业的1700名首席营销官开展的最新调查更是进一步体现了出这个问题的严峻性:调查结果显示,71%的首席营销官表示他们的企业没有做好充分准备来应对大数据的挑战。——《IBM-麻省理工斯隆管理学院评论》2011年大数据不是一个单独的市场,它无处不在,以一切可以想象出的方式影响着商业。大数据的涌入将迫使产品、业务和解决方案发生变化。这种变化非常快,企业可能不得不淘汰要求的现有解决方案。2012年大数据将直接或间接拉动全球960亿美元IT支出,预计这一数据2013年将达到1200亿美元,2016年达到2320亿美元。新支出将流向社交媒体、社交网络分析和内容分析。支持大数据需要使用大量服务,高达软件采购支出的20倍。拥有相应技能的人才非常稀缺,但需求旺盛。——Gartner2012年10月大数据众生态在全球经济的很多领域,大数据在以很多的方式创造价大数据各家看点有人认为大数据是大麻烦,有人认为大数据是大挑战,有人认为大数据是大机遇。还有大知识、大科技、大利润、大发展…麻烦个人隐私,信息安全,各种各样的海量数据,从来不删除数据,对并发读取、写入的要求极高,每次可能访问上PB的数据,真麻烦!挑战传统数据库、小型机、阵列不是为了大数据的业务需求设计的,非常吃力,成本高,根本无法支撑。是一个挑战!机遇在大数据的时代,数据就是直接的财富、就是核心的竞争力,很多行业,都要相继跨入一个数据兴则企业兴、数据强则企业强的竞争时代!大数据各家看点有人认为大数据是大麻烦,有人认为大数据是大挑战大数据已经上升到美国政府国家战略2010年12月,总统行政办公室下属的科技技术顾问委员会,信息技术顾问委员会向奥巴马和国会提交了《规划数据未来》的专门报告,该报告把数据收集和使用的工作,提到了战略的高度。“如何收集、保存、维护、管理、分析、共享正在呈指数级增长的数据是我们必须面对的一个重要挑战。如何保证这些数据现在、将来的完整性和可用性,我们面临着很多的问题和挑战。如何使用这些数据,则是另外一个挑战。。。。应对好这些挑战,将引导我们在科研、医疗、商业和国家安全方面开创新的成功。”2012年3月29日,奥巴马政府又进一步推进了其“大数据战略”。奥巴马的高级顾问、总统科学技术顾问委员会的主席霍尔德伦代表国防部、能源部等6个联邦政府部门宣布,将投入2亿多美元立即启动“大数据发展研究计划”BigDataResearchandDevelopmentInitiative,以推动大数据的提取、存储、分析、共享和可视化。美国政府推出了“大数据”战略,媲美与当年克林顿政府时代的信息高速公路计划。奥巴马希望借助大数据来将美国经济带出泥潭。从基础建设、到IT硬件、软件、网络,最后到数据。大数据已经上升到美国政府国家战略2010年12月,总统行政办“与数俱进”:联合国发布大数据政务白皮书联合国于2012年7月10日在纽约总部发布了一份大数据政务白皮书《大数据促发展:挑战与机遇》,总结了各国政府如何利用大数据更好地服务和保护人民。大数据时代已经到来大数据对于联合国和各国政府来说是一个历史性的机遇,报告解释了大数据如何帮助政府更好地响应社会和经济指标变化,例如收入、失业、食品价格等。以爱尔兰和美国的社交网络活跃度增长可以作为失业率上升的早期征兆为例,表明政府如果能合理分析所掌握的数据资源,将能“与数俱进”,快速应变。该报告是联合国“全球脉搏”项目的产物。“全球脉搏”是联合国发起的一个全新项目,旨在利用消费互联网的数据推动全球发展。利用自然语言解码软件,可以对社交网络和手机短信中的信息进行情绪分析,从而对失业率增加、区域性开支降低或疾病暴发等进行预测。建议联合国成员国建设“脉搏实验室”“PulseLabs”网络开发大数据的潜在价值。“与数俱进”:联合国发布大数据政务白皮书联合国于2012年7驾驭大数据能够改变什么?——传感器、智慧地球2011年3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在各大网站。1962年,经过“圣灰星期三”风暴后,美国陆军工程部和美国国家海洋与大气管理局共同建设了一个传感器监测系统,对兴风作浪的海洋进行监测。2005年,浮标上安装了更高端的传感器,用来监测海浪方向。2009年,系统再次升级,开始着手建立一个覆盖全美海岸线的精确海浪监测网络。这些传感器以分秒为单位,将数据源源不断实时传回。还记得《后天》里面那个场景?驾驭大数据能够改变什么?——传感器、智慧地球2011年3月1驾驭大数据能够改变什么?——情感分析、舆情分析通过对BBS、博客、微博中内容的分析,政府、企业和个人可以了解当前舆论情况,公众对待某一事物的看法。目前围绕这个产业,催生了一大拨的创新公司。通过分析15万条关于刘翔的微博,分词并析取出其中使用的字词。在分析中,我们发现,为刘翔呐喊助威的声音占了统治地位,然而也有微博用户激烈地批评刘翔。这是我们第一次能对如此数量的中国用户进行数据可视化和情感分析在所有关于刘翔的微博中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论