项目8 大数据在云端_第1页
项目8 大数据在云端_第2页
项目8 大数据在云端_第3页
项目8 大数据在云端_第4页
项目8 大数据在云端_第5页
已阅读5页,还剩116页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据导论》大数据在云端【导读案例】亚马逊,数据在云端亚马逊Web服务(AWS)【任务描述】(1)了解大数据基础设施的基本概念;(2)了解虚拟化的重要思想,了解计算虚拟化、存储虚拟化和网络虚拟化的具体内容;(3)了解云计算的基本思想和主要内容,了解云计算与大数据的关系。【知识准备】

基础设施是指在IT环境中,为具体应用提供计算、存储、互联、管理等基础功能的软硬件系统。

在信息技术发展的早期,IT基础设施往往由一系列昂贵的,经过特殊设计的软硬件设备组成,存储容量非常有限,系统之间也没有高效的数据交换通道,应用软件直接运行在硬件平台上。

云端大数据云端大数据基于大规模数据的系列应用正在悄然推动着IT基础设施的发展,尤其是大数据对海量、高速存储的需求。为了对大规模数据进行有效的计算,必须最大限度地利用计算和网络资源。计算虚拟化和网络虚拟化要对分布式、异构的计算、存储、网络资源进行有效的管理。云端大数据1.云计算:所谓“云计算”(CloudComputing),是一种基于互联网的计算方式,通过这种方式共享的软硬件资源和信息可以按需求提供给计算机和其他设备。云计算云计算是分布式计算(DistributedComputing)、并行计算(ParallelComputing)、效用计算(UtilityComputing)、网络存储(NetworkStorageTechnologies)、虚拟化(Virtualization)、负载均衡(LoadBalance)等传统计算机和网络技术发展融合的产物。云端大数据云端大数据2.云计算的服务形式

云计算按照服务的组织、交付方式的不同,有公有云、私有云、混合云之分。

(1)公有云向所有人提供服务,典型的公有云提供商是亚马逊。(2)私有云只针对特定客户群提供服务,比如一个企业内部IT可以在自己的数据中心搭建私有云,并向企业内部提供服务。(3)目前,有部分企业整合了内部私有云和公有云,统一交付云服务,这就是混合云。云计算的服务方式云端大数据云计算包括以下几个层次的服务:基础设施服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)。分层体系架构意义上的“层次”IaaS、PaaS和SaaS分别在基础设施层、软件开放运行平台层和应用软件层实现。云计算提供的服务层次云端大数据3.云计算与大数据云计算与大数据云端大数据4.云基础设施大数据解决方案的构架离不开云计算的支撑。支撑大数据及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性。大数据是构建在云计算基础架构之上的应用形式,因此它很难独立于云计算架构而存在。

虚拟化(Virtualization)是云计算所有要素中最基本,也是最核心的组成部分。虚拟化技术的发展其实已经走过了半个多世纪(1956)。在虚拟化技术的发展初期,IBM是主力军,它把虚拟化技术用在了大型机领域。云端大数据1964年,IBM设计了名为CP-40的新型操作系统,实现了虚拟内存和虚拟机。1965年,IBM推出了System/360Model67和TSS分时共享系统(TimeSharingSystem),允许很多远程用户共享同一高性能计算设备的使用时间。1972年,IBM发布了用于创建灵活大型主机的虚拟机技术,实现了根据动态需求快速而有效地使用各种资源的效果。IBMSystem/360感谢观看!《大数据导论》大数据在云端计算虚拟化计算虚拟化计算虚拟化,又称平台虚拟化或服务器虚拟化,它的核心思想是使在一个物理计算机上同时运行多个操作系统成为可能。在虚拟化世界中,我们通常把提供虚拟化能力的物理计算机称为宿主机(Hostmachine),而把在虚拟化环境中运行的计算机称为客户机(Guestmachine)。

计算虚拟化是大数据处理不可缺少的支撑技术,其作用体现在提高设备利用率、提高系统可靠性、解决计算单元管理问题等方面。计算虚拟化虚拟机的快照(Snapshot)操作虚拟机存储的动态迁移虚拟机(VirtualMachine,VM)是对物理计算机功能的一种软件模拟(部分或完全的),其中的虚拟设备在硬件细节上可以独立于物理设备。计算虚拟化计算虚拟化虚拟机管理器(虚拟机管理程序,VirtualMachineMonitor,VMM),通常又称为Hypervisor,是在宿主机上提供虚拟机创建和运行管理的软件系统或固件。Hypervisor可以归纳为两个类型:原生的Hypervisor和托管的Hypervisor。感谢观看!《大数据导论》大数据在云端存储虚拟化存储虚拟化关于大数据,最容易想到的便是其数据量之庞大,如何高效地保存和管理这些海量数据是存储面临的首要问题。存储虚拟化存储虚拟化最通俗的理解就是对一个或者多个存储硬件资源进行抽象,提供统一的、更有效率的全面存储服务。虚拟化存储原理图存储虚拟化有两大分类:块虚拟化(Blockvirtualizatlon)和文件虚拟化(Filevirtualization)。块虚拟化就是将不同结构的物理存储抽象成统一的逻辑存储。文件虚拟化则是帮助用户,使其在一个多节点的分布式存储环境中,再也不用关心文件的具体物理存储位置了。存储虚拟化存储虚拟化1.传统存储系统时代世界上第一块硬盘存储虚拟化目前传统存储系统主要的三种架构,包括DASNAS和SAN。(1)DAS(Direct-AttachedStorage,直连式存储)。(2)NAS(Network-AttachedStorage,网络存储系统)。(3)SAN(StorageAreaNetwork,存储区域网络)。DAS、SAN和NAS三种存储方式存储虚拟化2.大数据时代的新挑战相对于传统的存储系统,大数据存储一般与上层的应用系统结合得更紧密。不同的应用场景,其底层大数据存储的特点也不尽相同。存储系统存储虚拟化结合当前主流的大数据存储系统,可以总结出如下一些基本特点:(1)大容量及高可扩展性。(2)高可用性。(3)高性能。(4)安全性。(5)自管理和自修复。(6)成本。(7)访问接口的多样化。存储虚拟化3.云存储云存储是由第三方运营商提供的在线存储系统,比如面向个人用户的在线网盘和而向企业的文件、块或对象存储系统等。云存储存储虚拟化云存储通过运营商来集中、统一地部署和管理存储系统,降低了数据存储的成本,从而也降低了大数据行业的准入门槛,为中小型企业进军大数据行业提供了可能性。在线文件存储服务提供商Dropbox存储虚拟化云存储背后使用的存储系统其实多是采用分布式架构,而云存储因其更多新的应用场景,在设计上也遇到了新的问题和需求。(1)云存储在管理系统和访问接口上大都需要解决如何支持多租户的访问方式。(2)云存储和云计算一样,都需要解决的一个共同难题就是关于信任(Trust)问题。存储虚拟化将存储作为服务的形式提供给用户,云存储在访问接口上一般都会秉承简洁易用的特性。亚马逊的S3存储存储虚拟化存储虚拟化是云存储的一个重要的技术基础,是通过抽象和封装底层存储系统的物理特性,将多个互相隔离的存储系统统一化为一个抽象的资源池的技术。存储虚拟化存储虚拟化4.大数据存储的其他需求:(1)去重(Deduplication)数据去重大概可以分为基于文件级别的去重和基于数据块级别的去重。(2)分层存储(TieredStorage)比如,计算机系统上通过从外部存储(比如硬盘等)到内存、缓存等一系列存储介质组成的存储金字塔,很好地解决了CPU的数据访问瓶颈问题感谢观看!《大数据导论》大数据在云端网络虚拟化网络虚拟化网络虚拟化,简单来讲是指把逻辑网络从底层的物理网络分离开来,包括网卡的虚拟化、网络的虚拟接入技术、覆盖网络交换,以及软件定义的网络等。网络虚拟化1.网卡虚拟化

多个虚拟机共享服务器中的物理网卡,需要一种机制既能保证I/O的效率,又能保证多个虚拟机对用物理网卡共享使用。I/O虚拟化的出现就是为了解决这类问题。

最新的解决方案是物理设备(如网卡)直接对上层操作系统或Hypervisor提供虚拟化的功能,一个以太网卡可以对上层软件提供多个独立的虚拟的PCIe设备并提供虚拟通道来实现并发访问。这种方法也是业界主流的做法和发展方向,目前已经形成了标准。网络虚拟化2.虚拟交换机在虚拟化的早期阶段,由于物理网卡并不具备为多个虚拟机服务的能力,为了将同一物理机上的多台虚拟机接入网络,引入了一个虚拟交换机(VirtualSwitch)的概念。通常也称为软件交换机,以区别于硬件实现的网络交换机。VMwarevSwitch结构图网络虚拟化3.接入层的虚拟化虚拟接入要解决的问题是要把虚拟机的网络流量纳入传统网络交换设备的管理之中,需要对虚拟机的流量做标识。网络虚拟化4.覆盖网络虚拟化虚拟网络并不是全新的概念,事实上我们熟知的VLAN就是一种已有的方案。VLAN的作用是在一个大的物理二层网络里划分出多个互相隔离的虚拟三层网络,这个方案在传统的数据中心网络中得到了广泛的应用。覆盖网络虚拟化,它可以更好地满足云计算和下一代数据中心的需求,它为用户虚拟化应用带来了许多好处(特别是对大规模的、分布式的数据处理),包括:①虚拟网络的动态创建与分配;②虚拟机的动态迁移(跨子网、跨数据中心);③一个虚拟网络可以跨多个数据中心;④将物理网络与虚拟网络的管理分离;⑤安全(逻辑抽象与完全隔离)。网络虚拟化5.软件定义的网络(SDN)OpenFlow和SDN尽管不是专门为网络虚拟化而生,但是它们带来的标准化和灵活性却给网络虚拟化的发展带来无限可能。基于OpenFlow的网络交换设备网络虚拟化OpenFlow可能的应用场景包括:①校园网络中对实验性通信协议的支持;②网络管理和访问控制;③网络隔离和VLAN;④基于WiFi的移动网络;⑤非IP网络;⑥基于网络包的处理。网络虚拟化6.对大数据处理的意义覆盖网络的虚拟化,一方面使得大数据应用能够得到有效的网络隔离,更好地保证了数据通信的安全;另一力面也使得应用的动态迁移更加便捷,保证了应用的性能和可靠性。网络虚拟化技术通过对性能、可靠性和资源优化利用的贡献,间接提高了大数据系统的可靠性和运行效率感谢观看!《大数据导论》大数据在云端数据即服务数据即服务数据即服务(DataasaService,DaaS)是一个跨越大数据基础设施和应用的领域。例如邓白氏公司为金融、地址以及其他形式的数据提供网络编程接口,费埃哲公司(FICO)提供财务信息,推特为其推文提供访问权限等等。数据即服务1.数据应用这样的数据源允许他人在其基础上建立有趣的应用程序,而这些应用程序可以用于准确预测总统选举结果,或了解消费者对品牌的感觉。

例如在线数据拍卖平台BlueKai公司提供与消费者资料相关的数据,交通驾驶服务系统供应商Inrix公司提供交通数据,律商联讯公司提供法律数据等。数据即服务2.数据清理数据清理涉及的任务包括删除重复记录和使地址字段正常化。展望未来,数据清理很可能成为一项基于云计算的服务。数据即服务3.数据保密随着我们将更多的数据转移到云中,并将自己的信息更多地公布到网上,人们对于数据保密的关注也与日俱增。

在未来,可能出现这样的大数据应用程序:不仅让我们自己决定分享何种数据,也帮助我们了解分享个人信息背后的隐藏含义——无论那些信息对我们是否进行了个人识别。感谢观看!《大数据导论》大数据在云端云的挑战云的挑战过去,这项服务一直存在着三个潜在问题:(1)企业觉得这项服务不安全。内部基础设施被认为更有保障。(2)许多大供应商根本不提供软件的互联网/云版本。公司必须购买硬件,自行运行软件或者雇用第三方做这件事。(3)难以将大量数据从内部系统中提取出来,存入云中。云的挑战云计算在数据安全方面引入的新问题,譬如在云计算基础架构服务层(IaaS,主要有:①新的安全问题,诸如信任问题(特指租客和云服务商之间),多租客之间的资源隔离问题;②对已有的安全攻击,IaaS是否更容易被攻击?或者存在新的技术方法去避免这些攻击。云的挑战亚马逊的EC2服务云的挑战隐私保护、数据备份、灾难恢复、病毒防范、多点服务、数据加密、虚拟机隔离等等,这些都是云安全的研究课题。感谢聆听!《大数据导论》大数据在云端【导读案例】智能大数据分析成热点我国大数据产业市场规模(单位:亿元)【导读案例】智能大数据分析成热点2015年中国大数据细分市场规模占比2014年全球大数据细分市场【导读案例】智能大数据分析成热点大数据未来发展方向【任务描述】(1)了解新兴学科——数据科学的基础知识和主要内容。(2)熟悉数据工作者的技能要求、素质要求、知识结构和培养途径。(3)认识“数据开放”的重要意义,重视隐私保护和信息安全。(4)认识投身大数据时代的积极意义,做大数据的先行者。【知识准备】每当提及“数据科学”(datascience),人们总会联想到另一个含义相近的名词一一“商务智能”(BI)。而测量尺度和关键绩效指标(KPI)通常是在联机分析处理模式(OLAP)中定义,使得商务智能报表的内容能够基于已定义的衡量标准。商务智能的典型技术和数据类型包括:·标准和满足特定需求的报表、信息面板、警报、查询及细节;·结构化数据、传统数据源、易操作的数据集。数据科学的典型技术和数据类型包括:·优化模型、预测模型、预报、统计分析;·结构化/非结构化数据、多种类型数据源、超大数据集。【知识准备】数据科学通常,数据科学的实践需要三个一般领域的技能,即:商业洞察、计算机技术/编程和统计学/数学。而另一方面,不同的工作对象,他的具体技能集合会有所不同。数据科学技能领域技能详情商业1.产品设计和开发2.项目管理3.商业开发4.预算5.管理和兼容性(例如:安全性)技术6.处理非结构化数据(例如:NoSQL)7.管理结构化数据(例如:SQL、JSON、XML)8.自然语言处理(NLP)和文本挖掘9.机器学习(例如:决策树、神经网络、支持向量机、聚类)10.大数据和分布式数据(例如:Hadoop、Map/Reduce、Spark)数学&建模11.最优化(例如:线性、整数、凸优化、全局)12.数学(例如:线性代数、实变分析、微积分)13.图模型(例如:社会网络)14.算法(例如:计算复杂性、计算科学理论)和仿真(例如:离散、基于agent、连续)15.贝叶斯统计(例如:马尔科夫链蒙特卡罗方法)编程16.系统管理(例如:UNIX)和设计17.数据库管理(例如:MySQL、NoSQL)18.云管理19.后端编程(例如:Java/Rails/ObjectiveC)20.前端编程(例如:JavaScript,HTML,CSS)统计21.数据管理(例如:重编码、去重复项、整合单个数据源、网络抓取)22.数据挖掘(例如:R,Python,SPSS,SAS)和可视化(例如:图形、地图、基于Web的数据可视化)工具23.统计学和统计建模(例如:一般线性模型、ANOVA、MANOVA、时空数据分析、地理信息系统)24.科学/科学方法(例如:实验设计、研究设计)25.沟通(例如:分享结果、写作/发表、展示、博客)数据科学中25项技能数据科学1.数据科学技能和熟练程度在上表中列出的这25项技能,反映了通常与数据科学家相关的技能集合。在进行针对数据科学家的调查中,调查者要求数据专业人员指出他们在25项不同数据科学技能上的熟练程度。这项研究数据基于620名被访的数据专业人士,具备某种技能的百分比反映了指出他在该技能上至少中等熟练程度的被访问者比例职位角色,即:商业经理=250;开发人员=222;创意人员=221;研究人员=353。数据科学2.重要数据科学技能分析表明,所有数据专业人员中最常见的数据科学十大技能是:统计–沟通(87%)技术–处理结构化数据(75%)数学&建模–数学(71%)商业–项目管理(71%)统计–数据挖掘和可视化工具(71%)统计–科学/科学方法(65%)统计–数据管理(65%)商业–产品设计和开发(59%)统计–统计学和统计建模(59%)商业–商业开发(53%)数据科学3.因职业角色而异的十大技能(1)商业经理:统计–沟通(91%)商业–项目管理(86%)商业–商业开发(77%)技术–处理结构化数据(74%)商业–预算(71%)商业–产品设计和开发(70%)数学&建模–数学(65%)统计–数据管理(64%)统计--数据挖掘和可视化工具(64%)商业–管理和兼容性(61%)(2)开发人员:技术–管理结构化数据(91%)统计–沟通(85%)统计–数据挖掘和可视化工具(76%)商业–产品设计(75%)数学&建模–数学(75%)统计–数据管理(75%)商业–项目管理(74%)编程–数据库管理(73%)编程–后端编程(70%)编程–系统管理(65%)数据科学数据科学(3)创意人员:统计–沟通(87%)技术–处理结构化数据(79%)商业–项目管理(77%)统计–数据挖掘和可视化工具(77%)数学&建模–数学(75%)商业–产品设计和开发(68%)统计–科学/科学方法(68%)统计–数据管理(67%)统计–统计学和统计建模(63%)商业–商业开发(58%)数据科学(4)研究人员:统计–沟通(90%)统计–数据挖掘和可视化工具(81%)数学&建模–数学(80%)统计–科学/科学方法(78%)统计–统计学和统计建模(75%)技术–处理结构化数据(73%)统计–数据管理(69%)商业–项目管理(68%)技术–机器学习(58%)数学–最优化(56%)数据科学4.按职业角色的重要技能

上述研究所列举的重要数据科学技能取决于你正在考虑成为哪种类型的数据专业人员。虽然一些技能看起来在不同专业人士间通用(尤其是沟通、处理结构化数据、数学、项目管理、数据挖掘和可视化工具、数据管理,以及产品设计和开发),但是其他数据科学技能对特定领域也有独特之处。感谢观看!《大数据导论》大数据在云端数据科学家与数据工作者数据科学家与数据工作者

数据科学家很可能是如今最热门的头衔之一,他们是数据科学行业的高层人才。数据科学家会利用最新的科技手段处理原始数据,进行必要的分析,并以一种信息化的方式将获得的知识展示给他的同事。数据科学家(图片源自百度)数据科学家与数据工作者1.大数据生态系统中的关键角色大数据的出现,催生了新的数据生态系统。为了提供有效的数据服务,它需要3种典型角色。角

色描

述专业人员举例深度分析人才通过定量学科(例如数学、统计学和机器学习)高等训练的人员:精通技术,具有非常强的分析技能和处理原始数据、非结构化数据的综合能力,熟悉大规模复杂分析技术数据科学家、统计学家、经济学家,数学家数据理解专业人员具有统计学和/或机器学习基本知识的人员:知道如何定义使用先进分析方法可以解决的关键问题金融分析师、市场研究分析师、生命科学家、运营经理、业务和职能经理技术和数据的使能者提供专业技术用于支持分析型项目的人员:技能包括计算机程序设计和数据库管理计算机程序员、数据库管理员、计算机系统分析师新数据生态系统中的三个关键角色数据科学家与数据工作者《数据之美》(TobySegaran、JeffHammerbacher编著)哈尔·范里安(1948-)谷歌首席经济学家、加州大学伯克利分校教授数据科学家的关键活动包括:·将商业挑战构建成数据分析问题;·在大数据上设计、实现和部署统计模型和数据挖掘方法;·获取有助于引领可操作建议的洞察力。数据科学家与数据工作者数据科学家与数据工作者2.数据科学家所需的技能数据科学家所需的技能如下:(l)计算机科学。(2)数学、统计、数据挖掘等。(3)数据可视化。信息图的示例数据科学家与数据工作者3.数据科学家所需的素质(l)沟通能力;(2)创业精神;(3)好奇心。

对于新的数据科学家供给来源,有三分之一的人期待“计算机科学专业的学生”,排名第一,而另一方面,期待现有商务智能专家的却只有12%,这一结果比较出人意料。数据科学家与数据工作者数据科学家人才新的供给来源数据科学家与数据工作者

数据科学家与商务智能专家之间的区别在于,从包括公司外部数据在内的数据获取阶段,一直到基于数据最终产生业务上的决策,数据科学家大多会深入数据的整个生命周期。数据科学家参与了数据的整个生命周期

关于数据科学家与商务智能专家的专业背景,有一些重要的调查结果。数据科学家大多学习计算机科学、工程学、自然科学等专业,而商务智能专家则大多学习商业专业。数据科学家与数据工作者商务智能专家与数据科学家在学位上的对比商务智能专家与数据科学家在大学专业上的对比感谢观看!《大数据导论》大数据在云端隐私权与安全性解决这些隐私问题需要对数据积累的本质和数据隐私管理有深刻的理解,同时也要使用一些数据标记化和匿名化技术。隐私权与安全性例如,在一定周期内收集的类似于汽车GPS(全球定位系统)日志或者智能仪表的数据等遥测数据能够透露个人位置和日常习惯。2012年2月23日,“消费者隐私权法案”正式颁布。这项法案中,对消费者的权利进行了如下具体的规定。隐私权与安全性(l)个人控制:对于企业可收集哪些个人数据,并如何使用这些数据,消费者拥有控制权。(2)透明度:对于隐私权及安全机制的相关信息,消费者拥有知情、访问的权利。(3)尊重背景:消费者有权期望企业按照与自己提供数据时的背景相符的形式对个人信息进行收集、使用和披露。(4)安全:消费者有权要求个人数据得到安全保障且负责任地被使用。隐私权与安全性(5)访问与准确性:当出于数据敏感性的因素,或者当数据的不准确可能对消费者带来不良影响的风险时,消费者有权以适当的方式对数据进行访问,以及提出修正、删除、限制使用等要求。(6)限定范围收集:对于企业所收集和持有的个人数据,消费者有权设置合理限制。(7)说明责任:消费者有权将个人数据交给为遵守“消费者隐私权法案”具备适当保障措施的企业。感谢聆听!《大数据导论》大数据在云端连接开放数据连接开放数据“WWW之父”的英国计算机科学家蒂姆·伯纳斯-李(TimBerners-Lee,1955-)爵士连接开放数据1.LOD运动LOD

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论