版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一、云计算的概念1.1 概念云计算是一种通过互联网访问、可定制的IT资源共享池,并按照使用量付费的模式,这些资源包括网络,服务器,存储、应用、服务等。广泛意义上来说,云计算是指服务的交付和使用模式, 即通过网络以按需,易扩展的方 式获取所需的资源,这种服务可以是 IT的基础设施(硬件、软件、平台),也可以是其他服 务,云计算的核心理念就是按需服务,就像人使用水、电、天然气等资源一样。1.2 关键技术1.2.1 虚拟化虚拟化就是将原本运行在真实环境上的计算机系统或组件运行在虚拟出来的环境中。将虚拟化的层次运行在不同的应用程序、操作系统以及硬件资源中,虚拟化在上下两个层次之间起中间连接作用, 使上
2、下两层之间的功能实现类似化,如此一来,上层的运行不是与下层环境相连接,而是在虚拟的环境中运行。上下两层在关系上的耦合化被虚拟化有效解决,在实现方面,上下两层更加独立。在成本节约、服务整合、高效利用资源方面,虚拟化意义重 大。 VMM (Hypervisor)在x86平台虚拟技术中,新引入了虚拟化层通常称为虚拟机监控器(Virtual MachineMonitor,VMM),也叫做Hypervisor 。通常VMM运行的环境就是真实的物理机,称之为宿 主机(host),而虚拟出来的平台通常称为客户机(guest)里面运行的系统对应地也称为客户机操作系统。VMM处于中间层,既要负责对
3、虚拟资源的管理,包括虚拟环境的调度,虚 拟机之间的通信以及虚拟机的管理等,又要负责物理资源的管理,包括CPU,终端,内存,设备等管理。 软件虚拟化和硬件虚拟化软件虚拟化纯软件虚拟化,顾明思义,就是用纯软件的方法在现有的物理平台上(往往并不支持硬件虚拟化)实现对物理平台的指令截获和模拟。常见的软件虚拟机例如 qemu,它是通过纯软件来仿真X86平台处理器的获取、解码和执行,客户机的指令并不在物理平台上直接执行。 由于所有的指令都是软件模拟的,因此性能往往比较差,好处是可以在同一平台上模拟不同架构平台的虚拟机。硬件虚拟化硬件虚拟机化就是物理平台本身提供了对特殊指令的截获和重定向的硬件
4、支持,甚至新的硬件提供额外的资源来帮助软件的实现对关键硬件资源的虚拟化,从而提升性能。以X86平台虚拟化为例,支持虚拟技术的x86 CPU带有特别优化过的指令集来控制虚拟过程,通过这些指令集,VMM会很容易将客户机置于一种受限制的模式下运行,一旦客户机试图访 问物理资源,硬件就会暂停客户机的运行,控制权交回给VMM处理。正式由于虚拟化硬件的提出,从而原先操作系统可以直接在虚拟平台上运行,无需再进行指令集转换,相对于软件虚拟化来说大大减少了相关的性能开销,从而极大简化的VMM的设计,进而使得 VMM能够按通用标准进行编写,性能更加强大。Intel的VT-x技术是代表,在处理器上引入了一个新的执行
5、模式用于运行虚拟机.当虚拟机执行在这个特殊模式中时,任何特权操作都会被处理 器截获并报告给VMM。 半虚拟化和全虚拟化半虚拟化软件虚拟化可以在缺乏硬件虚化支持的平台上通过VMM软件来实现对各个虚拟机的监控,以保障他们之间批次独立和隔离。但是付出的代价是软件的复杂度的增加,和性能的损失。减轻这种负担的一种方法, 就是改动客户机的内核模块,使得它以为自己运行在虚拟环境下,能够与 VMM协同工作。这种方法叫做半虚拟化。半虚拟化弱化了对虚拟机特殊 指令的被动截获要求,将其转化为客户机主动通知VMM。所以需要修改客户机内核源码来实现主动通知。假如你是深信服的云桌面使用者,你会发现在装有wi
6、ndows的客户机上会自带许多fastIO的驱动。其实这些驱动就是为半虚拟化服务的,其作用就是提升虚拟机的性能。全虚拟化与半虚拟化技术不同,全虚拟化为客户机提供了完成的虚拟X86平台,包括cpu,内存和外设。不需要对客户机内核做任何修改即可正常运行在非虚拟化环境中,是全虚拟化无可比拟的优势。但是性能上相对半虚拟化还是要差一点。业界很多都认为, 基于硬件的全虚拟化产品将是未来虚拟化技术的核心。但是本人认为混合虚拟化才是未来的核心,因为所有硬件的虚拟化都有内核提供开发成本太大而且完全没有必要,只需要将最重要的CPU虚拟化和内存虚拟化放入内核中,其余设备的都可以通过半虚拟化来提高性能。KVM-QEM
7、U就是这样做的,在后序的文章中也会介绍到122分布式文件系统指在文件系统基础上发展而来的云存储分布式系统,可用于大规模的集群,主要特点: 1、高可靠性:云存储系统支持多个节点间保存多个数据副本的功能,以提供数据的可靠性;2、高访问性:根据数据的重要性和访问频率将数据分级多副本存储、热点数据并行读写, 提高访问; 3、在线迁移、复制: 存储节点支持在线迁移,复制、扩容不影响上层应用; 4、自动负载均衡:可以根据当前系统的负荷,将原有节点上的数据迁移到新增的节点上, 特有的分片存储,以块为最小单位来存储,存储和查询时所有的存储节点并行计算; 5、元数据和数据分离:采用元数据和数据分离的存储方式设计
8、分布式文件系统。1,2.3分布式数据库能实现动态负载均衡、故障节点自动接管、具有高可靠性,高可用性、高可扩展性;1.3 云存储安全性1.3.1 数据加密云存储服务提供商所提供的云存储服务技术中必不可少的一项基本技术就是对静态存 储的数据以及传输过程中动态数据进行加密.云端存储系统在保证敏感数据机密性的同时,必须具有加密数据共享技术来适应如今的网络环境。保护用户隐私性要求存储安全建立在对存储系统的信任基础之上。必须建立适用于网络存储系统的加密存储技术,提供端到端加密存储技术及密钥长期存储和共享机制,以确保用户数据的机密性和隐私性,提高密钥存储的安全性、分发的高效性及加密策略的灵活性。132访问控
9、制访问控制仍然是云计算系统中的基本安全机制之一.通过访问权限管理来实现系统中数据和资源的保护.防止用户进行非授权的访问。云端存储系统的访问控制建立在用户身份认证的基础之上,在进行系统访问控制规则的设计过程中.应遵循最小权限原则,也就是说,应该做到每个用户拥有的权限只能访问和修改他 们所必需的信息或者资源。目前,比较常用的访问控制模型是访问控制矩阵、访问控制列表以及基于角色的访问控制等。访问控制矩阵模型的优点是可以快速准确地确定访问权限,但缺点是随着访问主体和客体数量的增加,访问矩阵将变得越来越大。与访问控制矩阵相比,访问控制列表占用空间更小, 但是它不能有效列举主体所有的访问权限。133安全日
10、志和审计安全日志和审计是云存储安全技术中必不可少的一项技术要求,因为它提供了除用户和云存储服务提供商之外的第三方安全监督机制,审计不仅可以监督存储上对用户数据安全性做出的承诺和服务是否实现,还会审计用户的数据是否合法.安全日志提供子系统的安全状态,从日志可以分析出系统存在的一些威胁,就可以尽早防范,做应对措施。审计可以采取内审和外审相结合的模式,这样更有利于保护用户数据的安全性134多副本策略在分布式云存储中,因个别节点故障可能造成用户数据的丢失,因此必须采取技术手段避免单点失败,保证用户存储在云端数据的可恢复性.保证数据可恢复性的最常用方法是提供冗余与容错能力。副本技术是一种最常用的手段,即
11、每个数据块在整个集群之上有多个备份,备份的数量可以由用户自己决定。 这些备份根据系统的分布情况分布在不同的物理位置, 从而防止一个节点失效而导致多个备份无法访问的情况。例如,Google GFS就提供3个副本的容错技术,以达到效率和可靠性的平衡。1.3.5 数据的差异性保存云存储出来之前,用户的数据都是存储在自己的私有服务器中,为了数据的安全性数据的保密等级是必不可少的。这种策略可以运用到云存储上面,将关键的数据由用户自己保存,剩下的普通数据存放在云上,这样在私有存储和云存储上找到一个折中,使安全性和 实用性都得到一个很好的保证。1.4 hadoop 生态在云计算这一块,hadoop算做的比较
12、不错,hadoop平台的基本框图和生态系统如下 所示:HADOOP生态系统福号城比.上、匚Ilana流数据处理TjtPig效据分析工具性MahuutH志数据处理系统On ik th数据分库处理工具Jlivd与布式文件系缙IDFS分布式莫据库 1IBA5E及共服务ChTinnn势排序列化,VVTT说明:1、MapReduce :是一个并行化计算框架,提供了 map和reduce两阶段的并行处理模 型和过程,mapreduce以键值对的数据输入方式来处理数据, 并能自动完成数据的划分和调 度管理;2、分布式文件系统(HDFS):基于物理上分布在各个数据存储节点的本地Linux系统的文件系统,为上次
13、提供一个逻辑上成为整体的大规模数据存储系统;3、分布式数据库管理系统(HBASE):克服了难以管理结构化/半结构化海量数据的缺 点,提供了一个大规模分布式的,建立在HDFS之上的分布式数据库管理系统,Hbase提供了基于行,列和时间戳的三维数据管理模型;4、公共服务模块(Common ):为hadoop提供支撑服务和常用的工具类库以及api编程接口,服务包括:抽象文件系统fileSystem、远程过程调用(RPC),系统配置工具以及序列化机制;5、数据序列化(Avro):用于将数据结构和数据对象转变成数据存储和网络传输的格式;6、分布式协调服务(Zookeeper ):主要用户提供分布式应用经
14、常需要的系统可靠性维 护,数据状态同步、统一命名服务,分布式应用配置等管理功能;7、分布式数据仓库处理工具( Hive):用于管理存在 HDFS和hbase中的结构化/半结 构化的数据。8、数据流处理工具(Pig):用来处理大规模数据集平台,程序员可以使用它将复杂的数 据分析任务实现为pig操作上的数据流脚本,这些脚本最终执行时将被系统自动转为mapreduce 任务链, 在 hadoop 上执行;9、键值对数据库(Cassandro ):是一个键值对数据库;10、关系数据交换工具 (Sqoop ):可以将一个关系型数据库中的数据批量导入hadoop的HDFS,HBASE、Hive中,也可以反
15、过来将数据导入关系型数据中。11、日志数据收集工具(Flume):它将数据从生产、 传输、处理、输出的过程抽象为数 据流,并允许在数据源中定义数据发送方,从而支持基于各种不同传输协议的数据,同时也支持对数据的过滤,格转等能力。二、虚拟机和容器(Container )的区别2虚拟机技术它通过一个软件层的封装,提供和物理硬件相同的输入输出表现,实现了操作系统和计算机硬件的解耦,将 OS和计算机间从1对1变成了多对多(实际上是1对多)的关系。该软件层称为虚拟机管理器 (VMM/Hypervisor ),它可以直接运行在裸机上 (Xen、VMware EXSi), 也可以运行在操作系统上( KVM、V
16、Mware workstation )。这项技术已经很成熟了(发展了 40多年),但仍然存在以下几个问题:在虚拟机上运行了一个完整的操作系统(GuestOS),在其下执行的还有虚拟化层和宿主机操作系统,一定比直接在物理机上运行相同的服务性能差;有GuestOS的存在,虚拟机镜像往往有几个G到几十个G,占用的存储空间大,便携性差;想要使用更多硬件资源,需要启动一台新的虚拟机,要等待GuesOS启动,可能需要几 十秒到几分钟不等。工 A叩 #2I'(,'> ' I BINS / LIBS IUJNS LI13SG:,JFSTQSI GUESTOSIGlfFST QSH
17、YPERVISORHOST OPERATING SYSTEMINFRASTRUCTURE2.2 容器虚拟化技术容器是没有GuestOS的轻量级“虚拟机”,多个容器共享一个 OS内核,容器中包含需要 部署的应用和它依赖的系统环境,容器大小通常只有几十到几百MB。由于共享操作系统内核,所以容器依赖于底层的操作系统,各个操作系统大都有自己的容器技术和容器工具。Docker是一个Linux容器管理工具,随着Docker的兴起,Linux容器技术也是当下最时 兴的容器虚拟化技术。Linux容器工具有很多, OpenVZ、LXC、Docker、Rocket、Lmctfy等等,大都是基于 Linux内核提供
18、的两个机制: Cgroups (实现资源按需分配)和 Namespace (实现任务隔离)。酉口. APP #2. 区抄BIN5/LIBS . BINS/LIB5 . BINS /DOCKER DAEMONHOST OPERATING SYSTEMINFRASTRUCTURE2.3 对比分析虚拟机技术已经发展了很多年,虚拟机和虚拟化层间的接口、虚拟机镜像格式等都已经标准化了,相应的管理工具、分布式集群管理工具都有比较完善的解决方案,而容器最近几年才兴起,配套技术和标准还在完善中;虚拟机由于有 GuestOS存在,可以和宿主机运行不同 OS,而容器只能支持和宿主机内 核相同的操作系统;虚拟机由于
19、有 VMM的存在,虚拟机之间、虚拟机和宿主机之间隔离性很好,而容器之 间公用宿主机的内核,共享系统调用和一些底层的库,隔离性相对较差;容器比虚拟机明显更轻量级,对宿主机操作系统而言, 容器就跟一个进程差不多。因此 容器有着更快的启动速度 (秒级甚至更快),更高密度的存储和使用 (镜像小)、更方便的集 群管理等优点。同时由于没有 GuestOS存在,在容器中运行应用和直接在宿主机上几乎没 有性能损失,比虚拟机明显性能上有优势。操作系统与宿主机共享05宿主机0S上运行虚拟机0S存储大小镇像小,便于存储与传输钱像庞大(vmdk. vdi等)运行性能几乎无额外性能损失操作系统额外的CPU、内存消耗移植
20、性轻便、灵活,适应于Linux笨重,与虚拟化技术耦合度高硬件亲和性面向软件开发者一 "面向硬件运维者部署速度快速,秒级较慢,10s以上容器技术与传统虚拟机性能对比三、云计算的五种基本特征3.1 自助服务消费者不需要或很少需要云服务提供商的协助就可以单方面按需获取云端的计算资源。3.2 广泛的网络访问消费者可以随时随地使用任何云终端设备接入网络并使用云端的计算资源。常见的云终端设备包括手机、平板、笔记本电脑、PDA掌上电脑和台式机等。3.3 资源池化云端计算资源需要被池化以便通过多租户形式共享给多个消费者,也只有池化才能根据消费者的需求动态分配或再分配各种物理的和虚拟的资源。消费者通常
21、不知道自己正在使用的 计算资源的确切位置,但是在自助申请时允许指定大概的区域范围(比如在哪个国家、 哪个 省或者哪个数据中心)。3.4 快速弹性消费者能方便、快捷地按需获取和释放计算资源,也就是说,需要时能快速获取资源从而扩展计算能力,不需要时能迅速释放资源以便降低计算能力,从而减少资源的使用费用。对于消费者来说,云端的计算资源时无限的,可以随时申请并获取任何数量的计算资源。但是我们一定是投资巨大的工程, 也不一定具备超大规模的运算能力。其实一台计算机就可以组建一个最小的云端,云端建设方案务必采用可伸缩性策略,刚开始是采用几台计算机,然后根据用户数量规模来增减计算资源。3.5 计费服务消费者使
22、用云端计算资源是要付费的,付费的计量方法有很多,比如根据某类资源(如存储、CPU、内存、网络带宽等)的使用量和时间长短计费, 也可以按照每使用一次来计费。 但不管如何计费,对消费者来说,价码要清楚,计量方法要明确,而运服务提供商需要监视和控制资源的使用情况,并及时输出各种资源的使用报表,做到供/需双方费用结算清清楚楚、明明白白。四、云计算的四种部署模式4.1 私有云云端资源只给一个单位组织内的用户使用,这是私有云的核心特征。而云端的所有权、 日程管理和操作的主体到底属于谁并没有严格的规定,可能是本单位,也可能是第三方机构,还可能是二者的联合。云端可能位于本单位内部,也可能托管在其他地方。4.2
23、 社区云云端资源专门给固定的几个单位内的用户使用,而这些单位对云端具有相同的诉求(如安全要求、云端使命、规章制度、合规性要求等)。云端的所有权、日常管理的操作的主体可能是本社区内的一个或多个单位,也可能是社区外的第三方机构,还可能是二者的联合。 云端可能部署在本地,也可能部署与他处。4.3 公共云云端资源开发给社会公众使用。云端的所有权、日常管理和操作的主体可以是一个商业组织、学术机构、政府部门或者它们其中的几个联合。云端可能部署在本地,也可能部署于 其他地方,比如北京市民公共云的云端可能就建在北京,也可能建在天津。4.4 混合云混合云由两个或两个以上不同类型的云(私有云、社区云、公共云)组成
24、,它们各自独 立,但用标准的或专有的技术将它们组合起点,而这些技术能实现云之间的数据和应用程序的平滑流转。由多个相同类型的云组合在一起,混合云属于多云的一种。私有云和公共云构成的混合云是目前最流行的一一当私有云资源短暂性需求过大(称为云爆发,Cloud Bursting )时,自动租赁公共云资源来平抑私有云资源的需求峰值。例如,网店在节假日期间点击量巨大,这时就会临时使用公共云资源的应急。五、云计算三种模型5.1 体系结构云计算的体系结构大致分为 3个层次:核心服务层、服务管理层、用户访问接口层。篦&应II用户切问接口层 .;/服务管理服 务 质 a 保 证QoS安 全 管 理5.2
25、SaaS:软件即服务软件即服务(也称为云应用程序服务) 代表了云市场中企业最常用的选项。SaaS利用互联网向其用户提供应用程序, 这些应用程序由第三方供应商管理。大多数SaaS应用程序直接通过Web浏览器运行,不需要在客户端进行任何下载或安装。SaaS交付:由于其网络传输模式,SaaS无需在每台计算机上下载和安装应用程序,而 在每台计算机上下载和安装应用程序正是IT员工的噩梦。 通过SaaS,供应商可以管理所有潜在的技术问题,例如数据、中间件,服务器和存储,因此企业可以简化其维护和支持。SaaS的优势:SaaS通过大大减少安装,管理和升级软件等繁琐任务所花费的时间和金 钱,为员工和公司提供了许
26、多好处。这让技术人员可以花更多时间来处理组织内更紧迫的事情和问题。SaaS的特点:1、在统一的地方管理 2、托管在远程服务器上 3、可通过互联网访 4、 用户不负责硬件或软件更新5.3 PaaS:平台即服务云平台服务或平台即服务 (PaaS)为某些软件提供云组件, 这些组件主要用于应用程序。PaaS为开发人员提供了一个框架,使他们可以基于它创建自定义应用程序。所有服务器, 存储和网络都可以由企业或第三方提供商进行管理,而开发人员可以负责应用程序的管理。PaaS的交付:PaaS的交付模式类似于 SaaS,除了通过互联网提供软件,PaaS提供了一个软件创建平台。该平台通过Web提供,使开发人员可以
27、自由地专注于创建软件,同时不必担心操作系统、软件更新,存储或基础架构。PaaS允许企业使用特殊的软件组件设计和创建内置于PaaS中的应用程序。由于具有某些云特性,这些应用程序或中间件具有可扩展性和高可用性。PaaS优势:无论您的公司规模如何,使用PaaS都有很多优势:? 使应用程序的开发和部署变得简单且经济高效? 可扩展? 高度可用? 使开发人员能够创建自定义应用程序,而无需维护软件? 大大减少了编码量? 自动化业务策略? 允许轻松迁移到混合模型PaaS的特点:PaaS具有许多将其定义为云服务的特征,包括:? 它基于虚拟化技术,这意味着随着业务的变化,资源可以轻松扩展或缩小? 提供各种服务以协
28、助开发,测试和部署应用程序? 许多用户可以访问相同的开发应用程序? Web服务和数据库是集成的5.4 IaaS:基础架构即服务云基础架构服务称为基础架构即服务(IaaS),由高度可扩展和自动化的计算资源组成。IaaS是完全自助服务,用于访问和监控计算、网络,存储和其他服务等内容,它允许企业按 需求和需要购买资源,而不必购买全部硬件。IaaS交付:IaaS通过虚拟化技术为组织提供云计算基础架构,包括服务器、网络,操作系统和存储等。这些云服务器通常通过仪表盘或API提供给客户端,IaaS客户端可以完全控制整个基础架构。IaaS提供与传统数据中心相同的技术和功能,而无需对其进行物理上的维护或管理。I
29、aaS客户端仍然可以直接访问其服务器和存储,但它们都通过云中的“虚拟数据中心”。与SaaS或PaaS相反,IaaS客户端负责管理应用程序、运行时、操作系统,中间件和数据等方面。但是,IaaS的提供商管理服务器、硬盘驱动器、网络,虚拟化和存储。一些提供 商甚至在虚拟化层之外提供更多服务,例如数据库或消息队列。IaaS的优势:? 是最灵活的云计算模型? 轻松实现存储、网络,服务器和处理能力的自动部署? 可以根据消耗量购买硬件? 使客户能够完全控制其基础架构? 可以根据需要购买资源 ? 高度可扩展IaaS的特点:? 资源可作为服务提供? 费用因消费而异? 服务高度可扩展? 通常在单个硬件上包括多个用
30、户? 为组织提供对基础架构的完全控制? 动态灵活六、大数据五种关键技术6.1 大数据采集技术数据采集是指通过 RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据 等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据, 是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、 转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。大数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量
31、数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必 须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层:提供 大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决 策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。6.2 大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作。1、抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些 复杂的数据转化为单一的或者便于处理的构型,以达到快速分
32、析处理的目的。2、清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另 一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。6.3 大数据存储及管理技术大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存 储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织
33、技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术; 开发大数据可视化技术。开发新型数据库技术,数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。 其中,非关系型数据库主要指的是NoSQL数据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。开发大数据安全技术。改进数据销毁、透明加解密、分布式访问控制、数据审计等技术; 突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。6.4 大数据分析及挖掘技术大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘、
34、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术; 突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取 隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识的过程。数据挖掘涉及的技术方法很多,有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以
35、及环球网Web ;根据挖掘方法分,可粗分为机器学习方法、统计方法、神经网络方法和数据库方法。机 器学习中,可细分为:归纳学习方法(决策树、规则归纳等 卜基于范例学习、遗传算法等。统 计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、 非参数判别等卜聚类分析(系统聚类、动态聚类等卜探索性分析(主元分析法、相关分析法等) 等。神经网络方法中,可细分为 :前向神经网络(BP算法等)、自组织神经网络(自组织特征映 射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。从挖掘任务和挖掘方法的角度,着重突破:1、可视化分析。数据可视
36、化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。2、数据挖掘算法。 图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分 割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。3、预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些 前瞻性判断。4、语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。 语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。5、数据质量和数据管理。 数据质量与管理是
37、管理的最佳实践,透过标准化流程和机器 对数据进行处理可以确保获得一个预设质量的分析结果。6.5 大数据展现与应用技术大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。在我国,大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。例如: 商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、 智能交通、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技术,
38、多媒体数据并行化处理技术,影视制作渲染技术, 其他各种行业的云计算和海量数据处理应用技术等。七、大华云技术说明7.1对称式与非对称式的对比分析按照元数据的管理方式,集群文件系统可分为对称式和非对称式。对称式集群系统中每个节点的角色均等,共同管理和维护元数据, 节点间通过高速网络进行信息同步和互斥锁等 操作。而非对称式集群文件系统中,有专门的一个或者多个节点负责管理元数据,其他节点需要频繁与元数据节点通信以获取最新的元数据比如目录列表、文件属性等等。7.11扩展性对称式架构集群系统中的节点数量不能太多,否则节点间相互的通信量将迅速激增,达到瓶颈,比如系统中有 10个节点的话,每个节点可能同时在与
39、其他9个节点通信,此时系统连接总数近似为10x10,如果100个节点,则连接总数为 99x99,随着节点数量增加,信 息同步复杂度呈几何级数增长,节点性能奇差。对称式架构中市场成熟度最高的Isilon,其宣称的最大集群规模为 144个节点,但在实际部署中,绝大多数都拆分成10个节点左右的多个集群。而非对称式由专用的服务器维护元数据,节点增加带来的元数据复杂度是线性的,因而集群性能能够实现线性。这也就是为什么全球top 100的集群存储系统鲜有采用对称式架构,而在top 10中,全部采用非对称式架构。7.L2安全性对称式架构中,节点间的耦合性非常紧密,一旦某个节点出现问题,比如相应延迟,那 么向
40、其加锁就会迟迟得不到应答,影响整个集群的性能,一人犯科,株连九族。再比如一旦某个节点发飙把文件系统元数据破坏,也一样是全家遭殃,轻则丢失数据或元数据不一致, 重则系统整体瘫痪。非对称式架构中,节点间采用松耦合机制, 数据节点故障可以得到很好的隔离,系统的健壮性更强。7.L3后端数据交互压力对系统的影响分布式系统由于数据分散存放在不同的节点,因而,出现磁盘故障或者节点故障时不可避免的会进行跨节点的数据重构。当追求重构速度时,节点间的数据交互压力很大,为了避免网络拥塞,拖慢整个系统,需要将业务网络和存储网络分离。业务网络和存储网络分别使用不同的物理网卡以达到从网络上相互隔离的目的,可以根据用户现有
41、网络状况选择千兆和万兆连接。前端ipc接入的数据流走单独的业务网络,后端数据离散流和控制信令流走单独的存储网络,以满足不同场景用户的组网需求。无论哪种组网,系统中所有节点网络都是冗余,任何单一网口故障或者单一交换机故障均不影响系统使用。业务网络存储网络.7.2 元数据高可靠性元数据服务器集群内部, 通过单独网络连接, 进行实时的错误检测。 单独网络保证心跳 不会受到数据中心其他网络通讯的干扰,保证链路的可靠性。心跳机制保证集群服务器之间错误的实时检测和发现,为主备快速切换提供保证。云存储的管理节点采用了主备双机镜像热备的高可用机制,在主管理节点出现故障时, 备管理节点自动接替主管理节点的工作,
42、成为新的主管理节点,大幅提高了系统的稳定性, 保障系统的7X24小时不间断服务,支持应用系统对数据的随时存取。每台元数据服务器内部,存储元数据的磁盘都组 RAID1 ,相当于每个元数据总共有 4个副本,以更好的保障元数 据的可靠性。7.3 动态负载均衡动态负载均衡指集群内部,自动根据各存储节点的IO负载、空间容量、CPU、内存负载等因素,调度数据流向,实现IO读写的负载均衡。大华云存储采用两级负载均衡调度,首先由元数据服务器选择一个负载轻的数据节点作 为当前请求的读写节点,同时节点内部还会根据每个硬盘的负载选择最合适的硬盘参与数据 写入。对于存储数据写入而言, 动态负载均衡表现为任意时刻, 数
43、据节点的写入负载是动态均 衡的。元数据服务器根据各节点的负载情况, 自动调度,将新的数据写入调度到综合负载相 对较低的节点,实现整体负载平衡。 对于存储数据读出, 则根据数据分布情况,以及数据分 布的几台设备负载情况,选择从负载较轻的节点读取数据。7.4 高速并发访问客户端在访问云存储时,首先访问元数据服务器,获取将要与之进行交互的数据节点信 息,然后直接访问这些数据节点完成数据存取。客户端与元数据服务器之间只有控制流,而无数据流,这样就极大地降低了元数据服务 器的负载,使之不成为系统性能的一个瓶颈。客户端与数据节点之间直接传输数据流,同时由于文件被分散到多个节点进行分布式存储,客户端可以同时
44、访问多个节点服务器,从而使得整个系统的I/O高度并行,系统整体性能得到提高。系统的整体吞吐率与节点服务器的数量呈正比。7.5 系统安全性云存储对外提供登陆、 认证接口,保证系统安全性。 云平台必须配置云存储的用户名和 密码之后才能接入到云存储系统。用户通过云存储运维系统进行删除节点,格式化节点等操作时,必须再次输入用户名密码,防止系统被非法破坏。八、5G网络技术的三大类8.1 核心网极心冏。卫茶甘m建橹枝木王曦接入网超的工冬址n入何本 4调I回主义无境事核心网关键技术主要包括:网络功能虚拟化( 和多接入边缘计算(MEC)。NFV)、软件定义网络(SDN)、网络切片以如无片电&L1网络功
45、能虚拟化(NFV)NFV,就是通过IT虚拟化技术将网络功能软件化,并运行于通用硬件设备之上,以替代传统专用网络硬件设备。NFV将网络功能以虚拟机的形式运行于通用硬件设备或白盒之上, 以实现配置灵活性、可扩展性和移动性,并以此希望降低网络CAPEX和OPEX。垂直f化 时闭,专用横向扩原 开放接口 灵活敬捷 加速创新NFV要虚拟化的网络设备主要包括:交换机(比如 Open vSwitch )、路由器、HLR (归 属位置寄存器)、SGSN、GGSN、CGSN、RNC (无线网络控制器)、SGW (服务网关)、PGW (分组数据网络网关)、RGW (接入网关)、BRAS (宽带远程接入服务器)、C
46、GNAT (运营商 级网络地址转换器)、DPI (深度包检测)、PE路由器、MME (移动管理实体)等。NFV独立于SDN,可单独使用或与 SDN结合使用。8,12软件定义网络(SDN)软件定义网络(SDN),是一种将网络基础设施层(也成为数据面)与控制层(也称为 控制面)分离的网络设计方案。网络基础设施层与控制层通过标准接口连接,比如OpenFLow(首个用于互连数据和控制面的开放协议)。SDN将网络控制面解耦至通用硬件设备上,并通过软件化集中控制网络资源。控制层 通常由SDN控制器实现,基础设施层通常被认为是交换机,SDN通过南向 API (比如OpenFLow)连接SDN控制器和交换机,
47、通过北向 API连接SDN控制器和应用程序。应用层SDN可实现集中管理,提升了设计灵活性,还可引入开源工具,具备降低CAPEX和OPEX以及激发创新的优势。&L3网络切片(Network Slicing)5G网络将面向不同的应用场景,比如,超高清视频、VR、大规模物联网、车联网等,不同的场景对网络的移动性、安全性、时延、可靠性,甚至是计费方式的要求是不一样的, 因此,需要将一张物理网络分成多个虚拟网络,每个虚拟网络面向不同的应用场景需求。虚拟网络间是逻辑独立的,互不影响。一张网络使能多种服务、端到端网络切片URLLC e-堆人网传漏网横心网mMTC只有实现NFV/SDN之后,才能实现网
48、络切片,不同的切片依靠NFV和SDN通过共享的物理/虚拟资源池来创建。网络切片还包含MEC资源和功能。8.1.4多接入边缘计算(MEC)多接入边缘计算(MEC),就是位于网络边缘的、基于云的IT计算和存储环境。它使数据存储和计算能力部署于更靠近用户的边缘,从而降低了网络时延,可更好的提供低时延、 高宽带应用。MEC可通过开放生态系统引入新应用,从而帮助运营商提供更丰富的增值服务,比如 数据分析、定位服务、AR和数据缓存等。8.2 前传和回传8.2.1 前传和回传技术回传(Backhaul)指无线接入网连接到核心网的部分,光纤是回传网络的理想选择,但 在光纤难以部署或部署成本过高的环境下,无线回
49、传是替代方案,比如点对点微波、 毫米波回传等,此外,无线mesh网络也是5G回传的一个选项, 在R16里,5G无线本身将被设计 为无线回传技术,即IAB (5G NR集成无线接入和回传)。前传(Fronthaul )指BBU池连接拉远 RRU部分,如C-RAN章节所述。前传链路容量 主要取决于无线空口速率和 MIMO天线数量,4G前传链路采用CPRI (通用公共无线接口) 协议,但由于5G无线速率大幅提升、MIMO天线数量成倍增加,CPRI无法满足5G时代的前传容量和时延需求,为此,标准组织正在积极研究和制定新的前传技术,包括将一些处理能力从BBU下沉到RRU单元,以减小时延和前传容量等。8.
50、3 无线接入网为了提升容量、频谱效率,降低时延,提升能效,以满足 5G关键KPI, 5G无线接入网 包含的关键技术包括:C-RAN、SDR (软件定义无线电)、CR (认知无线电)、Small Cells、自组织网络、D2D通信、Massive MIMO、毫米波、高级调制和接入技术、带内全双工、载 波聚合、低时延和低功耗技术等。831云无线接入网JRAN)云无线接入网(C-RAN),将无线接入的网络功能软件化为虚拟化功能,并部署于标准 的云环境中。C-RAN概念由集中式 RAN发展而来,目标是为了提升设计灵活性和计算可扩 展性,提升能效和减少集成成本。在 C-RAN构架下,BBU功能是虚拟化的
51、,且集中化、池 化部署,RRU与天线分布式部署,RRU通过前传网络连接 BBU池,BBU池可共享资源、灵 活分配处理来自各个 RRU的信号。C-RAN的优势是,可以提升计算效率和能效,易于实现CoMP(协同多点传输)、多RAT、 动态小区配置等更先进的联合优化方案,但C-RAN的挑战是前传网络设计和部署的复杂性。8.3.1 软件定义无线电(SDR)软件定义无线电(SDR),可实现部分或全部物理层功能在软件中定义。需要注意软件定义无线电和软件控制无线电的区别,后者仅指物理层功能由软件控制。在SDR中可实现调制、解调、滤波、信道增益和频率选择等一些传统的物理层功能, 这些软件计算可在通用芯片、GP
52、U、DSP、FPGA和其他专用处理芯片上完成。8.3.2 认知无线电(CR)认知无线电(CR),通过了解无线内部和外部环境状态实时做出行为决策。SDR被认为是CR的使能技术,但 CR包括和可使能多种技术应用,比如动态频谱接入、自组织网络、 认知无线电抗干扰系统、认知网关、认知路由、实时频谱管理、协作 MIMO等。8.3,4 Small CellsSmall Cells,就是小基站(小小区),相较于传统宏基站, Small Cells的发射功率更低, 覆盖范围更小,通常覆盖 10米到几百米的范围,通常 Small Cells根据覆盖范围的大小依次 分为微蜂窝、Picocell和家庭Femtoce
53、ll。Small Cells的使命是不断补充宏站的覆盖盲点和容量,以更低成本的方式提高网络服务质量。考虑5G无线频段越来越高,未来还将部署5G毫米波频段,无线信号频段更高,覆盖范围越小,加之未来多场景下的用户流量需求不断攀升,后 5G时代必将部署大量 Small Cells,这些Small Cells将与宏站组成超级密集的混合异构( HetNet)网络,这将为网络管 理、频率干扰等带来空前的复杂性挑战。83.5自组织网络(SON)自组织网络(SON),指可自动协调相邻小区、自动配置和自优化的网络,以减少网络 干扰,提升网络运行效率。SON并不是新鲜概念, 早在3G时代就提出,但进入 5G时代,
54、SON将是一项至关重要 的技术。如上所述,5G时代网络致密化给网络干扰和管理提出了空前的复杂性挑战,更需 要SON来最小化网络干扰和管理,但即便是SON恐怕也难以应付超级密集的5G网络,因此,还需要上文提到的 CR (认知无线电)技术来帮忙。8.3.6设备到设备通信(D2D)设备到设备通信(D2D),指数据传输不通过基站,而是允许一个移动终端设备与另一 个移动终端设备直接通信。D2D源于4G时代,被称为 LTE Proximity Services (ProSe)技术,是一种基于3GPP通信系统的近距离通信技术,主要包括两大功能:?Direct discovery ,直连发现功能,终端发现周围
55、有可以直连的终端;?Direct communication ,直连通信,与周围的终端进行数据交互。在4G时代D2D通信主要仅应用于公共安全领域,进入 5G时代,由于车联网、自动驾 驶、可穿戴设备等物联网应用将大量兴起,D2D通信的应用范围必将大大扩展,但会面临安全性和资源分配公平性挑战。837 Massive MIMO要提升无线网速,主要的办法之一是采用多天线技术,即在基站和终端侧采用多个天线, 组成MIMO系统。MIMO系统被描述为 MX N,其中M是发射天线的数量,N是接收天线的 数量(比如4X2 MIMO)。如果MIMO系统仅用于增加一个用户的速率,即占用相同时频资源的多个并行的数据
56、流发给同一个用户, 称之为单用户 MIMO (SU-MIMO );如果MIMO系统用于多个用户, 多 个终端同时使用相同的时频资源进行传输,称之为多用户 MIMO (MU-MIMO ), MU-MIMO可大幅提升频谱效率。多天线还应用于波束赋形技术, 即通过调整每个天线的幅度和相位, 赋予天线辐射图特 定的形状和方向,使无线信号能量集中于更窄的波束上, 并实现方向可控,从而增强覆盖范 围和减少干扰。Massive MIMO 就是采用更大规模数量的天线,目前 5G主要采用的 64x64 MIMO。 Massive MIMO可提升大幅无线容量和覆盖范围,但面临信道估计准确性(尤其是高速移动场景)、多终端同步、功耗和信号处理的计算复杂性等挑战。838 毫米波(mmWave)毫米波(mmWave ),指RF频率在30GHz和300GHz之间的无线电波,波长范围从1mm 到10mm。5G与2/3/4G最大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《中国网络动力之源》课件
- 诊所劳动合同范本
- 关于策划的合同范本
- 《CT胸部正常解剖》课件
- 工程承包施工协议完整版
- 《针灸治疗学讲稿》课件
- 《gmp偏差处理》课件
- 酒店定点采购合同范本
- 卫生间防水合同
- 纠纷协议书范文
- 中南大学《油气田开发地质学》2023-2024学年第一学期期末试卷
- 2024年山东菏泽文化旅游投资集团限公司权属公司招聘56人管理单位遴选500模拟题附带答案详解
- 湖北省鄂东南省级示范高中教育教学改革联盟学校2024-2025学年高一上学期期中联考数学试题 含解析
- 2024年工程教育:《工程制图》教案的新挑战
- DB41T 1381-2017 洁净厂房用环链电动葫芦
- 中小学教师安全知识培训
- 浙江省杭州市2024-2025学年高三上学期一模英语试题(含解析无听力原文及音频)
- 缤纷舞曲-《蓝色多瑙河圆舞曲》、《雷鸣电闪波尔卡》 课件 2024-2025学年人音版(简谱)(2024)初中音乐七年级上册
- 大学生魅力讲话实操学习通超星期末考试答案章节答案2024年
- 孔竖笛市场环境与对策分析
- 自考证据法学讲义(大全)
评论
0/150
提交评论