(计算机系统结构专业论文)p2p流量识别的研究与实现.pdf_第1页
(计算机系统结构专业论文)p2p流量识别的研究与实现.pdf_第2页
(计算机系统结构专业论文)p2p流量识别的研究与实现.pdf_第3页
(计算机系统结构专业论文)p2p流量识别的研究与实现.pdf_第4页
(计算机系统结构专业论文)p2p流量识别的研究与实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机系统结构专业论文)p2p流量识别的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华东师范大学硕士学位论文 摘要 近几年来,p 2 p ( p e 盯t 0 - p o 盯,对等网络) 作为一项全新的网络技术飞速发展。 有关调查表明,p 2 p 业务已悄然占据了互联网业务总量的6 0 0 - - 8 0 ,成为杀手级 宽带互联网应用。p 2 p 业务不断增加,造成了网络带宽的巨大消耗,甚至引起网 络拥塞,降低其它业务的性能。另一方面对于企业用户来说,内部员工利用企业 网上网听音乐或收看流式媒体造成了巨大的r r 资源浪费;而通过并不安全的网络 环境获得的应用程序和p 2 p 协议,将可能为企业安全防护打开一扇后窗,使得病 毒和恶意代码得以躲过安全审查潜入企业内部网络。因此,实现p 2 p 流量的有效 识别已经成为急需解决的问题。 早期的时候使用端口扫描的方法来识别使用预先定义的端口号的p 2 p 流量识 别。近来,s s d ”和a w m o o r e l 2 1 将应用层签名匹配的方法用于p 2 p 流识别,这 种方法从包的载荷中提取应用层签名然后与已知的p 2 p 应用签名数据库中的值进 行匹配。而t k a r a g i a n n i s 3 和a w m o r e 【4 】对p 2 p 流量行为进行分析,得出一些规 律,使用这些规律识别p 2 p 流量。然而新一代的p 2 p 应用可以使用任意的端口号 来避开固定端口阻塞,而且越来越多的p 2 p 应用开始加密它们的流量来穿越应用 层签名匹配。所以p 2 p 流量识别变得越来越难。我们需要找出一种健壮、准确率 高的p 2 p 流量发现的方法。 本文从p 2 p 流识别的工作原理与实现机制入手,研究分析了p 2 p 流识别中存在 的问题和实现有效的p 2 p 流识别方案需要的技术,并在此基础上做了以下工作: l 、研究分析了当前存在的几种p 2 p 流识别方案的工作原理,以及其在p 2 p 流识 别过程中的特点和存在的问题。 2 、在分析了当前p 2 p 流识别方案的实现原理和特点的基础上,对应用层签名 匹配方法进行改进,给出使用新的流量特征的基于b p 神经网络的流识别 器,然后使用了一种结合改进的应用层签名匹配方法和基于b p 神经网络的 流识别器的p 2 p 流识别方案,克服了当前的几种p 2 p 流识别方案的缺点有效 的提高了p 2 p 流的识别率和识别的速度。 3 、为了对本文提出的p 2 p 流识别方案进行验证,使用当前流行的建模工具 m a t l a b 首先实现了一个用于p 2 p 流识别的b p 神经网络,继而在此基础上 实现了本文提出的p 2 p 流识别方案。 4 、针对该m a t l a b 环境下的实现,对结合d p i ( 深度数据包检测) 方法与b p 神 经网络流量识别器p 2 p 流识别方案的有效性进行了实验验证,并对该方案 的性能进行了实验分析。 华东师范大学硕士学位论文 关键字 对等网络,p 2 p 流识别,深度数据包检测,b p 神经网络,n i a t l a b 华东师范大学硕士学位论文 a b s 仃a c t r e c e n ty e a r s ,p 2 p ( p e e r - t o - p e e r ) ,a sab r a n - n e wt e c h n o l o g y , h a sd e v e l o p e dw h i p a n ds p u r i n t e r r e l a t e di n v e s t i g a t i o ni n d i c a t e st h a tp 2 p 自r a f j j ch a st a k e nu p6 0 幻8 0 o ft h et o t a li n t e r a c tt r a i j i cs t e a l t h i l y , i tb e c a m et h ek i l l e ra p p l i c a t i o no fb r o a db a n d i n t e r a c t p 2 po p e r a t i o nh a si n c r e a s e dc o m t a n t l y , i tc o n s u m e sn e t w o r kb a n d w i d t hh u g e l y , a r o l l s e sc o n g e s t i o no f n e t w o r ka n dr e d u c et h ep e r f o r m a n c eo f o t h e ro p e r a t i o n s o nt h e o t h e rh a n d ,f o rt h ee n t e r p r i s eu s e r , i n n e re m p l o y e e su s ee n t e r p r i s en e t w o r kt ol i s t e n m u s i co rw a t c hs t r e a m i n gm e d i ao nt h ei n t e r n e t , t h i sm a k e st r e m e n d o u sw a s t eo f n e t w o r kr e s o u r c e f u r t h e rm o r e ,u s i n gn o t s a f e l y n e t w o r ke n v i r o n m e n tt o g e t a p p l i c a t i o np r o g r a ma n dp 2 pp r o t o c o lm a yo p e n 印ab a c kd o o ro fe n t e r p r i s es a f e t y , i n r k ev i r l l s e sa n db a l e f u lc o d e sa b l et os t a n da s i d es a f e t yc h e c ku pa n de n t e ri n t ot h e c o r p o r a t i o n s o t h ei m p l e m e n t a t i o no fi d a n t i f yp 2 p 姗ch a sb e c o m eap r o b l e mn e e d t 0b er e s o l v e di m m e d i a t e l y f o r e p a r t , p e o p l eu s ep o r ts c a nt oi d e n t i f yp 2 pf l o ww h i c hw i mp r c - d e f i n e dp o r t n u m b e r r e c e n t l y , s s 姐【1 】a n dw m o o r e 2 】a p p l i e dt h ea p p l i c a t i o ns i g n a t u r em a t c h i n g m e t h o dt op 2 pt r a f f i ci d e n t i f i c a t i o n t h ea p p l i c a t i o ns i g n a t u r em a t c h i n gm e t h o dc r a m p s o u ta p p l i c a t i o ns i g n a t u r ef r o mp a c k e t s p a y l o a da n dm a t c h e si t 讲t ht h ek n o w np 2 p a p p l i c a t i o ns i g n a t u r ei nt h ed a t a b a s e t k a r a g i a n n i s t 3 1a n da w m o r e l 4 1a n a l y z e dp 2 p t r a f f i cb e h a v i o ra n dg o ts o m ed i s c i p l i n a r i a n s t h e yu s e dt h e s er u l e st oi d e n t i f yp 2 p t r a f f i c s i n c en e wg e n e r a t i o np 2 pa p p l i c a t i o nc a nu s ea r b i t r a r yp o r tn t n n b e rt oa v o i d f i x e d - p o r tb l o c ka n du s ep a y l o a de n c r y p t i o nt o a v o i dp 2 pa p p l i c a t i o ns i g n a t u r e d e t e c t i o n , t h ei d e n t i f i c a t i o no f p 2 pt r a 位cb e c o m e sm o r ea n dm o r ed i m c u r w en e e dt o f i n dar o b u s ta n da c c u r a t ep 2 pu a f f i ci d e n t i f i c a t i o ns c h e m e s oi nt h i sp a p e r , w eb e g i nw i t ht h eo p e r a t i n gp r i n c i p l eo f p 2 pt r a f f i ci d e n t i f i c a t i o n t h e n , w ea n a l y z et h ep r o b l e mi nt h ei d e n t i f i c a t i o no fp 2 pt r a f f i ca n dt h en e e d e d t e c h n o l o g yt or e a l i z et h ee f f e c t i v ep 2 pt r a f f i ci d e n t i f i c a t i o ns c h e m e t h ew o r k st h i s p a p e rh a sd o n el i s ta sf o l l o w s : a 1r e s e a r c h e ds e v e r a lk i n d o fp r e s e n ts o l u t i o n si np 2 pf l o wi d e n t i f i c a t i o n , a n a l y z et h e i rf e a t u r e sa n dp r o b l e m si nt h ei d e n t i f i c a t i o np r o c e s s b ) w em o d i f i e da p p l i c a t i o ns i g n a t u r em a t c h i n gm e t h o da n dp r o p o s e d a b a c k - p r o p a g a t i o n n e u r a ln e t w o r kt r a f f i c r e c o g n i z e ru s i n g n e wt r a f f i c h i 华东师范大学硕士学位论文 b e h a v i o r s p r a tf o r w a r dap 2 pt r a 伍ci d e n t i f i c a t i o nr e s o l u t i o nb a s e do nm o d i f i e d a p p l i c a t i o ns i g n a t u r em a t c h i n ga n dl r a f f i cr e c o g n i z 豇u s i n gb a c k - p r o p a g a t i o n n e u r a ln e t w o r k ,w h i c ho v f f f o o m et h ed i s a d v a n t a g e so fp r e s e n ts o l u t i o n si n p 2 pt r a f f i ci d e n t i f i c a t i o n s oi th a se f f i c i e n t l yi m p r o v e dt h er e c o g n i t i o nr a t e a n d p a c eo f p 2 pf l o wi d e n t i f i c a t i o m c ) i no r d e rt ot e s tt h en e wp 2 pt r a f f i ci d e n t i f i c a t i o ns o l u t i o n , t h i sp a p e rd e s i g n e d a n di m p l e m e n t e dab a c k - p r o p a g a t i o nn e u r a ln e t w o r k f o rt l a _ 伍cr e c o g n i z e r i nt h e p o p u l a rm o d e l i n g s o f t w a r em a t l a b ,a n dt h e nd e s i g n e da n d i m p l e m e n t e dt h ep 2 pf l o wi d e n t i f i c a t i o ns o l u t i o no ni t d ) p r o v e dt h ev a l i d i t yo f t h en o ws o l u t i o nb a s e do nd e e pp a c k e ti n s p e c t i o na n d 虹a f f i c r e c 0 窟面z 盯u s i n g b a c k - p r o p a g a t i o nn e u r a ln e t w o r k ,a n a l y z e di t s s c a l a b i l i t yo no u rt e s te n v i r o n m e n tb a s c d0 1 1m a t l a b k e yw o r d s p e e rt o p e e r , p 2 p f l o w i d e n t i f i c a t i o n , d e e pp a c k e t b a c k - p r o p a g a t i o nn e u r a ln e t w o r k ( b p n n ) ,m a t l a b 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取 得的研究成果据我所知,除文中已经注明引用的内容外,本论文不 包含其他个人已经发表或撰写过的研究成果对本文的研究做出重要 贡献的个人和集体,均已在文中作了明确说明并表示谢意 作者签名: 纽盎盐日期:立啤:! :垒 学位论文使用授权声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子 版和纸质版有权将学位论文用于非赢利目的的少量复制并允许论文 进入学校图书馆被查阅有权将学位论文的内容编入有关数据库进行 检索有权将学位论文的标题和摘要汇编出版保密的学位论文在解 密后适用本规定 学位论文作者签名:恬辞碉导师签名: 华东师范大学硕士学位论文 1 1 研究背景 第一章引言 近几年来,p 2 p ( p e e r - t o - p e e r ,对等网络) 作为一项全新的网络技术飞速发展。 有关调查表明,p 2 p 业务已悄然占据了互联网业务总量的6 0 8 0 ,成为杀手 级宽带互联网应用。p 2 p 业务不断增加,造成了网络带宽的巨大消耗,甚至引起 网络拥塞,降低其它业务的性能。另一方面对于企业用户来说,内部员工利用企 业网上网听音乐或收看流式媒体造成了巨大的r r 资源浪费;而通过并不安全的 网络环境获得的应用程序和p 2 p 协议,将可能为企业安全防护打开一扇后窗, 使得病毒和恶意代码得以躲过安全审查潜入企业内部网络。因此,实现p 2 p 流 量的有效识别已经成为急需解决的问题。 早期的时候使用端口扫描的方法来识别使用预先定义的端口号的p 2 p 流量 识别。近来,s s e n t l 】和a w m o o r e 2 1 将应用层签名匹配的方法用于p 2 p 流识别, 这种方法从包的载荷中提取应用的名然后与已知的p 2 p 应用签名数据库中的值 进行匹配。而t k a r a g i a n n i s c 3 】和a w m o r e l 4 】对p 2 p 流量行为进行分析,得出一些 规律,使用这些规律识别p 2 p 流量。然而新一代的p 2 p 应用可以使用任意的端 口号来避开固定端口阻塞,而且越来越多的p 2 p 应用开始加密它们的流量来穿 越应用层签名匹配。所以p 2 p 流量识别变得越来越难。 因此研究并提出一种有效的p 2 p 流量识别的方案成为目前急需解决的问题。 本文正是在这样的背景下产生的。 1 2 本文的研究目的和研究内容 简单的说,p 2 p 流量识别问题可以描述为如下:当一个包到达时,我们从包 中提取出适当的特征,然后根据直接从正要进入的包中提取出的特征或者是结合 同一个流的之前的包提取出的特征将相应的流判别为p 2 p 流或者是非p 2 p 流。 我们需要找到一种正确、健壮并且能够进行在线识别的p 2 p 流量识别方法: ( 1 ) 健壮的 因为新一代的p 2 p 应用可以使用任意的端口号来避开固定端口阻塞并可能 够使用流量加密来穿越应用层签名识别,所以应该能够不使用端口信息和载荷信 息来进行p 2 p 流量识别。 ( 2 ) 正确的 这个p 2 p 流量识别方法应该达到很高的识别率和很低的绝对错误率。 ( 3 ) 在线识别 能够在流结束之前判别是否是p 2 p 流。否则p 2 p 流量识别就会成为没有任何 意义的。 华东师范大学硕士学位论文 1 3 本文的组织结构 本文组织结构如下: 第一章;引言。从p 2 p 协议的发展及其带来的问题出发,引出本文的研究 背景,并分析了p 2 p 流量识别方案的现状,指出现存的p 2 p 流识别方案存在的 不足。阐述了本文的研究目的和研究内容。在本章的最后,列出了本文的组织结 构。 第二章:p 2 p 文件共享协议的现状和问题。为了分析p 2 p 流量检测原理,首 先对p 2 p 业务进行了介绍,并着重介绍了p 2 p 文件共享协议。在此基础上,深 入分析了p 2 p 网络的特点,p 2 p 技术的研究现状,目前对等网络存在的问题以 及对等网络的研究方法。 第三章:p 2 p 流量检测技术概述及其现状。本章首先对p 2 p 流量检测技术作 了概要介绍,然后详细阐述了当前存在的几种比较流行的p 2 p 流量识别方案的 原理,继而分析了他们在p 2 p 流识别中遇到的问题。 第四章:5f l o wd p i 方案和基于b p 神经网络的流分类器方案。本章在第三 章分析的基础上提出了对d p i 方案进行改进的一种5 o wd p 方案和一种基于 b p 神经网络的流分类方案,并作了详细论述。首先介绍了该方案的框架,进而 详细描述了该方案的实现机制,并在理论上分析和证明了本方案的有效性。本章 是整篇文章的核心。 第五章:基于m a t l a b 的实现和仿真实验。 5f l o wd p i 和基于b p 神经 网络的流识别器是我们的p 2 p 流识别方案的实现基础,本章在第四章b p 神经网 络实现的基础上,进一步阐述了本文提出的p 2 p 流识别方案的详细实现过程, 并给出了利用p 2 p 流方案的测试结果。本章是对第四章所提出方案的实验论证。 第六章:总结和展望。本章主要对本文进行总结。指出本文的研究成果以及 今后进一步有待研究的工作。 2 华东师范大学硕士学位论文 第二章p 2 p 文件共享协议的现状和问题 2 1 本章提要 为了分析p 2 p 流量检测原理,首先对p 2 p 业务进行了介绍,并着重介绍了 p 2 p 文件共享协议。在此基础上,深入分析了p 2 p 网络的特点,p 2 p 技术的研 究现状、目前对等网络存在的问题以及研究对等网络使用的方法。 2 2 引言 对等网络( p e e r - t o - p e e rn e t w o r k ,p 2 p ) 技术起源于最初的联网通信方式,计算 机之间可以互相直接通信而不需要中间媒介,比如1 9 7 9 年的u s e n e t 网络允许 计算机之间拷贝文件,随着w w w 的出现使互联网进入普通计算机用户的应用 领域,网络的主要服务模式以c s 为主,用户上网方式就是从一些门户站点获取 所需的信息,这些站点控制了信息的流动、阻碍了信息的真正交流。目前计算机 网络技术研究领域的一个热点p 2 p ,将控制权归还到用户手中,用户通过p 2 p 不仅可以共享文件,还可以共享存储空间,除此之外对等网络的应用还有对等计 算、协同工作、搜索引擎等。 从基础技术角度来看,对等网络是旧技术的新应用模式,它属于覆盖网络, 运行在因特网之上,网络中每个结点的地位相等,每个结点既充当服务器,为其 它结点提供服务,同时也享用其他结点提供的服务,它使网民们真正参与到网络 中来,把网络应用的核心从中央服务器向网络边缘的终端设备扩散,使网络上的 沟通变得更容易、更直接。 2 3p 2 p 业务定义及发展过程阁 p 2 p 业务可以简单地定义成通过直接交换共享计算机资源和服务。在p 2 p 网络环境中,成千上万台彼此连接地计算机都处于对等地地位,整个网络一般不 依赖专用集中服务器。网络中每一台计算机既能充当网络服务的请求者,又能对 其它计算机的请求做出响应,提供资源与服务。通常这些资源和服务包括:信息 的共享与交换、计算资源( 如c p u ) 的共享使用、存储资源( 如缓存和磁盘空 间) 的使用等。p 2 p 软件的发展大致经历了三个阶段: ( 1 ) 集中式p 2 p 以n a p s t e r 为代表的第一代p 2 p 系统采用集中式网络架构( 如图2 1 所示) , 要求各对 等端( p e e r ) 都登录到中心服务器上,通过中心服务器保存并维护所有对等端的 共享文件目录信息。此类p 2 p 软件的对等端通常使用固定的t c p 端口号。 优点:采用快速搜索算法,排队响应时间短,使用简单的协议能够提供高性 能和弹性。缺点:容易中断服务。 3 华东师范大学硕士学位论文 围2 - 1 集中式p 2 p 网络架构 f i r e 2 - 1c e f r t r a i t e dp 2 pp e t w o r ka r c h i t u r e ( 2 ) 纯分布式p 2 p 第二代p 2 p 系统( 如早期的g n u t e l l a ) 实现了文件目录的分布式管理( 如图 2 - 2 所示,所有的对等端共同负责相互间的通信与搜索。此时网中所有节点都成 为真正意义上的对等端,无须中心服务器的参与。为了顺利通过网络安全设备, 此类p 2 p 应用普遍采用随即动态的连接端口、伪装端口( 如利用h t t p 的8 0 端 口) ,或直接利用h t t p 作为其基础通信协议。 优点:不再使用中央服务器,消除了中央服务器带来的问题。没有中央控制 点,不会因为一点故障导致全部瘫痪,是真正的分布式网络。这种模式具有自组 织( a d - h o e ) 行为。降低了拥有者的成本,提供可扩展性。特别适合在自组织 ( a d - h o c ) 网上的应用,如即时通信等。 缺点:由于每次搜索都要在全网进行,造成大量网络流量,使得其搜索速度 慢,排队响应时间长。用户p c 性胄肇及其与网络连接方式决定网络弹性和性能。 4 华东师范大学硕士学位论文 围2 - 2 分布式p 2 p 网络架构 f i g u r e 2 - 2d i e r r i b t t t e dp 2 pn e t w o r ka r c h i * u r e ( 3 ) 混合式p 2 p 第三代p 2 p 系统( 如f a s t t r a c k 、e d o n k e y 和w i n m x ) 折衷了集中式及分布 式p 2 p 的特点,采用混合式架构( 如图2 3 所示) 。利用多个s u p e r - p e e r 作为分 布式中心服务器,以实现快速检索以及网络的可测量性。s u p e r - p e e r 是由p 2 p 软 件自动随即选择的,负责为一组普通p e e r 提供目录服务,这就使得目录信息具 有某种层次结构。某些第三代p 2 p 系统( 如w m n y 、e a r t h s r a t i o n 5 ) 甚至使用s s l ( s e c u r i t ys o c k e t l a y e r ) 协议( 如h t t p s ( s s l o v e r h l r p ) ) 加密流量。 这种模式综合第一代和第二代的优点,用分布的超级结点取代中央检索服务 器。采用分层次的快速搜索改进了搜索性能,缩短了排队响应时间,每次排队产 生的流量低于第二代分布网络。超级智能结点的布设提供高性能和弹性。没有中 央控制点,不会因为一点故障导致全部瘫痪。 华东师范大学硕士学位论文 图2 - 3 混台式p 2 p f i g u r e 2 - 3h y b r i dp 2 pn e t w o r ka r d n i t u r e 2 4p 2 p 网络的特点嘲 与其他网络模型相比,p 2 p 具有以下特点: 2 4 1 分散化 网络中的资源和服务分散在所有节点上,信息的传输和服务的实现都直接在 节点之间进行,可以无需中间环节和服务器的介入,避免了可能的瓶颈。 即使是在混合p 2 p 中,虽然在查找资源、定位服务或安全检验等环节需要集 中式服务器的参与,但主要的信息交换最终仍然在节点中间直接完成。这样就大 大降低了对集中式服务器的资源和性能要求。 分散化是p 2 p 的基本特点,由此带来了其在可扩展性、健壮性等方面的优势 2 4 2 可扩展性 在传统的c s 架构中,系统能够容纳的用户数量和提供服务的能力主要受服 务器的资源限制。为支持互联网上的大量用户,需要在服务器端使用大量高性能 的计算机,铺设大带宽的网络。为此机群、c l u s t e r 等技术纷纷上阵。在此结构下, 集中式服务器之间的同步、协同等处理产生了大量的开销,限制了系统规模的扩 展。 6 华东师范大学硕士学位论文 而在p 2 p 网络中,随着用户的加入,不仅服务的需求增加了,系统整体的资 源和服务能力也在同步地扩充,始终能较容易地满足用户的需要。即使在诸如 n a p s t e r 等混合型架构中,由于大部分处理直接在节点之间进行,大大减少了对 服务器的依赖,因而能够方便地扩展到数百万个以上的用户。而对于纯p 2 p 来 说,整个体系是全分布的,不存在瓶颈。理论上其可扩展性几乎可以认为是无限 的。 p 2 p 可扩展性好这一优点已经在一些得到应用的实例中得以证明,如 n a p s t e r ,c m u t e l l a ,f r e e n e t 等。 2 4 3 健壮性 在互联网上随时可能出现异常情况,网络中断、网络拥塞、节点失效等各种 异常事件都会给系统的稳定性和服务持续性带来影响。在传统的集中式服务模式 中,集中式服务器成为整个系统的要害所在,一旦发生异常就会影响到所有用户 的使用。 而p 2 p 架构则天生具有耐攻击、高容错的优点。由于服务是分散在各个节点 之间进行的,部分节点或网络遭到破坏对其它部分的影响很小。而且p 2 p 模型 一般在部分节点失效时能够自动调整整体拓扑,保持其它节点的连通性。事实上, p 2 p 网络通常都是以自组织的方式建立起来的,并允许节点自由地加入和离开。 一些p 2 p 模型还能够根据网络带宽、节点数、负载等变化不断地做自适应式的 调整。 2 4 4 隐私性 随着互联网的普及和计算,存储能力飞速增长,收集隐私信息正在变得越来 越容易。隐私的保护作为网络安全性的一个方面越来越放大家所关注。目前的 i n t e m e t 通用协议不支持隐藏通信端地址的功能。攻击者可以监控用户的流量特 征,获得p 地址。甚至可以使用一些跟踪软件直接从口地址追踪到个人用户。 在p 2 p 网络中,由于信息的传输分散在各节点之间进行而无需经过某个集 中环节,用户的隐私信息被窃听和泄漏的可能性大大缩小。此外,目前解决 i n t a n e t 隐私问题主要采用中继转发的技术方法,从而将通信的参与者隐藏在众 多的网络实体之中。在传统的一些匿名通信系统中,实现这一机制依赖于某些中 继服务器节点。而在p 2 p 中,所有参与者都可以提供中继转发的功能,因而大 大提高了匿名通讯的灵活性和可靠性,能够为用户提供更好的隐私保护。 7 华东师范大学硕士学位论文 2 4 5 高性能 性能优势是p 2 p 被广泛关注的一个重要原因。 随着硬件技术的发展,个人计算机的计算和存储能力以及网络带宽等性能依 照摩尔定理高速增长。而在目前的互联网上,这些普通用户拥有的节点只是以客 户机的方式连接到网络中,仅仅作为信息和服务的消费者,游离于互联网的边缘。 对于这些边际节点的能力来说,存在极大的浪费。 采用p 2 p 架构可以有效地利用互联网中散布的大量普通节点,将计算任务或 存储资料分布到所有节点上。利用其中闲置的计算能力或存储空间,达到高性能 计算和海量存储的目的。这与当前高性能计算机中普遍采用的分布式计算的思想 是一致的。但通过利用网络中的大量空闲资源,可以用更低的成本提供更高的计 算和存储能力。 2 5p 2 p 文件共享、存储及检索 内容共享和文件交换是到目前为止最引人注目的p 2 p 应用。高效的大规模内 容共享直接推动了p 2 p 技术研究的热潮。基于p 2 p 的内容共享包括p 2 p 文件共 享与检索、高速下载、p 2 p 存储议等。 2 5 1p 2 p 文件共享 这一类应用中,每个对等的节点都提供文件内容的共享,同时也可以在整个 点对点网络中检索获得其他的节点上存储的资源。这类系统可以分为三类: - 非结构化p 2 p 系统:这类系绕的特点是文件的发布和网络拓扑松散相关。 该类方法包括n a p s t e r ,k a z a a ,m o r p h e u s ,g - n u t e l l a 。n a p s t e r 是包含有 中心索引服务器的最早的p 2 p 文件共享系统,存在扩展性和单点失败问 题。g n u t e u a 、m o r p h e u s 是纯p 2 p 文件共享系统,后者如今并入前者中: k a z a a 是包含有超级节点的混合型p 2 p 文件共享系统。k a z a a 、 m o r p h e u s 、c m u t e l l a 等系统采用广播或者受限广播来进行资源定位,具 有较好的自组织性和扩展性,适用于互联网个人信息共享。缺点是稀疏 资源的召回率低。 一结构化p 2 p 系统:这类系统的特点是文件的发布和网络拓扑紧密相关。 文件按照p 2 p 拓扑中的逻辑地址精确的分布在网络中。这类系统包括 c a n 、t a p e s t r y 、c h o r d , - p a s t r y ,以及基于这些系统的一些其它 文件共享和检索方面的研究实验系统。在这类系统中每个节点都具有虚 拟的逻辑地址,并根据地址使所有节点构成一个相对稳定而紧致的拓扑 华东师范大学硕士学位论文 结构。在此拓扑上构造一个存储文件的分布式哈希表d h t ,文件根据自 身的索引存储到哈希表中。每次检索也是根据文件的索引在d h t 中搜索 相应的文件。生成文件的索引的方法有三种:根据文件的信息生成的哈 希值( h a s h ) ,如c f s ,o c e a n s t o r e ,p a s t ,m n e m o s y n e 等;根据 文件包含的关键字生成关键字索引;还有根据文件的内容向量索引,如 p s e a r c h 。 一松散结构化p 2 p 系统:此类系统介乎结构化和非结构化之间。系统中的 每个节点都有分配有虚拟的逻辑地址,但整个系统仍然是松散的网络结 构。文件的分布根据文件的索引分配到相近地址的节点上。随着系统的 使用,文件被多个检索路径上的节点加以缓存。类似的系统包括f r e e n e t , f r e e h a v e n 等。相关系统非常强调共享服务的健壮性( 安全性) 。 2 5 2p 2 p 分布式存储 p 2 p 分布式存储系统具有类似于上一类系统的功能和构造,但侧重于分布式 系统中文件系统管理。此类系统主要包括两个类型: - 非结构化p 2 p 系统:例如f a r s i t e 就属于此类系统。f a r s i t e 通过使用密钥 加密文件的内容,并把密文的备份发布到可信任的节点上。每个节点根 据获得的文件内容,组织成编目的文件系统。 - 结构化p 2 p 系统。此类分布式文件系统基于d h t 的思想,将文件发布 到d h t 上,并组织成树状的文件系统。每个目录都组织成一个描述块的 形式,每个描述块都对应一个块的h a s h 值,每个块中包含有所有予目录 描述块的h a s h 值,叶子节点是文件的描述块,所有这些描述块分布在 d h t 中以供检索。此类系统包括基于c h o r d 的c f s 、基于t a p e s t r y 的 o c e a n s t o r e 等。 2 5 3p 2 p 搜索技术 p 2 p 文件共享首先要解决文件定位的问题。但是基于p 2 p 的文件搜索技术可 以独立出来,成为传统的搜索引擎等系统强大的搜索工具。p 2 p 搜索技术使用户 能够深度搜索文档。而且这种搜索无需通过w e b 服务器,也可以不受信息文档 格式和宿主设备的限制,可达到传统目录式搜索引擎( 只能搜索到2 0 - - 3 0 的网络资源) 无可比拟的深度( 理论上将包括网络上的所有开放的信息资源) 。 以p 2 p 技术发展的另一先锋g n u t e l l a 进行的搜索为例:一台p c 上的g n u t e l l a 软 件可将用户的搜索请求同时发给网络上另外1 0 台p c 。如果搜索请求未得到满 足,这1 0 台p c 中的每一台都会把该搜索请求转发给另外1 0 台p c 。理论上, 9 华东师范大学硕士学位论文 搜索范围将在几秒钟内以几何级数增长,几分钟内就可搜遍几百万台p c 上的信 息资源。当然实际环境中还需要考虑网络带宽以及路由优化方面的问题。p 2 p 为 互联网的信息搜索提供了一个全新的解决之道。 _ 2 5 4 资源共享的新境界 采用p 2 p 方式实现信息的共享和高速下载蕴含着巨大的商机。n a p s t e r 由于 一开始的知识产权问题而暂时陷入低谷之后,g n u t e l l a 紧随其后推出了更具有 p 2 p 架构的文件服务模式。为了激发更多的人来提供内容,随后的e d o n k e y 和 e m u l e 定义了更方便的交互协议。为了充分利用分布在全球的网络带宽,实现大 数据量的信息能够快速大面积下载,由美国旧金山的软件工程师布莱姆科亨 ( b r a i nc o h e n ) 开发的b t ( b i t t o r r e n t ,比特涡流) 系统2 0 0 3 年一经推出就产 生了很大影响。 p 2 p 文件共享技术自身在快速发展的同时,相关的应用机会将越来越大。包 括基于各种目的的网络内容分发、在线流媒体服务、游戏或其它软件分发等等都 开始引入这种新的技术。同时,新应用的引入也将进一步推进p 2 p 文件共享技 术的创新步伐。 2 6p 2 p 技术的研究现状 国外开展p 2 p 研究的学术团体主要包括p 2 p 工作组( p 2 p w g ) 、全球网格论 坛( g l o b a lg r i df o r u m ,g g f ) 。p 2 pt 作组成立的主要目的是希望加速p 2 p 计 算基础设施的建立和相应的标准化工作。p 2 p w g 成立之后,对p 2 p 计算中的术 语进行了统一,也形成相关的草案,但是在标准化工作方面工作进展缓慢。目前 p 2 p w g 已经和g g f 合并,由该论坛管理p 2 p 计算相关的工作。g g f 负责网格 计算和p 2 p 计算等相关的标准化工作。 从国外公司对p 2 p 计算的支持力度来看,m i c r o s o f t 公司、s u n 公司和i n t e l 公司投入较大。m i c r o s o f t 公司成立了p a s t r y 项目组,主要负责p 2 p 计算技术的 研究和开发工作。目前m i c r o s o f t 公司已经发布了基于p a s t r y 的软件包s i m p a s t r y v i s p a s t r y 。r i c e 大学也在p a s t r y 的基础之上发布了f r e e p a s t r y 软件包。 在2 0 0 0 年8 月,i n t e l 公司宣布成立p 2 p 工作组,正式开展p 2 p 的研究。工 作组成立以后,积极与应用开发商合作,开发p 2 p 应用平台。2 0 0 2 年i n t e l 发布 了n e t 基础架构之上的a c c e l e r a t o rk i t ( p 2 p 加速工具包) 和p 2 p 安全a p i 软件 包,从而使得微软n e t 开发人员能够迅速地建立p 2 p 安全w e b 应用程序。 s u n 公司以j a v a 技术为背景,开展了j x t a 项目。j x t a 是基于j a v a 的开源 p 2 p 平台,任何个人和组织均可以加入该项目。因此,该项目不仅吸引了大批 p 2 p 研究人员和开发人员,而且已经发布了基于j x t a 的即时聊天软件包。j x t a 1 0 华东师范大学硕士学位论文 定义了一组核心业务:认证、资源发现和管理。在安全方面,j x r a 加入了加密 软件包,允许使用该加密包进行数据加密,从而保证消息的隐私、可认证性和完 整性。在j x r a 核心之上,还定义了包括内容管理、信息搜索以及服务管理在内 的各种其它可选j x t a 服务。在核心服务和可选服务基础上,用户可以开发各种 j x r a 平台上的p 2 p 应用。 p 2 p 实际的应用主要体现在以下几个方面: p 2 p 分布式存储 p 2 p 分布式存储系统是一个用于对等网络的数据存储系统,它可以提供高效 率的、鲁棒的和负载平衡的文件存取功能。这些研究包括:o c e a n s t o r e ,f a r s i t e 等。其中,基于超级点结构的半分布式p 2 p 应用如k a z z a 、e d o n k e y 、m o r p h e u s 、 b i t t o r r e n t 等也是属于分布式存储的范畴,并且用户数量急剧增加。 计算能力的共享 加入对等网络的结点除了可以共享存储能力之外,还可以共享c p u 处理能 力。目前已经有了一些基于对等网络的计算能力共享系统。比如s e t i h o m c 。 目前s e t i h o m e 采用的仍然是类似于n a p s t e r 的集中式目录策略。x e n o s e r v e r s 向真正的对等应用又迈进了一步。这种计算能力共享系统可以用于进行基因数据 库检索和密码破解等需要大规模计算能力的应用。 p 2 p 应用层组播。 应用层组播,就是在应用层实现组播功能而不需要网络层的支持。这样就可 以避免出现由于网络层迟迟不能部署对组播的支持而使组播应用难以进行的情 况。应用层组播需要在参加的应用结点之间实现一个可扩展的,支持容错能力的 重叠网络,而基于d h t 的发现机制正好为应用层组播的实现提供了良好的基础 平台。 i n t e r a c t 间接访问基础结构( i n t e r a c ti n d i r e c t i o ni n f i a s t r u c t u r e ) 。 为了使i n t e r n e t 更好地支持组播、单播和移动等特性,i n t e r a c t 间接访问基础 结构提出了基于汇聚点的通信抽象。在这一结构中,并不把分组直接发向目的结 点,而是给每个分组分配一个标识符,而目的结点则根据标识符接收相应的分组。 标识符实际上表示的是信息的汇聚点。目的结点把自己想接收的分组的标识符预 先通过一个触发器告诉汇聚点,当汇聚点收到分组时,将会根据触发器把分组转 发该相应的目的结点。i n t e r a c t 间接访闯基础结构实际上在l u t e r n e t 上构成了一个 重叠网络,它需要对等网络的路由系统对它提供相应的支持。 p 2 p 技术从出现到各个领域的应用展开,仅用了几年的时间。从而证明了 p 2 p 技术具有非常广阔的应用前景。 华东师范大学硕士学位论文 2 7 目前对等网络存在的问题 2 7 1 性能问题 对等网络的性能问题主要是资源定位和路由机制的性能,基于d h t 的资源 查找和定位算法虽然在取得了负载均衡,但是它破坏了结点的位置特性,造成了 选择覆盖路由时并没有考虑底层网络的属性,虽然目前有些算法对其也进行了某 种程度的改进,但是如何进行最优化的路由选取的问题仍然未得到解决,我们所 需要做的事情不仅是评价定位和路由算法,还要吸取目前各种机制的优点,提出 更好的资源定位和路由机制。其次存在的问题是对等网络结点之间传送的是短的 交互型流量,与己有流量模型不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论