(计算机应用技术专业论文)bittorrent系统中文件传输算法与优化.pdf_第1页
(计算机应用技术专业论文)bittorrent系统中文件传输算法与优化.pdf_第2页
(计算机应用技术专业论文)bittorrent系统中文件传输算法与优化.pdf_第3页
(计算机应用技术专业论文)bittorrent系统中文件传输算法与优化.pdf_第4页
(计算机应用技术专业论文)bittorrent系统中文件传输算法与优化.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)bittorrent系统中文件传输算法与优化.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕j 二学位论义 摘要 近年来,基于p 2 p 技术的各种网络应用越来越广泛,其中影响最大的应用是 文件共享。p 2 p 文件共享以b i t c o m e t 、a z u r e u s 等b i t t o r r e n t ( b t ) 类软件为代 表,b t 流量在整个网络流量中比例非常高,因而本文对b t 进行深入的研究和 优化,对于如何更为有效的提高b t 文件传输的效率,提高网络服务的性能、降 低网络的负载都有极为重要的现实意义。 首先详细介绍了对等网络的特性再逐步引出了p 2 p 共享软件b i t t o r r e n t 系统,然后深入介绍了b i t t o r r e n t 的工作原理以及关键核心算法,其中对片断选 择算法和邻居选择算法进行了详细的分析,发现这些算法还可以作进一步的优 化。同时,还对b t 的若干协议进行了深入的研究,分析了其中的协议编码格式、 对等节点之间的通信协议。 其次,分析了b i t t o r r e n t 产生大量网络流量、增加网络负担的原因:一个节 点在选择他的邻居节点时,是在所有节点集中进行随机选择的,并非有约束性地 选择。因此选择的邻居可能处于不同的i s p 下面,导致交互数据时产生流量。为 了解决跨i s p 网络通信流量所带来的负面影响,提出了基于邻近原则的邻居节点 选择机制,在保证文件共享系统的性能的同时,最大化地将整个系统所产生的流 量本地化。在该机制中节点的大部分邻居节点( 并非所有) 均来自本地i s p 网内 的节点,在保证b i t t o r r e n t 具有最佳性能的同时能减少i s p 通信流量。 最后,分析了片断优先算法的不足之处,它使文件的片段在网络的节点中分 布不均,影响了整个系统的效率。提出了基于种子控制的内容分发算法,该算法 能有效避免稀有片段的产生,在一定程度上提高了系统中文件片分布的均匀性, 进而可以有效地提高节点的文件下载速度,缩短完成下载的时间,提高了系统的 健壮性和整体效率。 关键词:b t 算法;文件共享;网络拥塞;邻居选择算法;内容分发 i i a b s t r a c t i nr e c e n ty e a r s ,m o r ea n dm o r en e t w o r ka p p l i c a t i o n sh a v ew i d e s p r e a db a s e do n t h ep 2 pn e t w o r kt e c h n o l o g y ,i nw h i c ht h eg r e a t e s to n ei sf i l e - s h a r i n ga p p l i c a t i o n a l o to fs v s t e m s s u c ha sb i t t b r r e n t ,a z u r e u sa n ds oo n ,a r et a k e na st h er e p r e s e n t a t l v e t ot h ep 2 pn l e s h a r i n gs o f t w a r e t h en e t w o r kc a p a c i t yo fb ta c c o u n t sf b rt h ee n t i r e n e t w o r kt r a m cn o wr a t i oi se x t r e m e l yh i g h s o ,t h i st h e s i sc o n d u c t st h et h o r o u g h r e s e a r c ha n do p t i m i z a t i o nt ot h eb tt e c h n 0 1 0 9 y ,h o wt oi m p r o v et h ee f n c i e n c yo ft h e b tt ot r a n s f e rn l eb e t w e e ne a c ho t h e r ,a n de n h a n c e st h ep e r f o r m a n c eo ft h en e t w o r k s e r v i c e s a n dr e d u c e st h en e t w o r kl o a d f i r s t l y ,t h i st h e s i s i n t r o d u c e dt h e h a sag r e a tp r a c t i c a ls i g n i f i c a n c e c h a r a c t e r i s t i c so ft h ep 2 pn e t w o r ki nd e t a i l , a n dt h e ng r a d u a l l yd r a w no u tt h ep 2 pf i l e s h a r i n gs o f t w a r e t h eb i t t o r r e n ts y s t e m w eh a v eam u l t i a n a l y s i so ft h eb i t l b r r e n tp r i n c i p l ea n dt h ec o r ea l g o r i t h m s ,c a r r i e d o nad e t a i l e da n a l y s i st ot h ef r a g m e n ts e l e c t i o na l g o r i t h ma n dt h en e i g h b o rs e l e c t i o n a l g o r i t h m ,d i s c o v e r e dt h e s ea l g o r i t h m sc a nb ef o rf u r t h e ro p t i m i z a t i o n a tt h es a m e t i m e ,t h i st h e s i sc o n d u c t e da ni n d e p t hs t u d yo nt h ep r o t o c o l so fb ts y s t e ms u c ha s b e n c o d i n g ,a n dt h ec o n l m u n i c a t i o np r o t o c o lb e t w e e nt h en o d e s s e c o n d l y ,p o i n to u tt h er e a s o n so fb i t t o r r e n tt op r o d u c el a r g eq u a n t i t i e s o f n e t w o r kt r a f f i ca n di n c r e a s eo ft h en e t w o r kb u r d e n :w h e no n ep e e rb e g i n st os e l e c t i t sn e ig h b o r s ,i tiu s ts e l e c t st h en o d e sf r o ma l lt h en o d e si nt h en e t w o r ki nr a n d o m , n o tab i n d i n gt oc h o i c e t h e r e f o r et h o s en e i g h b o r sp o s s i b l ya r eu n d e rd i f f e r e n ti s p s , c a u s e sl a r g en e t w o r kt r a m cw h e nt h e ye x c h a n g ed a t a i no r d e rt or e s o l v et h i s i n t e r i s pn e t w o r kt r a m c ,t h i st h e s i sp r o p o s e dat e c h n o l o g ys o l u t i o nw h i c hb a s e do n t h ep r i n c i p l eo fs e l e c tn e i 曲b o r sf o r ml o c a la r e an e t w o r k ,w h i c hc a ng u a r a n t e et h e p e r f o r m a n c eo f 行l e s h a r i n gs y s t e m s ,a n dl o c a l i z et h en e t w o r k t r a f n c i nt h i ss c h e m e , m o s tn e i g h b o rn o d e s ( n o ta 1 1 ) a r ef r o mt h el o c a l i s p s o ,t h eb i t t o r r e n tn o to n l yh a v e t h eb e s tp e r f o r m a n c eb u ta l s oc a nr e d u c et h en e t w o r kt r a m cs i g n i f i c a n t l y f i n a l l y ,a n a l y z et h es h o r t c o m i n go ft h ec o n t e n td i s t r i b u t i o na l g o r i t h m ,i tm a k e s d o c u m e n tf r a g m e n t sd i s t r i b u t eu n e v e na m o n gt h en e t w o r kn o d e s ,w h i c hi m p a c t so n t h ee m c i e n c yo ft h es y s t e m t h i st h e s i sp r o p o s e sa na l g o r i t h mt oc o n t r o lt h ec o n t e n t d i s t r i b u t i o no ft h es e e d s t h ea l g o r i t h mc a ne f k c t i v e l ya v o i dt h ed o c u m e n t f r a g m e n t st ob ed i s t r i b u t e du n e v e ni nt h en e t w o r k ,s ot h a ta l ln o d e sh a v et h es i m i l a r n u m b e ro ff r a g m e n t s s i m u l a t i o nr e s u l t ss h o wt h a tt h en e wa l g o r i t h me n h a n c e st h e u i 硕十学位论文 d o w n l o a d i n gs p e e do ft h en o d e a n dr e d u c e st h ea v e r a g ed o w n l o a dt i m e , a l s o i m p r o v e st h er o b u s t n e s sa n de f n c i e n c yo ft h ew h o l es y s t e m k e yw o r d s :b ta l g o r i t h m ; f i l es h a r e ;n e t w o r kc o n g e s t i o n ; n e i g h b o rs e l e c t i o na l g o r i t h m ; c o n t e n td i s t r i b u t i o n b i t t o r r e n t 系统中文件传输算法与优化 插图索引 图1 1 中国网民人数增长情况l 图1 2 网络模式对比图2 图1 3n a p s t e r 模型10 图1 4g n u t e l l a 模型1 1 图1 5k a z a a 模型1 2 图2 1b t 客户端发展历史1 7 图2 2b t 部署过程一1 9 图2 3b t 工作原理2 0 图2 4 节点间通信一2 7 图3 1 下载方式对比图2 9 图3 2 平均相对延时代价对比3 2 图3 3 平均连接开销对比3 3 图4 1 下载结点随时间的演变3 5 图4 2 种子结点随时间的演变3 5 图4 3 所有片段在网络中的占有情况一3 6 图4 4 单次分发时间4 0 图4 5 片段被拥有量分布4 0 图4 6 平均下载时间4 1 图4 7 每个结点的在线时间4 1 v h 硕l 学位论文 附表索引 表1 1p 2 p 系统结构分类和特点比较3 表4 1 实验参数表3 8 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名: 日期多0 年厂月7 汩 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“ ) 作者签名: 导师签名: 日期:功嚣年f 月如日 日期对年l ,月p 日 庸吖易 坳除 硕七学位论文 1 。1 引言 第1 章绪论 随着计算机技术与通信技术的飞速发展,基于t c p i p 互联网络协议族的因特 网规模获得了前所未有的扩张,全球i n t e r n e t 入网的主机数、上网的人数都在迅 速增长。根据中国互联网信息中心2 0 0 8 年1 月公布的第二十一次中国互联网络发 展状况统计报告显示i l 】,截至2 0 0 7 年1 2 月,网民数已达到2 1 亿人。中国网民数 增长迅速,2 0 0 7 年一年增加了7 3 0 0 万,年增长率为5 3 3 。在过去一年中平均每 天增加网民2 0 万人。目前中国的网民人数略低于美国的2 15 亿【2 1 ,位于世界第二 位。根据美国墨西哥大学教授罗杰斯的创新扩散理论【3 j ,新事物的发展通常呈现 s 形,当普及率在lo 2 0 之间时,扩散过程会加快,直至达到一定数量之后才 会慢下来。2 0 0 6 年1 2 月中国互联网普及率是1o 5 ,2 0 0 7 年1 2 月中国互联网普及 率增至16 ,可见中国正处于网民快速增长的阶段。如图1 1 所示: 图1 1 中国网民人数增长情况 与此同时,随着计算机存储技术的发展,磁盘单碟存储容量越来越高,而价 格越来越低,这使得人们能够以很低的价格获得超大容量的存储空间。如今,不 从文件备份和商业的角度考虑,人们完全可以不依赖于i d c ( 互联网数据中心) 服 务器,而将自己感兴趣的所有的影像、音乐、软件和文档等内容存储在本机上。 这种存储模式的转变改变了互联网“内容 所在的位置。内容正在从“中心 走 向“边缘”,也就是说内容将不是存在于几个主要的服务器上,而将存在于每个 用户的计算机上。即互联网的存储模式,将由现在的“内容位于中心”模式转变 为“内容位于边缘”模式,在这样的背景下,网络模式也从客户机服务器模式 逐步演变到对等网络模式。两者的区别可以形象地用图刻画出来如图1 2 所示: b i t t o r r e n t 系统中文件传输算法。j 优化 c姒a鼬l a ) c s 网络模式b ) 对等网络模式 图1 2 网络模式对比图 自19 9 9 年以来,p e e r t o p e e r ( p 2 p ) 网络模式正在逐渐成为研究和应用的热点。 在2 0 0 1 年评出的美国网络科技和电子商务发展的十大趋势中,第一位就是p 2 p 技 术,财富杂志将p 2 p 列为影响i n t e m e t 未来的四项科技之一。近几年来p 2 p 技术因 其无可比拟的优势得以迅速发展,得到了广泛的应用,目前已经成为i n t e r n e t 中 最重要的应用系统之一,p 2 p 系统产生的网络流量已经超过h t t p 访问产生的网 络流量,成为占据i n t e m e t 带宽的首要应用。通过p 2 p 技术可以以较低的成本和较 高的效率实现文件的存储和共享功能:用户可以把文件存储在系统中的各个节点 上,用户之间可以直接共享、传输文件,而不需要像w e b 方式中那样通过中心服 务器。这样,一方面有效地利用了网络中闲散的存储空间,降低了成本;另一方 面,可以更加充分的利用网络中的带宽资源,从而提高了系统数据通信的效率。 目前有很多研究项目都是针对p 2 p 的文件存储和共享的,包括n a p s t e r 【4 1 、 g n u t e l l a 【5 | 、c f s 、p a s t 、o c e a n s t o r e 等,这些研究项目均从不同的角度尝试解 决目前网络中的信息资源共享所存在的一些问题。 本章我们首先详细介绍了对等网络的基本理论与特性,其中重点阐述了对等 网络的特点和优势以及应用领域,然后对p 2 p 软件b i t t o r r e n t 【6 】的国内外研究现 状进行了详细的阐述,最后给出了本文的主要研究工作和全文框架结构。 1 2 对等网络的基本理论与特性 1 2 1 对等网络的概念及其分类 1 对等网络的概念 l9 9 9 年5 月,由s h a w nf a n n i n g 和s e a np a r k e r 共同创办的文件共享社区网站一 一n a p s t e r 正式成立。该公司最主要的服务是为其用户提供一种便捷、易用的界 面以实现媒体文件的搜寻及共享,同时还为音乐迷们提供相互交流的论坛,以及 实时通讯、聊天室、用户书签等产品。它的诞生在互联网世界产生了不小的震动, 硕七学位论文 而之后因它而起的一系列沸沸扬扬的版权官司,更将人们的目光聚焦到了一项新 的网络技术p 2 p ( p e e r t o p e e r l 。 近几年,p e e r t o - p e e r 应用已经逐渐成为i n t e r n e t 上最受欢迎、使用最广泛的 应用程序之一。它之所以受广大网民的青睐,主要归结为p 2 p 应用程序的两大主 要特征:( 1 ) 网络中的任何一个结点既可以作为客户端( c l i e n t ) 又可以作为服务 器( s e v e r ) 使用;( 2 ) 任何一个客户端都可以从另外一个客户端上搜索和下载它需 要的内容。著名互联网评论家c l a ys h i r k y 给p 2 p 下了一个相对固定的定义:p 2 p 就是能够把位于互联网边缘的一切存贮资源、c p u 时钟、信息和人等加以利用的 应用。从s h i r k y 的定义中我们可以看出,几乎所有的网络资源都可以被p 2 p 网络 利用。p 2 p 技术,是在i n t e r n e t 上实施网络计算的一种新的计算模型。在这种网络 中所有的节点是对等的( 称为对等节点) ,各节点具有相同的责任与能力并协同 完成任务。对等节点之间通过直接互连,共享信息资源、处理器资源、存储资源 甚至高速缓存资源等,无需依赖集中式服务器就可完成。i b m 为p 2 p 作了如下定 义:系统依存于边缘化( 非中央式服务器) 设备的主动协作,每个成员直接从其 他成员而不是从服务器的参与中受益,系统中成员同时扮演服务器与客户端的角 色,系统应用的用户能够意识到彼此的存在,构成一个虚拟或实际的群体。 p 2 p 应用程序要基于特定的p e e r t o p e e r 网络,如:e d o n k e y ,g n u t e l l a 和e m u l e 以及b i t t 0 r r e n t 等。从1 9 9 9 年最早出现的n a p s t e r ,到后来的g n u t e l l a ,以及到现 在流行的b i t t o r r e n t ,p 2 p 共享系统的用户数量急剧增加。 2 对等网络的分类 高度动态变化的p 2 p 网络具有复杂的拓扑结构,这个拓扑结构是一个上层的 网络拓扑结构,它在物理网络之上,物理网络连接不同节点。根据p 2 p 网络中心 服务器节点的存在与否,可以将其分为纯分布式,部分分布式以及混合分布式。 而根据其搜索信息的方式,又可以将其划分为非结构化p 2 p ,松散结构p 2 p 以及 结构化p 2 p 。表1 清楚地表示出p 2 p 系统结构的分类与特点: 表1 1p 2 p 系统结构分类和特点比较 嘉淡 非结构化p 2 p松散结构p 2 p结构化p 2 p特点 分布方式、 集中式的目录服 混合分布式 n a p s t e r 务器 c h o r d 、c a n 、 纯分布式 g n u t e l l a f r e e n e t无中间节点 p a s t r y 、t a p e s t r y k a z a a 、 对节点进行分 部分分布式 类,节点搜索, m o r p h e u s 索引节点 节点自由分布, 每个节点存储 每个节点只存储特定信息或特定 特点 自身的信息或信息的索引,d h t 路由 信息索引 b i t t o r r e n t 系统中文件传输算法与优化 1 2 2 对等网络的特点和优势 p 2 p 是一种基于互联网环境的新的技术应用模式,它的技术特点和优势在于: ( 1 ) 非中心化( d e c e n t r a l i z a t i o n ) :网络中的资源和服务分散在所有节点上, 信息的传输和服务的实现都直接在节点之间进行,可以无需中间环节和服务器的 介入,避免了可能的瓶颈。 ( 2 ) 可扩展性:在p 2 p 网络中随着用户的加入,不仅服务的要求增加了, 系统整体的资源和服务能力也在同步地扩充,始终能较容易地满足用户的需要。 整个体系是全分布的,不存在瓶颈。理论上其可扩展性几乎可以认为是无限的。 ( 3 ) 健壮性:p 2 p 架构天生具有耐攻击、高容错的优点。由于服务是分散在 各个节点之间进行的,部分节点或网络遭到破坏对其它部分的影响很小。p 2 p 网 络一般在部分节点失效时能够自动调整整体拓扑,保持其它节点的连通性。p 2 p 网络通常都是以自组织的方式建立起来的,并允许节点自由地加入和离开。p 2 p 网络还能够根据网络带宽、节点数、负载等变化不断地做自适应的调整。 ( 4 ) 负载均衡:p 2 p 网络环境下可以根据策略灵活分布信息。负载均衡模块 可以监控各种信息的流量和请求率,然后重新分布这些信息以减轻单个节点的负 载。这种负载平衡策略可以提供分布式缓存才能实现的功能,且具备简单和低价 的特点。 ( 5 ) 信息资源丰富:任何p 2 p 网络用户能够扫描活动节点并搜索需要的信息, 然后直接从这个节点上下载信息。用户可以在他们的机器上把下载的信息共享出 来,这样,请求率高的文件能够很快地在许多节点上扩展开来。在一个开放网络 环境下,p 2 p 网络能够很快积累相当丰富的信息。 ( 6 ) 冗余和容错:p 2 p 网络的多个节点间的信息复制导致高度冗余,其直接 结果是提高了信息的可用性,使之为更多的用户提供服务。另外,冗余使得网络 不会产生“单点失效”问题,所以分散式的p 2 p 网络提高了网络的容错和安全。 ( 7 ) 基于内容的寻址:在w e b 上,u r l 地址并不能直接反映它们的内容。 但在p 2 p 网络之,存储特定信息的节点地址对于用户是透明的,用户向网络提交 查询请求时,请求中便包括需要查询的信息,p 2 p 软件把请求转换成存放这些信 息的节点地址,所以把信息按照内容分类后再分布在网络上,这更易于信息、资 源的查找。 ( 8 ) 有效的搜索:w e b 搜索引擎存在一些问题,因为这些搜索引擎依赖执 行程序在i n t e m e t 上进行搜索,得到的信息存储在巨大的、可扩展的数据库中。 这些信息仅包括开放的服务器,并且数据库不会随着网络状态动态更新。但在 p 2 p 网络中,任何节点的信息只有当节点在线的时候才被加入路由表,因此路由 表信息与网络状态同步。p 2 p 网络不依赖搜索程序重新访问链接来修改数据库信 硕七学位论文 息,这种动态信息和对信息的有效搜索使得p 2 p 具有显著优势。 1 2 3 对等网络应用的领域 到目前为止,p 2 p 研究已经涉及非常广泛的方面,主要包括:网络拓扑构造、 安全与可靠性、分布式数据存储、大规模并行计算等。p 2 p 的应用更是涵盖诸多 领域,如:商业和民用领域的文件和数据共享和存储、科研领域的协同和并行计 算、军事领域的士兵协作和战场网络( b a t t l e n e l dn e t w o r k ) 构造等。并出现了 一些成果和产品,体现出巨大的商业和技术上的发展潜力。面对这次p 2 p 技术给 我们带来的巨大潜力和应用空间,作为中国的软件产业来说,应当适时地抓住机 遇,积极投入到p 2 p 技术的研发与应用中去。在这一方面,我们在看到国外产品。 比如:b i t t o r r e n t 系列、e m u l e 、n a p s t e r 等取得极大成功的同时,也欣喜地注意到 国内对于p 2 p 技术应用的发展,比如:北京大学网络与分布式实验室推出的m a z e , 是一个基于p 2 p 的文件系统。m a z e 集文件共享、查找、下载于一身,是网上资源 搜索的利器,常规在线用户突破10 万;华中科技大学开发的a n y s e e 【7 】系统,以 及p p l i v e 系统成功地打造了国内第一个基于p 2 p 的网络电视平台,该软件使用网 状模型,有效解决了目前网络视频多播服务的带宽和负载有限问题,实现用户越 多,播放越流畅的特性,整体服务质量大大提高。面对p 2 p 技术的迅猛发展与当 前互联网行业存在的巨大市场潜力,我们希望在p 2 p 的应用方面继续加以研究, 提高软件自主创新能力。 p 2 p 的主要应用和研究领域分布在以下几个方面: 1 文件共享 以p 2 p 模式实现了自由的文件交换体系,从而引发了网络的p 2 p 技术革命。 一种是“中心文件目录分布式文件系统 ,交换数据时是通过中央服务器来进 行目录管理的。n a p s t e r 就属于此类。由于采用集中式目录管理,所以不可避免 地存在单点瓶颈的问题。另外一种属于完全的p 2 p ,这类系统没有中间服务器。 g n u t e l l a 和f r e e n e t 是这方面两个典型的应用。要问一百个网友目前中国最流行的 文件下载方式,恐怕9 9 个都会回答是“b t ”。“b t ”是b i t t o r r e n t 的简称,是一种依 赖p 2 p 方式将文件在大量互联网用户之间进行共享与传输的协议,对应的客户端 软件有b i t t o r r e n t 、b i t c o m e t 和b i t s p i r i t 等。由于其实现简单、使用方便,在中国 用户之间被广泛使用。b i t t o r r e n t 中的节点在共享一个文件时,首先将文件分片 并将文件和分片信息保存在一个流( t o r r e n t ) 类型文件中,这种节点被形象地称作 “种子”节点。其他用户在下载该文件时根据t o r r e n t 文件的信息,将文件的部分分 片下载下来,然后在其他下载该文件的节点之间共享自己已经下载的分片,互通 有无,从而实现文件的快速分发。由于每个节点在下载文件的同时也在为其他节 点上传文件的分片,所以整体来看,不会随着用户数的增加而降低下载速度,反 b i t t o n - e n t 系统中义件传输算法j 优化 而下载的人越多,速度越快。 2 分布式科学计算 我们知道,许多计算机的c p u 资源并不是时刻保持峰值运转的,甚至很多时 候计算机处于“空闲”状态,比如使用者暂时离开等情况。而p 2 p 技术可以使得众 多终端的c p u 资源联合起来,服务于一个共同的计算。这种计算一般是计算量巨 大、数据极多、耗时很长的科学计算。在每次计算过程中,任务( 包括逻辑与数 据等) 被划分成多个片,被分配到参与科学计算的p 2 p 节点机器上。在不影响原 有计算机使用的前提下,人们利用分散的c p u 资源完成计算任务,并将结果返回 给一个或多个服务器,将众多结果进行整合,以得到最终结果。 世界最著名的p 2 p 分布式科学计算系统非“s e t i h o m e ”项目莫属。 s e t i h o m e 项目( 简称为s h 或s e t i ) ,由美国加利福尼亚大学伯克利分校在 1 9 9 9 年发起,是至今最成功的分布式计算项目。s e t i h o m e 通过分析从射电望 远镜传来的数据来搜寻地外文明,这在科幻迷们甚至很多普通大众的眼里都是一 个“很酷”的应用。s e t i 的早期版本截至2 0 0 5 年已经吸引了5 4 3 万用户,分析了大 量积压数据。正如宇宙的浩瀚一般,需要计算的数据( 即存在宇宙空间的无数无 线电信号) 也是海量的。可以说,这几百万台终端组成了一个目前最快的高性能 计算机都望尘莫及的“超级计算机”。同时c e n t r a t a 、d a t a s y n a p s e 、d i s t r i b u t e d n e t 、 s t r i b u t e ds c i e n c e 、 e n t r o p i a 、p a r a b o n c o m p u t a t i o n 、p o p u l a r p o w e r 、p o r i v o t e c h n o l o g i e s i n c 、s e t i h o m e 、u b e r o 、u n i t e dd e v i c e 等研究项目均是目前基 于p 2 p 的分布式计算的典型代表。 3 协同工作 协同工作是指多个用户之间利用网络中的协同计算平台互相协同来共同完 成计算任务,共享各种各样的信息资源等。在p 2 p 出现之前,协同工作的任务通 常由诸如l o t u sn o t e s 、m s e x c h a n g e 等来实现,l o t o u s 公司的创始人组织开发的 g r o o v e 是目前最著名的p 2 p 协同工作产品。g r o o v e 采用中间传递服务器( r e l a y s e r v e r s ) 来实现p 2 p 的多播,采用x m l 表示的路由协议,多个不同的g r o u p 之间 不仅仅可以共享文件、聊天信息还可以共享各种应用程序。另外,e n g e n i a s o f t w a r ei n c 、e z 、i n t e r b a n d 等都是协同工作的典型应用。 4 即时通讯 从某种意义上说,由于版权的限制,即时通讯应用将超过文件共享应用,成 为p 2 p 的第一大应用。在即时通讯领域,a o l 和微软、y a h o o 一直有着比较激烈 的竞争,当然国内还是o i c q 一家独大。与i r c 、b b s 或w e b 聊天室比较,p 2 p 的 即时通讯软件不仅可以随时知晓对方在线与否,而且交流双方的通讯完全是点对 点进行,不依赖服务器的性能和网络带宽。j a b b e r 是一个开放源码的实时通信平 台,j a b b e r 提出了一个在不兼容的各种实时通信平台之间进行消息交换的协议, 硕 :学位论文 这种协议包含在一个采用x m l 表示的路由协议中。目前风靡全球的s k y p e 【8 】即是 一款典型的p 2 pv o i p 软件。s k y p e 由于能够提供清晰的语音质量和免费的服务, 使用起来又方便快捷,所以吸引了全球数千万的用户,每天在线用户达5 0 0 万人, 并且注册用户每天增加l5 万。基本上,s k y p e 采取类似k a z a a 的拓扑结构,在网 络中选取一些超级节点。在通信双方直连效果不好时,一些合适的超级节点则担 当起其中转节点的角色,为通信双方创建中转连接,并转发相应的语音通信包。 5 搜索引擎 搜索引擎是目前人们在网络中搜索信息的主要工具。目前的搜索引擎如: g o o g l e 、百度等都是集中式的搜索引擎。即使是g o o g l e 这个目前最出色的全英文 搜索引擎只能搜索到2 0 3 0 的网络资源。p 2 p 网络模式中节点之间动态而又对 等的互联关系使得搜索可以在对等点之间直接地、实时地进行,既可以保证搜索 的实时性,又可以达到传统目录式搜索引擎无可比拟的深度( 理论上将包括网络 上所有开放的信息资源) 【9 j 。p 2 p 为互联网的信息搜索提供了全新的解决之道。 6 网络游戏 采用p 2 p 技术建立起来的分布式小组服务模型,配以动态分配的技术,每个 服务器的承载人数将在数量级上超过传统的服务器模式,这将大大提高目前多人 在线交互游戏的性能。大型网络在线游戏和网络对战游戏是不少“网虫”的至爱。 但由于服务器能力有限,大型网络在线游戏往往需要限制场景人数或者不断增加 服务器,而网络对战游戏也必须局限在局域网内进行或者依赖独立的服务器端程 序及机器实现i n t e r n e t 上的电子竞技。目前,已有研究人员将p 2 p 技术引入网络游 戏和网络游戏支撑平台中。当前国内较为成功的p 2 p 游戏平台是华中科技大学集 群与网格计算湖北省重点实验室推出的p k t o w n 【l o 】系统。 7 基于i n t e r n e t 的文件存储系统 一些研究项目开始使用p 2 p 技术来组织和存储文件,像o c e a n s t o f e 、f a r s i t e 等。 这些项目的目标都是提供面向全球规模的文件存储服务。 8 基于p 2 p 的流媒体直播、点播系统 曾经人们以为p 2 p 做文件共享最合适,但现在大家发现p 2 p 模式是如此适合 于流媒体直播,以至于研究热点在很短的时间内迅速转移到p 2 p 的流媒体上来。 中国最早的p 2 p 流媒体直播软件应该算香港科技大学计算机系研究的 c o o l s t r e a m i n g 【1 1 】、华中科技大学集群与网格计算实验室研究的a n y s e e 以及清华 大学的g r i d m e d i a 等系统。除了学术界对p 2 p 流媒体直播的研究外,中国还涌现 了很多成功的p 2 p 流媒体直播商业产品,如p p l i v e 、p p s t r e a m 、沸点和t v a n t s 等,其中以p p l i v e 最为有名。p p l i v e 目前拥有数百个频道,在2 0 0 6 年“超级女 声”决赛期间,频道观看人数达到十万人,可以说是把p 2 p 发挥到了极限。此外, 国外也有不少对p 2 p 流媒体直播的研究,如s p l i t s t r e a m 等。由于观看直播节目 b i t t o 丌e n t 系统中文件传输算法j 优化 时用户不能选择观看指定片段,所以在人们热烈研究p 2 p 流媒体直播时,已有 人开始将目光转向p 2 p 流媒体点播服务【1 2 】。目前成功推出p 2 p 流媒体点播的机 构还不多,典型的g r i d c a s t 系统、p p s t r e a m 点播系统。 1 2 4 对等网络面临的挑战 尽管当前p 2 p 技术的研究与应用发展迅速,但仍面临很多挑战,总结起来主 要为以下几点: ( 1 ) 版权问题:由于p 2 p 技术缺乏有效的管理,并且具有匿名发布的特性, 所以大多数p 2 p 服务都将不可避免地和知识产权发生冲突。 ( 2 ) 管理困难:缺乏管理的p 2 p 网络在为人们带来方便的同时,也可能成为 病毒、非法交易的温床,甚至为恐怖分子所利用。许多p 2 p 公司打算通过p 2 p 网 络开展电子商务,但是付费、流量计算、商品价值验证等诸多问题一时都难以解 决。同时,对于使用用户的资源提供保证措施尚需要进一步地研究和改进。 ( 3 ) 安全性差:一个拥有众多用户的p 2 p 网络可能会成为黑客们的新攻击目 标,而且分散式结构的p 2 p 网络有利于木马、病毒等破坏性程序的传播,这将极 大地威胁p 2 p 网络的安全。 ( 4 ) 带宽占用:因为p 2 p 技术允许用户从网络上下载m p 3 和电影等大型文件, 所以这项技术可能需要大量的带宽。这一点可能会为p 2 p 网络的推广制造障碍, 但是随着宽带网络技术的采用与发展,这一问题可能会得到缓解。 ( 5 ) 垃圾信息:p 2 p 网络中的用户数量众多,当用户进行搜索时,会得到大 量的搜索结果,除了少数有用的信息以外,其他大多数信息可能都属于垃圾信息。 在缺乏统一管理的情况下,p 2 p 客户端软件很难对搜索结果进行排序,按用户需 求列出目录结构。 ( 6 ) 标准之争:各大公司的利益分歧导致开发标准难以统一,这将成为目 前p 2 p 发展的主要困难之一。 ( 7 ) 正确发展:很多文件共享系统由于用户数量大,占用很多带宽资源, 在国外被政府强行关闭了。因此,必须正确引导p 2 p 应用软件的发展和利用,使 其向对社会和网民有利的方向发展。 1 3p 2 p 文件共享系统的发展历程 p 2 p 文件共享作为一个刚兴起不久的网络应用却已经受到了广泛的拥护,成 为了i n t e r n e t 上占用流量最大的应用。从l9 9 9 年第一个文件共享系统一一n a p s t e r 的诞生至今,文件共享系统的发展已有9 年的历史。根据文件共享系统出现的年 代和使用的相关技术可以划分出如下几种典型的p 2 p 文件共享系统模型:n a p s t e r 模型、g n u t e l l a 模型、k a z a a 模型、b t 模型以及以c h o r d 为代表的结构化p 2 p - 8 - 硕上学位论文 文件共享系统模型。他们都是p 2 p 文件共享系统的发展过程中非常杰出的代表。 1 3 1n a p s t e r n a p s t e r 是最早的p 2 p 文件共享协议,也是全球第一家在世界范围内从事p 2 p 文件共享应用的公司。他们提出了集中式目录( c e n t r a l i z e dd i r e c t o r y ) ,有一台 大型服务器提供目录服务,所有启动p 2 p 应用的用户都连在该目录服务器上,目 录服务器能保存它所连接的所有对等节点的i p 地址和对应地址下的可共享对象 名称以及这两者之间的映射,同时该服务器也能及时更新自己所存储的目录信 息。n a p s t e r 是一个用于专门交换m p 3 文件的平台,用户可以搜索m p 3 文件,然后 连接到拥有该m p 3 文件的用户,下载m p 3 。用户在查找m p 3 文件时也先连接到目 录服务器提交查找条件,然后从目录服务器得到拥有该m p 3 文件的用户地址列 表,然后才能连接到该用户。具体工作原理如图1 4 所示,n a p s t e r 是第一代p 2 p 网络模型,打破了传统的c s 的资源共享方式,使得用户之间可以互相直接共享 数据,实现了文件查询和文件传输的分离,有效地节省了中央服务器的带宽消耗, 减少了系统的文件传输延时,是文件共享技术领域的一次技术性飞跃【1 3 】。n a p s t e r 模型的诞生和应用具有积极的意义,但是这种网络模型在后来的应用中,也出现 了很多问题,主要表现为: ( 1 ) 存在严重的单点故障,即:n a p s t e r 虽然采用了p 2 p 方式( 用户之间直 接传输m p 3 文件) ,但是整个系统还是依赖于目录服务器,所以它依然存有传统 c s 模式的性能瓶颈,同时如果目录服务器遭遇问题将使得整个p 2 p 应用崩溃, 属于单点失效的系统。另外,对等节点间文件传输是分散的但是定位内容却很集 中,因而可靠性比较低。 ( 2 ) 系统的可扩展性差,即:随着网络规模的扩大,节点在短时间里的大 量增加,对中央目录索引服务器进行维护和更新的费用急剧增加,计划赶不上变 化,因此所需成本较高。 ( 3 ) 安全性差,没有提供有效的安全机制。 第一代p 2 p 网络模型在小型系统中能发挥最佳性能,但该模型对于大型系统 并不适应。 b i t t o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论