(计算机系统结构专业论文)基于p2p流特征的流量识别技术研究.pdf_第1页
(计算机系统结构专业论文)基于p2p流特征的流量识别技术研究.pdf_第2页
(计算机系统结构专业论文)基于p2p流特征的流量识别技术研究.pdf_第3页
(计算机系统结构专业论文)基于p2p流特征的流量识别技术研究.pdf_第4页
(计算机系统结构专业论文)基于p2p流特征的流量识别技术研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 有关调查表明,p 2 p 业务己悄然占据了互联网业务总量的 6 0 8 0 ,成为杀手级宽带互联网应用。p 2 p 业务流量在对互联网业 务起巨大推动作用的同时,也带来了因资源过度占用而引起的网络拥 塞以及安全隐患等问题,妨碍了正常的网络业务的开展。为了保证网 络正常有序的运行,有必要对p 2 p 流量进行控制管理。但随着数据加 密技术和动态端口技术的出现,p 2 p 流量识别技术也面i 临巨大的挑 战。 本文对目前主要的几种流量识别技术进行了对比分析,指出了它 们的优缺点。着重对基于流量特征的流量识别方法进行了研究,指出 了其效率低下的原因即存在类似于p 2 p 应用的非p 2 p 应用的干扰和 p 2 p 应用流量特征的不稳定性。在此基础上,给出了相应的解决办法 提出了一种基于多重特征的流量识别方法,实验证明该方法能在一定 程度上提高检测效率。然后针对几个核心的流量特征与p 2 p 主机识别 概率的关系,提出了基于p 2 p 流特征的回归分析方法。通过分析发现 p 2 p 主机连接数只有在小于5 或者大于2 0 时才有比较好的区分度, 而且p 2 p 主机监听端口的连接特点在排除连接数小于5 的连接后能有 更好的区分度,论文给出了相应的回归方程。最后,本文对p 2 p 流量 识别技术进行了展望。 关键词:对等点,流量识别,流量特征,回归分析 a bs t r a c t i n v e s t i g a t i o n ss h o wt h a tp 2 ph a ss i l e n t l yb e c o m et h ed o m i n a n tf o r c e i ni n t e m e ta p p l i c a t i o n s ,m a k i n gu p6 0t o8 0p e r c e n to fi t st o t a lv o l u m e 骱i l ep 2 pt r a 伍ch a ss t r o n g l yp r o m o t e dt h ed e v e l o p m e n to fi n t e r n e t ,i t h a sa l s ob r o u g h ta b o u ts u c hp r o b l e m sa sn e t w o r kc o n g e s t i o no w i n gt o r e s o u r c e sa r eo v e ro c c u p i e da n dp o t e n t i a l s e c u r i t yc o n c e m ,t h u si t h a m p e r sn o r m a lp r a c t i c eo fn e t w o r kb u s i n e s s t h e r e f o r e ,r e l e v a n tp 2 p t r a f f i cc o n 仃o la n dm a n a g e m e n tm e t h o d sa r er e q u i r e dt oe n s u r en o r m a l a n do r d e r l yf u n c t i o no ft h en e t w o r k b u tw i t ht h ea d v e n to fd a t a e n c r y p t i o na n dd y n a m i cp o r t ,p 2 pt r a 珩ci d e n t i f i c a t i o nn o wf a c e s e n o r m o u s c h a l l e n g e s t h i st h e s i sb r i e f l yi n t r o d u c e dc u r r e n tm a i np 2 pt r a m ci d e n t i f i c a t i o n t e c h n i q u e s a n df o c u s e so n t e c h n i q u e s b a s e d u p o n p 2 pt r a f f i c c h a r a c t e r i s t i c s t h e nm a k e sah e a v yw e i g h to nt h ea n a l y s i sa b o u tt h e r e a s o n so fl o we f f i c i e n c yo ft h e t e c h n i q u eb a s e du p o np 2 pt r a f f i c c h a r a c t e r i s t i c sa n dc o m e su pw i mt h e i r c o r r e s p o n d i n gs o l u t i o n s a f t e r w a r d s ,r e g r e s s i o na n a l y s i sa r et a k e nb e t w e e ns e v e r a lp 2 pt r a 伍c c h a r a c t e r i s t i c sa n dt h e i r p o s s i b i l i t yt ob ei d e n t i f i e da sp 2 p 硼 l r o u g h d e t a i l e da n a l y s i s ,t h et h e s i sf i n do u tt h a tt h en u m b e ro fh o s t sw h i c hap 2 p h o s tl i n kw i t h ,h a sag o o dd e g r e eo fd i f f e r e n t i t a t i o no n l yi ft h en u m b e ri s l e s st h a n5o rm o r et h a n2 0 f u r t h e r m o r e ,t h ec h a r a c t e r i s t i ca b o u t l i s t e n i n gp o r to fp 2 ph o s t sh a sab e r e rd e g r e eo fd i f f e r e n t i t a t i o ni ft h e n u m b e ro fl i n k sw h i c hi sl e s st h a n5 ,h a sb e e ne x c l u e d e d f i n a l l y , t h e t h e s i si n t r o d u c et h el a t e s tr e s e a r c ha b o u tp 2 pt r a 伍ci d e n t i f i c a t i o na n d n o v e lw a y st oi d e n t i f yp 2 p 舰f | f i cb e y o n dt h et e c h n i q u e sd i s c u s s e da b o v e k e yw o r d s :p e e r - t o p e e r t r a f f i cc h a r a c t e r i s t i c s ,t r a f f i cm o d e l s , r e g r e s s i o na n a l y s i s 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南 大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本 研究所作的贡献均已在论文中作了明确的说明。 作者签名: 日期:兰扛年 - v i e i 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校有权 保留学位论文并根据国家或湖南省有关部门规定送交学位论文,允许学位 论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用 复印、缩印或其它手段保存学位论文。同时授权中国科学技术信息研究所 将本学位论文收录到中国学位论文全文数据库,并通过网络向社会公 众提供信息服务。 作者躲勉导师签煮盟嗍掣年上月丝日 硕士学位论文 第一章绪论 1 1 课题的研究背景 第一章绪论 随着互联网技术在世界范围内迅猛的发展,p 2 p 应用已经逐渐占据互联网业 务中非常重要的地位。其发展经历了从第一代的p 2 p 应用例如n a p s t d 、 g l m l l t e l l a 【2 】、k a z a a 3 】到第二代的b i t t o r r e n t 【4 】、e d o n k e y 5 】等并逐渐发展成熟起来。 相对于传统的集中式客户服务器( c s ) 模型,p 2 p 弱化了服务器的概念,系统中的 各个节点不再区分服务器和客户端的关系,每个节点既可请求服务,也可提供服 务,节点之间可以直接交换资源和服务而不必通过服务器。p 2 p 网络是一种具有 高扩展性的分布式系统结构,其对等概念是指网络中的物理节点在逻辑上具有相 同的地位,而并非对处理能力而言。当今p 2 p 的应用已经非常普遍,然而p 2 p 的广泛应用却着实让宽带运营商十分为难。因为这类应用对带宽的需求在理论上 是无限的。它们会使原来运行流畅的网络变得越来越拥塞,并且将运营商的运营 成本提高3 0 ,甚至更高。互联网的开放性使得大量的p 2 p 业务可以迅速开展 和部署,自从b i t t o r r e n t 技术产生以来,它就迅速成为互联网上最流行的p 2 p 应 用之一。根据相关统计,大约6 0 的带宽被p 2 p 流量所占据 6 1 。图1 1 是国内某 运营商的流量统计饼图【7 】。 图1 - l 网络流量饼图 由此可见p 2 p 应用给运营商带来了不小的麻烦。针对此种情况,广大运营 商提供多种策略来解决由于p 2 p 应用造成的网络拥塞等问题。最简单的解决方 法就是增加带宽。实际经验表明,增加带宽确实能在短时间内能缓解网络拥塞的 状况,但是当p 2 p 应用”觉察”到网络中还有更多可用带宽时,网络带宽将会再度 被p 2 p 应用迅速占据。这样一来,用于增加带宽的费用将无限增加,因为这样 硕士学位论文 第一章绪论 的做法只是给那些p 2 p 应用提供了更多可获取的带宽资源。除此之外,若是用 户不理解这种行为,也会增加用户的抱怨度。企业也面临这样的处境,即是否采 用升级连接链路的办法来缓解网络拥塞的状况。总体来说扩充网络容量是网络拥 塞时维护网络的传统做法,但在当前的形势下,这种传统做法已不能解决根本问 题,扩充的网络资源仍然会被p 2 p 应用迅速占用。扩容带来的运营成本压力最 终会使运营商严重亏损,网络质量降低,从而形成一个恶性循环。 解决网络拥塞问题的另外一种解决方法就是全面禁止p 2 p 应用。全面禁止 p 2 p 应用会使拥塞的网络恢复正常状态。但目前p 2 p 应用已经被广大用户所喜爱, 一旦全面禁止p 2 p 应用,肯定将失去一些用户,这几乎是所有运营商都所不愿 意看到的情况。 适度控制p 2 p 应用对网络资源的占用,变“堵”为“疏”,对流量进行整形、限 制某些应用的流量,是一种较好的解决方法。它可以在一定程度上缓解网络运营 商的压力,但是这种方法也是建立在降低用户体验的基础上的,所以也将失去一 些用户。因此对流量控制与管理系统的研究将具有重大意义。而在这之前,如何 正确的识别p 2 p 流量是开发流量控制与管理系统的重要前提。 1 2 国内外研究现状 1 2 1 相关研究 基于p a y l o a d ( 有效载荷) 特征的检测方法通过检测数据包应用层协议来发 现p 2 p 应用的方法,该技术已经发展得非常成熟。它简单、可靠,可对网络流 量进行应用级分类。s u b h a b r a t as e n 剐等人于2 0 0 4 年初提出基于应用层签名的p 2 p 流量检测方法,该方法把p a y l o a d 特征分为固定偏移量( f i x e do f f s e t ) 特征和变 化偏移量( v a r i a b l eo f f s e t ) 特征,第一步检查固定偏移量,第二步检查变化偏移 量,以此来判别能否匹配p 2 p 的p a y l o a d 特征。该方法在性能和精度上都取得了 令人满意的效果。h o l g e rb l e u l t 9 1 等人提出一种简单、有效、灵活的p 2 p 流量测量 方法,且该方法具有易于扩展到新p 2 p 应用的特点。h o l g e rb l e u l 通过对校园网 流量进行实验,证明该方法不仅精度高,而且性能和可扩展性都达到了实用性水 平。但是这些方法都存在先天的缺陷,即无法检测到采用了数据加密技术的p 2 p 应用,而且随着p 2 p 应用的增加,特征串的数量也相应增加,使得该方法每检 测一个报文所需要匹配的特征串越来越多,从而检测效率逐渐降低。 基于流量特征的检测方法是一种利用网络流量的流量特征如口地址、端口 数量、报文长度等信息来检测p 2 p 流量的方法。与基于p a y l o a d 特征的方法相比, 基于流量特征的方法易于检测对p a y l o a d 进行加密的p 2 p 流量以及p a y l o a d 特征 2 硕士学位论文第一章绪论 未知的p 2 p 流量。在大规模流量环境中,出于对网络性能的考虑,一般不允许 布署检测p a y l o a d 的网络设备,从而使得基于p a y l o a d 的方法不适用于这种网络。 而基于流量特征的方法则不会有这个障碍。韩国的j a m e sw b n - 飚h o n g 1 0 l 等人于 2 0 0 3 年提出一种基于传输层特征的p 2 p 流量检测方法,该方法先通过离线统计 的方式找到各种p 2 p 应用的常用端口,然后把这些常用端口信息用到流量检测 中作为应用分类的依据。j a m e sw b n k ih o n g 等人使用该方法针对韩国当时流行 的p 2 p 软件进行了测试,但是遗憾的是并没有给出具体性能参数。t h o m a s k a r a g i a n n i s t l 等人在仔细研究了p 2 p 流量的传输层特征后,于2 0 0 4 年提出一种 基于传输层特征的p 2 p 流量检测方法,该方法以p 2 p 流量在传输层所表现出来 的两种一般性特征为依据,并结合传统的端口检测技术,来检测网络流量。该方 法能够有效地检测到新的p 2 p 应用和加密的p 2 p 应用,但是算法过于复杂且不 能对p 2 p 应用进行分类,另外他们也没有考虑对该方法的性能进行优化。f i v o s c o n s t a n t i n o u 1 2 j 等人也提出一种检测已知和未知p 2 p 流量的方法。它只利用p 2 p 协议的基本特征,如网络直径大、大量主机既是服务器又是客户端等,而不使用 应用层的特定信息,用一种简单、有效的方式实现了识别已知和未知p 2 p 协议 的目标。总之,国内外对基于流量特征的检测方法的研究还处在比较初级的阶段。 1 2 2 相关产品 现在国内外市场上用于流量检测的产品主要分为: n ) 纯软件型 硬件采用普通p c 机或服务器,软件设计与硬件无关,这种产品一般售价低 廉,甚至免费,如开源软件i p p 2 p 1 3 】。 ( 2 ) 软件与硬件搭配型 大型厂家生产的p 2 p 流量检测产品都是软硬件搭配的,这种方式可以利用 精心设计的硬件为软件运行赢得更多性能,主要用于大流量的的网络环境以及一 些对于网络延迟要求非常严格的场合。 下面主要针对第二类产品,介绍凡款p 2 p 流量监控的产品: ( 1 ) 华为3 c o m 的s e c p a t h18 0 0 f 防火墙【1 4 1 对p 2 p 软件采用深度检测的方法,可以精确的识别p 2 p 流量,以达到对p 2 p 流量进行限制的目的。s e c p a t h1 8 0 0 f 防火墙可以准确的发现p 2 p 连接,控制p 2 p 流量。可以根据时间范围设置不同的流量范围,可以支持对b t 、e d o n k e y 、e m u l e 等各种常用的p 2 p 软件进行限制,支持范围广泛。可以和图形化日志工具配合 使用,可以有效的检测网络中流量的分布,为用户优化网络提供了直观、有效的 分析方法。 3 硕士学位论文第一章绪论 ( 2 ) e u d e m o n 系列防火墙解决方案f 1 5 】 采用深度数据包检测技术,可以准确地发现p 2 p 连接,控制p 2 p 流量,可 以为用户提供更丰富的b t 限制方案,最大限度的降低因为流量的限制而造成的 用户体验下降。直观的图形化统计工具为用户优化网络提供了直观、有效的分析 方法。 ( 3 ) c i s e o 公司p i xf i r e w a u t l 6 】 能够捕获绝大部分p 2 p 文件共享应用,对于暂不能捕获的流量,用户可通 过细化配置实现捕获。 ( 4 ) c a c h e l o g i e 公司p 2 p 流量管理解决方案【1 7 1 使用灵活的缓存和七层d p i 技术,具体来说有以下特点: 1 软件协议再认和破解协议的快速布署 2 高达1 0 g b p s 的流量检测 3 基于w e b 的g u i 管理接口、s n m p 和命令行 4 使用缓存技术大大减小p 2 p 流量 5 减小宽带服务提供商的为p 2 p 付出的费用,使之恢复盈利 这些产品都属于基于p a y l o a d 特征的检测方法,尚不能对加密和未知的p 2 p 流量进行有效的识别。 1 3 课题的研究意义 p 2 p 应用已经成为网络带宽的最大消费者。p 2 p 广泛应用在给人们带来方便 的同时也带来了很多问题。病毒、木马借p 2 p 文件共享平台以更快的速度扩散, 造成更大的破坏;色情、暴力等不健康内容不受限制地分发共享,毒害众多思想 不成熟的青少年;盗版音乐、影视作品轻松逃避法律制约,使拥有版权的公司或 艺人遭受巨大损失;网络带宽被贪婪吞噬,非p 2 p 用户的网络体验严重下降, 企业关键应用得不到带宽保证。因此为了保证网络能正常有序健康的运行,有必 要对p 2 p 流量进行控制管理。解决带宽拥塞的问题关键是当网络资源紧张的时 候限制那些使用量大的p 2 p 用户,保障那些使用量小的非p 2 p 用户。当网络资 源有较大空闲时则取消这些限制,让每个用户都能高效的利用网络。此时如何对 网络资源进行有效的控制,如何对p 2 p 流量进行有效的控制就是显得相当的重 要了。而如何识别p 2 p 协议,是对p 2 p 流量进行有效控制的关键技术。但随着 加密数据技术和动态端口技术的出现,识别基于p 2 p 流量的困难变得越来越大。 一些传统的识别方法,比如端口识别法、应用层协议内容识别法识别效果已经不 是很好了。在这种环境下,基于网络流量特征的流量识别方法是一种新思路,这 种方法的优点主要体现在如下两方面:第一,对比其他识别方法基于流量特征的 4 硕士学位论文第一章绪论 识别方法只关注报文的头部信息,因此会有更高的识别效率;第二,其他方法只 能识别公开的、广泛应用的p 2 p 协议,对于私有的、被加密p 2 p 协议这些方法 不能有效识别。而基于流量特征的识别方法不仅可以克服以上缺点,还可以发现 新出现的p 2 p 应用。因此相信基于流量特征流量识别方法将有非常好的发展前 景。本文对基于流特征的流量识别方法作了深入而细致的研究,一方面使用回归 分析的方法对p 2 p 的多个流特征进行了详细的分析,发现了其更本质的特征,另 一方面分析了目前基于流特征的流量识别方法存在效大的误报和漏报的原因,并 给出了相应的解决办法。因此本文的研究工作对基于流特征的流量识别方法技术 的提高有一定的贡献 1 4 本文的组织结构 本文一共分为五章 第一章:概述p 2 p 流量识别技术的研究背景,国内外研究现状和研究意义。 第二章:介绍p 2 p 技术的相关概念、p 2 p 技术的特点和p 2 p 技术广泛应用所 带来的一些问题:在此基础上对主流的三种主流p 2 p 流量识别技术做一个总结, 比较它们的优缺点,指出这些检测方法的潜在问题。 第三章:对多种基于流量特征的流量识别方法做对比分析;对基于流量特征 的流量识别方法效率低下的原因进行详细分析,分别指出容易引起误报和漏报的 原因,并给出相应的解决方案;最后结合这些特征和相应的解决方案提出一种基 于多重特征的流量识别法。 第四章:在第三章的基础上,利用回归分析的方法对各种流量特征和一个主 机被判定为p 2 p 主机的概率的关系做定量的研究;找出深层次区分度更高的流 量特征;构造一个简单的回归模型。 第五章:总结工作以及对未来工作进行展望。 5 堡主芏堡堡苎墨三童丝! 垫查塑塑里塑型堇垄 第二章p 2 p 技术和p 2 p 流量识别技术 对一个问题进行研究的前提条件之一就是对要研究的问题进行充分了解。因 此在对p 2 p 流量识别技术进行研究之前,有必要对p 2 p 技术及其特点作深入的 研究。任何工作都不是从零开始,“没有必要重复的发明轮子”,在此之前有必要 了解和学习前人所做的工作。本章主要对p 2 p 技术做一个介绍,并对当前成熟 的流量识别技术做一个全面的总结。 2 1p 2 p 技术 2 1lp 2 p 的定义 p 2 p 即对等节点的意思,是英文p e e rt op e e r 的简称,公认的比较权威的定 义有以下几种: ( 1 ) p 2 p 是一种分布式网络,网络的参与者菇享它们所拥有的一部分硬件赉 源( 处理能力、存储能力、网络连接能力、打印机等) ,这些共享资源需要由网络 提供服务,且这些资源能被其它对等节点( p 髓订直接访问而无需经过中间实体。 在此网络中的参与者既是资源( 服务和内容) 提供者( s e r v e r ) ,又是资源( 服务和内 容) 获取者( c l i e n t ) 【“i 。 ( 2 ) p e e r - t o - p e e r i sa t y p eo f i n t e r n e t n e t w o r k a l l o w i n ga g r o u po f c o m p u t e r u s e l s w i t ht h es a m en e t w o r k i n gp r o g r a mt oc o n n e c tw i t he a c ho t h e rf o rt h ep u r p o s e so f d i r e c t l ya c c e s s i n g f i l e s f r o mo l l ea n o t h e r sh a r d d r i v e s t 上面的定义也许还不能给出p 2 p 网络和传统网路一个清晰的界限,图2 1 和 图2 - 2 给出p 2 p 网络和传统网络的关键区别。 图2 - ip 2 p 网络示意图 囤2 - 2 传统网络示意图 硕士学位论文 第二章p 2 p 技术和流量识别技术 2 1 2p 2 p 技术的发展阶段 从1 9 9 9 年到现在p 2 p 技术的发展差不多经历了1 0 个年头,其核心技术是 分布式对象的定位技术 2 0 l 。为了解决对象定位的关键技术,p 2 p 网络出现了多种 网络模型。每种模型都有各自的优缺点,有的还存在本身难以克服的缺陷。因此 在目前p 2 p 技术还远未成熟的阶段,各种网络结构依然能够共存。 1 集中式资源搜索模型 在集中式的资源搜索模型中,有一台专门的服务器负责提供目录索引和资 源搜索服务【2 。所有p 2 p 节点的资源信息都集中存储在这台服务器上,每个节点 需要查询和搜索资源时,就向该服务器发送搜索请求。服务器根据请求查询目录 索引,再将结果返回请求节点。这个模型最典型的代表就是n a p s t e r 。以n a p s t e r 为例,它是一个音乐文件交换系统,该系统由运行客户端软件的注册用户和一个 维护中心目录的服务器构成 2 2 1 。其中服务器包含: ( 1 ) 所有网络上文件的原数据( 3 c 件名,产生的时间等等) 的索引。 ( 2 ) 注册用户的连接信息表( i p 地址,连接速度等等) 。 ( 3 ) 文件列表包含每个用户拥有和在网络上共享的文件。 每个客户端在启动时,连接到中心服务器,然后给中心数据库发送一个它所 维护的文件列表。当服务器从用户接收到一个查询的时候,它在索引中查找匹配 的文件,返回拥有这个文件的用户列表。然后用户和拥有这个文件的实体建立直 接的连接,并且下载文件。n a p s t e r 的中心数据库负责储存网络上可用文件列表 和这些可用文件的拥有者,而实际的文件则存储在客户端。集中式资源搜索模型 的结构如图2 3 所示: 图2 3 集中式资源搜索模型 7 图2 4 分布式搜索模型 硕士学位论文 第二章p 2 p 技术和流量识别技术 2 分布式非结构化资源搜索模型 这种结构没有中央控制点,不会因为一点故障导致全部瘫痪,有自组织 ( a a h o e ) 2 3 】行为,降低拥有者的成本,提供可扩展性。这种网络被称作纯p 2 p 网 络体系结构 2 4 1 。它主要缺点是搜索、排队响应时间长,造成大量的网络流量拥 塞,可扩展性差。具体来讲主要表现在以下方面:搜索请求要经过整个网络或者 至少是一个很大的范围才能得到结果,正因为如此消耗很多网络带宽,而且有时 需要花费很长时间才能有返回结果。随着网络规模的扩大,通过扩散方式【2 5 】搜 索对等点及查询信息的方法将造成网络流量急剧增加从而导致网络拥塞,最终使 得查询访问只能在网络很小的一部分内进行。因此网络的可扩展性能较差,不适 用于大型网络。 完全分布式的p 2 p 模式同样很难被企业利用,因为它缺少对网络上的用户 节点以及它们提供的资源的一个总体把握,除此之外安全性也不高,易遭受恶意 攻击,这样的话容易造成网络拥塞影响企业效率【2 6 】。 3 混合式搜索模型 混合式的搜索模型是集中式和完全分布式的折中,它结合了集中式和分布 式搜索模型的优点,但在设计和处理能力上都进行了优化。混合式模型在完全分 布式模型的基础上加入了搜索节点的概念,查询速度快而且没有中心服务器【2 8 1 。 混合式模型将节点按照能力的不同,这些能力包括计算能力、内存大小、在线时 间、连接带宽等,分成三种,各自担任不同的任务。三种节点是: 普通节点:一般的用户节点,不具有特殊的功能。 搜索节点:负责处理搜索请求,即在一个节点群组中搜索文件列表。它必须 具有很强的网络连接能力和高速的处理能力,通常必须具备1 2 8 k b i f f s 2 9 】以上的网 络连接速度。 索引节点:用于保存可以利用的搜索节点的信息包括搜索状态信息、网络结 构信息等。它必须有很快的网络连接速度和足够的内存。 搜索节点和索引节点在一些情况下可以是同一个网络节点。搜索节点管理着 若干个普通节点的文件列表。系统查询都在搜索节点上进行。而索引节点就像 p 2 p 网络的搜索引擎,它根据用户输入的关键字,寻找搜索节点,将搜索节点中 与关键字匹配或者相似的内容反馈给用户。搜索的中止条件一般是查询结果达到 一定的阀值,例如5 0 个结果【3 0 j ,或者搜索完所有的搜索节点。如果所有的搜索 节点都被访问过了,就说明已经搜索过整个网络上的节点。因此这种混合式的资 源搜索方法比完全分布式中的搜索算法快,而且网络带宽消耗小。 8 硕士学位论文 第二章p 2 p 技术和流量识别技术 2 1 3p 2 p 应用的特点 图2 5 混合式搜索模型 非中心化:网络中的资源和服务分散在所有结点上,信息的传输和服务的实 现都直接在结点之间进行,无需中间环节和服务器的介入,避免可能的瓶颈。p 2 p 非中心化的基本特点带来了其在可扩展性、健壮性等方面的优势。 可扩展性:在p 2 p 网络中随着用户的加入不仅服务的需求增加了,系统整 体的资源和服务能力也在同步地扩充,这样使得网络始终都能较容易地满足用户 的需要。整个体系是全分布的。理论上其可扩展性可以是无限的。 健壮性:p 2 p 架构天生具有耐攻击、高容错的优点。由于服务是分散在各个 结点之间进行的,部分结点或网络遭到破坏时对其它部分的影响很小。p 2 p 网络 在部分结点失效时能够自动调整网络拓扑,保持其它结点的连通性。p 2 p 网络通 常都是以自组织的方式建立起来的,并允许结点自由地加入和离开。p 2 p 网络还 能够根据网络带宽、结点数、负载等变化不断地做自适应式的调整。 高性价比:性能优势是p 2 p 被广泛关注的一个重要原因。随着硬件技术发 展,个人计算机的计算、存储能力和网络带宽等性能依照摩尔定理高速增长1 3 。 采用p 2 p 架构可以有效地利用互联网中散布的大量普通结点,将计算任务或存 储资料分布到所有结点上。利用其中闲置的计算能力或存储空间,达到高性能计 算和海量存储的目的。它通过利用网络中的大量空闲资源,可以用更低的成本来 提供更高的计算和存储能力。 隐私保护:在p 2 p 网络中,由于信息的传输分散在各节点之间进行而无需 经过某个集中环节,用户的隐私信息被窃听和泄漏的可能性大大缩小。此外目前 解决i n t e m e t 隐私问题主要采用中继转发的技术方法【3 2 1 ,从而将通信的参与者隐 藏在众多的网络实体之中。在传统的一些匿名通信系统中,实现这一机制依赖于 9 硕士学位论文 第二章p 2 p 技术和流量识别技术 某些中继服务器节点。而在p 2 p 中,所有参与者都可以提供中继转发的功能, 因而提高了匿名通讯的灵活性和可靠性,从而能够为用户提供更好的隐私保护。 负载均衡:p 2 p 网络环境下由于每个节点既是服务器又是客户机,减少了对 传统c s 结构服务器的计算能力、存储能力的要求,同时因为资源分布在多个 节点上,p 2 p 更好的实现了整个网络的负载均衡【3 3 1 。 2 1 4p 2 p 技术的安全问题 1 网络病毒和色情资料泛滥 随着计算机网络应用的深入发展,计算机病毒对信息安全的威胁日益增加。 特别是在p 2 p 环境下,方便的共享和快速的选路机制,为某些网络病毒提供了 更好的入侵机会。由于p 2 p 网络中逻辑相邻的节点,地理位置可能相隔很远, 而参与p 2 p 网络的节点数量又非常大,因此通过p 2 p 系统传播的病毒,波及范 围大,覆盖面广,从而造成的损失更大。在p 2 p 网络中,每个节点防御病毒的 能力是不同的,只要有一个节点感染病毒,病毒就可以通过p 2 p 内部共享和通 信机制扩散到邻居节点。在短时间内就可以造成网络拥塞甚至瘫痪,共享信息丢 失,机密信息失窃,甚至通过网络病毒可以完全控制整个网络。一个显著的例子 就是2 0 0 3 年通过即时通讯( i n s t a n tm e s s a g e ) 软件传播病毒的案例显著增多。包括 s y m a n t e e 公司和m c a f e e 公司的高层技术主管都预测即时通讯软件将会成为网络 病毒传播和黑客攻击的主要载体之一【3 钠。随着p 2 p 技术的发展,将来会出现各 种专门针对p 2 p 系统的网络病毒。利用系统漏洞,达到迅速破坏、瓦解、控制 系统的目的。因此,网络病毒的潜在危机对p 2 p 系统安全性和健壮性提出了更 高的要求。网络的健康发展迫切需要建立一套完整、高效、安全的防毒体系。其 它信息安全问题还包括反动影片、色情影片的泛滥。而这些资料对青少年的成长 造成了极大的负面影响。 2 知识产权问题 在p 2 p 共享网络中普遍存在着知识产权保护的问题。尽管目前g n u t e l l a 、 k a z a a 等p 2 p 共享软件宣传其骨干服务器上并没有存储任何涉及产权保护的内容 的备份,而仅仅是保存了各个内容在互联网上的存储索引。但不容置疑,p 2 p 共 享软件的繁荣加速了盗版媒体的发展,增加了对知识产权进行保护的困难。美国 唱片工业协会( r i a a ) 与这些共享软件公司展开了漫长的官司拉锯战,著名的 n a p s t e r 便是这场战争的第一个牺牲者。从2 0 0 4 年1 月至今r j a a 已提交了1 0 0 0 份有关方面的诉讼。尽管如此,至今每个月仍然有超过1 5 0 0 0 0 0 0 0 的歌曲在网络 上被自由下载【3 5 1 。后n a p s t e r 时代的p 2 p 共享软件较n a p s t e r 更具有分散性,也 1 0 硕士学位论文第二章p 2 p 技术和流量识别技术 更难加以控制。即使p 2 p 共享软件的运营公司被判违法而关闭,整个网络仍然 会存活,至少会正常工作一段时间。另一方面,n a p s t e r 以后的p 2 p 共享软件也 在迫切寻找一个和媒体发布厂商的共生互利之道。如何更加合法合理的应用这些 共享软件,是一个新时代的课题。毕竟p 2 p 除了共享盗版软件,还可以共享相 当多的有益的信息。p 2 p 技术为网络信息共享带来了革命性的改进,而这种改进 如果想要持续长期地为广大用户带来好处,必须以不损害内容提供商的基本利益 为前提。这就要求在不影响现有p 2 p 共享软件性能的前提下,一定程度上实现 知识产权保护机制。目前,已经有些p 2 p 厂商和其它公司一起在研究这样的问 题。这也许将是下一代p 2 p 共享软件面临的挑战性问题之一。 2 2p 2 p 流量识别技术 2 2 1 端口识别技术 最基本和最直接的方式是基于端口的分析方法来检钡t p 2 p 应用。早期大多数 p 2 p 应用都采用默认的固定的端口号,如表2 1 所示: 表2 1p 2 p 协议常用端口 管理员只需观察网络流量,检查连接记录是否与这些端口吻合。如果吻合, 则证明是p 2 p 活动。端口分析法不检查所有的包,也不查看载荷内容。在实际操 作中端口匹配方法简单但它具有一定的局限性。第一由于传输层流量特征一般 不能明确指示应用层协议类型,所以此方法对p 2 p 应用分类的能力较弱,而应 用分类对于q o s 实施是非常重要的。第二大多数的p 2 p 应用允许用户手动选择 端口号,设置默认的端口号。此外,许多新出现的p 2 p 应用倾向于使用随机的端 口号,这就使得端口号呈动态变化趋势从而此方法不能有效的识别这类p 2 p 应 用。第三部分p 2 p 应用开始使用其他熟知应用的默认端口号例如用8 0 来伪装自 己的功能端口,从而使得端口识别法不能有效检测这类p 2 p 。 硕士学位论文第二章p 2 p 技术和流量识别技术 2 2 2 深层数据包探测技术( d p i ) 由于p 2 p 软件引人动态端口,要识别p 2 p 流量可以通过扫描高层协议来实 现。举例来说对于e m u l e 系统,只能深入内部获取e m u l e 特征代码。对于其它 p 2 p 应用有时甚至要通过几个特征代码才能判明其是否为p 2 p 流量。深层数据包 检测技术【3 6 】通过对数据包应用层协议的检测发现p 2 p 应用。这种技术使用一个 p a y l o a d 特征库存储p a y l o a d 特征信息,符合p a y l o a d 特征的数据包即视为p 2 p 数 据包。实验证明该方法的识别准确度可以达到9 5 【3 7 】,然而d p i 扫描技术无法 识别加密的p 2 p 流。总而言之其优点有: ( 1 ) 通过使用各种优化措施发现更多的p a y l o a d 特征,d p i 技术可以达到非常高的 检测精度和令人满意的性能。 ( 2 ) 目前主流的p 2 p 协议都是非加密传输的,破解相对容易,使用d p i 技术就能 满足目前运营商限制p 2 p 流量的需求。 ( 3 ) 对于新出现的p 2 p 协议只需在破译后升级p a y l o a d 特征库就可以实现对新出现 的p 2 p 协议的监控,后期维护简单。而且一种新p 2 p 应用从出现到大量占据互 联网带宽需要一段时间,所以d p i 技术检测新应用的滞后性缺点除了增加少量 售后服务费用外不会对用户造成太大影响【3 8 1 。这种检测方法能够对己知协议的 p 2 p 流量进行精确的识别。 ( 4 ) 易于理解、升级方便、维护简单,是目前运用最普遍的方法。 其主要缺点是: ( 1 ) 每次检测都要把整个口协议解开进行分析,计算量大速度慢。 ( 2 ) 对新p 2 p 应用的检测具有滞后性,即在未升级特征库前无法检测新的p 2 p 应 用,必须找到新应用的p a v l o a d 特征后才能对该应用实施有效检测。 ( 3 ) 对加密p 2 p 应用的检测能力非常有限。 ( 4 ) 算法性能与p a y l o a d 特征的复杂度有关,p a y l o a d 特征越复杂则检测代价越高 算法性能越差。 2 2 3 基于流特征的流量识别技术 这种识别技术要对数据流量进行统计分析,从统计上来判断该流量是否属于 p 2 p 流量,而后对该流量进行控制。这是一种在国外研究和使用经验的基础上逐 步发展起来的方案,是一种启发式的流量检测方法。它根据各种应用的连接数、 m 的连接模式、上下行流量比例关系、数据包发送频率等指标来辨别p 2 p 应用【3 9 】。 基于流量特征的检测技术即是通过检测这些新的流量特征来发现p 2 p 应用。其 优点有: 1 2 硕士学位论文第二章p 2 p 技术和流量识别技术 ( 1 ) 具有检测新出现p 2 p 应用的能力; ( 2 ) 具有检测加密p 2 p 应用的能力; ( 3 ) 不涉及高层协议,计算代价小。 其缺点有: ( 1 ) 由于传输层流量的特征一般不能明确指示应用层协议类型,所以这种方法对 p 2 p 应用分类的能力较弱,而应用分类对于服务质量的实施是非常重要的; ( 2 ) 1 主i 于不对称路由和丢包、重传现象的存在,导致无法精确确定流量特征从而 有可能对p 2 p 流量检测的精确度造成影响; ( 3 ) 很多流量特征都不是p 2 p 流量唯一的,其它应用也有可能表现出这种流量特 征,需要结合其它一些技术如端口检测来排除其它应用。 2 2 4 其他识别方法 i p 地址识别: i p 地址识别可以分类出集中式p 2 p 中的目录服务器以及混和式p 2 p 中的超 级节点以及某些恶意的p 2 p 用户。 基于会话( s e s s i o n ) m 】的分类: t c p u d p 端口可能存在任何一个数据包中,高层协议的特征代码却只能存 在于一个会话包的头几个数据报中。因此当在一个会话包的第一个数据报中发 现p 2 p 特征代码时,该会话包的其余数据报也就可以判断为p 2 p 数据报。有时 p 2 p 软件甚至使用多个会话包,这就需要系统软件能关联匹配这多个会话包进 行p 2 p 判定。 双向识别: 当某个方向的流( 五元组定义的流) 被识别为p 2 p 流,则其反方向流必然 也是p 2 p 流。 从以上分析中可以看出,各种方法各有千秋。如果能够将各种方式结合起来 运用,将会达到更好的效果。同时不同的方法也适合于不同的应用场景,可以有 针对性的选择使用。 2 3p 2 p 流量的基本特征 ( 1 ) 相对于网页浏览、邮件、流媒体等传统业务,下行流量远大于上行流量 的特点。p 2 p 主机不仅从其他主机处获得数据,同时也为其他主机上传数据,因 硕士学位论文第二章p 2 p 技术和流量识别技术 此它的主机流量更多体现为上行下行流量基本对称。 ( 2 ) 由于传统的用户只是对少数的几个用户或服务器进行连接,其范围相对 固定。而对于p 2 p 主机来说,由于p 2 p 协议自身的特点,它会与众多的用户连 接并交换信息,导致其连接用户的数量远远多于普通应用。 ( 3 ) 当p 2 p 主机从其他主机获得数据的时候,它扮演客户端的角色;当它为 其他主机提供数据的时候则扮演服务器端的角色即它同时扮演客户机和服务器 两个角色。 ( 4 ) p 2 p 主机的监听端口的连接特点与传统主机不同。在p 2 p 网络中,由于 负载均衡的影响,每个p e e r 和其他p e e r 连接时通常只建立较少的连接。而在传 统网络中当两个主机通信时建立的连接比较多。 2 4 目前常用的p 2 p 流量控制策略 ( 1 ) 端口及带宽限制 在网关、防火墙上进行端口封堵是当前最为普遍的做法。该方法成本较但是 效果差强人意。因为b t 等p 2 p 应用允许用户修改下载、上传端口,因此依靠 限制传输端口的方法很容易失效。 ( 2 ) 通过防火墙的s e s s i o n 控制 采用s e s s i o n 限制和流量管理结合的方法只通过连接数控制,在一定程度 上能限制总带宽的滥用,但无法对每个连接的流量带宽进行准确地控制。由于无 法识别众多的新出现的p 2 p 应用,所以无法直接对p 2 p 进行连接数和流量的控 制,往往采取把p 2 p 归到未知的应用协议里然后给所有未知应用协议一个合适 的s e s s i o n 值,并限制在规定的流量带宽内。这种方法实质是对p 2 p 的间接控 制。 ( 3 ) 对p 2 p 滥用者额外收费 运营商可以对大量使用p 2 p 应用的用户按照不同的费率收取网络使用费 用。规定了不同级别的带宽分配方案,用户可以根据自己的需要来选择p 2 p 运 营上传下载的带宽数量。但是最终用户可能因此而舍弃当前的运营商,转而寻找 提供不限制p 2 p 访问的运营商。 ( 4 ) 单个用户实时监控 对单个用户进行流量实时监控,一旦发现流量异常则采取邮件、短信方式进 行警告。一旦警告无效则实行带宽限制,或者封堵其端口。但是这种办法仅限于 少量用户,而且控制效率低费用高。 ( 5 ) 交换机路由器实现流量感知 流量感知是交换机发展的主流趋势之一。流量感知功能使交换机能够对流量 1 4 硕士学位论文第二章p 2 p 技术和流量识别技术 进行分析,识别出其中的p 2 p 流量,并实施相应的策略。分析的过程类似于状 态检测防火墙【4 1 1 ,即将网络流量与已知的p 2 p 协议特征进行模式匹配,匹配成 功即认为识别出p 2 p 流量。通常,这种方式对于可任意修改端口的p 2 p 软件依 然有效。 ( 6 ) 防火墙等设备实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论