(通信与信息系统专业论文)基于机器学习的p2p流量识别.pdf_第1页
(通信与信息系统专业论文)基于机器学习的p2p流量识别.pdf_第2页
(通信与信息系统专业论文)基于机器学习的p2p流量识别.pdf_第3页
(通信与信息系统专业论文)基于机器学习的p2p流量识别.pdf_第4页
(通信与信息系统专业论文)基于机器学习的p2p流量识别.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(通信与信息系统专业论文)基于机器学习的p2p流量识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 草 日期: z 翌f 芝:f : 翌 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 , 本人签名:锄日期:卫f ! :i o 导师签名: 囱 一 日期:型坦f :fq 北京邮电火学硕士论文 基于机器学习的p 2 p 流量识别 摘要 近年来飞速发展的p 2 p 业务在推动i n t e r n e t 发展的同时也带来 了许多问题。( 1 ) 带宽问题:p 2 p 业务不断增加,造成了网络带宽的 巨大消耗,甚至引起网络拥塞,使网络性能降低,服务质量下降;( 2 ) 版权问题:在网络时代,数字内容很容易被复制与传输,尤其p 2 p 共 享软件的繁荣加速了盗版媒体的分发,增加了知识产权保护的难度; ( 3 ) 网络安全问题:p 2 p 网络中每个节点都是独立的,系统对于节 点的约束就变的很小。在没有控制中心的系统中,没有人知道其他结 点共享的是什么,这就为病毒和不良消息的传播提供了条件。随着 i n t e r n e t 重要性的日益提高和网络结构的日益复杂,网络的安全性, 可管理性及传统应用的可用性受到了挑战,人们明显越来越意识到有 必要对p 2 p 流量和网络行为深入了解,分析,为监控与管理p 2 p 提供 技术支持,因此,实现p 2 p 流量的有效识别已经成为急需解决的问题, 如何进一步有效的识别出p 2 p 业务成为课题研究的热点。 论文课题来源于国家自然科学基金( n o 6 0 6 7 2 0 2 5 ) 资助项目的 研究任务之一,在课题研究过程中,作者做了以下工作: 1 文章从p 2 p 流量识别的工作原理入手,总结了现有p 2 p 流量 识别技术,包括基于端口识别,基于应用层签名的识别,基 于传输层特征的识别三大类,分析他们的利弊,提出将数据 挖掘技术应用在p 2 p 的流量识别,并且将p 2 p 流量识别概念 深入到具体单个p 2 p 业务识别。 2 根据p 2 p 网络的网络节点对等基本特点,结合机器学习中聚 类与分类的算法,选取上行流量与下行流量的比值作为最主 要的特征值,通过采集大量的数据建立训练集和测试集,设 计出能够实时识别p 2 p 业务的模块和系统,整个系统包括学 习和识别两个阶段。 3 编码实现系统,通过测试系统识别p 2 p 业务的准确率和c p u 占有率证明了该方法具有较高的准确度和较低的复杂度。 论文共分为六章。第一章介绍了p 2 p 的概念,数据挖掘技术的发 展以及p 2 p 的现状并且提出了课题研究的方向。第二章介绍了p 2 p 与 c s 模式的关系以及由此引出的p 2 p 业务识别的相关原理和方法,分 北京邮电大学硕:l 论文 析了p 2 p 业务识别技术的发展趋势。第三章阐述了数据挖掘和机器学 习的原理以及步骤。第四章介绍了如何利用机器学习的方法进行p 2 p 业务的识别,并对流量数据进行了提取和分析,给出了具体的步骤建 立了相关模型。第五章实现了p 2 p 业务识别系统软件的看法并进行了 测试,描述了测试条件和环境,得出了基于机器学习方法识别p 2 p 业 务的准确率和c p i j 占有率。第六章对全文进行总结,对今后的工作做 出了展望。 关键词:p 2 p 上下行流量比数据挖掘机器学习流量识别 北京邮电大学硕士论文 ap e e rt op e e rt r a f f i c i d e n n f i c a t i o nm e t h o du s i n g m a c h i n el e a r n i n g i nr e c e n ty e a r s ,r a p i dd e v e l o p m e n to fp 2 ps e r v i c e si np r o m o t i n gt h e d e v e l o p m e n to ft h ei n 陋姗h a s a l s ob r o u g h tm a n yp r o b l e m s ( 1 ) b a n d w i d t hp r o b l e m :p 2 ps e r v i c e sc o n t i n u et oi n c r e a s e 。r e s u l t i n gi nah u g e n e t w o r kb a n d w i d t hc o n s u m p t i o na n de v e nl e a dt on e t w o r kc o n g e s t i o n ,s o t h a tt h en e t w o r kp e r f o r m a n c ed e g r a d a t i o n ,d e c l i n ei nq u a l i t yo fs e r v i c e ; ( 2 ) o nc o p y r i g h ti s s u e s :i nt h ei n t e r n e ta g e ,d i g i t a lc o n t e n tc a nb ee a s i l y r e p l i c a t i o na n dt r a n s m i s s i o n ,i np a r t i c u l a r ,t h ep r o s p e r i t yo fp 2 ps h a r i n g s o f t w a r et oa c c e l e r a t et h ed i s t r i b u t i o no fp i r a t e dm e d i a ,a ni n c r e a s eo f i n t e l l e c t u a lp r o p e r t yp r o t e c t i o nm o r ed i f f i c u l t t o d a yi nt h ep r e v a l e n c eo f p 2 ps h a r i n gn e t w o r k si nt h ep r o t e c t i o no fi n t e l l e c t u a lp r o p e r t yi s s u e s ;0 ) n e t w o r ks e c u r i t yi s s u e s :p 2 pi d e ai sf r e e a n df a i rs h a r i n go fr e s o u r c e s a c c o r d i n g l y ,e a c hn o d ei si n d e p e n d e n t ,t h ec o n s t r a i n t so nt h es y s t e mt o t h en o d e sb e c o m ev e r ys m a l l i nt h ea b s e n c eo fc o n t r o lc e n t e rs y s t e m s ,n o o n ek n o w st h eo t h e rn o d e st os h a r ew h a ti st h i sb a dn e w sf o rt h es p r e a d o fv i r u s e sa n dp r o v i d e dt h ec o n d i t i o n s w i t ht h ei n c r e a s i n gi m p o r t a n c eo f t h ei m r n e ta n dt h e i n c r e a s i n gc o m p l e x i t yo fn e t w o r ks t r u c t u r e n e t w o r ks e c u r i t y ,m a n a g e a b i l i t ya n da v a i l a b i l i t yo fl e g a c ya p p l i c a t i o n s h a sb e e nc h a l l e n g e d ,i ti sc l e a rm o r ea n dm o r ea w a r eo ft h en e e df o rp 2 p t r a f f i ca n dn e t w o r kb e h a v i o r i n d e p t hu n d e r s t a n d i n g o f a n a l y s i s m o n i t o r i n ga n dm a n a g e m e n to fp 2 pt op r o v i d et e c h n i c a ls u p p o r t ,t h u s , e f f e c t i v e l yi d e n t i f yt h ep 2 pt r a f f i ch a sb e c o m ea nu r g e n tp r o b l e m ,h o wt o e f f e c t i v e l yi d e n t i f yt h ep 2 ps e r v i c e st ob e c o m eah o tt o p i cr e s e a r c h t h ed i s s e r t a t i o ni sf r o mo n eo ft h er e s e a r c ht a s k so ft h en a t i o n a l n a t u r a ls c i e n c ef o u n d a t i o n ( n o 6 0 6 7 2 0 2 5 ) f u n d e dp r o j e c t s ,i nt h ec o u r s e o ft h es t u d ys u b j e c t s ,t h ea u t h o r sd ot h ef o l l o w i n gw o r k : 1 t h ea r t i c l es t a r tw i t ht h ew o r k i n gp r i n c i p l eo fp 2 pt r a f f i c i d e n t i f i c a t i o n s u m m e d u p t h e e x i s t i n g p 2 pt r a f f i ci d e n t i f i c a t i o n 川 北京邮电人学硕上论文 t e c h n o l o g y ,i n c l u d i n gp o r t b a s e di d e n t i f i c a t i o n ,s i g n a t u r er e c o g n i t i o n b a s e do na p p l i c a t i o nl a y e r , t r a n s p o r tl a y e rc h a r a c t e r i s t i c si d e n t i f i c a t i o n b a s e do nt h r e ec a t e g o r i e s ,a n a l y s i so ft h e i ra d v a n t a g e sa n dd i s a d v a n t a g e s a n dp r o p o s e dd a t am i n i n gt e c h n o l o g yu s e di np 2 pt r a f f i ci d e n t i f i c a t i o n , a n dw i l li d e n t i f yt h ec o n c e p to fp 2 pt r a f f i cd e e pi n t ot h ei d e n t i f i c a t i o no f s p e c i f i cp 2 p s e r v i c e s 2 a c c o r d i n gt op 2 pn e t w o r k s ,t h eb a s i cc h a r a c t e r i s t i c s o ft h e n e t w o r k n o d e s ,c o m b i n e dw i t h m a c h i n e l e a m i n gc l u s t e r i n g a n d c l a s s i f i c a t i o n a l g o t i t h mm e t h o d s t os e l e c tu p s t r e a ma n dd o w n s t r e a m t r a f f i cf l o wa st h em o s ti m p o r t a n tc h a r a c t e r i s t i c so fr a t i oo ft h ev a l u eo f c o l l e c t i n gl a r g ea m o u n t so fd a t at h r o u g ht h ee s t a b l i s h m e n to ft r a i n i n gs e t a n dt e s ts e t s ,d e s i g n e dt oi d e n t i f yt h ep 2 pr e a l t i m eb u s i n e s sm o d u l e sa n d s y s t e m s ,t h ee n t i r es y s t e mi n c l u d i n gl e a r n i n ga n di d e n t i f i c a t i o no ft w o p h a s e s 3 c o d i n gs y s t e m ,p 2 ps e r v i c e si d e n t i f i e dt h r o u g ht h et e s ts y s t e m a c c u r a c ya n dc p u s h a r ei sp r o v e dt h a tt h em e t h o dh a sh i g ha c c u r a c ya n d l o wc o m p l e x i t y p a p e r sw e r ed i v i d e di n t os i xc h a p t e r s t h ef i r s tc h a p t e rg i v eab r i e f i n t r o d u c t i o no ft h ec o n c e p to fp 2 p ,d a t am i n i n gt e c h n o l o g yd e v e l o p m e n t , a sw e l la st h es t a t u so fp 2 pa n dm a d et h er e s e a r c hd i r e c t i o n t h es e c o n d c h a p t e rd e s c r i b e st h ep 2 pa n dc sm o d e la n dt h er e s u l t i n gr e l a t i o n s h i p l e dt oi d e n t i f i c a t i o no fp 2 p - r e l a t e db u s i n e s sp r i n c i p l e sa n dm e t h o d so f a n a l y s i so fp 2 pt r a f f i ci d e n t i f i c a t i o nt e c h n o l o g yt r e n d s c h a p t e ri i id e a i s w i t hd a t am i n i n ga n dm a c h i n el e a r n i n gp r i n c i p l e sa n ds t e p s t h ef o u r t h c h a p t e rd e s c r i b e sh o w t ou s em a c h i n el e a r n i n gm e t h o d st oi d e n t i f yt h e p 2 ps e r v i c e ,a n dt r a f f i cd a t aw e r ee x t r a c t e da n da n a l y z e d ,g i v e sc o n c r e t e s t e p st oe s t a b l i s hac o r r e l a t i o nm o d e l c h a p t e rv a c h i e v e dp 2 ps o f t w a r e b u s i n e s sv i e w sa n dr e c o g n i t i o ns y s t e mw a st e s t e d ,d e s c r i b e st h et e s t c o n d i t i o n sa n de n v i r o n m e n t ,a n dd r a w nb a s e do nm a c h i n el e a r n i n g a l g o r i t h mt o d e t e c t t h ep 2 pb u s i n e s s a c c u r a c ya n dc p us h a r e a s u m m a r y o ft h ef u l lt e x to fc h a p t e rv i ,m a d ef o rf u t u r ew o r k p r o s p e c t s k e yw o r d s :p 2 pr a t i o nb e t w e e nu p l o a dt r a f f i ca n dd o w n l o a dt r a f f i c d a t am i n i n gm a c h i n el e a r n i n gt r a f f i ci d e n t i f i c a t i o n 北京邮电大学硕, 二论文 目录 目录 第一章绪论1 1 1 课题研究背景i 1 1 1 1p 2 p 的发展2 1 1 2 数据挖掘技术的现状3 1 2 问题的提出与本文所做的工作3 1 2 1p 2 p 技术的现状3 1 2 2 机器学习与p 2 p 流量识别的结合5 1 3 论文结构安排5 第二章p 2 p 流量识别的原理以及方法6 2 1 p 2 p 与c s 模式6 2 1 1p 2 p 与c s 的对比6 2 1 2p 2 p 网络机构模型分析7 2 2 现有p 2 p 流量识别技术1 0 2 3p 2 p 流量识别的发展趋势1 5 第三章数据挖掘与机器学习的分析1 6 3 1 数据挖掘技术1 6 3 1 1 数据挖掘的产生1 6 3 1 2 数据挖掘的概念:1 7 3 1 3 数据挖掘的实现步骤1 7 3 2 机器学习的方法。1 8 3 3 流量识别中的机器学习2 0 。 3 3 1流量识别的实现过程:2 0 3 3 2 基于流特征的识别2 4 3 3 3 典型方法分析2 5 3 4p 2 p 流量识别算法构想2 7 第四章利用机器学习的方法识别p 2 p 流量2 8 4 1 原理描述2 8 4 2 学习阶段2 9 4 2 1 样本采集2 9 4 2 2p 2 p 业务流量属性的选择和分析3 2 4 2 3 形成簇和类标记3 4 4 3 识别阶段3 5 北京邮电人学硕_ :论文 目录 4 3 1 识别算法3 5 4 3 2p 2 p 流量识别算法的实现3 8 4 4 功能模块描述与设计3 9 第五章实验测试与结论4 l 5 1 系统的实现4 1 5 2 测试假设条件和测试条件。4 l 5 3 测试过程概述4 2 5 4 测试分析4 4 5 4 1 测试准确率分析4 4 5 4 2 测试中c p u 占有率分析4 5 5 5 结果与结论4 6 第六章总结和展望4 7 6 1 论文总结4 7 6 2 问题和展望4 7 参考文献4 9 致谢:5 2 攻读学位期间发表的论文5 3 北京邮电大学硕j :论文正文 1 1 课题研究背景 第一章绪论 复杂多变的互联网应用和恶意网络行为不断增多。相对于传统的互联网应用 而言,新出现的流媒体、游戏、对等网络( p 2 p ) 产生的流量更大,体现出的特征 更复杂,尤其是对等网络技术的发展引发了互联网应用模式的变革。据统计,对 等模式应用产生的流量已经超过w e b n 艮务和n 口服务产生的流量,成为了消耗互联 网链路资源最多的应用模式,而且还以其近乎对称的流量模式加剧着网络的拥塞 程度,这给网络服务商和网络管理者在网络管理、流量工程、网络规划等方面造 成了巨大冲击 卜3 。以p 2 p 流量为主要对象的流量识别和管理已经成为学术界、 网络工程界、国家有关部门普遍关心的热点问题之一。 p 2 p ( p e e r t o p e e r ) 并非一种全新的技术,互联网最基本的协议t c p i p 并没 有客户机和服务器的概念,所有的设备都是通讯的平等的端。2 0 多年前出现的 u s e n e t 、f i d o n e t 以及局域网中的文件共享都是p 2 p 系统。由于受早期计算机性能、 资源等因素的限制,随着互联网规模的迅速扩大,大多数连接到互联网上的普通 用户并没有能力提供网络服务,从而逐步形成了以少数服务器为中心的客户机, 服务器( c l i e n t s e r v e r ) 模式。但是,随着互联网跟人们生活的联系r 益紧密和 滚八,人们需要更直接、更广泛的信息交流,而计算机和网络性能的提升也促进 了p 2 p 的发展。提供免费m p 3 音乐下载服务的n a p s t e r 重新将p 2 p 技术引入到网络应 用中。 现在p 2 p 的应用相当广泛,很多p 2 p 软件已经深入到我们的同常生活中,这样 的p 2 p 软件有q q ,m s n ,b i t t o r r e n t ,k u g 0 0 ,c o o l s t r e a m i n g ,p p l i v e ,e m u l e 等 等,涉及到在线聊天,文件共享与传播,在线视频播放等诸多领域。 i n t e l 将p 2 p 定义为“通过系统间的直接变换所达成的计算机资源与信息的共 享 ,这些资源与服务包括信息交换、处理器时钟、缓存和磁盘空间等。r o k u t e c h n o l o g i e s 公司将p 2 p 定义为“使个人与个人之间直接通信成为可能且更便捷 的网络结构 。i b m 贝t j 给p 2 p 赋予更广阔的定义,把它看成是由若干互联协作的计 算机构成的系统并具备若干特性。 近几年来数据挖掘技术也获得了很大的发展,特别是数据挖掘技术在w e b 挖 掘方面的应用,目前很多学者都在研究数据挖掘技术在网络环境中的新应用,并 且取得了很有意义的成果,本文正是致力与将数据挖掘技术应用f f :p 2 p 厨 络中。 北京邮电大学硕士论文正文 1 1 1p 2 p 的发展 p 2 p 业务可以简单的定义为通过直接交换共享计算机资源和服务。在p 2 p 网 络环境中,成千上万台彼此连接的计算机都处于对等的地位,整个网络一般不依 赖专用集中服务器。网络中的每一台计算机既能充当网络服务的请求者,又能对 其他计算机的请求做出响应,提供资源和服务。通常这些资源和服务包括:信息 的共享与交换,计算机源( 如c p u ) 的共享使用,存储资源( 如缓存和磁盘空间) 的使用。p 2 p 相比传统网络有着信息共享方面的绝对优势,其中最为典型的就是 b i t t o r r e n t ,b i t t o r r e n t 是一个p 2 p 的文件共享软件,它能提供各个p e e r 之间 直接共享文件资源的功能,一般应用最为广泛的是共享影视资源,软件资源,文 件一般都在l o o m 以上,据不完全采样统计,平均每个p 2 p 种子的文件大小在6 0 0 m 左右,可见文件共享以大文件为主。近几年又兴起的一个p 2 p 应用时网络流媒体, 主要是网络电视直播。该应用采用p 2 p 原理发布电视节目,很好解决了原来电视 直播服务节点带宽限制的问题。基本原理就是服务站点把实时的电视节目压缩成 流媒体后通过p 2 p 共享出去,各个收看电视的节点相互分流,分担服务节点的流 量,最终可以让每一个用户都能够较流畅的收看到实时的节目。p 2 p 流媒体应用 的流量可用比特率来衡量,一般在带宽环境中比特率为7 0 0 k p s ,大致估算一下收 看- d , 时的节目需要下载2 5 0 m 字节的数据。在过去几十年中p 2 p 技术优势被大 大体现出来,可归纳为以下几点: 一( 1 ) 资源的高利用率,个人计算机的计算和存储能力以及网络带宽等性能 能依照摩尔定理高速增长,采用p 2 p 架构可以将任务或存储资料分布到所有节点 上。每个对等体可以发布自己的信息,也可利用网络上其他对等体的信息资源, 利用其中闲置的计算能力或存储空间达到高性能计算和海量存储的目的。 ( 2 ) 在p 2 p 网络中,数据存储,处理能力和带宽都以一种完全分散,异步 的方式运行,各种负载可以得到合理的均移和平衡,使网络具有极强的可扩展性。 并且p 2 p 架构具有耐攻击,高容错的特点。由于服务是分散在各个节点之间进行 的,部分节点或网络遭到破坏对其他部分影响很小,p 2 p 网络通常都是以自组织 的方式建立起来的,并允许节点自由加入和离开,具有自动调整拓扑结构的功能。 ( 3 ) 基于内容的寻址方式处于一个更高的语义层次,因为用户在搜索时只 需指定具有实际意义的信息表示而不是物理地址;每个标识对应着包含这类信息 的节点的聚合。这将创造一个更加精炼的信息仓库和一个更加统一的资源标识方 法。 ( 4 ) p 2 p 结构下,搜索功能进一步强化。一个对等机可向多个其他对等机 发出请求,反馈信息也由与节点的脱离或加入而具有很强的实时性和有效性。 ( 5 ) 在p 2 p 网络中,由于信息的传输无需经过中心节点,用户的隐私信息 2 北京邮电人学硕一 :论文 正文 被窃听和泄露的可能性大大缩小。 1 1 2 数据挖掘技术的现状 数据挖掘是一门广义的交叉学科,它汇聚了数据库,统计学,算法,人工智 能等不同领域的研究。数据挖掘的定义有很多种,而其中在k d d 9 6 国际会议上, 根据知识发现研究领域知名学者的阐述得到一个被一致接受的定义:数据挖掘是 一个非平凡的高级过程,是对数据中有效的,新颖的,潜在有用的,以及最终可 理解的模式的识别 1 。经过十几年的研究和实践,数据挖掘技术已经形成独具 特色的研究分支。数据挖掘研究和应用具有很大的挑战性,像其他新技术的发展 历程一样,数据挖掘也必须经过概念提出,概念接受,广泛研究和探索,逐步应 用和大量应用等阶段,从目前的现状来看,大部分学者认为数据挖掘的研究仍处 于广泛研究和探索阶段 2 ,一方面,数据挖掘的概念已经被广泛接受,数据挖 掘的概念从二十八世纪八十年代被提出后,其经济价值越来越明显,所以被很多 商业厂商所推崇,逐渐形成市场。在理论上,很多具有挑战性和前瞻性的问题被 提出,吸引越来越多的学者,另一方面,目前的数据挖掘系统的功能也不像一些 商家为了宣传自己商品而说的那样神奇,仍有许多问题需要研究和探索。把目前 数据挖掘的研究现状描述为鸿沟阶段比较恰当,所谓鸿沟阶段是指数据挖掘技术 在广泛应用之前仍有许多鸿沟需要攀越。 目前在网络环境下的数据挖掘也被大量的研究,很多学者都在探讨网络环境 下的数据挖掘的新技术,w e b 上的数据不仅是海量的而且是复杂的,面向w e b 的 数据挖掘比面向数据库和数据仓库的数据要复杂的多 1 2 问题的提出与本文所做的工作 1 2 1p z p 技术的现状 p 2 p 技术出现后网格计算模式从集中式向分布式转移,网络应用的核心从中 央服务器向网络边缘设备扩散。当l j 网络环境中,以b t 为代表的p 2 p 下载软件 流量占用了带宽接入的大量带宽,据统计已经超过了5 0 ,这造成了网络带宽的 巨大消耗,甚至会引起网络拥塞,大大降低了网络的性能,劣化了网络服务质量, 妨碍了正常的网络业务的开展和关键应用的普及,严重影响了用户使用正常的 w e b ,e - m a i l 以及视频点播等业务,因此,运营商,企业用户以及教育等行业的 用户都有对这类流量进行限制的要求;另一个方面,对于企业用户来说员工利用 3 北京邮电人学硕七论文 正文 内部网进行b t 下载会占用大量的内部网带宽,同时通过并不安全的网络环境获 得的应用程序和p 2 p 软件的使用,将可能为企业安全防护打开一扇后窗,使得病 毒和恶意代码得以躲过安全审查潜入企业内部网络。所以说虽然p 2 p 得优势不可 忽略,但随着p 2 p 技术的飞速发展,它的弊端也逐渐暴露出来: ( 1 ) 安全性差。一个拥有众多用户的p 2 p 网络可能成为黑客的攻击对象, 它们允许单个用户通过p 2 p 网络未经过检验的发布任何内容,就不可避免的带来 蠕虫,木马,病毒和其他恶意代码,每个节点防御病毒的能力不同,只要有一 个节点感染病毒,就可以通过内部共享和通信机制将病毒扩散到附近的邻居节 点。在短时间内可能造成网络病毒完全控制这个网络,极大地威胁p 2 p 网络的安 全。 ( 2 ) 缺乏管理机制。一般来说,每个p 2 p 网络都是众多参与者组建起来的 一个虚拟组织,节点之间存在着一种假定的相互信任关系,但随着p 2 p 网络规模 的扩大,这些p 2 p 节点本质存特有的平等自由的动态特性往往与网络服务所需要 的信任协作模式之间产生矛盾。激励作用的缺失使节点间更多表现出“抱怨”, “欺诈 ,“贪婪 的自私行为,因此p 2 p 中预先假设的信任机制实际上非常脆弱, 同时这种信任也难以在节点之间进行推理,导致了全局性信任的缺乏,这直接影 响了整个网络的稳定性和可用性。缺乏管理的p 2 p 网络在人们带来方便的同时, 也可能带来大量的信息垃圾。 ( 3 ) 超大容量。p 2 p 用户以g 8 的速度下载娱乐影音文件,消耗大量带宽。 对于企业来说。6 0 以上的企业贷款被与工作无关的p 2 p 应用消耗了,直接影响 企业关键软件( e r p ,c r m 等) 的运行。对于运营商来说,不得不投入更多的资金 进行网络设备扩容。 ( 4 ) 永远在线。p 2 p 用户不分时段的进行高速下载,增大网络设备的负荷, 容易造成高峰时段的链路拥塞。 ( 5 ) 业务点分布广泛:p 2 p 应用提供端到端的数据传输,使得任何两个普 通节点之间都可能存在大量的数据业务,业务的分散性与不确定性极大地增加了 中转链路的流量 ( 6 ) 穿透性。p 2 p 软件可以穿透现有的防火墙和安全代理,从内部打开一 一个企业网络安全防护的漏洞,使得各类病毒可以轻易进入企业,同时也可能造成 个人或企业私密的泄露。 而随着运营商提供的带宽不断增加以及网络应用规模的不断扩大,互联网 流量也有明显的大幅上升趋势,其中p 2 p 流量在整个网络流量中占据主导地位, 对网络o o s 也方法提出了新的要求,有必要在网络流量识别的基础上对网络区分 服务做细分的业务区分。根据实际需要及网络运行状态部署合理的流量管理和优 4 北京邮电大学硕上论文 正文 化控制措施,面向高速网络实施有效的实时管理需求迫切。高效、准确、实时地 识别互联网流量对于分析网络发展趋势、提供服务质量保证、动态访问控制、合 法管理、异常检测等都有很重要的意义 4 - 5 因此实现分类,识别,标示和控制p 2 p 流量越来越成为企业,网络运营商急 需解决的问题。对运营商或企业来说,简单的扩容无法满足容量增长的需求,对 p 2 p 流量进行识别,管理和控制是解决目前网络状态的根本途径。因此,对p 2 p 业务类型的识别也变的至关重要。 1 2 2 机器学习与p 2 p 流量识别的结合 p 2 p 应用为了避免自身被轻易察觉出来,纷纷采用了各种技术如动态端口, 协议字段加密等,p 2 p 流量识别技术也随之面临严峻的挑战,由于端口跳变,负 载加密等流量隐藏技术的发展,利用应用端口和内容等的显示特征识别p 2 p 流量 的方法已经初步被淘汰,例如,动态端e l 的使用使得传统的基于端口的流量识别 无能为力了,因此,p 2 p 流量识别开始转向基于传输层特征的方法。 通过上述讨论,我们考虑到将数据挖掘技术应用于p 2 p 业务识别中去,提出 基于机器学习的一种新的识别p 2 p 流量的算法。和上面的方法不同的是,这种算 法只是利用在很短的时间内主机之间交换的包的大小。通过研究一定量的p 2 p 业务上下行流量的比值,我们可以创建一个特征数据集。未知的网络流量就能利 用这个数据集进行基于机器学习的网络流量识别 1 3 论文结构安排 本文是作者在研究生期问的理论学习和实际研发、测试经验的总结,分为以 下六章:第一章介绍了p 2 p 的概念,数据挖掘技术的发展以及p 2 p 的现状并且提 出了课题研究的方向。第二章介绍了p 2 p 与c s 模式的关系以及由此引出的p 2 p 业务识别的相关原理和方法,分析了p 2 p 流量识别技术的发展趋势。第三章阐述 了数据挖掘和机器学习的原理以及步骤。第四章介绍了如何利用机器学习的方法 进行p 2 p 业务的识别,并对流量数据进行了提取和分析,给出了具体的步骤建立 了相关模型。第五章实现了p 2 p 业务识别系统软件的看法并进行了测试,描述了 测试条件和环境,得出了基于机器学习方法识别p 2 p 业务的准确率和c p u 占有率。 第六章对全文进行总结,对今后的工作做出了展望。 s 北京邮电人学硕上论文 正文 第二章p 2 p 流量识别的原理以及方法 2 1p 2 p 与c s 模式 2 1 1p 2 p 与c s 的对比 在基于c s 模式的系统中,服务器是整个应用系统的资源存储、用户管理以 及数据运算的中心,而每台客户机也各自具有一定的处理功能。其工作模式为: 其工作模式为:( 1 ) 客户机向服务器发送请求;( 2 ) 服务器收到请求,对请求 进行处理;( 3 ) 服务器将处理结果返回给客户机;( 4 ) 客户机收到结果后,将 处理结果以一定格式形成界面表示。 据其工作模式可知,在c s 模式中,绝大部分的运算工作由服务器完成,而 客户机则主要完成请求的传递及界面的表示,服务器与客户机分工界限明显,而 p 2 p 模式的出现使因特网的存储模式由现在的“内容位于中心”模式转变为“内 容位于边缘 模式。 在图2 1 中,我们可以看出p 2 p 与c s 两者在结构上有很大的区别。 c s 模式 p 2 p 模式 图2 - 1c s 模式和p 2 p 模式在结果上的差异 在p 2 p 系统中,弱化了服务器的概念,每个节点既可请求服务,也可以提供 服务,系统中每个参与应用的节点均可以以“平等”的方式共享其他节点的共享 资源,如c p u ,存储空间等。在p 2 p 系统中,从根本上颠覆y c s 这一传统模式。 6 北京邮电人学硕士论文正文 新的模式模糊了服务提供者与使用者的界限,每个参与的使用者同时也成了提供 者。 综上说述,p 2 p 网络中信息的传输和服务的实现都直接在节点之间进行。p 2 p 的这种非中心化基本特点,带来了其在可扩展性,健壮性等方面的优势。由于服 务是分散在各个节点之间进行的,部分节点或网络遭到破坏对其他部分的影响最 小。p 2 p 网络通常都是以自组织的方式建立起来的,并允许节点自由的加入或离 开。在此环境下,由于每个节点既是服务器又是客户机,减少了传统c s 结构服 务器对计算能力,存储能力的要求,同时,因为资源分布在多个节点,更好的实 现了整个网络的负载均衡。 2 1 2 p 2 p 网络机构模型分析 p 2 p 系统的核心技术是分布式对象的定位机制,从技术上讲,p 2 p 系统结构模 式可分为:集中式p 2 p ,纯分布式p 2 p ,混合式p 2 p 和结构化p 2 p 四种形式。 ( 1 ) 集中式机构模型 具有中心化的特点使得集中式模型也可以被称为非纯粹的p 2 p 结构,此模型 中由一个中心服务器来负责记录共享信息和反馈对这些信息的查询,每一个对等 实体要对它所需要共享的信息以及进行的通信负责。当某节点希望搜索一个未知 位置的资源时,该节点向目录服务器发送请求,目录服务器在数据库中查询到匹 配资源后将其定位信息返回该节点,然后在两个节点之间进行交互。n a p s t e r 为 代表的第一代p 2 p 系统采用集中式网络架构,要求各个对等端都必须登陆中心服 务器,由中心服务器保存并维护所有对等端的共享文件目录信息。这类p 2 p 软件 的对等端通常使用固定的t c p 端口号。 集中式p 2 p 可提供中心服务器目录检索,管理服务和标准的点到点通信,具 有高效的检索和低效的交换服务的特点,但是集中式p 2 p 模型还存在以下一些问 题:中央服务器的瘫痪容易导致整个网络的崩溃,可靠性和安全性较低;中央目 录服务器维护和更新的费用将急剧增加,所需成本过高;缺乏有效的强制共享机 制,资源可用性差等。因此,集中式p 2 p 对小型网络而言在管理和控制方面占有 一定的优势,但对大型网络并不适合。 7 北京邮电大学硕士论文 正文 2 图2 - 2 集中式p 2 p 模型 ( 2 ) 纯分布式结构模型 纯分布式结构模型( 见图2 - 3 ) 中整个网络是由许多功能上非常相似的节点 组成的,没有一个节点知道整个网络结构或者组成网络的每一个节点的身份。在 进行网络资源搜索时,节点首先把包含搜索条件的请求信令发送给其邻居节点, 再由邻居节点向其自身的邻居节点转发。以此类推,直到得到满足搜索条件的资 源或请求信令的t t l 为0 ;如果网络找到满足条件的资源,请求响应信令将沿着 请求信令经过的路由的反向路由向回发送。此后,请求节点将建立到提供资源的 节点的直接数据路由,一旦p 2 p 应用程序下载到计算机的内存中,网络中的端就 会动态地发现其他连接的端,相连端之间的通信完全不需要来自服务器的任何帮 助。 纯p 2 p 模型下,客户和服务器之间的通信是基于服务器设定的规则。纯p 2 p 模 型允许用户设定他们自己的规则和建立自己的网络环境,完全消除了利用 i n t e r n e t r 艮务器或i s p 的一部分的麻烦。为了顺利通过网络安全设备,此类p 2 p 应采用普遍采用随机动态的连接端口,伪装端口( 如利用h t t p 的8 0 端口) ,或直 接利用h t t p 作为基础通信协议。 8 北京邮电人学硕j :论文 正文 节点2 图2 - 3 纯分布式p 2 p 模型 ( 3 ) 混合式结构模型 混合式结构模型( 见图2 4 ) 结合了集中式和分布式p 2 p 的优点,网络中有中 间服务器,但文件目录是分布的。它在分布式模式的基础上,将用户节点按能力 进行分类。这些节点分为用户节点、搜索节点和索引节点3 种。用户节点一般不 具有任何特殊的功能;搜索节点处理搜索请求;索引节点用于保持可以利用的搜 索节点信息,并收集状态信息,维护网络的拓扑结构。 在搜索网络资源时,用户节点通过索引节点获得所有可用的搜索节点信息, 之后用户节点就和获得的搜索节点相连。根据用户的搜索请求,如果和用户节点 直接连接的搜索节点查询结果达n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论