(通信与信息系统专业论文)p2p流媒体流量识别技术研究.pdf_第1页
(通信与信息系统专业论文)p2p流媒体流量识别技术研究.pdf_第2页
(通信与信息系统专业论文)p2p流媒体流量识别技术研究.pdf_第3页
(通信与信息系统专业论文)p2p流媒体流量识别技术研究.pdf_第4页
(通信与信息系统专业论文)p2p流媒体流量识别技术研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南科技大学硕士研究生学位论文第l 页 摘要 近年来p 2 p 网络应用和多媒体技术飞速发展,使得p 2 p 流媒体应用逐渐 成为一个深受广大互联网用户欢迎的热点业务。但随着p 2 p 流媒体业务的普 及和其流量的扩大,各种严重的安全问题也层出不穷。因此对p 2 p 流媒体流 量进行有效监管成为一个研究热点。然而到目前为止,在大多数技术方案中, 通常是将p 2 p 流媒体流量作为p 2 p 流进行处理,还没有单独将流媒体流量和 文件共享系统的流量区别丌来,无法有效并精确地识别p 2 p 流媒体流量。 论文从研究p 2 p 流媒体流量行为特征出发,通过有监督的分类学习达到 了p 2 p 流媒体流量识别的目的。论文主要研究内容如下: ( 1 ) p 2 p 流媒体流量特征分析 论文设计并实现了一个完整的流量特征分析系统,该系统包含了流量采 集模块、数据包预处理模块、流量分流模块以及特征属性计算模块。通过对 几种常用p 2 p 流媒体系统的数据包进行大量的实验,利用数据包分析处理技 术分析、总结出各p 2 p 流媒体应用的流量特征。 ( 2 ) 基于机器学习分类算法的流量识别研究 对基于数据挖掘的p 2 p 流量识别技术进行了研究和总结,在分析p 2 p 流 媒体流量特征规律的基础上,采用机器学习分类算法对所选取的流量特征属 性进行了分析和处理。通过使用有监督的机器学习方法首先对训练样本进行 了建模,并利用所建分类器对待测样本进行了分类学习,最后从建模时间、 测试时问和分类准确率三个方面评估了所选数据挖掘算法和流量属性对于 p 2 p 流媒体流量识别的性能和效果,并重点研究了t t l 值对于流量识别正确 率的影响。 关键词:p 2 p 流媒体流量识别流量特征数据挖掘机器 学习 a b s tr a c t i nr e c e n ty e a r s ,t h er a p i dd e v e l o p m e n to ft h ep 2 pn e t w o r ka n d m u l t i m e d i a t e c h n o l o g yi sm a k i n gp 2 ps t r e a m i n gm e d i aa p p l i c a t i o n sb e c o m e ah o tb u s i n e s s w e l c o m e db yi n t e r n e tu s e r s w i t ht h ep o p u l a r i t yo fb u s i n e s sa n de x p a n s i o no f f l o w o fp 2 ps t r e a m i n gm e d i a ,av a r i e t yo fs e r i o u ss e c u r i t yp r o b l e m sa r ee m e r g m g e n d l e s s l v i nt h i ss i t u a t i o n ,e f f e c t i v ep 2 p s t r e a mt r a f f i cs u p e r v i s i o ni sb e c o m i n ga h o tr e s e a r c ht o p i c h o w e v e r , i nm o s to ft h et e c h n i c a lp r o g r a ms of a r ,t h e p 2 p s t r e a m i n gm e d i at r a f f i ci su s u a l l yp r o c e s s e da so r d i n a r yp 2 pt r a f f i c ,t h e r ei s n o m e t h o dt od i s t i n g u i s ht h es t r e a m i n gm e d i at r a f f i ca n df i l e s h a r i n g t r a f f i ca n d c a n n o te f f e c t i v e l va n da c c u r a t e l yi d e n t i f yp 2 ps t r e a m i n gm e d i at r a f f i c t h i st h e s i ss t a r t sw i t ht h eb e h a v i o rc h a r a c t e r i s t i c so fp 2 ps t r e a m i n gm e d i a t r a m c a n di d e n t i t l e sp 2 ps t r e a m i n gt r a f f i cb yd a t am i n i n gt e c h n o l o g y t h e m a i n l yc o n t e n t sa r ea sf o l l o w s : ( 11 p 2 ps t r e a m i n gm e d i at r a f f i cc h a r a c t e r i s t i c sa n a l y s i s a c o m p l e t et r a f f i cc h a r a c t e r i s t i ca n a l y s i ss y s t e mi s d e s i g n e da n dr e a l i z e d , w h i c hi n c l u d e st r a f f i cc o l l e c t i o nm o d u l e ,p a c k e tp r e p r o c e s s i n gm o d u l e ,f l o w d i v e r s i o nm o d u l ea n df e a t u r e a t t r i b u t ec a l c u l a t i o nm o d u l e as e r i o u s o f e x p e r i m e n t so nl a r g ep a c k e t so fs e v e r a lp o p u l a rp 2 p s t r e a m i n gm e d i as y s t e m s1 s d e r f o r m e d t h r o u g ht h ee x p e r i m e n t st h i st h e s i ss u m m a r i z e sa n d e x t r a c t st h ef l o w c h a r a c t e r i s t i c so ft h ep 2 ps t r e a m i n gm e d i aa p p l i c a t i o n sb yu s i n gp a c k e t p r o c e s s i n gt e c h n o l o g y ( 2 ) t r a f f i c i d e n t i f i c a t i o nb a s e do nc l a s s i f i c a t i o na l g o r i t h mo fm a c h i n e l e a r n i n g t h i st h e s i sr e s e a r c h e sa n ds u m m a r i z e st h ep 2 pt r a f 丘ci d e n t i f i c a t i o n t e c h n o l o g yb a s e do nd a t am i n i n g ,o nt h eb a s i so ft h ea n a l y s i so fp 2 ps t r e a m i n g f l o wc h a r a c t e r i s t i c s ,t h es e l e c t e df l o wa t t r i b u t e sa r ea n a l y z e da n dp r o c e s s e db y t h eu s eo fm a c h i n el e a r n i n gc l a s s i f i c a t i o na l g o r i t h m t h i st h e s i sm o d e l st h e t r a i n i n gs a m p l e st h r o u g ht h eu s eo fs u p e r v i s e dm a c h i n el e a r n i n gm e t h o d s ,a n d t h e nu s e st h eb u i l tc l a s s i f i e rt oc l a s s i f yt h et e s ts a m p l e ,a s s e s s e st h ep e r f o r m a n c e o ft h es e l e c t e dd a t am i n i n ga l g o r i t h m sa n df l o wa t t r i b u t e sf o rt h ei d e n t i f i c a t i o n o fp 2 pm e d i as t r e a m i n gf r o mt h et h r e ea s p e c t so fm o d e l i n gt i m e ,t e s t i n gt i m ea n d 西南科技大学硕士研究生学位论文 第1 ii 页 c l a s s i f i c a t i o na c c u r a c y ,a n df i n a l l yf o c u s e so i lt h ee f f e c to ft t lo nt h ec o r r e c t r a t eo ft r a f 矗ci d e n t i f i c a t i o n k e yw o r d s :p 2 ps t r e a m i n gm e d i a ;t r a f f i ci d e n t i f y ;f l o wc h a r a c t e r i s t i c ;d a t a m i n i n g ;m a c h i n el e a r n i n g 西南科技大学硕士研究生学位论文第1 页 1绪论 1 1 课题研究背景 近年来p 2 p 网络应用和多媒体技术飞速发展,使得p 2 p 流媒体应用逐渐 成为一个深受广大互联网用户欢迎的热点业务。尤其是在我国,p 2 p 流媒体 业务已经成为了互联网用户必不可少的网络娱乐项目。但随着p 2 p 流媒体应 用的飞速发展,随之带来了严重的安全问题,表现在以下几个方面: ( 1 ) p 2 p 流媒体业务有别于传统的广播电视业务,它以互联网技术为平 台。但互联网这种开放的环境很容易带来安全漏洞,因此掌握了p 2 p 流媒体 数据传输的关键技术,就很容易通过它来传播任意的节目内容。这为互联网 中非法信息内容的传播提供了一条十分通畅便利的方式,由此也会带来一系 列的网络内容安全隐患。 ( 2 ) 由于在p 2 p 流媒体服务过程中用户节点可以随意的加入与退出,使 得攻击者可以绕开对卫星信道、网络线路的研究和攻击,只需要通过加入节 点就可以插播有害内容,其攻击手段更为隐蔽,并且更为简单和方便。 ( 3 ) p 2 p 网络具有的复杂机制和协议组成使得其成为非法势力和组织传 播网络内容的强力手段。通过采用非标准化的p 2 p 协议可以加强p 2 p 流媒体 传输机制的自适应能力和抗攻击能力,使得网络监管部门对非法的p 2 p 流媒 体节目的控制力不足,对其监管、防御和打击变得十分困难。 为了解决p 2 p 流媒体业务中所存在的安全隐患,政府相关部门已经开始 从各个方面进行管理建设,包括国家的政策法律、网络技术规范以及内容管 理机制等,目的是构建一个完整的网络监管体系,包括网络信息内容到信息 的编排和传输等。目前为止,对于p 2 p 流媒体信息的安全监管主要还是采用 “堵杀”策略,在各区域网络节点上对网络流量进行监管和控制。在大多数 技术方案中,通常是将p 2 p 流媒体流量作为p 2 p 流进行处理,还没有单独将 流媒体流量和文件共享系统的流量区别开来,无法有效并精确地识别p 2 p 流 媒体流量。对于上述提到的p 2 p 流媒体带来的安全问题,目前为止还没有十 分有效的措施。在如此巨大的网络监管漏洞下,互联网的信息安全并不能得 到保障。因此,p 2 p 流媒体流量识别技术的发展,对于对互联网流量实施有 效监管具有重要意义。 西南科技大学硕士研究生学位论文第2 页 1 2 国内外研究现状 由于p 2 p 流媒体技术的兴起时间并不长,国外关于p 2 p 流媒体的流量识 别研究还比较稀少,能查阅到的文献还极其有限,主要的研究工作还集中在 p 2 p 流媒体系统的传输机制的设计以及系统工作性能的优化上”“1 。而国内对 于p 2 p 流媒体识别的研究成果也并不多,从以往相关研究工作的情况来看主 要还是基于p 2 p 流量识别技术来开展的,在p 2 p 文件共享系统的流量识别经 验上对p 2 p 流媒体流量识别技术进行研究。 国内最早的研究p 2 p 流媒体的流量识别技术的工作成果发表于2 0 0 7 年, 文献 7 】研究的p 2 p 流媒体软件主要是p p l i v e 、s o p c a s t 、q q l i v e 和p p m a t e 。 作者首先根据p 2 p 流媒体和p 2 p 文件共享系统的本质都是p 2 p 技术这一点, 从总结p 2 p 文件共享系统的协议出发来分析流媒体软件,通过深层数据包检 测技术对p 2 p 流媒体的应用层签名进行了提取和分析,发现了四种软件的应 用层签名均具有各自的习惯,但是发现的应用层签名仅仅是一些无明显含义 的字符串,并没有形成有意义的单词。在此基础上,该文献提出了一种自动 挖掘p 2 p 流媒体应用层签名的算法。最后基于流量特征的p 2 p 流量识别技术 出发,统计分析了各种p 2 p 流媒体软件的( i p ,p o r t ) 对并发现一定的统计特征, 最后基于传输层对连接特征进行分析并提出了基于连接特征的识别方法。 文献 8 9 的研究基础与文献 7 】类似,从基于深层数据包报文检测的角 度出发,总结p 2 p 文件共享系统应用层签名,并进而提出通过分析系统的应 用层签名来识别p 2 p 流媒体流量。文献分析并提取了5 种主流的p 2 p 流媒体 软件的应用层签名特征,并通过实验检测了所提取签名的有效性和正确性, 并进一步验证了该方法对于识别p 2 p 流媒体的有效性。在后续工作中,作者 提出了采用b p 神经网络对应用层签名进行自动构建,通过b p 神经网络和应 用层签名识别技术的结合来识别p 2 p 流媒体流量。实验表明,该方法对常见 的p 2 p 流媒体软件的流量识别效果非常理想。 文献 1 0 对目前国内三种主流的p 2 p 流媒体系统p p l i v e 、p p s t r e a m 、 q q l i v e 进行流量特征分析,总结出这些p 2 p 流媒体系统的流量特征和特征 字符串,并在此基础上提出了一种基于流量行为特征分析的识别方法。该方 法的主要原理是:首先使用一定的算法对将采集到的数据包进行分类统计,再 通过特征字匹配算法进行二次匹配进而得到识别结果。之后,作者设计了一 个基于流量行为特征分析的流量检测系统并进行了相关实验,结果证明该系 统在识别p 2 p 流媒体流量上行之有效。 西南科技大学硕士研究生学位论文第3 页 文献11 的研究角度另辟蹊径,不同于以往拘泥于p 2 p 文件共享系统的 研究经验,总结出p 2 p 流媒体的两大重要特征:节点扰动性与资源暂存性, 并在此基础上对p 2 p 流量进行分类研究,分别对p 2 p 流量、p 2 p 直播流量以 及p 2 p 点播流量提出了不同的识别算法。对于所有的p 2 p 流媒体流量,根据 p 2 p 网络的节点扰动性,发现在p 2 p 网络机制中在随机访问任意网络节点的 情况下不容易成功建立连接。作者进一步提出一种策略,需要计算一定时间 间隔内网络节点发出连接请求并成功连接的概率,分析计算出的概率队列的 数值统计分布以及其随时间变化的趋势,最后根据分析结果采用c s i 算法对 流量进行识别工作。 1 3 课题来源 本课题来源于国家自然科学基金一非对称广域覆盖信息共享网络理论与 关键技术( 项目编号:6 0 9 3 2 0 0 5 ) 。 1 4 课题研究内容 课题在p 2 p 文件共享系统的流量识别技术研究成果的基础上,对p 2 p 流 媒体流量的识别技术展开研究。首先从流量行为的统计特征出发,选取了若 干组能反应p 2 p 流媒体流量特征的流量属性,设计了一个完整的流量特征分 析系统对常见p 2 p 流媒体数据包进行了分析,总结了几种p 2 p 流媒体系统的 流量特征规律。在此基础上,采用数据挖掘分类算法对流量属性特征值进行 处理,测试并评估了几种分类算法对p 2 p 流媒体识别的可行性和准确性。论 文的主要研究内容如下: ( 1 ) p 2 p 流媒体流量特征分析 为了建立采用数据挖掘对p 2 p 流媒体流量识别的理论依据,需要总结 p 2 p 流媒体流量与其他网络流量的不同特征,各种p 2 p 流媒体应用之问的不 同流量特征规律。论文首先设计了一个完整的流量特征分析系统,该系统包 含了流量采集模块、数据包预处理模块、流量分流模块以及特征属性计算模 块。通过对几种常用p 2 p 流媒体系统的数据包进行大量的实验,利用数据包 分析处理技术分析、总结并提取各p 2 p 流媒体应用的流量特征。 ( 2 ) 基于机器学习分类算法的流量识别研究 首先对基于数据挖掘的p 2 p 流量识别技术进行了研究和总结,在分析 西南科技大学硕士研究生学位论文第4 页 p 2 p 流媒体流量特征规律的基础上,采用机器学习分类算法对所选取的流量 特征属性进行了分析和处理。通过使用有监督的机器学习方法首先对训练样 本进行了建模,并利用所建分类器对待测样本进行了分类学习,最后从建模 时间、测试时间和分类准确率三个方面评估了所选数据挖掘算法和流量属性 对于p 2 p 流媒体流量识别的性能和效果。 1 5 论文结构安排 论文各章的主要工作如下: 第一章绪论,主要介绍了p 2 p 流媒体流量识别的研究背景和意义,分析 了p 2 p 流媒体识别技术的相关研究现状,并介绍了论文的研究内容。 第二章主要对p 2 p 系统及p 2 p 流媒体系统的技术特点进行了简单介绍, 在此基础上进一步分析比较了流媒体流量与文件共享系统的不同之处,同时 详细介绍了各种p 2 p 流量识别技术并进行了对比总结,论述了其各自的优缺 点。 第三章主要介绍了数据挖掘在流量识别技术中的应用。首先简单阐述了 数据挖掘的概念以及利用数据挖掘技术进行流量识别的可行性和必要性。接 下来重点阐述了数据挖掘机器学习在p 2 p 流量识别中的应用及实现过程,并 进一步对几种常见的分类算法进行了介绍,为第五章使用分类算法进行p 2 p 流媒体识别打下理论基础。 第四章详细介绍了流量特征分析系统的设计与实现过程。首先选取了一 组流量识别中所需的流量属性,之后着重介绍了流量特征分析系统的设计方 案和工作过程,重点介绍了该系统的各功能模块。最后通过对三种常用p 2 p 流媒体软件进行实验,计算出各p 2 p 流媒体系统的流量特征,绘出了这些流 量属性特征值的统计分布图,最后对p 2 p 流媒体的流量特征规律进行了总结。 第五章采用有监督的方法对所选取的流量特征属性进行了分析和处理。 首先对训练样本进行了建模,并利用所建分类器对待测样本进行了分类学习, 最后从建模时间、测试时问和分类准确率三个方面评估了所选算法和流量属 性对于p 2 p 流媒体流量识别的性能,并重点考察了t t l 对流量识别正确率的 影响。 第六章对论文所做工作进行了总结,并指出了后续的研究内容和工作方 向,对未来p 2 p 流媒体流量识别的研究进行了展望。 西南科技大学硕士研究生学位论文第5 页 2 p 2 p 流媒体及典型流量识别技术 2 1 p 2 p 技术简介 2 1 1p 2 p 定义和特点 p 2 p 全称为p e e rt op e e r ,是一种分布式网络。p 2 p 网络的所有用户均可 以共享彼此的资源,这些共享资源既可以是硬件资源如硬盘、打印机等,也 可以是软件资源。在p 2 p 网络中,用户获取网络服务和内容时不需要经过中 间实体,所有用户作为对等节点可以直接进行数据传递和信息交换。因此p 2 p 网络中的节点具有c l i e n t 和s e r v e r 双重身份,在获取资源的同时也有提供资 源的责任,通过这种交互方式,p 2 p 有别于传统的服务器客户端模式( c s ) 。 在p 2 p 网络中,每个网络节点都是对等的。 和传统的c s 网络相比,p 2 p 网络主要有以下几个特点: ( 1 ) 分散化 网络中的服务和资源分散在各个用户节点上,信息的传播和服务的提供 都直接在各用户节点之间进行,省略了不必要的中问环节以及减少了网络服 务器的介入,这种模式能很好地避免可能出现的网络瓶颈。在混合p 2 p 网络 中用户查找资源和定位服务时仍然需要服务器参与,不过主要的内容交换最 终还是在用户节点之间直接完成。即使这样也极大地降低了对集中式服务器 的性能要求。分散化是p 2 p 网络的最基本特点,基于分散化的优势,p 2 p 网 络在可扩展性和健壮性等方面也具有其独特的优越性。 ( 2 ) 可扩展性 传统的c s 结构中服务器的资源和能力直接决定了系统可以容纳的用户 数量及其提供服务的能力,因此在以往的网络优化和改造中,通常是在服务 器端投入大量的资源,包括使用高性能的计算机并铺设大带宽的网络等,以 此来满足更多的网络用户。这种结构极大的消耗了资源但往往效果并不理想, 并且由于这种结构下会产生大量的开销来维持服务器之间的协同工作,对系 统规模的扩展产生了极大地限制。 而在p 2 p 网络中虽然新增用户的加入提高了对服务的需求,但从另一方 面提升了系统的资源容量和服务能力,用户的需求始终能够得到满足。即便 是在一些混合型p 2 p 网络结构中,由于绝大部分的信息交换是直接在用户节 点之间实现,对于服务器工作性能的依赖也远远不如传统网络结构,因此用 户数量的扩展也极为简单。而对于纯p 2 p 结构来说,因为整个网络体系是全 西南科技大学硕士研究生学位论文第6 页 分布的,从理论上来看不会存在瓶颈,其可扩展性趋近于无限。p 2 p 网络极 强的可扩展性使得p 2 p 系统应用的普及更为容易。 ( 3 ) 健壮性 在传统的互联网络体系中存在着许多瓶颈,在这些网络结构下技术再如 何突破也依然会出现各种各样的网络异常状况,比如网络中断、网络拥塞和 节点失效等。这些异常情况会严重影响系统的稳定性以及网络服务的质量。 而集中式服务器就是整个传统网络体系的要害,一旦服务器发生异常,所有 用户的网络访问都会受到影响。 但p 2 p 结构的优越性可以很好的规避这些问题,服务的分散性使得即使 部分网络节点受到攻击或破坏也并不影响其他节点,因此p 2 p 系统具有良好 的抗攻击能力和高容错机制。而且在p 2 p 系统的运行机制下,部分节点失效 时也可以再自动访问其他节点,网络节点的拓扑结构通常是以自组织方式构 建起来的,允许任意节点自由加入和断开,这样就保持了用户与其它节点的 连通性。 ( 4 ) 隐私性 互联网中用户的隐私保护一直以来是个难以解决的问题,随着互联网的 普及人们对于网络技术的认识和掌握也越发容易,由此使得对于用户隐私信 息的收集也变得越来越容易,对用户隐私的保护已经成为了网络安全体系建 设中一个核心问题。而目前互联网中的通用协议并不能隐藏通信端的地址信 息,网络攻击者可以采用多种手段监控用户的流量行为,甚至可以通过一些 跟踪软件直接对用户进行“人肉搜索”。 在p 2 p 网络中,要想对用户进行信息窃听和泄露的难度大大增加,用户 之间直接的信息传递减少了信息集中处理的环节,使得攻击者无法自由方便 地获取用户信息。此外,在p 2 p 中所有节点都可以提供中继转发,将通信者 隐藏在大量的网络实体中,为用户提供了更好的隐私保护。 ( 5 ) 高性能 硬件技术的飞速发展大大提高个人计算机的工作能力,同时网络带宽等 性能也随着高速增长。然后在传统的互联网结构中用户始终是以客户端的形 式存在,作为信息或服务的消费者仅仅处于互联网络的边缘。用户个人计算 机的工作能力完全没有被开发利用起来,实际上在日常的网络应用中,用户 对于网络服务和资源的补充潜力几乎被完全忽视。 p 2 p 结构中散布的大量用户节点被有效地利用起来,在p 2 p 系统下所有 的网络节点均被分配了一定的计算和存储任务。以往网络模式下普通节点闲 西南科技大学硕士研究生学位论文第7 页 置的计算能力和存储空问被合理利用,在降低了维护和升级服务器的成本的 情况下更好的实现了高性能的计算和海量的存储。事实上,这与当前普遍使 用的分布式计算思想是一致的。 2 1 2 p 2 p 的应用 p 2 p 技术由于其简单的拓扑结构和创新的工作模式,成为了炙手可热的 研究热点,并发展出了各种各样的应用,从最早的文件共享系统到后来的p 2 p 搜索引擎。总的来说p 2 p 主要有以下几种应用: ( 1 ) 内容共享( c o n t e n ts h a r i n 9 1 p 2 p 文件共享是p 2 p 技术下最早兴起的应用,也是最广泛使用应用这一。 p 2 p 文件共享系统实现的目的是在各个用户之间直接进行文件的交换以达到 文件共享。相比于传统c s 模式下用户只有从中心服务器下载文件,这种p 2 p 共享的方式具有资源丰富、速度快等优点。用户通过p 2 p 实现了数据共享, 包括音视频、图像等多种形式的文件被存储在用户的个人计算机中,用户通 过p 2 p 文件共享软件可以直接从其他用户的硬盘上获取想要的资源。并且通 过共享软件用户可以搜索、复制共享的文件,并自动更新最新的文件列表和 用户节点列表。常用的p 2 p 文件共享软件有:t h u n d e r 、b i t t o r r e n t 、e m u l e 刍苣 寸o ( 2 ) 分布式计算( d i s t r i b u t e dc o m p u t i n g ) 分布式计算利用网络中闲置的内存和存储空问,将大型的计算和存储工 作分配到多台计算机上协同完成,有效地减轻了服务器的负荷并增加了数据 的传输速度和可靠性。分布式计算最典型的应用是s e t i h o m e 系统,该系 统利用连入互联网的大量计算机的闲置能力进行科研试验。系统将网络中的 计算机闲置的处理运算能力全部整合起来并形成了一个巨大的虚拟机,利用 虚拟机对来自地外的无线电磁波进行分析处理,目的是搜寻来自外太空的文 明。 ( 3 ) p 2 p 搜索引擎( p 2 ps e a r c h i n ge n g i n e ) p 2 p 技术的另一个重要应用是搜索引擎,由于p 2 p 的工作机制,在搜索 过程中并不需要访问w e b 服务器,也可以不受文档格式的限制。基于这些优 势p 2 p 搜索引擎可达到传统搜索引擎无法企及的深度,理论上可以搜索到网 络上的所有的开放的信息资源。 常见的p 2 p 搜索引擎有i n f r a s e a r c h 、p o i n t e r a 等,这类数据搜索和查询 软件主要用来在p 2 p 网络中进行信息检索。但不同于传统互联网中数据集中 西南科技大学硕士研究生学位论文第8 页 于服务器的情况,由于数据来源的广泛分散,搜索引擎的工作必须要考虑到 p 2 p 网络中用户节点资源的变动。因此需要搜索引擎动态搜集当前网络中各 个节点的内容变化情况,同时要及时有效地传递给所有用户。 ( 4 ) p 2 p 流媒体( p 2 ps t r e a m i n gm e d i a ) p 2 p 流媒体是近年来兴起的一种p 2 p 应用,由于其极强的娱乐性已经成 为了目前互联网中普及最高的一种网络应用。p 2 p 流媒体系统将传统的p 2 p 和流媒体技术结合起来,形成了一种形式新颖的网络应用,使得人们可以通 过互联网更加方便的观看海量的网络电视节目。在广大互联网用户的需求下, 各种p 2 p 流媒体软件相继涌现出来。目前国内应用最广泛的p 2 p 流媒体软件 主要有:p p t v ( 原p p l i v e ) 、p p s t r e a m 和q q l i v e 等。 2 。2 p 2 p 流媒体系统 2 2 1 p 2 p 流媒体系统的发展与应用 流媒体是指网络上按照时间的先后顺序进行传输和播放的连续的音视频 数据流。由于目前的数据网络具有无确定路径、无连接以及无质量保证的特 点,因此在数据网络上传输多媒体实时数据难度极大。传统的流媒体服务大 多局限于c s 模式,即客户端n 务器模式。用户观看音视频节目都是通过从 流媒体服务器检索并获取节目信息,选择服务之后流媒体服务器会以单播的 方式把数据流推送给用户。然而,随着流媒体业务的逐渐扩大,用户总数也 大幅度增加,c s 模式加单播推送的形式所具有的缺陷越发明显并且不可弥 补。流媒体服务器带宽占用逐渐加大、处理能力要求不断提高,但由于网络 结构本身的局限性,流媒体系统的可扩展性差的特点使得这一切成为了瓶颈 而无法突破。 随着p 2 p 技术的发展日趋成熟,流媒体技术与p 2 p 技术的结合成功解决 了上述问题,采用p 2 p 技术进行流媒体的传播具有两方面的优点。第一,由 于p 2 p 技术对服务器的依赖很小,使得p 2 p 流媒体系统的搭建并不需要大量 网络基础设施的建立,因此系统的部署极为容易并且成本很低;第二,由于 p 2 p 系统中用户节点的双重身份,流媒体用户不仅可以下载媒体流,而且也 承担着提供媒体流给其他用户的责任。这种结构模式可以扩大用户数量的规 模,同时更多用户带来更多的需求也使得更丰富的资源被分享。 p 2 p 流媒体系统的主要工作流程如图2 1 所示:当用户启动客户端软件 后,首先会登录并访问频道服务器,从该服务器检索并获取最新节目频道列 西南科技大学硕士研究生学位论文第9 页 表,当用户从列表中选择观看某个节目后,客户端会自动连接到一个列表服 务器,并向列表服务器发送请求,列表服务器响应用户请求并将该节目的p e e r 列表返回给客户端。到此服务器的工作就已经完成,接下来只有用户与用户 之间的信息交互。本地客户端首先处理p e e r 列表中的信息,从中选择合适的 p e e r 并发送连接请求,远程客户端响应请求并向本地客户端传输流媒体节目。 在p 2 p 流媒体系统中,所有用户的节目均被切割成多个片段,一个用户可以 同时与多个远程用户进行连接并获取该节目的不同片段。同时,在数据交互 过程中,本地客户端会根据所下载的节目进度决定其与其他远程用户之间的 连接状态和数据传输速度。并且各用户节点之间可以通过相互交换其他节目 和节点的信息。 列表服务器 2 撇 户 :1 ,点列表 图2 - 1 p 2 p 流媒体工作原理 fig 2 1w o r kin gp rin cipieo fp 2 ps t r e a m i n gm e dia 远程用户 2 2 2 p 2 p 流媒体与传统p 2 p 应用的区别 p 2 p 流媒体系统是p 2 p 和流媒体相结合的产物,继承了p 2 p 和流媒体的 技术和应用特点,其流量特征也具有p 2 p 流量特征和传统流媒体流量特征的 双重属性。 p 2 p 应用的流量特征之所以与传统网络应用的流量特征不同,其本质在 于p 2 p 网络结构的不同。p 2 p 系统结构的非中心性引起了网络节点的高动态 性,同时由于p 2 p 系统中信息交互通常采用数据分片技术,该技术也使得p 2 p 应用的流量特征具有其固定的规律,这也是p 2 p 应用的技术优势。 西南科技大学硕士研究生学位论文第10 页 p 2 p 流媒体技术继承了传统p 2 p 系统的技术特点,在结合流媒体技术后 其发展更趋成熟。传统的p 2 p 技术的主要应用在于文件共享,其技术应用已 然比较完善。但值得注意的是,p 2 p 文件共享系统主要是对非实时数据的上 传和下载,其系统运作模式是下载之后再运行;然而p 2 p 流媒体由于其关于 音视频节目的业务提供,主要实现的是“边下载边播送”的功能。因此相比 于传统的p 2 p 文件共享系统,p 2 p 流媒体的数据交互的核心在于流媒体数据。 这就要求数据传输过程中具有严格的实时性和时序性,系统在运行过程中需 要具有更为严格的管理和控制能力。总的来说,相比于传统的p 2 p 应用,p 2 p 流媒体系统在运行机制上有以下几个特征: ( 1 ) 资源高动态性 在p 2 p 流媒体系统中,用户节点不需要将完整的文件下载并保存到本地 硬盘中,由于p 2 p 流媒体系统边下边播的运行机制,用户只需要在内存中开 辟一块相对较小的空间,在同其他用户节点交换音视频数据时,只需将下一 时间段的播放内容3 ,川缓存在硬盘或内存空间中。随着节目的播放,后续的 下载内容可以直接覆盖前面已经下载并播放完成的内容。因此在p 2 p 流媒体 系统中每个用户节点提供下载的资源的异构性和更新速度都优于p 2 p 文件共 享系统。总结来说,p 2 p 流媒体系统相比于传统的p 2 p 系统具有资源高动态 一| 生的特点。 ( 2 ) 超细粒度的分块机制 流媒体系统中数据的传输具有严格的时间敏感性。音频和视频数据从源 端发送出去时,系统将其处理成连续的实时流,经过网络信道的传输最终被 目的端所接收。这些连续的音视频数据流在网络中严格按照时间的先后次序 传输和播放,具有连续性( c o n t i n u o u s ) 、实时性( r e a l t i m e ) 和时序性 ( t i m e o r d e r e d ) 的特点。正是由于流媒体系统在时间敏感性上的严格要求,使 得p 2 p 流媒体系统在数据分片技术的处理上和p 2 p 文件共享系统有着明显的 不同,并且对分段下载调度的频度的要求也更为严格。基于对时间的敏感性 和节点资源的高动态性,p 2 p 流媒体系统在数据分片处理时通常采用超细粒 度的单位。并且由于流媒体数据没有固定长度,系统抛弃了传统的定量分块 ( 即每个分块的大小相同) 方法,采用按时问的分块策略:首先将固定时间内 接收到的数据流划分成一块,通常以槽( s l o t ) 表示川。如果将固定时间设为 0 2 s ,视频格式为目前最流行的m p e g 一4 ,其码率为5 0 k 字节s ,则每s l o t 的字节为o 2 s 5 0 k b s = l0 k b 。在目前常用的p 2 p 点播系统中通常采用更小 的分块,而在文件共享系统中,通常采用单位较大的分块策略以降低对硬盘 西南科技大学硕士研究生学位论文第11 页 的读写次数。一般1 g b 以下的文件的分块策略为每s l o t 2 5 6 k b 或5 1 2 k b ,在 文件超过1 g 的情况下,有时也会采用4 m b 以上的s l o t 。1 ( 3 ) 高频度的信息交换和调度机制 如前面所述,由于资源的高动态性和流媒体服务本身要求的时间敏感性, 在p 2 p 流媒体系统中通常采用较小的分块策略。另一方面,采用较小的分块 也同时保证了播放的连续性和时序性。在这种分块策略的推动下,p 2 p 流媒 体系统的节点调度和请求机制也和p 2 p 文件共享系统有所区别。在文件共享 系统中用户一开始就尽可能多的向其他用户节点请求资源片段,之后在下载 文件的过程中再根据节点的更新情况不时发送请求,在这种情况下系统并不 会过多考虑所下载文件片段的顺序。但在流媒体系统中,通常采用频繁而有 规律的节点调度机制。主要是基于以下两个方面考虑:一方面,如果流媒体 系统也像文件共享系统一样在一开始就对所有节点拥有资源片段的情况进行 完整查询,之后再进行数据传输,这种运行机制会大大增加媒体播放的延迟; 另一方面根据系统的高动态性的特点,在节点进行信息交互过程中很有可能 会出现节点失效或其片段失效的情况,并进而造成片段下载的准确性和连续 性无法保障,从而造成流媒体的实时播放无法实现。因此,p 2 p 流媒体系统 一般以几秒为单位采用分时顺序调度,在传输前一个片段时对后一个片段进 行查询和调度。 。 以上总结是的p 2 p 流媒体系统的运行机制上的特点,是p 2 p 机制下流媒 体时间特性的体现,也带来了p 2 p 流媒体流量特征的变化,: ( 1 ) 平均流量有下限 流媒体系统本质上是进行音视频数据的传输,而音视频播放是海量数据 的应用。在流媒体系统中会采用各种技术对数据进行压缩,在不影响媒体质 量的前提下尽量将数据格式减到最小,以保证数据的及时传输。但流媒体流 量不可能无限制的减小,否则媒体的质量无法得到保障。因此,在大规模的 p 2 p 流媒体应用中,其平均流量必然会有下限。根据以上推论,由于各系统 所采用的压缩技术的不同,其流量下限也会有不同。 ( 2 ) 流量波形表现为平稳的时间序列 根据前面总结的p 2 p 流媒体系统运行机制的特点,由于其超细粒度的分 块策略和高频度的调度机制,可以推测,在几秒的调度时问内流媒体的流量 变化不大。并且在f 常播放的过程中,这种调度产生的流量情况会一直保持。 相比于p 2 p 文件共享系统中频繁出现的明显的流量起伏和变化现象,p 2 p 流 媒体流量随时问变化的统计特性应该是比较平稳的,表现为一个平稳的时问 西南科技大学硕士研究生学位论文第12 页 序列。这些只是理论上排除了其他因素的情况,在实际应用中并不能作为认 定p 2 p 流媒体流量的标准。文件共享系统的流量在一定情况下也呈现出现上 述特征。比如用户设置上传或下载速度限制等。 2 3 几种典型p 2 p 流量识别技术 2 3 。1基于端口的识别方法 早期的p 2 p 应用大多都使用固定的端口,因此最早的p 2 p 识别方法就是 基于p 2 p 应用的端口号的。该方法属于确定性方法,通过查看数据包的端n 号可以直接并准确地检测出是流量所属的具体p 2 p 协议( 如b i t t o r r e n t 、 e m u l e 、g n u t e l l e r 等) ,也可以直接排除其他确定端口的非p 2 p 应用( 如h t t p 、 f t p 、e m a i l 等) 。基于端口号的p 2 p 识别技术具有针对性强、实现简单等优 点,因此在对p 2 p 应用端口已知的情况下该方法可以用来进行大规模的流量 检测。同时由于基于端口号不受数据包丢失、乱序的影响,使得该方法具有 较好的鲁棒性。由于该方法的原理十分简单并且技术相对成熟,一些对准确 性要求较低的流量检测系统仍然使用基于端口号识别的方法作为p 2 p 流量检 测手段。 然而随着p 2 p 技术的发展和改进,很多反监测和反封锁技术也相继被引 入到p 2 p 技术中。当前绝大部分的p 2 p 系统都可以支持用户自定义端口号或 随机分配动态端口号,同时也引入了端口跳变技术和h t t p 伪装技术等,这 使得基于端口号的识别方法准确率大大下降【- 。基于端口号的p 2 p 流量识别 技术也早已不具备过去的实用性,不再适用于目前的p 2 p 网络环境。 表2 1 早期各应用的端口号 t a b 2 1p o r to fe a riyp 2 ps y s t e m s 西南科技大学硕士研究生学位论文第13 页 2 3 2 基于流量特征的识别方法 p 2 p 系统相比于传统网络结构的最大不同是去中心化,系统中的每个节 点充当了服务器和客户端两种角色。这种特点使得p 2 p 应用在传输层所表现 出的流量特征与h t t p 、f t p 等其他网络应用有着明显的不同。而基于流量 特征的p 2 p 流量识别技术在此基础上出现和发展,其主要思想是分析传输层 数据包并总结p 2 p 应用的流量特征,以此识别待测流是否属于p 2 p 流“。基 于流量特征的识别技术主要有以下几种:节点角色分析技术、网络直径分析 技术、 i p ,p o r t 对分析技术和协议对分析技术等阻”“。 基于流量特征的检测方法具有非常明显的优点:首先,该方法不用访问 数据包的应用层载荷,在数据被加密的情况下依然有效,避免了不必要的法 律问题和技术问题,其适用性大大提高。并且,相比于其他方法对未知p 2 p 应用的束手无策,这种方法可以识别出未知的p 2 p 流量。通过分析未知应用 的流量特征,发现其满足常见p 2 p 应用特征规律,即可判断其属于p 2 p 流量。 采用基于流量特征的识别方法无需知晓p 2 p 协议的特征端口号和其他特征字 符串,因此任何新的p 2 p 协议都有可能被检测出来。 但需要指出的是,基于流量特征的识别方法也存在着其不足之处,首先 作为概率类方法,它通过计算既定的测量指标来判断未知流量属于p 2 p 应用 的概率,所以该方法在准确性上相比于其他方法略有不足;同时,由于该方 法对流特征进行统计,需要存储并分析所有流的信息,这对内存空间和处理 性能提出了较大的要求;并且,该方法能识别出流量是否属于p 2 p 流,无法 确定p 2 p 应用的具体协议。 2 3 3 基于深层数据包检测的识别方法 基于应用层签名的p 2 p 流量识别技术需要访问数据包的内部载荷,因此 也叫做深层数据包检测技术( d e e pp a c k e ti n s p e c t i o n ,d p i ) 旧,。其原理是通 过协议分析和还原技术,访问每个数据包的内部载荷并提取应用层数据,然 后分析载荷所包含的协议特征字符串( 即应用层签名) ,并判断该数据包是否 属于p 2 p 应用。基于应用层签名的检测方法首先要对具体的p 2 p 应用流量进 行采集并分析,发现其对应的载荷并提取应用层签名,之后建立签名特征库。 对于需要检测的实时网络流,通过采用模式匹配的方法,判断每一个数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论